当前位置: 首页 > news >正文

Tokenizer学习心得

主流Tokenizer分词方法

出处

  1. BPE(Byte Pair Encoding Tokenizer)
    <1> 词表统计:统计整个文本中,相邻两字符的出现次数
    <2> 词表合并:合并次数最多的相邻两字符
    <3> 持续<1><2>两步,直到词表大小达到设定值

  2. WordPiece
    <1> 词表统计:统计整个文本中,相邻两字符的出现次数和单个字符的出现次数
    <2> 词表合并:通过计算 每个相邻两字符(pair)出现次数/ (字符1的次数 * 字符2的次数),将最大的合并
    <3> 持续<1><2>两步,直到词表大小达到设定值

  3. Unigram Tokenizer
    <1> 先统计一个涵盖所有分词情况的词表(包括基础的字母和不同组合的字词等),这个算法假设这些词都是独立出现的
    <2> 计算每个单词出现的概率(不同组合下的最大概率作为这个单词出现的概率)
    <3> 计算删除词表中的每单独一个词之后,对于loss的影响(单个单词loss的计算方式是 单词出现次数 * <2>中单词概率的负对数,总loss就是所有单词的叠加)
    <4> 删除词表中%p的词,这些词的删除对于loss的影响最小
    <5> 持续<1>-<4>四步,直到词表大小达到设定值

http://www.zskr.cn/news/65101.html

相关文章:

  • 待办事项全栈搭建:Vue3 + Node.js (Koa) + MySQL深度整合,构建生产级任务管理系统的技术实践
  • AI股票预测分析报告 - 2025年11月29日
  • AI元人文:论数字猴戏与缺失的“破茧之悟”
  • 01-框架概述与设计理念
  • 电力电缆厂家TOP5权威推荐:甄选质量过硬、客户反馈佳的供应
  • 2025年工业冷风机节能效率排行榜出炉,炼胶车间通风降温/制造业车间通风降温/机械厂车间降温/炼钢车间通风降温工业冷风机厂商选哪家
  • 2025年空调机组厂家最新推荐,组合式,直膨式净化,变风量,远程射流,转轮热回收空调机组公司测评
  • 深入解析:SSH 密钥从 RSA 到 Ed25519
  • 2025年十大乡村别墅设计服务排行榜,新测评精选设计公司推荐
  • Kafka入门:从初识到Spring Boot实战
  • 2025年浙江电子汽车衡年度排名:电子汽车衡制造商、诚信的防
  • 2025年中国十大比较好的AI智能客服企业推荐:口碑好且资质
  • 07-实战案例与最佳实践
  • 05-二次开发入门
  • 2025年哈尔滨精密轴承企业综合实力前十强排行榜
  • 2025年中国测评系统定制开发服务推荐:靠谱的测评系统定制开
  • 2025年十大广州AI数字员工推荐排行榜,专业测评精选AI智
  • FreeRTOS 学习:(四)任务调度和任务状态 - 实践
  • 其他地图服务协议
  • Windows下的GDAL环境配置
  • OGC标准地图服务协议总结
  • 基于jQuery的组织结构图插件实战——jOrgChart详解 - 教程
  • 2025年质量好的成都活动房商铺/成都住人活动房综合实力榜
  • 2025年热门的PP绳缆/绳缆TOP实力厂家推荐榜
  • 2025年比较好的潍坊吨包机/全自动吨包机最新TOP品牌厂家排行
  • 2025年靠谱的橡胶件视觉点数包装机/密封件视觉点数包装机厂家最新实力排行
  • 2025年质量好的实验室开炼机行业内口碑厂家排行榜
  • 2025年十大有行业资质的电力电缆厂家排行榜,电力电缆厂家哪
  • 2025年中国工业酒精制造厂推荐:工业酒精经销加工厂哪家技术
  • 《代码大全》读后感(5)