讲师博文
AI中的Token到底是什么?一句话如何被AI理解? 来源 : 华清远见     2026-06-16

Token的基础定义

在AI大语言模型领域,Token是模型处理文本的基本单位,简单来说,就是AI把输入的文本拆分后得到的最小处理片段。它既不是单个汉字,也不是完整的单词,而是模型设计阶段就确定的文本编码单元。

对于英文文本来说,Token可能是一个完整单词,也可能是单词的前缀、后缀,比如“unhappiness”会被拆分为un-、happiness两个Token;对于中文文本来说,一个Token通常对应约0.75个汉字,也就是1到2个汉字会被编码为一个Token,比如“人工智能”通常会被拆分为2个Token。

所有大语言模型都有一套预先训练好的词表(Vocabulary),词表中收录了模型能识别的所有Token,每个Token对应一个唯一的整数ID,模型实际处理的不是文本本身,而是这些ID对应的向量,这就是Token编码的核心逻辑。我们常用的GPT-3.5/4词表大小约为10万左右,中文大模型的词表一般也在数万规模,足以覆盖日常使用的所有文本内容。

为什么要拆分Token?

直接按单个汉字或单词处理难道不行吗?其实这是AI平衡性能与效率的关键设计:如果按单个字符处理,会丢失大量语义信息,比如英文的词根词缀本身携带语义,拆分后反而能让模型更好理解构词逻辑;如果直接按完整单词处理,面对生僻词、专有名词或者未登录词(词表中没有的词)就会完全失效,而按子词拆分的方式可以把任何生僻词拆成已知Token组合,解决了未登录词的问题,同时还能控制词表规模,降低模型的计算量,提升运行效率。

AI如何理解一句话?

我们以输入“今天天气很好”为例,完整的理解过程分为三步:

1.分词编码:首先模型会按照预设的分词规则,把这句话拆分进预训练词表,得到对应的Token序列,比如这句话会被拆分为今天、天气、很好三个Token,每个Token对应一个唯一ID,完成文本到数字的转换。

2.向量转换与位置编码:每个Token会被转换为一个固定维度的向量(也就是词嵌入),同时模型会给每个Token加上位置信息——因为中文语义和词语顺序高度相关,比如“我喜欢你”和“你喜欢我”Token完全一样,顺序不同语义完全不同,位置编码就是让模型区分词语顺序的关键步骤。

3.语义计算与理解:模型通过自注意力机制,计算每个Token和其他所有Token之间的关联程度,比如“天气”和“很好”的关联度远高于“今天”和“很好”,模型会通过这种关联权重整合所有Token的信息,最终得到整句话的语义向量表示,完成对这句话的理解。

简单来说,AI不会像人一样“认字”,它是通过拆分Token、计算Token之间的关联,最终整合出整句话的语义,整个过程都是基于预训练阶段学到的Token概率关联规律完成的。

Token的实际意义

我们日常使用AI时最常接触到Token的场景就是上下文窗口限制,比如GPT-3.5默认4096Token,约对应3000汉字,超过这个长度的文本模型就无法处理,这也是为什么长文档输入会被截断的原因。同时,目前绝大多数AI服务都是按Token消耗量计费,理解Token的概念也能帮我们更好控制使用成本。

扫码申领本地嵌入式教学实录全套视频及配套源码

上一篇:C语言内存管理避坑指南mallocfree与嵌入式堆栈(HeapStack)的分配策略

下一篇:STM32定时器中断实战:实现毫秒级任务调度系统

400-611-6270

Copyright © 2004-2024 华清远见教育科技集团 版权所有
京ICP备16055225号-5京公海网安备11010802025203号