摘要:在大模型的语境中,token是一个基本的数据处理单元,它可以是一个单词、一个字符,或者是一个子词等,以下从其定义、作用及常见的token划分方式等方面进行具体介绍:
公众号/招文袋 作者/龙只
在大模型的语境中,token是一个基本的数据处理单元,它可以是一个单词、一个字符,或者是一个子词等,以下从其定义、作用及常见的token划分方式等方面进行具体介绍:
定义:简单来说,token是对文本进行分割后的最小单元。大模型在处理文本时,无法直接处理人类自然语言中的文字,需要将文本拆分成一个个的token,以便模型能够理解和处理。例如,对于句子 “欢迎关注订阅招文袋公众号”,可以将其拆分成多个token:“欢迎”“关注”“订阅”“招文袋”“公众号”。
作用将文本数字化:把自然语言文本转化为模型可以处理的数字向量形式。每个token会被映射为一个唯一的数字编号,模型通过处理这些数字来学习语言的模式和规律。如在一个简单的词汇表中,“欢迎”可能被编码为1,“关注”编码为2,“订阅”编码为3,“招文袋”编码为4,“公众号”编码为5。这样句子 “欢迎关注订阅招文袋公众号”就可以表示为 [1, 2, 3,4,5],便于模型进行计算和分析。
控制模型输入输出长度:模型处理的token数量是有限制的,通过对文本进行token化,可以将输入文本截断或补齐到合适的长度,使模型能够有效地处理。例如,某模型的输入长度限制为512个token,对于较长的文本,就需要截断多余部分;对于较短的文本,可能需要添加特殊的填充token,使其达到规定长度。
提高语言理解精度:将文本细分为token后,模型可以更精确地捕捉语言中的语义和语法信息。比如,对于一些具有多种含义的词,通过上下文的其他 token,模型能更准确地判断其在具体语境中的意思。
常见的token划分方式单词级别:将文本按照空格等分隔符拆分成多个单独的词汇作为token。如 “加入招文袋知识星球一起学习AI” 会被拆分为 “加入”“招文袋”“知识星球”“一起” “学习”“AI”六个token。这种方式简单直接,但对于一些复杂的语言现象,如复合词、词的变形等处理可能不够精细。
字符级别:把文本中的每个字符都作为一个token。例如,“关注招文袋” 会被拆分为“关”“注”“招”“文”“袋”五个token。字符级别的token化可以处理任何未知的词汇,但会导致输入序列过长,增加模型的计算量和训练难度。
子词级别:结合了单词级别和字符级别的优点,将单词拆分成更小的子词单元。例如,“招文袋知识星球” 可能被拆分成 “招文”“袋”“知识”“星球”四个token。这种方式既能处理一些罕见词和复合词,又能保持相对合理的token数量和序列长度。
如何计算token的数量?
计算token数量的方法会因tokenization的方式不同而有所差异,常见的有基于空格或标点符号的简单统计、基于预训练模型的工具包统计、基于字符的统计等方法,以下是具体介绍:
基于空格和标点符号的简单统计
对于以单词为token的情况,可以通过统计文本中的空格和标点符号来大致计算token数量。例如,对于文本 “知识星球名:招文袋 星球号:75873546。”,可以通过计算空格和标点符号的数量来确定 token 的数量。一般来说,空格将单个词汇分隔开,标点符号也可以作为分隔的标志。在这个例子中,有四个token,分别是“知识星球名”“招文袋”“星球号”“75873546”。不过这种方法对于一些复杂的语言现象可能会不准确。
基于预训练模型的工具包统计
使用Hugging Face(一个专注于自然语言处理的开源社区)的tokenizers库:许多预训练语言模型都有相应的tokenizer工具,以Hugging Face的transformers库为例,它提供了各种预训练模型的tokenizer,可以方便地对文本进行token化并计算token数量。如对于BERT模型(一种语言表示模型),可以使用BertTokenizer(对文本进行分词和编码的工具)来处理文本。
使用AllenNLP(一个自然语言处理的模型框架)的tokenizers:AllenNLP也提供了丰富的自然语言处理工具,包括tokenizer。可以使用SpacyTokenizer或WordTokenizer等对文本进行处理和 token 数量计算。
基于字符的统计
如果是基于字符的tokenization,那么直接统计文本中的字符数量即可。例如,对于文本 “知识星球名:招文袋”,字符数量为8,即token数量为8。但需要注意一些特殊情况,如是否将空格、标点符号等也算作token。如果要将空格也算作token,那么 “知识星球名:招文袋” 的token数量就是9。
基于特定规则的统计
对于一些特定的领域或任务,可能会有自定义的token定义和计算规则。例如,在处理代码时,可以将每个关键字、变量名、运算符等作为一个 token(小白不用处理代码,了解即可)。
最后,简单直白总结如下:
- token定义:大语言模型接收到文字后,分词器将其切成的小块就是token,它可以是单个汉字、词语、短语、标点符号、单词或词缀等。大模型输出文字时也是逐个token生成,所以看起来像打字。
- token存在的原因:类比人脑处理信息方式,为提高效率、节省脑力,人脑常把有意义的词语或短语作为整体对待,人工智能也借鉴了这一思路,通过分词器把大段文字拆解成大小合适的token。
- 分词器分词方法:分词器通过统计大量文字,把经常一起出现的组合(如“招文袋” )、单个常用字(如“请”)、常见字母组合(如“ing” )、标点符号等,分别打包成token,配上编号,形成庞大的token表。大模型输入和输出时,处理的是token编号,再由分词器转换为人类可看懂的内容。
- token的作用及计费方式:token是大模型理解和生成文字的基础,大模型通过计算token之间的关系推算下一个可能的token。几乎所有大模型公司按token数量计费,因为其对应背后的计算量。
这里有些AI大模型说是免费,其实是免费一部分token,超过后就要收费。比如,有平台就出了政策,说新注册或者拉新会员注册就免费送你50万token。看着数字好像很多都用不完的样子,但其实如果天天用的话,几天也就用没了。
- 不同模型分词差异:不同模型分词结果不同,如“请关注订阅招文袋公众号”在DeepSeek和其他模型里分词结果不同,所以分词的数量也就不同了。此外,token在人工智能领域外也有出现,但含义不同。
就说到这里,如果耐心看完,也就对token的概念基本清晰无误了。
#诚意推荐#需要下载和及时了解学习人工智能的小伙伴们,可以加入我们的招文袋知识星球社群,最新最全的学习资料,我们会优先分享至星球社群内,加入即可下载阅览全部报告。AI时代,加入我们,一起学习,共同进步!
星球内部分学习资料(持续更新中)
北京大学AI教程第一版-DeepSeek提示词工程和落地场景.pdf-页面提取.pdf
北京大学AI教程第二版-DeepSeek与AIGC应用.pdf
北京大学AI教程第三版-DeepSeek-R1及类强推理模型开发解读.pdf
北京大学:DeepSeek-R1、Kimi 1.5及类强推理模型开发解读报告.pdf
清华大学第一版:DeepSeek从入门到精通.pdf
清华大学第二版:DeepSeek如何赋能职场应用.pdf
清华大学第三版:普通人如何抓住DeepSeek红利.pdf
清华大学第四版:DeepSeek+DeepResearch 让科研像聊天一样简单.pdf
清华大学第五版:DeepSeek与AI幻觉.pdf
清华大学第六版:AIGC发展研究3.0版.pdf
清华大学:AIGC理论与实践2025-AIGC如何帮助工作和学习.pdf
普通人的AI通识课-第一章(1)什么是 AI?
普通人的AI通识课-第一章(2)AI发展简史
普通人的AI通识课-第一章(3)轻松读懂 AI 技术:开启智能世界大门 ...
50 个常用的 DeepSeek提示词
湖南大学:我们该如何看待DeepSeek.pdf
DeepSeek_VL2_paper.pdf
DeepSeek_V3.pdf
DeepSeek_R1.pdf
112页!DeepSeek+7大场景+50大案例+全套提示词+从入门到精通干货-觉醒学院xAI流量坊
详解DeepSeek:+模型训练、优化及数据处理的技术精髓-km
浙江大学2025年DeepSeek行业应用案例集解锁智能变革密码153页
DeepSeek模型优势:算力、成本角度解读报告.pdf
大模型的token究竟是什么?一文读懂!
给小伙伴们推荐几个适合AI初学者的学习平台
2024年AI工具类应用盘点报告.pdf
DeepSeek核心十问十答.pdf
DeepSeek自学手册:从理论到实践.pdf
浙江大学:DeepSeek行业应用案例集.pdf
DeepSeek中小学生使用手册.pdf
DeepSeek入门宝典-行业应用篇.pdf
DeepSeek入门宝典-个人使用篇.pdf
DeepSeek入门宝典-技术解析篇.pdf
厦门大学科普 PPT:大模型概念、技术与应用实践(140页)
100种利用AI赚钱的方法!
AI-R-SDLayer AI就绪的安全数据通层白皮书
14个好用且低门槛的工具,涵盖音频、视频、字幕、简历、抠图、搜索等领域,均为自用推荐
稳定使用 DeepSeek 的工具
吴伟:进阶版提示词更能提高效果, 怎么让DeepSeek更好用?
吴伟:用AI做副业,有这几个大的方向
DeepSeek 加剪映,做出个人的专属数字人
吴飞教授《回望AI三大主义与加强通识教育》
陈文智教授《Chatting or Acting?——DeepSeek 的突破边界与 “浙大先生” 的未来图景》
13个自媒体平台的区别及三大流量平台现状
怎样增强我们对AI生成内容真实性和可靠性的辨别能力?
怎样平衡AI幻觉创意灵感的利弊?
如何利用AI幻觉带来的创意灵感?
普通人究竟有没有必要本地部署AI?
马斯克发布的 AI 模型Grok3和国产大模型DeepSeek究竟谁更厉害?
ChatGPT究竟有没有中文版本的官方应用下载?
DeepSeek 最常用九大类提示词及典型示例(覆盖全行业主流应用场景)
AI创作短视频、数字人合成、语音合成的方法(保姆级教程)
DeepSeek、Kimi和豆包三个AI软件的优缺点和使用区别
通过AI生成视频短片的几种方法
AI辅助EXCEL做数据分析的方法
AI直接或辅助生成各类短中长文案的方法
微信接入deepseek后,将对我们的工作生活带来什么变化
人工智能大模型赋能数字化转型新范式.pdf
九紫离火运来临,投资哪些行业前景最被看好?
AIGC (生成式人工智能) 的基本概念及实用价值
deepseek最常用的七种提示词样例
抖音快速起号,年入百万的方法秘籍!
30张可以直接拿去用的情感美文小红书封面
新媒体领域最容易持续爆火的内容是什么?
如何使用deepseek高效提问?
怎么认识即将全面到来的AI时代?
AI会取代哪些行业?
DeepSeek 为什么总是显示服务器繁忙,请稍后再试?