5 分钟彻底搞懂什么是 token:大模型里的最小计量单位

·

关键词:token 自然语言处理、大模型 token、tokenization、子词拆分、语言模型训练、AI 计算成本、ChatGPT 测试

5 年前我第一次评测 BERT 时,领导丢下一句“必须跑到 200 token/s”,满脑子问号:单词不是“word”吗,跟 token 有啥关系?如果你的脑海里也闪过类似困惑,花 5 分钟读完这篇文章,就能把 token 从前到后吃透。


1 token 的由来:从 IC 卡到 NLP 的通用最小单元

在计算机早期,“token”是一串代表身份或权限的密文;而在今天的大模型生态里,token 特指 可被模型独立处理的最小文本片段
它可能是:

模型不会逐字阅读,而是先看“一张账单”:这行文本切成多少 token,再决定算力、时间与收费。

👉 好奇 GPT-4 为什么收费按 token 算?一分钟搞懂 AI 价格秘密


2 拆解文本的魔法:tokenization 实际长什么样

2.1 英文示例

输入:I love NLP!
切分结果(常见 BPE 方案):

["I", "Ġ", "love", "Ġ", "NL", "P", "!"]

“Ġ”表示空格,模型用 6 个 token 就能完整读取句子。

2.2 中文示例

输入:我爱北京烤鸭
按子词级可能切成:

["我", "爱", "北京", "烤鸭"]

也可以是:

["我", "喜欢", "北", "京", "烤", "鸭"]

常用分词器(jieba、BPE、SentencePiece)决定粒度,粒度左右计算量与语义精度。


3 为什么要玩“子词”这只魔方?

3.1 减少词表

英语“unfriendliness”若整体记忆需 1×1 组 new word;拆成
un + friend + li + ness 只需 4 token,词表从百万级降至几万级。

3.2 面向未知词

当模型第一次遇到 “defriend”,只用已有的 de + friend 即可完成推理,不必重新记录整词。

3.3 超快速度

200 token/s 换成中文用户秒懂:一句 15 字微信≈10–15 token,模型瞬间就能返回 1 条高质量消息。


4 快速自检实验:一句话反过来看 token 思路

让 ChatGPT 反写以下句子:

“一个”在句首,理论上应为“个一”。
但 GPT-3.5 往往整段反转仍为“一个”,原因正是 模型把“一个”当单 token,无法拆两半
GPT-4 已修复,能在内部执行字符级反转,这反映了 多粒度 token 能力差异

试着发指令:“请把‘我爱大模型’按字颠倒”,看模型是否拆 token。


5 token 经济账:爱好者也得知道的定价逻辑

场景典型长度估算 token收费示例(参考 GPT-4)
一条微博140 字80 token≈ (0.0008
5000 字长文摘要5000 字≈ 3000 token≈ )0.03
全本《三体》90 万汉字≈ 60 万 token≈ 6–8 USD

下降 1 token,成本降低万分之一,模型优化与长度控制同等重要。


6 token 之外:如何优雅降低 token 使用量

👉 想用最低 token 成本部署私有 GPT?这里有免费模板


7 FAQ:关于 token 的常见 6 问 6 答

Q1:token 就是汉字字数吗?
A:不是。一个汉字可能 1 token,也可能 2–3 token(取决于子词表)。

Q2:标点符号算 token 吗?
A:算。例如“!”往往独立占 1 token。

Q3:GPT 收费在“提问+回答”哪一端?
A:两端都算。你发 200 token 指令,收 200 token;模型回 100 token,再加 100 token。

Q4:同一句话不同语言,token 数会差多少?
A:中文平均 0.7 token / 字;英文一般 1.3 token / word;长句差异可能翻倍。

Q5:本地部署是不是就避免 token 费用?
A:本地无 API 费用,但显存占用仍受 token 长度直接影响,长 prompt 一样卡。

Q6:我能让模型吐出更少 token 吗?
A:使用 max_tokens 限制上限,或 prompt 加“请简洁回答”即可调试到理想字数。


8 小结:把 token 当“积木”,玩转大模型

把这几块积木摆好,无论是写 prompt、做微调还是自己训大模型,都能让 token 自然语言处理 成为你手里的秘密武器。