5 分钟彻底搞懂什么是 token：大模型里的最小计量单位

关键词：token 自然语言处理、大模型 token、tokenization、子词拆分、语言模型训练、AI 计算成本、ChatGPT 测试

5 年前我第一次评测 BERT 时，领导丢下一句“必须跑到 200 token/s”，满脑子问号：单词不是“word”吗，跟 token 有啥关系？如果你的脑海里也闪过类似困惑，花 5 分钟读完这篇文章，就能把 token 从前到后吃透。

1 token 的由来：从 IC 卡到 NLP 的通用最小单元

在计算机早期，“token”是一串代表身份或权限的密文；而在今天的大模型生态里，token 特指 可被模型独立处理的最小文本片段。
它可能是：

模型不会逐字阅读，而是先看“一张账单”：这行文本切成多少 token，再决定算力、时间与收费。

输入：I love NLP!
切分结果（常见 BPE 方案）：

["I", "Ġ", "love", "Ġ", "NL", "P", "!"]

“Ġ”表示空格，模型用 6 个 token 就能完整读取句子。

输入：我爱北京烤鸭
按子词级可能切成：

["我", "爱", "北京", "烤鸭"]

也可以是：

["我", "喜欢", "北", "京", "烤", "鸭"]

常用分词器（jieba、BPE、SentencePiece）决定粒度，粒度左右计算量与语义精度。

英语“unfriendliness”若整体记忆需 1×1 组 new word；拆成
un + friend + li + ness 只需 4 token，词表从百万级降至几万级。

当模型第一次遇到 “defriend”，只用已有的 de + friend 即可完成推理，不必重新记录整词。

200 token/s 换成中文用户秒懂：一句 15 字微信≈10–15 token，模型瞬间就能返回 1 条高质量消息。

让 ChatGPT 反写以下句子：

“一个”在句首，理论上应为“个一”。
但 GPT-3.5 往往整段反转仍为“一个”，原因正是 模型把“一个”当单 token，无法拆两半。
GPT-4 已修复，能在内部执行字符级反转，这反映了 多粒度 token 能力差异。

试着发指令：“请把‘我爱大模型’按字颠倒”，看模型是否拆 token。

场景	典型长度	估算 token	收费示例（参考 GPT-4）
一条微博	140 字	80 token	≈ (0.0008
5000 字长文摘要	5000 字	≈ 3000 token	≈ )0.03
全本《三体》	90 万汉字	≈ 60 万 token	≈ 6–8 USD

下降 1 token，成本降低万分之一，模型优化与长度控制同等重要。

Q1：token 就是汉字字数吗？
A：不是。一个汉字可能 1 token，也可能 2–3 token（取决于子词表）。

Q2：标点符号算 token 吗？
A：算。例如“！”往往独立占 1 token。

Q3：GPT 收费在“提问+回答”哪一端？
A：两端都算。你发 200 token 指令，收 200 token；模型回 100 token，再加 100 token。

Q4：同一句话不同语言，token 数会差多少？
A：中文平均 0.7 token / 字；英文一般 1.3 token / word；长句差异可能翻倍。

Q5：本地部署是不是就避免 token 费用？
A：本地无 API 费用，但显存占用仍受 token 长度直接影响，长 prompt 一样卡。

Q6：我能让模型吐出更少 token 吗？
A：使用 max_tokens 限制上限，或 prompt 加“请简洁回答”即可调试到理想字数。

把这几块积木摆好，无论是写 prompt、做微调还是自己训大模型，都能让 token 自然语言处理 成为你手里的秘密武器。