第一卷:大模型 基础篇
第2章 大模型基础原理
第4节:Token详解——为什么一句话竟然要花几十个Token?
《Agent开发工程师成长指南》系列教程
引言
几乎所有刚接触大模型的人都会遇到几个问题:
为什么一句很短的话,竟然消耗了几十个Token?
为什么:
-
GPT收费按Token计算?
-
Context Window也是按Token计算?
-
Prompt优化本质是在优化Token?
-
RAG为什么也离不开Token?
甚至很多企业上线Agent以后,第一个遇到的问题就是:
Token成本太高!
所以,对于Agent开发工程师来说,Token绝不是一个简单的概念。
它几乎贯穿了:
-
Prompt
-
RAG
-
Agent
-
API调用
-
成本优化
-
长上下文
整个大模型开发流程。
这一节,我们彻底搞懂:
什么是Token,以及为什么它如此重要。
一、什么是Token?

很多初学者认为:
1个汉字 = 1个Token
实际上:
这是错误的。
Token并不是:
-
一个汉字
-
一个单词
-
一个字符
而是:
模型能够理解的最小语言单位。
例如:
你好
可能就是:
你
好
两个Token。
而:
ChatGPT
可能拆成:
Chat
GPT
还有:
Agent开发工程师
可能拆成:
Agent
开发
工程
师
甚至不同模型。
拆法还不一样。
所以:
Token没有统一标准。
不同模型:
都有自己的Tokenizer。
二、为什么不能直接按汉字计算?

原因很简单。
因为:
模型训练的是:
Token
不是:
汉字。
例如:
英文:
Artificial Intelligence
模型可能拆成:
Artificial
Intelligence
两个Token。
而:
internationalization
可能拆成:
inter
national
ization
三个Token。
中文:
中华人民共和国
可能拆成:
中华
人民
共和国
也可能:
中
华
人民
共和国
所以:
Token切分。
完全由Tokenizer决定。
三、Tokenizer是什么?

Tokenizer。
中文:
分词器。
它负责:
输入文字
↓
拆分Token
↓
转换Token ID
↓
Embedding
例如:
输入:
Hello ChatGPT
Tokenizer:
Hello
Chat
GPT
然后:
转换成:
15496
829
38
这些数字。
模型真正处理的。
其实一直都是:
数字。
四、为什么GPT收费按Token?
来看一个例子。
Prompt:
请帮我总结这篇文章。
大约:
15 Token。
另一种Prompt:
请作为一名拥有20年经验的软件架构师,
从系统架构、数据库设计、
安全设计、性能优化、
扩展性等多个角度,
详细分析下面这篇文章,
最后输出Markdown格式。
可能:
200+ Token。
对于模型来说:
第二种:
需要:
-
更多计算
-
更多Attention
-
更多显存
所以:
收费自然更高。
因此:
GPT API:
几乎全部都是:
Input Token
+
Output Token
共同计费。
五、什么是Context Window?

很多人经常看到:
128K Context
到底是什么意思?
例如:
模型:
Context Window:
128K Token
表示:
一次最多:
理解:
128000个Token
而不是:
128000个汉字。
例如:
Prompt:
4000 Token。
回答:
1000 Token。
历史聊天:
3000 Token。
那么:
总共:
8000 Token
全部占用:
Context。
六、为什么Context越长越贵?

很多人以为:
Token增加一倍。
费用增加一倍。
实际上:
不是。
因为:
Attention需要:
每一个Token
关注所有Token
因此:
计算复杂度:
近似:
O(n²)
例如:
1000 Token。
需要:
100万次计算。
2000 Token。
需要:
400万次计算。
4000 Token。
需要:
1600万次计算。
因此:
Context越长。
模型:
越慢。
越贵。
这也是:
长上下文模型。
成本远高于普通模型。
七、为什么中文更容易消耗Token?
很多企业上线以后。
第一个发现:
中文:
比英文:
贵。
为什么?
例如:
英文:
Hello
可能:
一个Token。
中文:
你好
可能:
两个Token。
再例如:
代码:
public class UserService
Token数量。
又完全不同。
所以:
不同语言。
Token效率。
完全不同。
八、Token如何影响Prompt设计?
例如:
很多新人喜欢:
请作为世界顶级AI专家、
同时也是高级Java架构师、
拥有20年企业经验、
熟悉微服务、
熟悉Agent、
熟悉RAG……
写:
几千Token。
实际上:
很多描述。
模型已经知道。
属于:
Token浪费。
优秀Prompt:
强调:
精准。
而不是:
越长越好。
因此:
Prompt工程。
本质也是:
Token优化。
九、Agent为什么更容易消耗Token?

普通Chat:
一次:
Prompt。
一次:
回答。
Agent:
可能:
用户输入
↓
Planner
↓
Tool Calling
↓
Observation
↓
再次思考
↓
再次调用工具
↓
最终回答
每一步。
都会重新进入:
LLM。
因此:
一次Agent任务。
可能:
消耗:
5000
10000
甚至50000 Token
所以:
企业Agent。
成本控制。
非常重要。
十、Agent工程中的Token优化方法

常见方法:
Prompt压缩
减少:
重复描述。
Conversation Summary
历史聊天。
自动总结。
替代:
全部历史。
RAG
只取:
最相关知识。
避免:
全部文档。
Context截断
历史:
超过窗口。
自动删除。
Semantic Cache
相同问题。
直接返回。
不再调用LLM。
这些。
都是企业Agent。
每天都在做的优化。
十一、Agent开发工程师需要掌握到什么程度?
至少需要理解:
✅ Token是什么
✅ Token如何切分
✅ 为什么按Token收费
✅ Context Window是什么
✅ 为什么Context越长越慢
✅ 如何优化Token成本
后面:
Prompt工程。
RAG。
Agent优化。
都会不断涉及Token。
面试题
问题1
什么是Token?
参考答案:
Token是大模型处理文本的最小单位,由Tokenizer负责切分,不等同于字符或单词。
问题2
为什么GPT按Token收费?
参考答案:
因为模型计算量主要与输入输出Token数量有关,Token越多,计算资源消耗越高,因此API通常按Input Token和Output Token计费。
问题3
什么是Context Window?
参考答案:
Context Window是模型一次能够处理的最大Token数量,包括Prompt、历史对话、RAG知识以及模型输出。
问题4
为什么Context越长成本越高?
参考答案:
因为Transformer中的Attention机制需要计算Token之间的两两关系,计算复杂度约为O(n²),Token越多,计算量增长越快。
问题5
Agent为什么比普通Chat消耗更多Token?
参考答案:
因为Agent通常包含规划、工具调用、观察反馈、多轮推理等多个LLM调用环节,每一步都会消耗新的Token,因此整体成本远高于普通对话。
本章小结
本节我们学习了:
✅ Token的定义与切分原理
✅ Tokenizer的作用
✅ GPT按Token计费的原因
✅ Context Window的概念
✅ 长上下文带来的性能与成本影响
✅ Agent中的Token消耗特点
✅ 企业级Token优化方案
至此,你已经掌握了大模型开发中最核心的资源单位——Token。
下一节,我们将继续学习:
《第2章 第5节:Embedding详解——AI为什么能理解"苹果"和"水果"是相近的?》
这一节将进入向量(Vector)世界,也是后续学习 RAG、向量数据库、混合检索、GraphRAG 的理论基础。
434

被折叠的 条评论
为什么被折叠?



