《Agent开发工程师成长指南》- 第2章第4节：Token详解——为什么一句话竟然要花几十个Token？

原创于 2026-06-29 11:05:39 发布 · 123 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #Agent #智能体

Agent开发工程师成长指南专栏收录该内容

10 篇文章

订阅专栏

第一卷：大模型基础篇

第2章大模型基础原理

第4节：Token详解——为什么一句话竟然要花几十个Token？

《Agent开发工程师成长指南》系列教程

引言

几乎所有刚接触大模型的人都会遇到几个问题：

为什么一句很短的话，竟然消耗了几十个Token？

为什么：

GPT收费按Token计算？
Context Window也是按Token计算？
Prompt优化本质是在优化Token？
RAG为什么也离不开Token？

甚至很多企业上线Agent以后，第一个遇到的问题就是：

Token成本太高！

所以，对于Agent开发工程师来说，Token绝不是一个简单的概念。

它几乎贯穿了：

Prompt
RAG
Agent
API调用
成本优化
长上下文

整个大模型开发流程。

这一节，我们彻底搞懂：

什么是Token，以及为什么它如此重要。

一、什么是Token？

很多初学者认为：

1个汉字 = 1个Token

实际上：

这是错误的。

Token并不是：

一个汉字
一个单词
一个字符

而是：

模型能够理解的最小语言单位。

例如：

你好

可能就是：

你
好

两个Token。

而：

ChatGPT

可能拆成：

Chat

GPT

还有：

Agent开发工程师

可能拆成：

Agent

开发

工程

师

甚至不同模型。

拆法还不一样。

所以：

Token没有统一标准。

不同模型：

都有自己的Tokenizer。

二、为什么不能直接按汉字计算？

原因很简单。

因为：

模型训练的是：

Token

不是：

汉字。

例如：

英文：

Artificial Intelligence

模型可能拆成：

Artificial

Intelligence

两个Token。

而：

internationalization

可能拆成：

inter

national

ization

三个Token。

中文：

中华人民共和国

可能拆成：

中华

人民

共和国

也可能：

中

华

人民

共和国

所以：

Token切分。

完全由Tokenizer决定。

三、Tokenizer是什么？

Tokenizer。

中文：

分词器。

它负责：

输入文字

↓

拆分Token

↓

转换Token ID

↓

Embedding

例如：

输入：

Hello ChatGPT

Tokenizer：

Hello

Chat

GPT

然后：

转换成：

这些数字。

模型真正处理的。

其实一直都是：

数字。

四、为什么GPT收费按Token？

来看一个例子。

Prompt：

请帮我总结这篇文章。

大约：

15 Token。

另一种Prompt：

请作为一名拥有20年经验的软件架构师，
从系统架构、数据库设计、
安全设计、性能优化、
扩展性等多个角度，
详细分析下面这篇文章，
最后输出Markdown格式。

可能：

200+ Token。

对于模型来说：

第二种：

需要：

更多计算
更多Attention
更多显存

所以：

收费自然更高。

因此：

GPT API：

几乎全部都是：

Input Token

+

Output Token

共同计费。

五、什么是Context Window？

很多人经常看到：

128K Context

到底是什么意思？

例如：

模型：

Context Window：

128K Token

表示：

一次最多：

理解：

128000个Token

而不是：

128000个汉字。

例如：

Prompt：

4000 Token。

回答：

1000 Token。

历史聊天：

3000 Token。

那么：

总共：

8000 Token

全部占用：

Context。

六、为什么Context越长越贵？

很多人以为：

Token增加一倍。

费用增加一倍。

实际上：

不是。

因为：

Attention需要：

每一个Token

关注所有Token

因此：

计算复杂度：

近似：

O(n²)

例如：

1000 Token。

需要：

100万次计算。

2000 Token。

需要：

400万次计算。

4000 Token。

需要：

1600万次计算。

因此：

Context越长。

模型：

越慢。

越贵。

这也是：

长上下文模型。

成本远高于普通模型。

七、为什么中文更容易消耗Token？

很多企业上线以后。

第一个发现：

中文：

比英文：

贵。

为什么？

例如：

英文：

Hello

可能：

一个Token。

中文：

你好

可能：

两个Token。

再例如：

代码：

public class UserService

Token数量。

又完全不同。

所以：

不同语言。

Token效率。

完全不同。

八、Token如何影响Prompt设计？

例如：

很多新人喜欢：

请作为世界顶级AI专家、
同时也是高级Java架构师、
拥有20年企业经验、
熟悉微服务、
熟悉Agent、
熟悉RAG……

写：

几千Token。

实际上：

很多描述。

模型已经知道。

属于：

Token浪费。

优秀Prompt：

强调：

精准。

而不是：

越长越好。

因此：

Prompt工程。

本质也是：

Token优化。

九、Agent为什么更容易消耗Token？

普通Chat：

一次：

Prompt。

一次：

回答。

Agent：

可能：

用户输入

↓

Planner

↓

Tool Calling

↓

Observation

↓

再次思考

↓

再次调用工具

↓

最终回答

每一步。

都会重新进入：

LLM。

因此：

一次Agent任务。

可能：

消耗：

5000

10000

甚至50000 Token

所以：

企业Agent。

成本控制。

非常重要。

十、Agent工程中的Token优化方法

常见方法：

Prompt压缩

减少：

重复描述。

Conversation Summary

历史聊天。

自动总结。

替代：

全部历史。

RAG

只取：

最相关知识。

避免：

全部文档。

Context截断

历史：

超过窗口。

自动删除。

Semantic Cache

相同问题。

直接返回。

不再调用LLM。

这些。

都是企业Agent。

每天都在做的优化。

十一、Agent开发工程师需要掌握到什么程度？

至少需要理解：

✅ Token是什么

✅ Token如何切分

✅ 为什么按Token收费

✅ Context Window是什么

✅ 为什么Context越长越慢

✅ 如何优化Token成本

后面：

Prompt工程。

RAG。

Agent优化。

都会不断涉及Token。

面试题

问题1

什么是Token？

参考答案：

Token是大模型处理文本的最小单位，由Tokenizer负责切分，不等同于字符或单词。

问题2

为什么GPT按Token收费？

参考答案：

因为模型计算量主要与输入输出Token数量有关，Token越多，计算资源消耗越高，因此API通常按Input Token和Output Token计费。

问题3

什么是Context Window？

参考答案：

Context Window是模型一次能够处理的最大Token数量，包括Prompt、历史对话、RAG知识以及模型输出。

问题4

为什么Context越长成本越高？

参考答案：

因为Transformer中的Attention机制需要计算Token之间的两两关系，计算复杂度约为O(n²)，Token越多，计算量增长越快。

问题5

Agent为什么比普通Chat消耗更多Token？

参考答案：

因为Agent通常包含规划、工具调用、观察反馈、多轮推理等多个LLM调用环节，每一步都会消耗新的Token，因此整体成本远高于普通对话。

本章小结

本节我们学习了：

✅ Token的定义与切分原理

✅ Tokenizer的作用

✅ GPT按Token计费的原因

✅ Context Window的概念

✅ 长上下文带来的性能与成本影响

✅ Agent中的Token消耗特点

✅ 企业级Token优化方案

至此，你已经掌握了大模型开发中最核心的资源单位——Token。

下一节，我们将继续学习：

《第2章第5节：Embedding详解——AI为什么能理解"苹果"和"水果"是相近的？》

这一节将进入向量（Vector）世界，也是后续学习 RAG、向量数据库、混合检索、GraphRAG 的理论基础。

《Agent开发工程师成长指南》- 第2章 第4节：Token详解——为什么一句话竟然要花几十个Token？

第一卷：大模型 基础篇

第2章 大模型基础原理

第4节：Token详解——为什么一句话竟然要花几十个Token？

引言

一、什么是Token？

二、为什么不能直接按汉字计算？

三、Tokenizer是什么？

四、为什么GPT收费按Token？

五、什么是Context Window？

六、为什么Context越长越贵？

七、为什么中文更容易消耗Token？

八、Token如何影响Prompt设计？

九、Agent为什么更容易消耗Token？

十、Agent工程中的Token优化方法

Prompt压缩

Conversation Summary

RAG

Context截断

Semantic Cache

十一、Agent开发工程师需要掌握到什么程度？

面试题

问题1

问题2

问题3

问题4

问题5

本章小结

《Agent开发工程师成长指南》- 第2章第4节：Token详解——为什么一句话竟然要花几十个Token？

第一卷：大模型基础篇

第2章大模型基础原理