《Agent开发工程师成长指南》- 第2章 第4节:Token详解——为什么一句话竟然要花几十个Token?

第一卷:大模型 基础篇

第2章 大模型基础原理

第4节:Token详解——为什么一句话竟然要花几十个Token?

《Agent开发工程师成长指南》系列教程


引言

几乎所有刚接触大模型的人都会遇到几个问题:

为什么一句很短的话,竟然消耗了几十个Token?

为什么:

  • GPT收费按Token计算?

  • Context Window也是按Token计算?

  • Prompt优化本质是在优化Token?

  • RAG为什么也离不开Token?

甚至很多企业上线Agent以后,第一个遇到的问题就是:

Token成本太高!

所以,对于Agent开发工程师来说,Token绝不是一个简单的概念。

它几乎贯穿了:

  • Prompt

  • RAG

  • Agent

  • API调用

  • 成本优化

  • 长上下文

整个大模型开发流程。

这一节,我们彻底搞懂:

什么是Token,以及为什么它如此重要。


一、什么是Token?

很多初学者认为:

1个汉字 = 1个Token

实际上:

这是错误的。


Token并不是:

  • 一个汉字

  • 一个单词

  • 一个字符

而是:

模型能够理解的最小语言单位。

例如:

你好

可能就是:

你
好

两个Token。


而:

ChatGPT

可能拆成:

Chat

GPT

还有:

Agent开发工程师

可能拆成:

Agent

开发

工程

师

甚至不同模型。

拆法还不一样。


所以:

Token没有统一标准。

不同模型:

都有自己的Tokenizer。


二、为什么不能直接按汉字计算?

原因很简单。

因为:

模型训练的是:

Token

不是:

汉字。

例如:

英文:

Artificial Intelligence

模型可能拆成:

Artificial

Intelligence

两个Token。


而:

internationalization

可能拆成:

inter

national

ization

三个Token。


中文:

中华人民共和国

可能拆成:

中华

人民

共和国

也可能:

中

华

人民

共和国

所以:

Token切分。

完全由Tokenizer决定。


三、Tokenizer是什么?

Tokenizer。

中文:

分词器。

它负责:

输入文字

↓

拆分Token

↓

转换Token ID

↓

Embedding

例如:

输入:

Hello ChatGPT

Tokenizer:

Hello

Chat

GPT

然后:

转换成:

15496

829

38

这些数字。

模型真正处理的。

其实一直都是:

数字。


四、为什么GPT收费按Token?

来看一个例子。

Prompt:

请帮我总结这篇文章。

大约:

15 Token。


另一种Prompt:

请作为一名拥有20年经验的软件架构师,
从系统架构、数据库设计、
安全设计、性能优化、
扩展性等多个角度,
详细分析下面这篇文章,
最后输出Markdown格式。

可能:

200+ Token。


对于模型来说:

第二种:

需要:

  • 更多计算

  • 更多Attention

  • 更多显存

所以:

收费自然更高。


因此:

GPT API:

几乎全部都是:

Input Token

+

Output Token

共同计费。


五、什么是Context Window?

很多人经常看到:

128K Context

到底是什么意思?

例如:

模型:

Context Window:

128K Token

表示:

一次最多:

理解:

128000个Token

而不是:

128000个汉字。


例如:

Prompt:

4000 Token。

回答:

1000 Token。

历史聊天:

3000 Token。

那么:

总共:

8000 Token

全部占用:

Context。


六、为什么Context越长越贵?

很多人以为:

Token增加一倍。

费用增加一倍。

实际上:

不是。

因为:

Attention需要:

每一个Token

关注所有Token

因此:

计算复杂度:

近似:

O(n²)

例如:

1000 Token。

需要:

100万次计算。


2000 Token。

需要:

400万次计算。


4000 Token。

需要:

1600万次计算。


因此:

Context越长。

模型:

越慢。

越贵。


这也是:

长上下文模型。

成本远高于普通模型。


七、为什么中文更容易消耗Token?

很多企业上线以后。

第一个发现:

中文:

比英文:

贵。

为什么?

例如:

英文:

Hello

可能:

一个Token。


中文:

你好

可能:

两个Token。


再例如:

代码:

public class UserService

Token数量。

又完全不同。


所以:

不同语言。

Token效率。

完全不同。


八、Token如何影响Prompt设计?

例如:

很多新人喜欢:

请作为世界顶级AI专家、
同时也是高级Java架构师、
拥有20年企业经验、
熟悉微服务、
熟悉Agent、
熟悉RAG……

写:

几千Token。


实际上:

很多描述。

模型已经知道。

属于:

Token浪费。


优秀Prompt:

强调:

精准。

而不是:

越长越好。


因此:

Prompt工程。

本质也是:

Token优化。


九、Agent为什么更容易消耗Token?

普通Chat:

一次:

Prompt。

一次:

回答。


Agent:

可能:

用户输入

↓

Planner

↓

Tool Calling

↓

Observation

↓

再次思考

↓

再次调用工具

↓

最终回答

每一步。

都会重新进入:

LLM。

因此:

一次Agent任务。

可能:

消耗:

5000

10000

甚至50000 Token

所以:

企业Agent。

成本控制。

非常重要。


十、Agent工程中的Token优化方法

常见方法:


Prompt压缩

减少:

重复描述。


Conversation Summary

历史聊天。

自动总结。

替代:

全部历史。


RAG

只取:

最相关知识。

避免:

全部文档。


Context截断

历史:

超过窗口。

自动删除。


Semantic Cache

相同问题。

直接返回。

不再调用LLM。


这些。

都是企业Agent。

每天都在做的优化。


十一、Agent开发工程师需要掌握到什么程度?

至少需要理解:

✅ Token是什么

✅ Token如何切分

✅ 为什么按Token收费

✅ Context Window是什么

✅ 为什么Context越长越慢

✅ 如何优化Token成本

后面:

Prompt工程。

RAG。

Agent优化。

都会不断涉及Token。


面试题

问题1

什么是Token?

参考答案:

Token是大模型处理文本的最小单位,由Tokenizer负责切分,不等同于字符或单词。


问题2

为什么GPT按Token收费?

参考答案:

因为模型计算量主要与输入输出Token数量有关,Token越多,计算资源消耗越高,因此API通常按Input Token和Output Token计费。


问题3

什么是Context Window?

参考答案:

Context Window是模型一次能够处理的最大Token数量,包括Prompt、历史对话、RAG知识以及模型输出。


问题4

为什么Context越长成本越高?

参考答案:

因为Transformer中的Attention机制需要计算Token之间的两两关系,计算复杂度约为O(n²),Token越多,计算量增长越快。


问题5

Agent为什么比普通Chat消耗更多Token?

参考答案:

因为Agent通常包含规划、工具调用、观察反馈、多轮推理等多个LLM调用环节,每一步都会消耗新的Token,因此整体成本远高于普通对话。


本章小结

本节我们学习了:

✅ Token的定义与切分原理

✅ Tokenizer的作用

✅ GPT按Token计费的原因

✅ Context Window的概念

✅ 长上下文带来的性能与成本影响

✅ Agent中的Token消耗特点

✅ 企业级Token优化方案

至此,你已经掌握了大模型开发中最核心的资源单位——Token

下一节,我们将继续学习:

《第2章 第5节:Embedding详解——AI为什么能理解"苹果"和"水果"是相近的?》

这一节将进入向量(Vector)世界,也是后续学习 RAG、向量数据库、混合检索、GraphRAG 的理论基础。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值