FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution

原创于 2026-07-01 10:30:00 发布 · 4 阅读

·

0

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 专栏收录该内容

2906 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

一、文章主要内容总结

该研究针对大型语言模型（LLMs）因输入上下文冗长导致的高成本、高碳排放和推理延迟问题，提出了一种名为FrugalPrompt的提示压缩框架。核心思路是筛选输入中语义权重最高的tokens，剔除冗余低效用tokens，在降低输入维度的同时保留核心信息。

研究通过两种先进的token归因方法（GlobEnc和DecompX）为每个token分配显著性分数，按分数排序后保留前k%的tokens（维持原始语序），形成稀疏化提示。在四种NLP任务（情感分析、常识问答、文本摘要、数学推理）和多款主流LLM（Llama-3 8B/70B、GPT-3.5、Gemini 2.0、o3-mini）上的实验表明：

情感分析、常识问答、文本摘要任务中，压缩20%的提示仅导致性能轻微下降，LLMs可通过高显著性token重构缺失上下文；
数学推理对完整token连续性依赖极强，压缩后性能急剧下滑；
随机筛选或保留低显著性token的对比实验揭示，部分传统NLP任务的性能保留可能源于模型预训练中的数据污染（依赖记忆模式而非真实推理）。

二、创新点

提出无训练依赖的提示压缩策略：基于预训练编码器的显著性分数筛选tokens，无需额外训练过程，仅依赖110M参数的BERT模型，参数开销远低于现有方法（现有方法多依赖数十亿参数的辅助LLM）。
细粒度token级压缩：区别于现有基于摘要或短语级的压缩方法，直接针对token层面筛选，在更高粒度上剔除冗余（如冠词、连词

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。