FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution

一、文章主要内容总结

该研究针对大型语言模型(LLMs)因输入上下文冗长导致的高成本、高碳排放和推理延迟问题,提出了一种名为FrugalPrompt的提示压缩框架。核心思路是筛选输入中语义权重最高的tokens,剔除冗余低效用tokens,在降低输入维度的同时保留核心信息。

研究通过两种先进的token归因方法(GlobEnc和DecompX)为每个token分配显著性分数,按分数排序后保留前k%的tokens(维持原始语序),形成稀疏化提示。在四种NLP任务(情感分析、常识问答、文本摘要、数学推理)和多款主流LLM(Llama-3 8B/70B、GPT-3.5、Gemini 2.0、o3-mini)上的实验表明:

  1. 情感分析、常识问答、文本摘要任务中,压缩20%的提示仅导致性能轻微下降,LLMs可通过高显著性token重构缺失上下文;
  2. 数学推理对完整token连续性依赖极强,压缩后性能急剧下滑;
  3. 随机筛选或保留低显著性token的对比实验揭示,部分传统NLP任务的性能保留可能源于模型预训练中的数据污染(依赖记忆模式而非真实推理)。

二、创新点

  1. 提出无训练依赖的提示压缩策略:基于预训练编码器的显著性分数筛选tokens,无需额外训练过程,仅依赖110M参数的BERT模型,参数开销远低于现有方法(现有方法多依赖数十亿参数的辅助LLM)。
  2. 细粒度token级压缩:区别于现有基于摘要或短语级的压缩方法,直接针对token层面筛选,在更高粒度上剔除冗余(如冠词、连词
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值