OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every

最新推荐文章于 2026-07-01 09:06:09 发布

原创最新推荐文章于 2026-07-01 09:06:09 发布 · 41 阅读

·

0

·

收录于

LLM Data

LLM Daily 专栏收录该内容

2913 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

在这里插入图片描述

文章主要内容和创新点总结

主要内容

该文章针对大语言模型（LLM）预训练中高质量数据逐渐枯竭的"数据墙"问题，提出了一种动态数据选择框架OPUS（Optimizer-induced Projected Utility Selection）。现有数据选择方法要么依赖忽略训练动态的静态过滤启发式算法，要么基于原始梯度的动态选择标准，与现代LLM训练中使用的自适应优化器（如AdamW、Muon）不匹配。

OPUS的核心思路是在优化器诱导的更新空间中定义数据效用，通过将候选样本的有效更新投影到目标方向（来自稳定的分布内代理集）来评分。其工作流程包括：构建优化器诱导预条件器、生成代理特征和候选特征、通过玻尔兹曼采样选择样本（平衡代理对齐与冗余控制）。文章在GPT-2 Large/XL的从头预训练（FineWeb、FineWeb-Edu语料）和Qwen3-8B-Base的持续预训练（SciencePedia语料）中验证了效果，在30B令牌预算下优于工业级基线，且计算开销仅增加4.7%。

创新点

优化器感知的效用目标：推导了AdamW和Muon等优化器的有效更新方向闭合形式近似，在实际优化器诱导的几何空间中评分数据，解决了现有方法与现代优化器不匹配的问题。
稳定的分布内代理构建：提出BENCH-

标签

#语言模型 #人工智能 #自然语言处理

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。