OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every

在这里插入图片描述

文章主要内容和创新点总结

主要内容

该文章针对大语言模型(LLM)预训练中高质量数据逐渐枯竭的"数据墙"问题,提出了一种动态数据选择框架OPUS(Optimizer-induced Projected Utility Selection)。现有数据选择方法要么依赖忽略训练动态的静态过滤启发式算法,要么基于原始梯度的动态选择标准,与现代LLM训练中使用的自适应优化器(如AdamW、Muon)不匹配。

OPUS的核心思路是在优化器诱导的更新空间中定义数据效用,通过将候选样本的有效更新投影到目标方向(来自稳定的分布内代理集)来评分。其工作流程包括:构建优化器诱导预条件器、生成代理特征和候选特征、通过玻尔兹曼采样选择样本(平衡代理对齐与冗余控制)。文章在GPT-2 Large/XL的从头预训练(FineWeb、FineWeb-Edu语料)和Qwen3-8B-Base的持续预训练(SciencePedia语料)中验证了效果,在30B令牌预算下优于工业级基线,且计算开销仅增加4.7%。

创新点

  1. 优化器感知的效用目标:推导了AdamW和Muon等优化器的有效更新方向闭合形式近似,在实际优化器诱导的几何空间中评分数据,解决了现有方法与现代优化器不匹配的问题。
  2. 稳定的分布内代理构建:提出BENCH-
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值