
文章主要内容和创新点总结
主要内容
该文章针对大语言模型(LLM)预训练中高质量数据逐渐枯竭的"数据墙"问题,提出了一种动态数据选择框架OPUS(Optimizer-induced Projected Utility Selection)。现有数据选择方法要么依赖忽略训练动态的静态过滤启发式算法,要么基于原始梯度的动态选择标准,与现代LLM训练中使用的自适应优化器(如AdamW、Muon)不匹配。
OPUS的核心思路是在优化器诱导的更新空间中定义数据效用,通过将候选样本的有效更新投影到目标方向(来自稳定的分布内代理集)来评分。其工作流程包括:构建优化器诱导预条件器、生成代理特征和候选特征、通过玻尔兹曼采样选择样本(平衡代理对齐与冗余控制)。文章在GPT-2 Large/XL的从头预训练(FineWeb、FineWeb-Edu语料)和Qwen3-8B-Base的持续预训练(SciencePedia语料)中验证了效果,在30B令牌预算下优于工业级基线,且计算开销仅增加4.7%。
创新点
- 优化器感知的效用目标:推导了AdamW和Muon等优化器的有效更新方向闭合形式近似,在实际优化器诱导的几何空间中评分数据,解决了现有方法与现代优化器不匹配的问题。
- 稳定的分布内代理构建:提出BENCH-
订阅专栏 解锁全文
1743

被折叠的 条评论
为什么被折叠?



