
2026年3月4日,陈家龙等5位作者提交论文《SWE - CI:通过持续集成评估代理维护代码库的能力》。论文提出SWE - CI基准测试,将代码评估从静态转向动态。
研究背景
大语言模型驱动的代理在自动化软件工程任务中表现出色,如静态错误修复。但现实软件开发基于复杂需求和长期迭代,现有静态一次性修复模式无法满足需求。
SWE - CI基准测试
这是首个基于持续集成循环构建的仓库级基准测试,含100个任务。每个任务平均对应现实代码仓库233天演变历史和71次连续提交,要求代理通过多轮迭代解决任务。
评估模式转变
传统评估注重静态、短期的功能正确性,SWE - CI将其转向动态、长期的可维护性,为评估代理维持代码质量能力提供新见解。
行业影响
在软件工程领域,SWE - CI可能成为评估代码库维护能力的新标准,推动大语言模型在软件工程中的应用和发展,提升软件开发效率和质量。
编辑观点:SWE - CI的出现是软件工程评估的重要突破,有望改变现有评估格局,加速大语言模型在实际开发中的落地,推动行业向更高效、更智能方向发展。
944

被折叠的 条评论
为什么被折叠?



