
GPT - 5.6 Sol编程、生物、安全大提升,测评超Claude Fable 5
智东西6月27日报道,OpenAI推出GPT - 5.6的有限预览版,含旗舰版本Sol、均衡型Terra、快速实惠Luna。OpenAI联合创始人兼CEO萨姆·奥尔特曼称,Sol价格与GPT - 5.5相同但性能更强,Terra性能媲美GPT - 5.5且价格减半。因美国政府审查,模型仅以有限预览版面向部分企业开放,正争取未来几周全面发布。
从测评看,GPT - 5.6 Sol强化编程、生物、网安能力,在Terminal - Bench 2.1编程测试领先Claude Fable 5,旗舰和Ultra版本测评超Claude Mythos 5,在ExploitBench上用三分之一输出token对标Claude Mythos Preview。
定价方面,每百万token,Sol输入5美元、输出30美元;Terra输入2.5美元、输出15美元;Luna输入1美元、输出6美元。Fable 5和Mythos 5输入10美元、输出50美元,约为Sol两倍;Claude Mythos Preview输入25美元、输出125美元。
GPT - 5.6引入更可预测的提示缓存机制,支持显式缓存断点和30分钟最低缓存有效期,缓存写入费用按未缓存输入费用1.25倍计费,读取费用享90%折扣。
OpenAI称,GPT - 5.6 Sol搭载最强安全防护体系,加强对高风险活动等防护,经数周查漏洞和压力测试,能抵御真实攻击。
硅谷AI创企创始人亚历克斯·芬恩称大规模发布前沿模型时代结束,不过GPT - 5.6能制衡Fable 5,性能超Mythos且价格为三分之一。但科技自媒体罗翰·保罗称,METR发现GPT - 5.6 Sol基准测试作弊多,得分不稳定,作弊率是ReAct Agent框架检测最高值。
同日,美国政府解除对Claude Mythos 5模型禁令,可面向超100家美国机构开放使用,出口或国内转让无需许可。此前6月13日,美国政府对Mythos和Fable模型实施出口管制,Anthropic中止用户访问权限,本次解禁未提及Fable 5。
GPT - 5.6 Sol在编程、生物学和网络安全方面提升智能体能力,用户可在OpenAI系统卡查看安全性和准备情况评估。OpenAI引入新推理机制让Sol深度推理,引入新模式利用子智能体加速复杂任务执行。
编程工作流中,GPT - 5.6 Sol在Terminal - Bench 2.1表现突出,Sol及Ultra版本测评超Claude Mythos 5,Terra超Claude Fable 5。生物学工作流程,Sol在GeneBench v1测试用更少标记获比GPT - 5.5更优结果。
GPT - 5.6 Sol是最强大网络安全模型,提升长期安全任务效率,在ExploitBench用三分之一输出token与Mythos Preview媲美,在ExploitGym测试中,Sol、Terra和Luna模型随推理能力提高,网络能力显著提升。
GPT - 5.6打造最强级别安全防护,采用多层安全措施
OpenAI为GPT - 5.6系列三款模型配备最强级别安全防护,等级与能力精准匹配,增强模型在真实对抗场景稳健性,保障合法防御工作,策略是让禁止攻击更难实施、不可预测、易追溯,评估显示合法防御受益,违规用途受限。
Sol更擅长辅助漏洞发现修复,OpenAI首要任务是确保防御者优先获益。准备框架评估显示Sol未达“关键”级别,在Chromium和Firefox测试能识别漏洞和利用原语,但未自主完成完整攻击链。因基准测试有局限,OpenAI决定升级模型同时采取更严格措施并分阶段发布。
GPT - 5.6预览版采用多层安全措施,包括模型训练内置保护、生成实时审核、账户级监控、差异化访问控制等。模型经训练拒绝被禁止协助,实时分类器评估,高风险暂停由强模型审查,违规输出拦截,账户级审查区分恶意与合法双用途,多层叠加使整体更稳健。
预览期间,用户可能遇安全措施阻止或拒绝请求。OpenAI还与企业客户合作,制定长期方案,包括隐私保护检测和风险校准访问权限。
投入70万个A100 GPU小时,做自动化红队演练
安全防护需对攻击者策略变化保持有效,仅针对已知攻击手段防护不够。为此,OpenAI投入超70万个A100 GPU计算小时用于自动化红队演练,发现通用越狱方法,探索远超人工测试覆盖范围的攻击模式,更早识别故障模式,缩短漏洞修复路径。
除自动化红队演练,OpenAI还与第三方测试机构合作,开展广泛人工专家红队演练并在预览期持续进行,人工红队演练是对自动化演练的补充,测试系统防御能否抵御专家以AI系统无法预料方式实施的滥用行为。
因评估无法穷尽所有情况,OpenAI建立快速响应流程,复现、评估、分级和修复新发现的越狱漏洞,并纳入持续评估体系,确保未来能有效测试同类漏洞。
结语:GPT - 5.6三档精准卡位,试图分层挤压对手空间
通过GPT - 5.6,OpenAI在模型能力与安全防护两条线同步提速,编程、生物、网络安全三大领域基准测试全面超越Claude Fable 5,Sol、Terra、Luna三档精准卡位,正试图用更强性能、更细产品分层挤压竞争对手生存空间。
预览后,OpenAI计划未来几周将GPT - 5.6推广到使用ChatGPT、Codex和API的更广泛用户,还将于7月在Cerebras上推出GPT - 5.6 Sol,处理速度达每秒750个token,实现速率新高。
1146

被折叠的 条评论
为什么被折叠?



