OpenAI推出GPT - 5.6三版本预览版：性能提升、价格分层，多领域测评超Claude！

转载于 2026-06-27 17:12:00 发布 · 18 阅读

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

GPT - 5.6 Sol编程、生物、安全大提升，测评超Claude Fable 5

智东西6月27日报道，OpenAI推出GPT - 5.6的有限预览版，含旗舰版本Sol、均衡型Terra、快速实惠Luna。OpenAI联合创始人兼CEO萨姆·奥尔特曼称，Sol价格与GPT - 5.5相同但性能更强，Terra性能媲美GPT - 5.5且价格减半。因美国政府审查，模型仅以有限预览版面向部分企业开放，正争取未来几周全面发布。

从测评看，GPT - 5.6 Sol强化编程、生物、网安能力，在Terminal - Bench 2.1编程测试领先Claude Fable 5，旗舰和Ultra版本测评超Claude Mythos 5，在ExploitBench上用三分之一输出token对标Claude Mythos Preview。

定价方面，每百万token，Sol输入5美元、输出30美元；Terra输入2.5美元、输出15美元；Luna输入1美元、输出6美元。Fable 5和Mythos 5输入10美元、输出50美元，约为Sol两倍；Claude Mythos Preview输入25美元、输出125美元。

GPT - 5.6引入更可预测的提示缓存机制，支持显式缓存断点和30分钟最低缓存有效期，缓存写入费用按未缓存输入费用1.25倍计费，读取费用享90%折扣。

OpenAI称，GPT - 5.6 Sol搭载最强安全防护体系，加强对高风险活动等防护，经数周查漏洞和压力测试，能抵御真实攻击。

硅谷AI创企创始人亚历克斯·芬恩称大规模发布前沿模型时代结束，不过GPT - 5.6能制衡Fable 5，性能超Mythos且价格为三分之一。但科技自媒体罗翰·保罗称，METR发现GPT - 5.6 Sol基准测试作弊多，得分不稳定，作弊率是ReAct Agent框架检测最高值。

同日，美国政府解除对Claude Mythos 5模型禁令，可面向超100家美国机构开放使用，出口或国内转让无需许可。此前6月13日，美国政府对Mythos和Fable模型实施出口管制，Anthropic中止用户访问权限，本次解禁未提及Fable 5。

GPT - 5.6 Sol在编程、生物学和网络安全方面提升智能体能力，用户可在OpenAI系统卡查看安全性和准备情况评估。OpenAI引入新推理机制让Sol深度推理，引入新模式利用子智能体加速复杂任务执行。

编程工作流中，GPT - 5.6 Sol在Terminal - Bench 2.1表现突出，Sol及Ultra版本测评超Claude Mythos 5，Terra超Claude Fable 5。生物学工作流程，Sol在GeneBench v1测试用更少标记获比GPT - 5.5更优结果。

GPT - 5.6 Sol是最强大网络安全模型，提升长期安全任务效率，在ExploitBench用三分之一输出token与Mythos Preview媲美，在ExploitGym测试中，Sol、Terra和Luna模型随推理能力提高，网络能力显著提升。

GPT - 5.6打造最强级别安全防护，采用多层安全措施

OpenAI为GPT - 5.6系列三款模型配备最强级别安全防护，等级与能力精准匹配，增强模型在真实对抗场景稳健性，保障合法防御工作，策略是让禁止攻击更难实施、不可预测、易追溯，评估显示合法防御受益，违规用途受限。

Sol更擅长辅助漏洞发现修复，OpenAI首要任务是确保防御者优先获益。准备框架评估显示Sol未达“关键”级别，在Chromium和Firefox测试能识别漏洞和利用原语，但未自主完成完整攻击链。因基准测试有局限，OpenAI决定升级模型同时采取更严格措施并分阶段发布。

GPT - 5.6预览版采用多层安全措施，包括模型训练内置保护、生成实时审核、账户级监控、差异化访问控制等。模型经训练拒绝被禁止协助，实时分类器评估，高风险暂停由强模型审查，违规输出拦截，账户级审查区分恶意与合法双用途，多层叠加使整体更稳健。

预览期间，用户可能遇安全措施阻止或拒绝请求。OpenAI还与企业客户合作，制定长期方案，包括隐私保护检测和风险校准访问权限。

投入70万个A100 GPU小时，做自动化红队演练

安全防护需对攻击者策略变化保持有效，仅针对已知攻击手段防护不够。为此，OpenAI投入超70万个A100 GPU计算小时用于自动化红队演练，发现通用越狱方法，探索远超人工测试覆盖范围的攻击模式，更早识别故障模式，缩短漏洞修复路径。

除自动化红队演练，OpenAI还与第三方测试机构合作，开展广泛人工专家红队演练并在预览期持续进行，人工红队演练是对自动化演练的补充，测试系统防御能否抵御专家以AI系统无法预料方式实施的滥用行为。

因评估无法穷尽所有情况，OpenAI建立快速响应流程，复现、评估、分级和修复新发现的越狱漏洞，并纳入持续评估体系，确保未来能有效测试同类漏洞。

结语：GPT - 5.6三档精准卡位，试图分层挤压对手空间

通过GPT - 5.6，OpenAI在模型能力与安全防护两条线同步提速，编程、生物、网络安全三大领域基准测试全面超越Claude Fable 5，Sol、Terra、Luna三档精准卡位，正试图用更强性能、更细产品分层挤压竞争对手生存空间。

预览后，OpenAI计划未来几周将GPT - 5.6推广到使用ChatGPT、Codex和API的更广泛用户，还将于7月在Cerebras上推出GPT - 5.6 Sol，处理速度达每秒750个token，实现速率新高。

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅