突发！GPT-5.6 炸场发布：性能封神，但你我还用不上…-极客君

好消息！GPT-5.6，刚刚正式发布了。

不是一个模型，是三个。Sol，太阳。Terra，地球。Luna，月亮。

OpenAI 一口气发布了一整个太阳系。

坏消息！普通用户目前还用不了。

昨天 OpenAI 刚被美国政府要求限制 GPT-5.6 的发布，理由是「网络安全能力太强」。必须逐个客户审批，通过了才能开放使用。今天，GPT-5.6 限量预览直接上线了。

注意这几个形容词，限量（limited）、预览（preview）。注定不会是全面开放。

65e11a061e20260627100740

TerminalBench 2.1 编程评测，GPT-5.6 Sol Ultra 狂砍 91.9% 准确率，全场最高。还在一纸禁令里的 Claude Mythos 5，88.0%。

Sol 是大杯旗舰款，OpenAI 目前最强的模型。

和 GPT-5.5 一个价。每百万 token 输入 5 美元，输出 30 美元。等于加量不加价，免费升级。

Terra 是中杯日常款，性能和 GPT-5.5 差不多，但价格便宜一半。每百万 token 输入 2.5 美元，输出 15 美元。

Luna 是小杯入门款，主打又快又便宜。每百万 token 输入 1 美元，输出 6 美元。GPT-5.6 系列最便宜的模型。

OpenAI 模型的命名方式终于变了。

数字代表版本号，Sol/Terra/Luna 代表能力等级。以后每个等级可以独立升级，不用再等一整个大版本更新。

你可能已经想到了，这不就是 Claude 那套命名模式吗？！是的。数字是版本，比如 4.8，5；Haiku/Sonnet/Opus 是能力等级。

划重点，GPT-5.6 目前只开放给了大约 20 家通过审核的合作伙伴和企业客户，通过 API 和 Codex 接入。

OpenAI 官方这样说。

「我们相信全面开放的价值。我们不认为这种政府审批流程应该成为长期默认模式。最好的工具不应该被挡在用户、开发者和网络安全防御者的门外。」

「这是一个短期步骤。我们选择配合，因为这是让模型尽快全面开放的最佳路径。」

话外音：我配合你，但我不同意你。

TerminalBench 2.1 测试命令行工作流，需要模型自己规划、迭代和协调调用多个工具。Sol Ultra 91.9%，Sol 88.8%，Claude Mythos 5 88.0%，Claude Fable 5 84.3%，GPT-5.5 83.4%，Claude Opus 4.8 78.9%。

最强的 Sol Ultra 直接登顶。标准版 Sol 也刚好超过 Mythos 5。

中杯 Terra 准确率 84.3%，和 Fable 5 打了个平手。OpenAI 的中端模型，追平了 Anthropic 下架的旗舰款。

Luna 82.5%，略低于 GPT-5.5，但价格只有 GPT-5.5 的五分之一。

不过 OpenAI 官方目前只公布了 GPT-5.6 在编程、生物和网络安全这三个方向的评测结果。MMLU、SWE-bench 这些常规榜单都没放出。「完整跑分要等模型全面开放的时候才会公布了。」

Sol 这次新增了两个推理模式。

max，给模型更多时间深度思考。

ultra，直接调用一群子智能体，并行处理复杂任务。不难看出，这是在对标 Claude Code 的 ultracode 模式：一个 AI，指挥几百个 AI 干活。

这也是 Sol Ultra 能登顶的原因。单 Agent 88.8%，开启多 Agent 协作后，直接涨到 91.9% 。

网络安全是 GPT-5.6 发力最猛的方向，也是美国政府要求限量发布的原因。

在 ExploitBench 漏洞利用测试中，Sol 用了 Claude Mythos Preview 三分之一的 token，追平了它的得分。Claude Mythos 5 仍然是这项测试的最高分，但它已经下线两周了。

OpenAI 表示，「Sol 擅长发现漏洞和生成修复补丁，但在完整攻击链上还没有突破关键阈值。」在 Chromium 和 Firefox 测试中，它发现了漏洞，也找到了一些可以利用的突破口，但没有自主生成一条完整的攻击链。

出于模型安全的考虑，OpenAI 配套上线了实时分类器、账号级行为审查和分级访问控制。还花了超过 70 万个 A100 等效 GPU 小时运行自动化红队测试，专门挖掘通用越狱漏洞。

ChatGPT 和 Codex 的普通用户目前还用不了。OpenAI 说「未来几周全面开放。」

网友：还搞限量预览？你改名叫 ClosedAI 算了。

也有人说，「GPT-5.5 已经够用了，先把手里有的用好再说。」

7 月，Sol 还会上线 Cerebras 芯片方案，推理速度达到每秒 750 个 token。

Claude Fable 5，下线 2 周。

Gemini 3.5 Pro，继续难产。

GPT-5.6，发布了，但又没有完全发布。

魔幻，又有点无奈。

文章版权声明 1、本站所有文章均为原创技术内容，受《中华人民共和国著作权法》保护。
2、文中提及的第三方工具、开源项目或服务，其版权归属原作者；本站仅作技术介绍与使用演示，不提供下载或修改版本。
3、所有推荐工具均可通过官方渠道免费获取，本站不存储、分发或托管任何软件资源。
4、如您认为内容侵犯您的权益，请联系邮箱 admin@jikejun.com，我们将及时处理。
5、本站内容仅供个人学习与技术交流使用，禁止用于商业用途、内容聚合、AI 模型训练或自动化采集。
6、转载须注明出处（极客君 jikejun.com）并保留原文链接，未经许可不得用于盈利场景。

THE END