ENZHKO

Apr 25, 2026

Last updated on Apr 25, 2026

GPT-5.5 为什么重要：ChatGPT、Claude 与 Gemini 竞争格局的变化

OpenAI 发布了 GPT-5.5。

第一眼看上去，它很容易被归类为那种熟悉的升级：模型又更聪明了一点、更快了一点、也更强了一点。

但这次发布的味道其实不太一样。

OpenAI 不再只是把 GPT-5.5 描述成一个“回答更好”的模型，而是把它描述成一个能写代码、会用工具、能操作电脑、能做研究、能做文档和表格、而且不会做一半就停下来的模型。这个变化比看上去更重要。

也正因为如此，只把 GPT-5.5 和 GPT-5.4 放在一起比较，其实只看到了问题的一半。要真正理解这个市场在往哪里走，还得把 Claude Opus 4.7 和 Gemini 3.1 Pro 一起放进来。

OpenAI 这次真正强调的是什么

OpenAI 把 GPT-5.5 称为其“迄今最聪明、也最直观易用的模型”，并强调它在 agentic coding、computer use、knowledge work 和 early scientific research 上有明显提升。[1]

关键并不只是性能提高了。OpenAI 真正想表达的是：GPT-5.5 在更少监督下，也能接住复杂任务，自己理清歧义、调用工具、检查结果，并持续往前推进。[1][2]

这已经很难被当成普通的发布文案来看。

OpenAI 现在不只是把模型包装成“回答引擎”，而是在把它包装成一个可以把工作交给它的系统。而且这种表述不只出现在发布文里，也出现在系统卡里。

另一个值得注意的点是效率。OpenAI 表示，GPT-5.5 在真实服务环境中维持了与 GPT-5.4 相近的 per-token latency，但在 Codex 任务中能用更少 token 做出更好的结果。[1] 按照 4 月 24 日的更新，GPT-5.5 和 GPT-5.5 Pro 也已经进入 API，而不再只停留在 ChatGPT 和 Codex 里。[1]

最先要看的比较对象仍然是 GPT-5.4

最基础的比较对象还是 GPT-5.4。

按照 OpenAI 自己给出的比较表，GPT-5.5 在编码、计算机操作、知识型工作、数学和网络安全相关项目上，整体都高于 GPT-5.4。[1]

但真正更重要的，不是这些分数本身，而是它所承诺的东西变了。

GPT-5.4 已经是一个很强的模型。
GPT-5.5 则被讲成一个更能扛住长任务、脏任务、复杂任务的模型。

这其实是两种不同的叙事。

能把答案做得更好一点的模型很多，但一个能坚持更久、会用工具、会自检、而且更少需要来回重试的模型，会直接改变用户愿意交出去的工作量。这才是 OpenAI 这次真正想卖的升级点。

把 GPT-5.5 和 Claude Opus 4.7 放在一起看，会更有意思

这可能是现在市场上最值得看的比较。

Anthropic 对 Claude Opus 4.7 的描述，和 OpenAI 这次的说法相当接近：更强的高级软件工程能力、更好的长时任务表现、更严格的 instruction-following，以及在输出结果前更可靠的自我验证。[3]

换句话说，两家公司现在卖的，其实是很接近的一幅图景。

不只是更聪明的模型，而是一个可以更长时间陪你一起工作的模型。

但两边的重心并不完全一样。

为什么 OpenAI 看起来更“宽”

OpenAI 把 GPT-5.5 放进了一个更宽的工作链条里：

编码
计算机操作
文档和表格
在线研究
多工具工作流
ChatGPT 和 Codex 里的更广泛 knowledge work[1][2]

所以这次发布读起来更像是一次模型+产品的推动，而不只是单纯的模型升级。真正的重点不只是 GPT-5.5 本身，而是 ChatGPT 和 Codex 里的 GPT-5.5。

这也是为什么 OpenAI 看起来特别像是在主动推动“把前沿模型变成通用工作界面”这件事。

为什么 Anthropic 看起来更“锋利”

相比之下，Anthropic 对 Opus 4.7 的叙事更窄一点，但在某些地方也更锋利。

Anthropic 特别强调：

长时编码任务中的严谨性
精确的 instruction-following
filesystem memory
更好的高分辨率视觉能力
以及在 Claude、API、Bedrock、Vertex AI、Foundry 等环境中的部署[3]

因此，Claude Opus 4.7 给人的感觉就少一点“通用电脑工作模型”，多一点面向高要求技术工作流的高纪律模型。

所以差别并不是“一家重视自主性，另一家不重视”。真正的差别在于：OpenAI 把 GPT-5.5 讲成更宽的工作模型，而 Anthropic 把 Opus 4.7 讲成更严格的长程执行模型。

它们很接近，但并不完全一样。

Gemini 3.1 Pro 又是另一种方向

Google 对 Gemini 3.1 Pro 的官方定位，整体气质又不一样。

Gemini 3.1 Pro 被介绍成一个更强的 core reasoning 模型，面向更复杂的任务，并同时进入 Gemini API、Gemini CLI、Vertex AI、Gemini app、NotebookLM 等多个入口。[4]

Google 也明确表示，3.1 Pro 目前以 preview 形式发布，是为了继续推进更有野心的 agentic workflows。[4]

这点很有意思，因为它说明 Google 看到的终点，其实和 OpenAI、Anthropic 差不多。

但它的口气明显不同。

GPT-5.5 读起来像是一个已经准备好承担执行型工作的模型。而 Gemini 3.1 Pro 更像是在说：先把推理底座做得更强，再让它去支撑下一层 agent 工作流。

这看似只是微妙区别，但实际上是很大的产品差别。

OpenAI 的信息更像是：“工作模型现在就在这里。”

Google 的信息更像是：“推理底座已经强到足以支撑下一阶段的 agent 层。”

Benchmark 表很有用，但不能照单全收

这里还是要保持一点克制。

OpenAI 的发布文里给出了 GPT-5.5、GPT-5.4、Claude Opus 4.7 和 Gemini 3.1 Pro 的多项对比表。[1]

这当然有价值。它能帮助我们看到 OpenAI 认为哪些能力最重要，也能看到 OpenAI 想让 GPT-5.5 被怎样理解。

但它终究还是 OpenAI 自己选出来的比较框架。

所以更稳妥的看法应该是：

这张表能说明方向；
它能告诉我们 OpenAI 想把 GPT-5.5讲成什么样的模型；
但它不能被直接当成整个市场的中立裁决。

更深一层的信号在于，各家实验室正在用越来越相似的方式来定义“好模型”。

不再是“谁是最好的聊天机器人”，而越来越像是：

能工作更久
需要更少监督
更会用工具
更能处理歧义
更值得把工作流交给它

这才是现在市场真正变化的地方。

系统卡也在讲同一件事

GPT-5.5 的 system card 会让这一点更清楚。

OpenAI 在安全文档里把 GPT-5.5 定义成一个能写代码、做在线研究、分析信息、制作文档和电子表格，并跨工具完成任务的模型。[2]

这种措辞不是偶然的。

甚至连安全叙事本身，都已经默认前沿模型会在多工具、多步骤的工作里持续行动。OpenAI 还表示，GPT-5.5 在发布前经过了完整的预部署安全评估，并接受了针对高级网络安全和生物能力的定向红队测试。[2]

也就是说，发布文和 system card 的底层前提其实是一样的：这不是一个只为一次性 prompt 准备的模型，而是一个面向真实工作的模型。

我们的看法

GPT-5.5 之所以重要，是因为它让今天的竞争格局更容易读懂了。

OpenAI、Anthropic、Google 看起来已经不再只是争夺“谁能做出最聪明的回答引擎”。

它们更像是在争夺：谁能定义最有用的工作模型。

目前看，OpenAI 对 GPT-5.5 的叙事最宽。编码、电脑操作、研究、办公室型任务、产品整合，都被放进了同一个故事里。

Anthropic 对 Claude Opus 4.7 的叙事更集中，重心更偏向严谨性、instruction fidelity，以及长时间的技术执行能力。

Google 对 Gemini 3.1 Pro 的叙事则更偏基础层：先把 reasoning 做强，再在上面叠加更广的 agentic workflow。

这并不意味着 OpenAI 已经赢了。

但 GPT-5.5 的确让一件事变得更清楚：竞争的标准已经变了。

前沿模型之争，不再主要是谁在 demo 里看起来最聪明。

而是谁能靠更长的持续性、更稳定的执行和更广的工作覆盖面，成为真实工作中的默认选择。

这才是 GPT-5.5 真正的意义。

References

[1] OpenAI, Introducing GPT-5.5
https://openai.com/index/introducing-gpt-5-5/

[2] OpenAI, GPT-5.5 System Card
https://openai.com/index/gpt-5-5-system-card/

[3] Anthropic, Claude Opus 4.7
https://www.anthropic.com/news/claude-opus-4-7

[4] Google / Google DeepMind, Gemini 3.1 Pro: A smarter model for your most complex tasks
https://deepmind.google/blog/gemini-3-1-pro-a-smarter-model-for-your-most-complex-tasks/