ENZHKO
Last updated on

GPT-5.5 为什么重要:ChatGPT、Claude 与 Gemini 竞争格局的变化


OpenAI 发布了 GPT-5.5

第一眼看上去,它很容易被归类为那种熟悉的升级:模型又更聪明了一点、更快了一点、也更强了一点。

但这次发布的味道其实不太一样。

OpenAI 不再只是把 GPT-5.5 描述成一个“回答更好”的模型,而是把它描述成一个能写代码、会用工具、能操作电脑、能做研究、能做文档和表格、而且不会做一半就停下来的模型。这个变化比看上去更重要。

也正因为如此,只把 GPT-5.5 和 GPT-5.4 放在一起比较,其实只看到了问题的一半。要真正理解这个市场在往哪里走,还得把 Claude Opus 4.7Gemini 3.1 Pro 一起放进来。

OpenAI 这次真正强调的是什么

OpenAI 把 GPT-5.5 称为其“迄今最聪明、也最直观易用的模型”,并强调它在 agentic coding、computer use、knowledge work 和 early scientific research 上有明显提升。[1]

关键并不只是性能提高了。OpenAI 真正想表达的是:GPT-5.5 在更少监督下,也能接住复杂任务,自己理清歧义、调用工具、检查结果,并持续往前推进。[1][2]

这已经很难被当成普通的发布文案来看。

OpenAI 现在不只是把模型包装成“回答引擎”,而是在把它包装成一个可以把工作交给它的系统。而且这种表述不只出现在发布文里,也出现在系统卡里。

另一个值得注意的点是效率。OpenAI 表示,GPT-5.5 在真实服务环境中维持了与 GPT-5.4 相近的 per-token latency,但在 Codex 任务中能用更少 token 做出更好的结果。[1] 按照 4 月 24 日的更新,GPT-5.5 和 GPT-5.5 Pro 也已经进入 API,而不再只停留在 ChatGPT 和 Codex 里。[1]

最先要看的比较对象仍然是 GPT-5.4

最基础的比较对象还是 GPT-5.4。

按照 OpenAI 自己给出的比较表,GPT-5.5 在编码、计算机操作、知识型工作、数学和网络安全相关项目上,整体都高于 GPT-5.4。[1]

但真正更重要的,不是这些分数本身,而是它所承诺的东西变了。

  • GPT-5.4 已经是一个很强的模型。
  • GPT-5.5 则被讲成一个更能扛住长任务、脏任务、复杂任务的模型。

这其实是两种不同的叙事。

能把答案做得更好一点的模型很多,但一个能坚持更久、会用工具、会自检、而且更少需要来回重试的模型,会直接改变用户愿意交出去的工作量。这才是 OpenAI 这次真正想卖的升级点。

把 GPT-5.5 和 Claude Opus 4.7 放在一起看,会更有意思

这可能是现在市场上最值得看的比较。

Anthropic 对 Claude Opus 4.7 的描述,和 OpenAI 这次的说法相当接近:更强的高级软件工程能力、更好的长时任务表现、更严格的 instruction-following,以及在输出结果前更可靠的自我验证。[3]

换句话说,两家公司现在卖的,其实是很接近的一幅图景。

不只是更聪明的模型,而是一个可以更长时间陪你一起工作的模型。

但两边的重心并不完全一样。

为什么 OpenAI 看起来更“宽”

OpenAI 把 GPT-5.5 放进了一个更宽的工作链条里:

  • 编码
  • 计算机操作
  • 文档和表格
  • 在线研究
  • 多工具工作流
  • ChatGPT 和 Codex 里的更广泛 knowledge work[1][2]

所以这次发布读起来更像是一次模型+产品的推动,而不只是单纯的模型升级。真正的重点不只是 GPT-5.5 本身,而是 ChatGPT 和 Codex 里的 GPT-5.5

这也是为什么 OpenAI 看起来特别像是在主动推动“把前沿模型变成通用工作界面”这件事。

为什么 Anthropic 看起来更“锋利”

相比之下,Anthropic 对 Opus 4.7 的叙事更窄一点,但在某些地方也更锋利。

Anthropic 特别强调:

  • 长时编码任务中的严谨性
  • 精确的 instruction-following
  • filesystem memory
  • 更好的高分辨率视觉能力
  • 以及在 Claude、API、Bedrock、Vertex AI、Foundry 等环境中的部署[3]

因此,Claude Opus 4.7 给人的感觉就少一点“通用电脑工作模型”,多一点面向高要求技术工作流的高纪律模型

所以差别并不是“一家重视自主性,另一家不重视”。真正的差别在于:OpenAI 把 GPT-5.5 讲成更宽的工作模型,而 Anthropic 把 Opus 4.7 讲成更严格的长程执行模型

它们很接近,但并不完全一样。

Gemini 3.1 Pro 又是另一种方向

Google 对 Gemini 3.1 Pro 的官方定位,整体气质又不一样。

Gemini 3.1 Pro 被介绍成一个更强的 core reasoning 模型,面向更复杂的任务,并同时进入 Gemini API、Gemini CLI、Vertex AI、Gemini app、NotebookLM 等多个入口。[4]

Google 也明确表示,3.1 Pro 目前以 preview 形式发布,是为了继续推进更有野心的 agentic workflows。[4]

这点很有意思,因为它说明 Google 看到的终点,其实和 OpenAI、Anthropic 差不多。

但它的口气明显不同。

GPT-5.5 读起来像是一个已经准备好承担执行型工作的模型。而 Gemini 3.1 Pro 更像是在说:先把推理底座做得更强,再让它去支撑下一层 agent 工作流。

这看似只是微妙区别,但实际上是很大的产品差别。

OpenAI 的信息更像是:“工作模型现在就在这里。”

Google 的信息更像是:“推理底座已经强到足以支撑下一阶段的 agent 层。”

Benchmark 表很有用,但不能照单全收

这里还是要保持一点克制。

OpenAI 的发布文里给出了 GPT-5.5、GPT-5.4、Claude Opus 4.7 和 Gemini 3.1 Pro 的多项对比表。[1]

这当然有价值。它能帮助我们看到 OpenAI 认为哪些能力最重要,也能看到 OpenAI 想让 GPT-5.5 被怎样理解。

但它终究还是 OpenAI 自己选出来的比较框架

所以更稳妥的看法应该是:

  • 这张表能说明方向;
  • 它能告诉我们 OpenAI 想把 GPT-5.5讲成什么样的模型;
  • 但它不能被直接当成整个市场的中立裁决。

更深一层的信号在于,各家实验室正在用越来越相似的方式来定义“好模型”。

不再是“谁是最好的聊天机器人”,而越来越像是:

  • 能工作更久
  • 需要更少监督
  • 更会用工具
  • 更能处理歧义
  • 更值得把工作流交给它

这才是现在市场真正变化的地方。

系统卡也在讲同一件事

GPT-5.5 的 system card 会让这一点更清楚。

OpenAI 在安全文档里把 GPT-5.5 定义成一个能写代码、做在线研究、分析信息、制作文档和电子表格,并跨工具完成任务的模型。[2]

这种措辞不是偶然的。

甚至连安全叙事本身,都已经默认前沿模型会在多工具、多步骤的工作里持续行动。OpenAI 还表示,GPT-5.5 在发布前经过了完整的预部署安全评估,并接受了针对高级网络安全和生物能力的定向红队测试。[2]

也就是说,发布文和 system card 的底层前提其实是一样的:这不是一个只为一次性 prompt 准备的模型,而是一个面向真实工作的模型。

我们的看法

GPT-5.5 之所以重要,是因为它让今天的竞争格局更容易读懂了。

OpenAI、Anthropic、Google 看起来已经不再只是争夺“谁能做出最聪明的回答引擎”。

它们更像是在争夺:谁能定义最有用的工作模型

目前看,OpenAI 对 GPT-5.5 的叙事最宽。编码、电脑操作、研究、办公室型任务、产品整合,都被放进了同一个故事里。

Anthropic 对 Claude Opus 4.7 的叙事更集中,重心更偏向严谨性、instruction fidelity,以及长时间的技术执行能力。

Google 对 Gemini 3.1 Pro 的叙事则更偏基础层:先把 reasoning 做强,再在上面叠加更广的 agentic workflow。

这并不意味着 OpenAI 已经赢了。

但 GPT-5.5 的确让一件事变得更清楚:竞争的标准已经变了。

前沿模型之争,不再主要是谁在 demo 里看起来最聪明。

而是谁能靠更长的持续性、更稳定的执行和更广的工作覆盖面,成为真实工作中的默认选择

这才是 GPT-5.5 真正的意义。

References

[1] OpenAI, Introducing GPT-5.5
https://openai.com/index/introducing-gpt-5-5/

[2] OpenAI, GPT-5.5 System Card
https://openai.com/index/gpt-5-5-system-card/

[3] Anthropic, Claude Opus 4.7
https://www.anthropic.com/news/claude-opus-4-7

[4] Google / Google DeepMind, Gemini 3.1 Pro: A smarter model for your most complex tasks
https://deepmind.google/blog/gemini-3-1-pro-a-smarter-model-for-your-most-complex-tasks/