OpenAI 发布了 GPT-5.5。
第一眼看上去,它很容易被归类为那种熟悉的升级:模型又更聪明了一点、更快了一点、也更强了一点。
但这次发布的味道其实不太一样。
OpenAI 不再只是把 GPT-5.5 描述成一个“回答更好”的模型,而是把它描述成一个能写代码、会用工具、能操作电脑、能做研究、能做文档和表格、而且不会做一半就停下来的模型。这个变化比看上去更重要。
也正因为如此,只把 GPT-5.5 和 GPT-5.4 放在一起比较,其实只看到了问题的一半。要真正理解这个市场在往哪里走,还得把 Claude Opus 4.7 和 Gemini 3.1 Pro 一起放进来。
OpenAI 这次真正强调的是什么
OpenAI 把 GPT-5.5 称为其“迄今最聪明、也最直观易用的模型”,并强调它在 agentic coding、computer use、knowledge work 和 early scientific research 上有明显提升。[1]
关键并不只是性能提高了。OpenAI 真正想表达的是:GPT-5.5 在更少监督下,也能接住复杂任务,自己理清歧义、调用工具、检查结果,并持续往前推进。[1][2]
这已经很难被当成普通的发布文案来看。
OpenAI 现在不只是把模型包装成“回答引擎”,而是在把它包装成一个可以把工作交给它的系统。而且这种表述不只出现在发布文里,也出现在系统卡里。
另一个值得注意的点是效率。OpenAI 表示,GPT-5.5 在真实服务环境中维持了与 GPT-5.4 相近的 per-token latency,但在 Codex 任务中能用更少 token 做出更好的结果。[1] 按照 4 月 24 日的更新,GPT-5.5 和 GPT-5.5 Pro 也已经进入 API,而不再只停留在 ChatGPT 和 Codex 里。[1]
最先要看的比较对象仍然是 GPT-5.4
最基础的比较对象还是 GPT-5.4。
按照 OpenAI 自己给出的比较表,GPT-5.5 在编码、计算机操作、知识型工作、数学和网络安全相关项目上,整体都高于 GPT-5.4。[1]
但真正更重要的,不是这些分数本身,而是它所承诺的东西变了。
- GPT-5.4 已经是一个很强的模型。
- GPT-5.5 则被讲成一个更能扛住长任务、脏任务、复杂任务的模型。
这其实是两种不同的叙事。
能把答案做得更好一点的模型很多,但一个能坚持更久、会用工具、会自检、而且更少需要来回重试的模型,会直接改变用户愿意交出去的工作量。这才是 OpenAI 这次真正想卖的升级点。
把 GPT-5.5 和 Claude Opus 4.7 放在一起看,会更有意思
这可能是现在市场上最值得看的比较。
Anthropic 对 Claude Opus 4.7 的描述,和 OpenAI 这次的说法相当接近:更强的高级软件工程能力、更好的长时任务表现、更严格的 instruction-following,以及在输出结果前更可靠的自我验证。[3]
换句话说,两家公司现在卖的,其实是很接近的一幅图景。
不只是更聪明的模型,而是一个可以更长时间陪你一起工作的模型。
但两边的重心并不完全一样。
为什么 OpenAI 看起来更“宽”
OpenAI 把 GPT-5.5 放进了一个更宽的工作链条里:
- 编码
- 计算机操作
- 文档和表格
- 在线研究
- 多工具工作流
- ChatGPT 和 Codex 里的更广泛 knowledge work[1][2]
所以这次发布读起来更像是一次模型+产品的推动,而不只是单纯的模型升级。真正的重点不只是 GPT-5.5 本身,而是 ChatGPT 和 Codex 里的 GPT-5.5。
这也是为什么 OpenAI 看起来特别像是在主动推动“把前沿模型变成通用工作界面”这件事。
为什么 Anthropic 看起来更“锋利”
相比之下,Anthropic 对 Opus 4.7 的叙事更窄一点,但在某些地方也更锋利。
Anthropic 特别强调:
- 长时编码任务中的严谨性
- 精确的 instruction-following
- filesystem memory
- 更好的高分辨率视觉能力
- 以及在 Claude、API、Bedrock、Vertex AI、Foundry 等环境中的部署[3]
因此,Claude Opus 4.7 给人的感觉就少一点“通用电脑工作模型”,多一点面向高要求技术工作流的高纪律模型。
所以差别并不是“一家重视自主性,另一家不重视”。真正的差别在于:OpenAI 把 GPT-5.5 讲成更宽的工作模型,而 Anthropic 把 Opus 4.7 讲成更严格的长程执行模型。
它们很接近,但并不完全一样。
Gemini 3.1 Pro 又是另一种方向
Google 对 Gemini 3.1 Pro 的官方定位,整体气质又不一样。
Gemini 3.1 Pro 被介绍成一个更强的 core reasoning 模型,面向更复杂的任务,并同时进入 Gemini API、Gemini CLI、Vertex AI、Gemini app、NotebookLM 等多个入口。[4]
Google 也明确表示,3.1 Pro 目前以 preview 形式发布,是为了继续推进更有野心的 agentic workflows。[4]
这点很有意思,因为它说明 Google 看到的终点,其实和 OpenAI、Anthropic 差不多。
但它的口气明显不同。
GPT-5.5 读起来像是一个已经准备好承担执行型工作的模型。而 Gemini 3.1 Pro 更像是在说:先把推理底座做得更强,再让它去支撑下一层 agent 工作流。
这看似只是微妙区别,但实际上是很大的产品差别。
OpenAI 的信息更像是:“工作模型现在就在这里。”
Google 的信息更像是:“推理底座已经强到足以支撑下一阶段的 agent 层。”
Benchmark 表很有用,但不能照单全收
这里还是要保持一点克制。
OpenAI 的发布文里给出了 GPT-5.5、GPT-5.4、Claude Opus 4.7 和 Gemini 3.1 Pro 的多项对比表。[1]
这当然有价值。它能帮助我们看到 OpenAI 认为哪些能力最重要,也能看到 OpenAI 想让 GPT-5.5 被怎样理解。
但它终究还是 OpenAI 自己选出来的比较框架。
所以更稳妥的看法应该是:
- 这张表能说明方向;
- 它能告诉我们 OpenAI 想把 GPT-5.5讲成什么样的模型;
- 但它不能被直接当成整个市场的中立裁决。
更深一层的信号在于,各家实验室正在用越来越相似的方式来定义“好模型”。
不再是“谁是最好的聊天机器人”,而越来越像是:
- 能工作更久
- 需要更少监督
- 更会用工具
- 更能处理歧义
- 更值得把工作流交给它
这才是现在市场真正变化的地方。
系统卡也在讲同一件事
GPT-5.5 的 system card 会让这一点更清楚。
OpenAI 在安全文档里把 GPT-5.5 定义成一个能写代码、做在线研究、分析信息、制作文档和电子表格,并跨工具完成任务的模型。[2]
这种措辞不是偶然的。
甚至连安全叙事本身,都已经默认前沿模型会在多工具、多步骤的工作里持续行动。OpenAI 还表示,GPT-5.5 在发布前经过了完整的预部署安全评估,并接受了针对高级网络安全和生物能力的定向红队测试。[2]
也就是说,发布文和 system card 的底层前提其实是一样的:这不是一个只为一次性 prompt 准备的模型,而是一个面向真实工作的模型。
我们的看法
GPT-5.5 之所以重要,是因为它让今天的竞争格局更容易读懂了。
OpenAI、Anthropic、Google 看起来已经不再只是争夺“谁能做出最聪明的回答引擎”。
它们更像是在争夺:谁能定义最有用的工作模型。
目前看,OpenAI 对 GPT-5.5 的叙事最宽。编码、电脑操作、研究、办公室型任务、产品整合,都被放进了同一个故事里。
Anthropic 对 Claude Opus 4.7 的叙事更集中,重心更偏向严谨性、instruction fidelity,以及长时间的技术执行能力。
Google 对 Gemini 3.1 Pro 的叙事则更偏基础层:先把 reasoning 做强,再在上面叠加更广的 agentic workflow。
这并不意味着 OpenAI 已经赢了。
但 GPT-5.5 的确让一件事变得更清楚:竞争的标准已经变了。
前沿模型之争,不再主要是谁在 demo 里看起来最聪明。
而是谁能靠更长的持续性、更稳定的执行和更广的工作覆盖面,成为真实工作中的默认选择。
这才是 GPT-5.5 真正的意义。
References
[1] OpenAI, Introducing GPT-5.5
https://openai.com/index/introducing-gpt-5-5/
[2] OpenAI, GPT-5.5 System Card
https://openai.com/index/gpt-5-5-system-card/
[3] Anthropic, Claude Opus 4.7
https://www.anthropic.com/news/claude-opus-4-7
[4] Google / Google DeepMind, Gemini 3.1 Pro: A smarter model for your most complex tasks
https://deepmind.google/blog/gemini-3-1-pro-a-smarter-model-for-your-most-complex-tasks/