Apr 18, 2026

Last updated on Apr 18, 2026

Codex 现在连图片都能生成了。这件事比看上去更重要。

OpenAI 最新的 Codex 更新里，有一个一开始听起来像次要功能的变化：图片生成。

但这并不是一个小小的附加项。

按照 OpenAI 的官方说法，Codex 现在可以在同一个工作流中使用 gpt-image-1.5 来生成和迭代修改图片，而这个工作流本身已经包括浏览器、桌面应用、终端、插件、记忆和定时自动化。表面上看，这可能像是 feature creep。但在实际意义上，它更像是在表明：OpenAI 已经不想让大家只把 Codex 理解成一个 coding assistant。

它想让 Codex 看起来更像一个更广义的 work agent。

What changed in Codex

OpenAI 自己的 framing 很有代表性。

在最新的产品文章里，公司表示 Codex 现在可以：

在你身边操作你的电脑，
在内置浏览器里工作，
使用超过 90 个插件，
记住你的偏好和过去的上下文，
把工作安排到以后执行，
自动唤醒并继续长时间任务，
以及使用 gpt-image-1.5 生成图片。

这份列表之所以重要，是因为图片生成并不是孤立加入的功能。它是作为更大 agent surface 中的一个组成部分出现的，而这个 surface 已经覆盖了 coding、browsing、desktop control、plugins、memory 和 recurring automation。

所以真正的故事并不是“Codex 有了图片生成”。

真正的故事是，OpenAI 正在把 Codex 从一个 coding-focused agent 扩展成某种更像 work environment for agents 的东西。

Why image generation is strategically interesting

图片生成在这里之所以重要，并不是因为开发者突然需要 Codex 变成一个 art tool。

重要的是，视觉内容本来就是现实中软件和产品工作的一部分。

如果你正在用 agent 来帮助处理 frontend design、product concepts、game assets、placeholder graphics、slides、mockups 或 UI 实验，那么图片生成就不是工作流之外的功能，而是工作流内部的一环。

这才是关键转变。

一旦一个 coding agent 也能生成视觉内容、查看截图、使用浏览器、在网页上评论、跨桌面应用工作并保留记忆，这个产品看起来就不再像一个狭义的 coding tool。它开始更像一个面向数字工作的 general-purpose execution surface。

OpenAI 的措辞也正好朝着这个方向推进。这篇文章的标题就是 “Codex for (almost) everything.” 这并不是隐晦的品牌表达。

Are other companies doing something similar?

是的，但并不是完全相同的方式。

Anthropic

Anthropic 也一直在把 Claude 推向文本交互之外，但它的模式不同。

它在 computer use 上的研究展示了一个模型如何直接和日常软件环境交互，而不是只能等待专门设计好的工具。Claude Code 也把 coding-agent 的故事扩展到了 tool use、long-running workflow 和更自主的 task execution 上。而在 Anthropic 更广的产品层面，你还能看到像 Claude in Chrome 和 Claude Desktop Extensions 这样的相邻扩展。

但它的强调重点依然不同。

Anthropic 的产品和研究 framing 更倾向于关注：

tool use，
long-running agent structure，
harness design，
permissions 和 safety，
以及如何在不失去控制的前提下让 agent 更自主。

这当然也是 broader agent direction，但它仍然不同于 OpenAI 当前对 Codex 的动作。后者正在试图把 coding、browser work、desktop control、memory、automations、plugins 和 image generation 展示成一个 increasingly unified agent surface 的组成部分。

Cursor 以及类似的 coding 产品

其他 coding 工具也在扩展自己的边界。比如 Cursor，就更积极地推动了 multi-file workflow、agent behavior 和以 IDE 为中心的执行方式。从更大的市场来看，coding 工具整体也在朝着 browser access、更长的 task loop 和更自主的执行方向发展。

但 OpenAI 的 Codex 之所以仍然显得突出，在于这些能力的组合。

新意不在于某一个单独功能在别处不存在。新意在于 OpenAI 正在把这一整组能力一次性地整合进同一个 agent product story 中。

What makes Codex different right now

最明显的区别在于产品的形状。

很多 coding-agent 产品仍然让人感觉像是逐渐加大触达范围的专业工具。而 Codex 已经开始看起来更像一个 unified workspace：多种不同类型的工作可以通过同一个 agent surface 来完成。

其中包括：

写代码，
处理 GitHub review comments，
使用终端，
通过 SSH 连接远程 devbox，
操作桌面应用，
浏览网页，
记住先前上下文，
安排未来任务，
以及现在的图片生成。

重要的不是某一个功能，而是这个组合本身。

一个具备 code + browser + computer use + memory + automations + image generation 的产品，不只是想赢下 coding assistant 这个类别。它更像是在试图成为工作被委托出去时所依赖的 operating surface。

Why this matters for the market

这是 coding-agent 这个类别正在变宽的最清晰信号之一。

旧的心智模型很简单：coding assistant 帮你更快地写代码。

新的模型则更有野心：一个 agent 可以跨越产品和工程工作实际依赖的各种工具，在时间中保持上下文，并在不被每次重置的情况下完成 multi-step work。

图片生成自然地嵌进了这个故事里。

它也暗示了更大的产品方向。一旦一个 agent 能在同一条工作循环里同时处理代码、视觉内容、浏览器动作和持续自动化，coding assistant 和 work agent 的边界就开始模糊。

这也许才是这次发布真正想表达的东西。

Our take

这次 Codex 更新最重要的地方，不在于 OpenAI 又加了一个功能。

更重要的是，现在这套功能组合已经宽到足以重新定义 Codex 到底应该是什么。

如果 Anthropic 一直更强调 harness design、安全层和结构化工作流中的 agent autonomy，那么 OpenAI 现在看起来更强调另外一种东西：把 Codex 做成一个可以直接接触更大数字工作空间的 agent surface。

这是两种不同的下注方式。

Anthropic 的方向更像是围绕 agent behavior 做受控的能力扩张。
而 OpenAI 的方向，至少在这次发布中，看起来更像是围绕 agent reach 扩大整个 product surface。

这就是为什么图片生成在这里重要。不是因为它最 flashy，而是因为它暴露了 Codex 正在去往哪里。

References

OpenAI, Codex for (almost) everything
https://openai.com/index/codex-for-almost-everything/
Anthropic, Developing a computer use model
https://www.anthropic.com/research/developing-computer-use
Anthropic, Claude Code
https://www.anthropic.com/product/claude-code
Anthropic, Desktop Extensions: One-click MCP server installation for Claude Desktop
https://www.anthropic.com/engineering/desktop-extensions
Anthropic, Introducing Anthropic Labs
https://www.anthropic.com/news/introducing-anthropic-labs