DeepSeek V4 发布：与其说是长上下文模型，不如说更接近代理模型

要用一句话概括 DeepSeek V4，其实很容易：一个拥有 1M token 上下文窗口的开源模型家族。

这句话没错，但也会让人错过这次发布更有意思的部分。

DeepSeek V4 真正重要，不只是因为它能读很多内容，而是因为 DeepSeek 试图把长上下文做成一种代理真的用得起、能接进现有工具、并且能在多步骤工作里持续运行的能力。

这和普通模型发布的故事并不一样。

最显眼的 headline 当然是 1M context

DeepSeek 的官方发布说明把这个 headline 推得非常明显。V4 Preview 已经上线，权重开源，而且主打的是 cost-effective 1M context length。[1]

产品线也被拆成了两档：

DeepSeek-V4-Pro 是旗舰型号，
DeepSeek-V4-Flash 是更快、更便宜的版本。[1]

如果只看到这里，这个发布看起来就像又一次长上下文竞赛的新选手。

这是最浅的一层解读。

更有价值的问题其实是：DeepSeek 到底想赢下什么样的工作？

DeepSeek 卖的并不只是一个长上下文模型

把官方文档放在一起看，方向就更清楚了。

DeepSeek 正在把 V4 推成一个能接入真实代理工作流的模型家族：

同时支持 OpenAI 格式和 Anthropic 格式 API，[1][4]
提供 Claude Code、OpenCode、OpenClaw 的直接接入说明，[5]
同时提供 thinking 和 non-thinking 模式，而且 thinking 默认开启，[2][3]
还写清楚了 tool calls、reasoning persistence、strict schema 工具执行 的具体规则。[3][4]

这不是装饰性的文案，而是产品定位。

如果一家公司只是想因为“上下文窗口很大”而得到关注，它根本没必要去写 Claude Code 的 provider routing 指南，也没必要解释工具调用之后应该如何把 reasoning state 传回去。

但如果它想成为一个代理后端，这些东西就非常必要。

长上下文只有在代理能一直用下去时才有意义

这里正是很多“1M context”发布容易被混在一起的地方。

巨大的上下文窗口在纸面上当然很唬人。但对于代理工作负载来说，窗口大本身并不够。

如果模型太贵，无法放进长循环；如果它太难接入工具型运行时；如果它在多步 reasoning 过程中太脆弱，那么 headline 里的那个数字，意义就没有想象中那么大。

DeepSeek 的官方文档看起来是理解这一点的。

尤其是价格页最能说明问题。DeepSeek V4 Pro 目前有一个到 2026-05-05 15:59 UTC 为止的 75% 限时折扣。[2] 这不是小细节，而是发布策略的一部分。

背后的赌注并不难猜：如果开发者要开始实验更长的代理循环，DeepSeek 希望价格成为他们优先试 V4 的理由之一。

真正更关键的线索，其实是 thinking mode

从技术角度看，最重要的线索并不是 1M 这个数字，而是 thinking mode 的行为方式。

DeepSeek 的官方 thinking mode 文档写得很清楚：reasoning 默认开启，而且某些复杂 agent 请求会自动把 effort 提升到 max。[3]

更关键的是，DeepSeek 把 reasoning persistence 明确写进了 API 合约里。

如果一个回合里发生了工具调用，那么模型的 reasoning_content 在后续回合里必须继续传回去。如果状态没有正确传回，API 会直接报错。[3]

这点很重要，因为它说明 DeepSeek 不是只在营销语言里说“我们也支持工具调用”，而是在暴露一个专门为 chained actions 持续推理而设计的模型行为。

换句话说，V4 更像一个被期望能撑住真实 agent loop 的模型，而不是一个偶尔调用一下函数的聊天模型。

兼容性本身就是产品故事的一部分

这次发布比普通长上下文发布更有意思的另一个原因，是迁移摩擦。

DeepSeek 并没有要求开发者学习一整套全新的世界观。

它在文档里反复强调兼容性：

OpenAI 风格 API 支持，[1][2]
通过 https://api.deepseek.com/anthropic 提供 Anthropic 风格接口，[2][4]
Claude Code 把 DeepSeek 作为后端的直接设置说明，[5]
以及 OpenClaw 和 OpenCode 的接入说明。[5]

这是一种非常现实的策略。

DeepSeek 并不需要让所有开发者更换工具。它只需要让开发者在原本已经在用的工具里，把 provider 换成自己。

这也是为什么 V4 比一般的开源模型发布更值得警惕。

价格故事让“代理角度”更有力量

限时折扣还有另一层意义。

代理工作负载会把成本放大。一轮普通聊天只是一条请求，但编码代理或研究代理可能会变成多次调用、工具执行、反复重试，以及长上下文在同一会话中的重复复用。

所以价格不只是财务问题，它会直接改变开发者愿不愿意把某个模型拿去做严肃工作流实验。

DeepSeek 的官方价格页把很多信号放在了一起：[2]

1M 上下文，
大输出上限，
thinking mode，
tool-call 支持，
cache hit / miss 的价格结构，
以及 V4 Pro 的限时折扣。

这些信息合在一起，看上去已经不太像一页普通 API 文档，而更像是一种论证：这个模型不是拿来在 benchmark 表里观赏的，而是拿来反复投入代理工作里的。

当然，也还是要保持一点克制

这里仍然需要把线画清楚。

把 DeepSeek V4 解读成“代理模型”的最强依据之一，其实来自这些文档如何互相咬合，而不是来自已经很成熟的长期公开生产案例。

目前最清晰的外部辅助分析之一，来自 Hugging Face。那篇文章的核心判断是：V4 真正的新意，不是 headline 上的上下文窗口，而是它让长上下文在 agentic workload 里变得更实用。[6]

这个判断很有帮助，但它仍然只是一个解释，而不是最终定论。

所以最稳妥的说法应该是：

从官方角度看，DeepSeek 的确在把 V4 明确定位到 agentic coding 和 tool-based workflow 上；[1][3][4][5]
从商业角度看，它又用激进的限时价格把这个定位进一步强化；[2]
从编辑角度看，这让 V4 作为代理后端，比作为一个“长上下文新模型”更值得讨论。