要用一句话概括 DeepSeek V4,其实很容易:一个拥有 1M token 上下文窗口的开源模型家族。
这句话没错,但也会让人错过这次发布更有意思的部分。
DeepSeek V4 真正重要,不只是因为它能读很多内容,而是因为 DeepSeek 试图把长上下文做成一种代理真的用得起、能接进现有工具、并且能在多步骤工作里持续运行的能力。
这和普通模型发布的故事并不一样。
最显眼的 headline 当然是 1M context
DeepSeek 的官方发布说明把这个 headline 推得非常明显。V4 Preview 已经上线,权重开源,而且主打的是 cost-effective 1M context length。[1]
产品线也被拆成了两档:
- DeepSeek-V4-Pro 是旗舰型号,
- DeepSeek-V4-Flash 是更快、更便宜的版本。[1]
如果只看到这里,这个发布看起来就像又一次长上下文竞赛的新选手。
这是最浅的一层解读。
更有价值的问题其实是:DeepSeek 到底想赢下什么样的工作?
DeepSeek 卖的并不只是一个长上下文模型
把官方文档放在一起看,方向就更清楚了。
DeepSeek 正在把 V4 推成一个能接入真实代理工作流的模型家族:
- 同时支持 OpenAI 格式和 Anthropic 格式 API,[1][4]
- 提供 Claude Code、OpenCode、OpenClaw 的直接接入说明,[5]
- 同时提供 thinking 和 non-thinking 模式,而且 thinking 默认开启,[2][3]
- 还写清楚了 tool calls、reasoning persistence、strict schema 工具执行 的具体规则。[3][4]
这不是装饰性的文案,而是产品定位。
如果一家公司只是想因为“上下文窗口很大”而得到关注,它根本没必要去写 Claude Code 的 provider routing 指南,也没必要解释工具调用之后应该如何把 reasoning state 传回去。
但如果它想成为一个代理后端,这些东西就非常必要。
长上下文只有在代理能一直用下去时才有意义
这里正是很多“1M context”发布容易被混在一起的地方。
巨大的上下文窗口在纸面上当然很唬人。但对于代理工作负载来说,窗口大本身并不够。
如果模型太贵,无法放进长循环;如果它太难接入工具型运行时;如果它在多步 reasoning 过程中太脆弱,那么 headline 里的那个数字,意义就没有想象中那么大。
DeepSeek 的官方文档看起来是理解这一点的。
尤其是价格页最能说明问题。DeepSeek V4 Pro 目前有一个到 2026-05-05 15:59 UTC 为止的 75% 限时折扣。[2] 这不是小细节,而是发布策略的一部分。
背后的赌注并不难猜:如果开发者要开始实验更长的代理循环,DeepSeek 希望价格成为他们优先试 V4 的理由之一。
真正更关键的线索,其实是 thinking mode
从技术角度看,最重要的线索并不是 1M 这个数字,而是 thinking mode 的行为方式。
DeepSeek 的官方 thinking mode 文档写得很清楚:reasoning 默认开启,而且某些复杂 agent 请求会自动把 effort 提升到 max。[3]
更关键的是,DeepSeek 把 reasoning persistence 明确写进了 API 合约里。
如果一个回合里发生了工具调用,那么模型的 reasoning_content 在后续回合里必须继续传回去。如果状态没有正确传回,API 会直接报错。[3]
这点很重要,因为它说明 DeepSeek 不是只在营销语言里说“我们也支持工具调用”,而是在暴露一个专门为 chained actions 持续推理而设计的模型行为。
换句话说,V4 更像一个被期望能撑住真实 agent loop 的模型,而不是一个偶尔调用一下函数的聊天模型。
兼容性本身就是产品故事的一部分
这次发布比普通长上下文发布更有意思的另一个原因,是迁移摩擦。
DeepSeek 并没有要求开发者学习一整套全新的世界观。
它在文档里反复强调兼容性:
- OpenAI 风格 API 支持,[1][2]
- 通过
https://api.deepseek.com/anthropic提供 Anthropic 风格接口,[2][4] - Claude Code 把 DeepSeek 作为后端的直接设置说明,[5]
- 以及 OpenClaw 和 OpenCode 的接入说明。[5]
这是一种非常现实的策略。
DeepSeek 并不需要让所有开发者更换工具。它只需要让开发者在原本已经在用的工具里,把 provider 换成自己。
这也是为什么 V4 比一般的开源模型发布更值得警惕。
价格故事让“代理角度”更有力量
限时折扣还有另一层意义。
代理工作负载会把成本放大。一轮普通聊天只是一条请求,但编码代理或研究代理可能会变成多次调用、工具执行、反复重试,以及长上下文在同一会话中的重复复用。
所以价格不只是财务问题,它会直接改变开发者愿不愿意把某个模型拿去做严肃工作流实验。
DeepSeek 的官方价格页把很多信号放在了一起:[2]
- 1M 上下文,
- 大输出上限,
- thinking mode,
- tool-call 支持,
- cache hit / miss 的价格结构,
- 以及 V4 Pro 的限时折扣。
这些信息合在一起,看上去已经不太像一页普通 API 文档,而更像是一种论证:这个模型不是拿来在 benchmark 表里观赏的,而是拿来反复投入代理工作里的。
当然,也还是要保持一点克制
这里仍然需要把线画清楚。
把 DeepSeek V4 解读成“代理模型”的最强依据之一,其实来自这些文档如何互相咬合,而不是来自已经很成熟的长期公开生产案例。
目前最清晰的外部辅助分析之一,来自 Hugging Face。那篇文章的核心判断是:V4 真正的新意,不是 headline 上的上下文窗口,而是它让长上下文在 agentic workload 里变得更实用。[6]
这个判断很有帮助,但它仍然只是一个解释,而不是最终定论。
所以最稳妥的说法应该是:
- 从官方角度看,DeepSeek 的确在把 V4 明确定位到 agentic coding 和 tool-based workflow 上;[1][3][4][5]
- 从商业角度看,它又用激进的限时价格把这个定位进一步强化;[2]
- 从编辑角度看,这让 V4 作为代理后端,比作为一个“长上下文新模型”更值得讨论。
我们的看法
DeepSeek V4 重要,是因为它让模型竞争的下一阶段变得更容易看清。
过去一段时间,长上下文更像一种炫耀数字。窗口很大当然很厉害,但开发者到底能不能拿它做出真正有用的事情,始终是另一个问题。
DeepSeek 给出的回答,看起来更像是:如果模型足够便宜、足够兼容,而且能在现有代理工具里保住 state,那么长上下文才会真正有实务价值。
所以 V4 与其说是“对长上下文本身更重要”,不如说它对代理更重要。
1M 窗口是最容易看见的 headline。
但更深的故事是,DeepSeek 正在尝试把长上下文推理变成一种能在现有编码代理环境里真正运转起来的能力。
如果这套做法有效,那么 V4 之所以重要,不是因为它在纸面上赢了上下文竞赛,而是因为它降低了运行严肃多步骤代理工作流的门槛。
这才是更值得继续观察的地方。
References
[1] DeepSeek, DeepSeek V4 Preview Release
https://api-docs.deepseek.com/news/news260424
[2] DeepSeek, Models & Pricing
https://api-docs.deepseek.com/quick_start/pricing
[3] DeepSeek, Thinking Mode
https://api-docs.deepseek.com/guides/thinking_mode
[4] DeepSeek, Tool Calls and Anthropic API
https://api-docs.deepseek.com/guides/tool_calls
https://api-docs.deepseek.com/guides/anthropic_api
[5] DeepSeek, Integrate with AI Tools
https://api-docs.deepseek.com/guides/coding_agents
[6] Hugging Face, DeepSeek-V4: a million-token context that agents can actually use
https://huggingface.co/blog/deepseekv4
Related links
General marketplace links for future gear and tool references.
Some outbound links may later become affiliate links. See the disclosure page for details.