核心要点
- 1 trillion 参数,37B 激活:DeepSeek V4 使用了 Mixture-of-Experts 架构,每个 token 仅激活约 37B 参数 —— 尽管总参数量增加了 50%,但推理成本仍与 V3 相当。
- 81% SWE-Bench Verified:V4 摘得代码基准测试桂冠 —— 打破了 Claude Opus 4.5 此前 80.9% 的纪录。
- Engram memory 是架构上的突破:一种新型 conditional memory 系统,提供 O(1) 知识查找,在 million-token 规模下实现了 97% 的 Needle-in-a-Haystack 准确率。
- 比西方竞争对手便宜 10x:价格为 $0.30/M input tokens,V4 的价格比 GPT-5.4 ($2.50) 和 Claude ($3-15) 低了一个数量级。
- 基于 Apache 2.0 协议开源:全量模型权重可用于本地部署、微调和商业用途 —— 这是唯一具有如此开放程度的 frontier-class 模型。
DeepSeek V4:正在重写 AI 经济学的开源模型
DeepSeek 再次做到了。在 V3 证明了中国实验室能以西方成本的一小部分构建 frontier-class 模型之后,V4 将筹码提高到了每个开发者、初创公司和企业在做 AI 基础设施决策时都必须关注的水平。
1 trillion 参数。Million-token 上下文。原生多模态。81% SWE-Bench Verified。而且全部在 Apache 2.0 协议下开源,其推理成本比西方竞争对手低 10-40x。
这些说法是否能在独立审查下完全站得住脚尚在确定中。但架构创新 —— 尤其是 Engram memory —— 代表了真正的进步,无论如何都将影响整个行业的模型设计。
以下是截至 March 2026 我们所知道的一切。
发布时间线
DeepSeek V4 的发布之路略显坎坷,经历了多次窗口延期:
| 日期 | 事件 |
|---|---|
| January 2026 | Engram 论文发表 —— conditional memory 架构 |
| February 2026 (early) | 原定发布目标 —— 错过 |
| February 2026 (mid) | 第二个发布窗口 —— 同样错过 |
| Early March 2026 | 完整 V4 模型发布 |
| March 9, 2026 | "V4 Lite" 出现 在 DeepSeek 官网上 |
| March 2026 (ongoing) | 独立基准测试和社区验证 |
发布时间的推迟实际上增加了人们的期待。当 V4 发布时,关于 Engram 的论文已经引起了广泛讨论,期望值非常高。
架构深度解析
Trillion 规模的 Mixture-of-Experts
DeepSeek V4 延续了使 V3 如此高效的 MoE 架构,但进行了剧烈的规模扩张:
| 指标 | DeepSeek V3 | DeepSeek V4 |
|---|---|---|
| 总参数量 | 671B | ~1T |
| 激活参数量 | ~37B | ~37B |
| 上下文窗口 | 128K | 1M |
| 架构 | MoE | MoE + Engram |
| 多模态 | 仅限文本 | 文本 + 图像 + 视频 |
| 许可协议 | Apache 2.0 | Apache 2.0 |
核心见解:总参数量增加了 50%,但每个 token 的激活参数量保持在约 37B 不变。这意味着 V4 可以访问更多的知识和能力,而不会按比例增加推理成本。
Engram:记忆革命
Engram 是 V4 在架构上最重要的创新。DeepSeek 在 January 2026 的论文(“Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”)中详细介绍了它,旨在解决 Transformers 的一个根本局限。
问题:传统的 Transformers 以同样的方式处理每一条知识 —— 通过计算。无论模型是需要回忆“巴黎是法国的首都”(静态事实),还是推理复杂的代码重构(动态计算),它都使用相同的 attention 机制。这是一种浪费。
Engram 的解决方案:为静态、确定性知识添加一个独立的记忆系统。Engram 不通过多个 attention 层计算“法国的首都是哪里?”的答案,而是提供 O(1) 确定性查找 —— 本质上是一个用于事实知识的学习型哈希表。
核心发现 —— Sparsity Allocation Law:DeepSeek 的研究揭示,在固定的稀疏参数预算下,最佳分配大约是 20-25% memory (Engram) 和 75-80% computation (MoE)。这一比例最大化了召回准确率和推理能力。
性能影响:Engram 在 million-token 上下文规模下实现了 97% Needle-in-a-Haystack 准确率,解决了困扰标准 Transformer 架构的检索衰减问题。在 1M tokens 时,大多数模型的检索准确率会降至 80% 以下。配备 Engram 的 V4 保持在 97%。
DeepSeek Sparse Attention (DSA)
除了 Engram,V4 还引入了 DeepSeek Sparse Attention —— 一种根据输入复杂度动态分配计算量的 attention 机制。简单的段落使用轻量级 attention;复杂的推理段落则使用完整的 attention 深度。
这正是使 million-token 上下文窗口变得实用的原因。如果没有 DSA,即使以 DeepSeek 的低成本,处理 1M tokens 的费用也将极其昂贵。有了它,大部分上下文窗口都能被高效处理,将完整的计算量留给需要的部分。
Manifold-Constrained Hyper-Connections
第三项架构创新是 Manifold-Constrained Hyper-Connections —— 一种在训练期间改善梯度流的技术。实际结果是在 trillion-parameter 规模下训练更加稳定,这部分解释了 DeepSeek 如何以西方成本的一小部分完成 V4 的训练。
基准测试分析
数据展示
| 基准测试 | DeepSeek V4 | Claude Opus 4.5 | GPT-5.4 | 备注 |
|---|---|---|---|---|
| SWE-Bench Verified | 81% | 80.9% | ~82% | V4 打破此前纪录 |
| HumanEval | 90% | ~88% | ~90% | 代码生成 |
| 上下文 (NIAH) | 97% @ 1M | 95% @ 200K | 96% @ 1M | Engram 优势 |
| 多模态 | 原生 | N/A | 原生 | 文本 + 图像 + 视频 |
注意:独立验证
需要注意的是,截至 March 2026 下旬,这些数据中有许多来自内部基准测试。在来自 Artificial Analysis、LMSYS 或独立研究人员等机构的第三方评估完全确认这些说法之前,应将这些确切百分比视为预期目标而非最终定论。
尽管如此,V3 的基准测试很大程度上得到了独立测试的证实,这赋予了 DeepSeek 可信度,表明这些 V4 数据处于合理的范围内。
价格:成本革命在继续
DeepSeek V4 的定价是其最具颠覆性的特征:
| 模型 | 输入价格 (每 M tokens) | 输出价格 (每 M tokens) | 缓存命中价格 |
|---|---|---|---|
| DeepSeek V4 | $0.30 | $0.50 | $0.03 |
| GPT-5.4 | $2.50 | $15.00 | N/A |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 |
| Claude Opus 4.6 | $15.00 | $75.00 | $1.50 |
缓存命中定价尤其引人注目:如果你的 prompt 共享相同的公共前缀(在生产应用中几乎总是如此),缓存的输入 tokens 仅需 $0.03 每百万 —— 相当于 90% 的折扣。
这在实践中意味着什么
对于一个每月处理 100M tokens 的典型应用开发者:
| 提供商 | 每月成本 |
|---|---|
| DeepSeek V4 | ~$40-80 |
| GPT-5.4 | ~$500-1,500 |
| Claude Sonnet 4.6 | ~$600-1,800 |
| Claude Opus 4.6 | ~$3,000-9,000 |
这种 10-40x 的成本优势是 DeepSeek 对更广泛的 AI 生态系统至关重要的原因。它让独立开发者、小型初创公司和对成本敏感的企业团队都能用上 frontier-class AI。
像 ZBuild 这样的平台可以将 DeepSeek V4 集成为后端模型选项,将这些巨大的成本节约直接传递给构建 AI 驱动应用的。
原生多模态:文本、图像和视频
与仅限文本的 V3 不同,V4 是原生多模态的。据 Financial Times 报道,V4 在预训练阶段就整合了文本、图像和视频生成,而不是将视觉作为单独的模块接入。
这很重要,因为:
- 跨模态推理更加连贯 —— 模型能够原生理解文本描述与视觉内容之间的关系
- 图像和视频理解 —— V4 可以与文本一起分析截图、图表和视频帧
- 生成能力 —— 早期报告表明支持 text-to-image 和 text-to-video 生成,尽管质量评估仍在进行中
对于构建处理视觉内容(如文档分析、UI 设计、视频摘要)应用的开发者来说,原生多模态支持消除了对单独视觉 API 的需求。
实际多模态用例
原生多模态整合开启了几个实际的工作流:
- 从截图生成代码:提供 UI 设计的截图,V4 即可生成相应的代码 —— HTML/CSS、React 组件或 SwiftUI 视图
- 图表理解:输入架构图、流程图或数据库模式,V4 即可解释设计、识别问题或生成实现代码
- 文档处理:从扫描的文档、发票和表格中提取结构化数据,无需单独的 OCR 流水线
- 视频摘要:处理视频帧以生成摘要、转录稿或提取关键时刻
对于像 ZBuild 这样的应用构建工具,原生多模态意味着用户可以直接上传原型图和截图作为应用创建工作流的一部分 —— AI 可以在无需额外工具的情况下理解视觉上下文。
开源影响力
DeepSeek V4 的 Apache 2.0 许可协议可能比它的基准测试分数更有意义。它实现了以下可能:
私有化部署
对数据主权有要求的组织可以在自己的基础设施上运行 V4。没有 API 调用,数据不出大楼,没有供应商依赖。每 token 约 37B 的激活参数使其能够在高端企业级 GPU 集群上运行。
微调
开放权重允许进行特定领域的微调 —— 医疗、法律、金融或任何专门的垂直领域。这对于 OpenAI 或 Anthropic 的专有模型来说是不可能的。
研究
完整的架构细节和训练方法使研究社区能够在 DeepSeek 的创新基础上继续构建。Engram memory、DSA 和 Manifold-Constrained Hyper-Connections 都可供研究和改进。
成本控制
除了 DeepSeek 已经很低的 API 价格外,大规模私有化部署可以进一步降低每 token 成本。对于每月处理数十亿 tokens 的高业务量应用,私有化部署 V4 的成本可能比专有 API 定价便宜 100x。
DeepSeek V4 对比 V3:你应该升级吗?
对于现有的 DeepSeek V3 用户,这里有升级评估:
| 特性 | V3 | V4 | 升级影响 |
|---|---|---|---|
| 上下文窗口 | 128K | 1M | 高 —— 支持 codebase 规模的分析 |
| SWE-Bench | 69% | 81% | 高 —— 12 点的提升 |
| 多模态 | 仅限文本 | 文本 + 图像 + 视频 | 中 —— 取决于用例 |
| Engram Memory | 否 | 是 | 高 —— 检索效果显著提升 |
| API 价格 | $0.27/M input | $0.30/M input | 低 —— 极小的成本增加 |
| 架构 | MoE | MoE + Engram + DSA | 高 —— 从根本上更优 |
结论:建议升级。成本增加微乎其微,而能力提升 —— 尤其是 Engram memory 和 million-token 上下文 —— 非常显著。留在 V3 的唯一理由是你的生产工作负载需要当前模型完全一致的行为表现。
DeepSeek V4 如何融入开发者生态系统
对于独立开发者和初创公司
V4 的定价使得初创公司预算也能负担得起 frontier-class AI。结合 Apache 2.0 许可,你可以构建并部署生产应用,而不必担心 API 成本的扩张。集成多个模型提供商的工具(如 ZBuild)可以让你在利用 DeepSeek V4 成本优势的同时,保持在需要时将特定任务路由到其他模型的能力。
对于企业团队
私有化部署选项同时解决了数据主权、合规性和成本问题。微调能力意味着你可以构建在特定垂直领域优于通用替代方案的模型。
对于研究人员
开放架构是一个金矿。仅 Engram memory 就开启了多个研究方向 —— conditional memory 架构、稀疏性分配优化以及混合检索-计算系统。
对于 AI 行业
V4 迫使每个 frontier 模型提供商证明其定价的合理性。当一个开源模型能以 10x 较低的成本匹配或超过专有模型基准测试时,闭源模型的价值主张就从“更好的性能”转向了“更好的集成、支持和可靠性”。
风险与不确定性
基准测试验证
81% SWE-Bench 的说法需要独立确认。DeepSeek 在 V3 基准测试方面一直值得信赖,但 trillion-parameter 模型的评估更难保持一致。在根据确切数字做出基础设施决策之前,请等待 Artificial Analysis 和 LMSYS 的结果。
地缘政治风险
DeepSeek 是一家中国公司,中美技术紧张局势仍在持续。出口管制、API 访问限制或政治压力可能会影响西方开发者的可用性。使用开放权重进行私有化部署可以减轻但不能消除这种风险。
多模态质量
多模态能力是 V4 测试最少的部分。图像和视频理解的质量需要内部基准测试之外的真实世界验证。
支持与可靠性
开源意味着社区支持,而非企业级 SLA。如果你的生产应用依赖于 V4,你需要自己负责正常运行时间、扩展和调试。DeepSeek 的 API 服务一直很可靠,但它不提供像 OpenAI 或 Anthropic 那样的企业级支持基础设施。
总结
DeepSeek V4 是 2026 至今发布的最重要的开源 AI 模型。它结合了 trillion-parameter 规模、Engram memory 创新、million-token 上下文、原生多模态能力,以及在 Apache 2.0 许可下极具竞争力的低价格,使其成为专有 frontier 模型的真正替代方案。
虽然风险确实存在 —— 基准测试验证正在进行、地缘政治风险以及企业支持有限。但对于愿意应对这些不确定性的开发者和组织来说,V4 以一小部分成本提供了 frontier-class 的能力。
无论你是通过 DeepSeek 的 API 访问、在自己的基础设施上私有化部署,还是通过集成多个模型提供商的平台(如 ZBuild)使用它,DeepSeek V4 都值得在你的 AI 工具箱中占有一席之地。
常见问题
我可以在消费级硬件上私有化部署 DeepSeek V4 吗?
实际操作中不可行。虽然该模型每个 token 仅激活约 37B 参数,但托管完整的 1T 参数 MoE 模型需要巨大的 GPU 内存来存放专家路由表。你需要企业级 GPU 集群(多个 A100 或 H100)。对于大多数开发者来说,除非每月处理数十亿个 tokens,否则使用 DeepSeek $0.30/M input tokens 的 API 比私有化部署要划算得多。
V4 Lite 与完整版 V4 模型有什么区别?
DeepSeek V4 Lite 于 March 9, 2026 出现在 DeepSeek 官网,但尚未公布官方规格。根据 DeepSeek 对 V3 的命名习惯,“Lite” 可能指的是经过蒸馏或较小的变体,以牺牲部分能力为代价优化了速度和成本。预计它会更快、更便宜,但在复杂推理任务上的性能会有所下降。
DeepSeek V4 是否对某些话题进行了审查?
与所有中国 AI 模型一样,DeepSeek V4 对政治敏感话题(尤其是与中国政治和治理相关的话题)设有内容过滤。对于一般的开发、编码和技术用例,这种过滤影响极小。对于涉及敏感政治内容或无限制生成的应用,这是一个需要权衡的因素。
V4 最擅长哪些编程语言?
根据 SWE-Bench 的结果(主要测试 Python、JavaScript 和 Java),V4 在主流语言方面表现出色。社区报告显示它在 Python、JavaScript/TypeScript、Java、Go、Rust 和 C++ 方面都有很强的表现。由于训练数据分布的原因,像 Haskell、Elixir 或 Zig 这样不太常见的语言可能支持较弱。
在私有化部署方面,DeepSeek V4 与 Llama 4 相比如何?
两者都是开源的,并提供宽松的许可协议。DeepSeek V4 的 MoE 架构搭配约 37B 的激活参数,比稠密模型(dense models)提供更好的单位计算性能。Llama 4 的优势在于 Meta 更大的生态系统和社区支持。如果看单位成本的能力,V4 可能会胜出。如果看社区工具和微调生态系统,Llama 可能更容易上手。
来源
- DeepSeek V4: Engram Architecture Revealed
- DeepSeek V4: What's Next — Architecture, DSA, Engram & More
- Introl: DeepSeek V4's 1-Trillion Parameter Architecture
- ByteIota: DeepSeek V4 Targets 80.9% SWE-Bench Record
- CyberNews: DeepSeek V4 Review
- Evolink: DeepSeek V4 Release Date
- PromptZone: DeepSeek V4 Status Report March 2026
- VERTU: DeepSeek V4 Engram Architecture
- Kili Technology: DeepSeek V4 Guide
- Evermx: DeepSeek V4 Multimodal Launch
- RecodeChina: DeepSeek's Next Move
- DeepSeek V4 Status and Leaks