重點摘要
- 1 trillion 參數,37B 啟動:DeepSeek V4 使用 Mixture-of-Experts 架構,每個 token 僅啟動約 37B 參數 — 儘管總參數增加 50%,推論成本仍與 V3 相當。
- 81% SWE-Bench Verified:V4 奪得程式編碼基準測試桂冠 — 打破了 Claude Opus 4.5 之前 80.9% 的紀錄。
- Engram 記憶體是架構上的突破:一個全新的條件式記憶體系統,提供 O(1) 知識檢索,在百萬級別 token 規模的 Needle-in-a-Haystack 測試中達到 97% 的準確率。
- 比西方競爭對手便宜 10 倍:每 1M input tokens 僅需 $0.30,V4 的價格比 GPT-5.4 ($2.50) 和 Claude ($3-15) 低了一個數量級。
- 在 Apache 2.0 協議下開源:提供完整模型權重用於本地部署、微調和商業用途 — 這是唯一具備此等開放程度的前沿級別模型。
DeepSeek V4:正在改寫 AI 經濟學的開源模型
DeepSeek 再次做到了。在 V3 證明了中國實驗室能以西方成本的一小部分構建前沿級別模型後,V4 將籌碼提高到了讓每個開發者、新創公司和企業在做 AI 基礎設施決策時都必須關注的高度。
1 trillion 參數。百萬級 token 上下文。原生多模態。81% SWE-Bench Verified。而且全部在 Apache 2.0 協議下開源,推論成本比西方競爭對手低 10-40 倍。
這些主張是否能在獨立審查下完全站得住腳仍有待觀察。但其架構創新 — 特別是 Engram 記憶體 — 代表了真正的進步,無論如何都將影響整個行業的模型設計。
以下是截至 March 2026 我們所知道的一切。
發佈時間線
DeepSeek V4 的發佈之路頗為坎坷,經歷了多次延期:
| 日期 | 事件 |
|---|---|
| January 2026 | 發佈 Engram 論文 — 條件式記憶體架構 |
| February 2026 (early) | 原始發佈目標 — 未達成 |
| February 2026 (mid) | 第二次發佈窗口 — 同樣未達成 |
| Early March 2026 | 完整 V4 模型正式上線 |
| March 9, 2026 | "V4 Lite" 出現 在 DeepSeek 官網 |
| March 2026 (ongoing) | 獨立基準測試與社群驗證進行中 |
延遲的時間線實際上增加了大眾的期待。在 V4 正式發佈時,Engram 論文已經被廣泛討論,期待值達到了頂峰。
架構深度解析
Trillion 規模的 Mixture-of-Experts
DeepSeek V4 延續了讓 V3 如此高效的 MoE 架構,但規模大幅提升:
| 指標 | DeepSeek V3 | DeepSeek V4 |
|---|---|---|
| 總參數 (Total Parameters) | 671B | ~1T |
| 啟動參數 (Active Parameters) | ~37B | ~37B |
| 上下文窗口 (Context Window) | 128K | 1M |
| 架構 (Architecture) | MoE | MoE + Engram |
| 多模態 (Multimodal) | 僅限文字 | 文字 + 圖片 + 影片 |
| 授權協議 (License) | Apache 2.0 | Apache 2.0 |
核心洞察:總參數增加了 50%,但每個 token 的啟動參數保持在 ~37B。這意味著 V4 可以獲取更多的知識與能力,而不會成比例地增加推論成本。
Engram:記憶體革命
Engram 是 V4 在架構上最重要的創新。在 DeepSeek 的 January 2026 論文 ("Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models") 中詳細介紹,它解決了 Transformers 的一個根本限制。
問題所在:傳統的 Transformers 對每一條知識都以相同的方式處理 — 透過計算。無論模型是需要回想「巴黎是法國的首都」(靜態事實),還是推理一段複雜的程式碼重構(動態計算),它都使用相同的 attention 機制。這是非常浪費的。
Engram 的解決方案:為靜態、確定性的知識增加一個獨立的記憶體系統。與其透過多層 attention 計算來得出「法國的首都是哪裡?」的答案,Engram 提供 O(1) 確定性檢索 — 本質上是一個用於事實知識的學習型雜湊表 (hash table)。
關鍵發現 — 稀疏性分配定律 (Sparsity Allocation Law):DeepSeek 的研究揭示,在固定的稀疏參數預算下,最佳的分配比例約為 20-25% 記憶體 (Engram) 和 75-80% 計算 (MoE)。這個比例能同時極大化回想準確度和推理能力。
效能影響:Engram 在百萬 token 上下文規模下實現了 97% 的 Needle-in-a-Haystack 準確率,解決了困擾標準 Transformer 架構的檢索退化問題。在 1M token 時,大多數模型的檢索準確率會降至 80% 以下,而配備 Engram 的 V4 仍能維持 97%。
DeepSeek Sparse Attention (DSA)
除了 Engram,V4 還引入了 DeepSeek Sparse Attention — 一種根據輸入複雜度動態分配計算資源的 attention 機制。簡單的段落使用輕量級 attention;複雜的推理段落則獲得完整的 attention 深度。
這正是讓百萬級 token 上下文窗口變得實用的原因。如果沒有 DSA,即使在 DeepSeek 的低成本下,處理 1M tokens 的費用也會高得令人卻步。有了它,大部分上下文窗口都能被高效處理,將完整計算資源保留給需要它的部分。
流形約束超連接 (Manifold-Constrained Hyper-Connections)
第三項架構創新是 Manifold-Constrained Hyper-Connections — 一種在訓練期間改善梯度流的技術。其實際結果是在 trillion 級參數規模下實現了更穩定的訓練,這在一定程度上解釋了 DeepSeek 如何能以西方成本的一小部分完成 V4 的訓練。
基準測試分析
數據表現
| 基準測試 | DeepSeek V4 | Claude Opus 4.5 | GPT-5.4 | 備註 |
|---|---|---|---|---|
| SWE-Bench Verified | 81% | 80.9% | ~82% | V4 打破先前紀錄 |
| HumanEval | 90% | ~88% | ~90% | 程式碼生成 |
| 上下文 (NIAH) | 97% @ 1M | 95% @ 200K | 96% @ 1M | Engram 優勢 |
| 多模態 | 原生 | N/A | 原生 | 文字 + 圖片 + 影片 |
注意事項:獨立驗證
需要注意的是,截至 March 2026 底,許多數據來自內部基準測試。在 Artificial Analysis、LMSYS 或獨立研究人員等組織進行的第三方評估完全確認這些主張之前,請將這些具體百分比視為理想目標而非最終定論。
儘管如此,V3 的基準測試在很大程度上得到了獨立測試的證實,這賦予了 DeepSeek 可信度,說明這些 V4 的數據在合理的範圍內。
定價:成本革命持續進行
DeepSeek V4 的定價是其最具顛覆性的特點:
| 模型 | Input 價格 (每 M tokens) | Output 價格 (每 M tokens) | 快取命中價格 |
|---|---|---|---|
| DeepSeek V4 | $0.30 | $0.50 | $0.03 |
| GPT-5.4 | $2.50 | $15.00 | N/A |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 |
| Claude Opus 4.6 | $15.00 | $75.00 | $1.50 |
快取命中定價特別吸引人:如果您的 prompt 具有共同的前綴(這在生產環境應用中幾乎總是如此),快取的 input tokens 成本僅為每百萬 $0.03 — 相當於 90% 的折扣。
這在實踐中意味著什麼
對於一個每月處理 100M tokens 的典型應用開發者:
| 提供商 | 每月成本 |
|---|---|
| DeepSeek V4 | ~$40-80 |
| GPT-5.4 | ~$500-1,500 |
| Claude Sonnet 4.6 | ~$600-1,800 |
| Claude Opus 4.6 | ~$3,000-9,000 |
這種 10-40 倍的成本優勢正是 DeepSeek 對於更廣泛 AI 生態系統具有重要意義的原因。它讓獨立開發者、小型新創公司和對成本敏感的企業團隊都能負擔得起前沿級別的 AI。
像 ZBuild 這樣的平台可以將 DeepSeek V4 集成為後端模型選項,將這些顯著的成本節省直接傳遞給構建 AI 驅動應用的使用者。
原生多模態:文字、圖片與影片
與 V3(僅限文字)不同,V4 是原生多模態的。根據 Financial Times 的報導,V4 在預訓練期間就整合了文字、圖片和影片生成,而不是將視覺功能作為一個獨立模組強行掛載。
這很重要,因為:
- 跨模態推理更連貫 — 模型能夠原生理解文字描述與視覺內容之間的關係
- 圖片與影片理解 — V4 可以與文字一起分析螢幕截圖、圖表和影片幀
- 生成能力 — 早期報告顯示其具備文字生成圖片和文字生成影片的能力,儘管品質評估仍在進行中
對於開發處理視覺內容(文件分析、UI 設計、影片摘要)應用的開發者來說,原生多模態支援消除了對獨立視覺 API 的需求。
實用的多模態使用場景
原生多模態整合開啟了多個實用的工作流程:
- 根據螢幕截圖編碼:提供 UI 設計的螢幕截圖,V4 即可生成相應的程式碼 — HTML/CSS、React 組件或 SwiftUI 視圖
- 圖表理解:提供架構圖、流程圖或資料庫結構圖,V4 可以解釋設計、識別問題或生成實作程式碼
- 文件處理:從掃描的文件、發票和表單中提取結構化數據,無需獨立的 OCR 流程
- 影片摘要:處理影片幀以生成摘要、逐字稿或標註關鍵時刻
對於像 ZBuild 這樣的應用建構工具,原生多模態意味著使用者可以直接上傳原型圖和螢幕截圖作為應用程式創建工作流程的一部分 — AI 無需額外工具即可理解視覺上下文。
開源影響力
DeepSeek V4 的 Apache 2.0 授權協議可以說比其基準測試分數更具意義。以下是它所帶來的可能性:
私有化部署 (Self-Hosting)
對數據主權有要求的組織可以在自己的基礎設施上運行 V4。無需 API 調用,數據不離開公司,沒有供應商依賴。每個 token 約 37B 的啟動參數使其能夠在高端企業級 GPU 集群上運行。
微調 (Fine-Tuning)
開放權重允許進行特定領域的微調 — 醫療、法律、金融或任何專業垂直領域。這對於 OpenAI 或 Anthropic 的專有模型來說是不可能的。
研究
完整的架構細節和訓練方法使研究社群能夠在 DeepSeek 的創新基礎上進行開發。Engram 記憶體、DSA 和流形約束超連接都可供研究和改進。
成本控制
即使在 DeepSeek 已經很低的 API 價格之外,大規模私有化部署還可以進一步降低每個 token 的成本。對於每月處理數十億個 token 的高流量應用,私有化部署 V4 的成本可能比專有 API 定價便宜 100 倍。
DeepSeek V4 vs. V3:您應該升級嗎?
對於現有的 DeepSeek V3 使用者,以下是升級評估:
| 功能 | V3 | V4 | 升級影響 |
|---|---|---|---|
| 上下文窗口 | 128K | 1M | 高 — 支援程式碼庫級別的分析 |
| SWE-Bench | 69% | 81% | 高 — 12 個百分點的提升 |
| 多模態 | 僅限文字 | 文字 + 圖片 + 影片 | 中 — 取決於使用場景 |
| Engram 記憶體 | 無 | 有 | 高 — 檢索能力顯著增強 |
| API 價格 | $0.27/M input | $0.30/M input | 低 — 成本增加微乎其極 |
| 架構 | MoE | MoE + Engram + DSA | 高 — 本質上更優越 |
結論:升級。成本增加微不足道,而能力的提升 — 特別是 Engram 記憶體和百萬 token 上下文 — 是實質性的。留在 V3 的唯一理由是如果您目前的生產工作負載需要完全一致的模型行為表現。
DeepSeek V4 如何融入開發者生態系統
針對獨立開發者與新創公司
V4 的定價讓前沿級別的 AI 在新創公司的預算內觸手可及。結合 Apache 2.0 授權,您可以構建並部署生產環境應用,而無需擔心 API 成本的擴張。整合了多個模型提供商的工具(如 ZBuild)讓您可以利用 DeepSeek V4 的成本優勢,同時在需要時保留將特定任務路由到其他模型的選項。
針對企業團隊
私有化部署選項同時解決了數據主權、合規性和成本問題。微調能力意味著您可以構建在特定垂直領域中表現優於通用替代方案的專業模型。
針對研究人員
開放架構是一座金礦。光是 Engram 記憶體就開啟了多個研究方向 — 條件式記憶體架構、稀疏性分配優化以及混合檢索計算系統。
針對 AI 行業
V4 給每個前沿模型提供商帶來了壓力,要求他們證明其定價的合理性。當一個開源模型以低 10 倍的成本匹配或超過專有模型的基準測試時,封閉模型的價值主張就從「更好的性能」轉向了「更好的整合、支援和可靠性」。
風險與不確定性
基準測試驗證
81% SWE-Bench 的主張需要獨立確認。DeepSeek 在 V3 的基準測試中表現得很誠實,但 trillion 級參數模型更難進行一致性的評估。在根據具體數據做出基礎設施決策之前,請等待 Artificial Analysis 和 LMSYS 的結果。
地緣政治風險
DeepSeek 是一間中國公司,中美科技緊張局勢仍在持續。出口管制、API 訪問限制或政治壓力可能會影響西方開發者的可用性。擁有開放權重的私有化部署可以減輕但不能消除這種風險。
多模態品質
多模態能力是 V4 中測試最少的部分。圖片和影片理解的品質需要除內部基準測試之外的現實世界驗證。
支援與可靠性
開源意味著社群支援,而非企業級 SLA。如果您的生產應用依賴於 V4,您需要負責運作時間、擴展和除錯。DeepSeek 的 API 服務一直很穩定,但它不提供 OpenAI 或 Anthropic 那樣的企業支援基礎設施。
總結
DeepSeek V4 是 2026 年目前為止發佈的最重要的開源 AI 模型。它結合了 trillion 級參數規模、Engram 記憶體創新、百萬 token 上下文、原生多模態能力,以及在 Apache 2.0 協議下極具侵略性的低定價,使其成為專有前沿模型的真正替代方案。
雖然存在基準測試驗證中、地緣政治風險以及企業支援有限等不確定因素,但對於願意應對這些挑戰的開發者和組織來說,V4 以極低的成本提供了前沿級別的能力。
無論您是透過 DeepSeek 的 API 訪問、在自己的基礎設施上進行私有化部署,還是透過 ZBuild 等整合了多個模型提供商的平台使用,DeepSeek V4 都值得在您的 AI 工具箱中佔有一席之地。
常見問題
我可以在消費級硬體上私有化部署 DeepSeek V4 嗎?
實際上不可行。雖然模型每個 token 僅啟動 ~37B 參數,但代管完整的 1T 參數 MoE 模型需要巨大的 GPU 記憶體來存放專家路由表。您需要企業級 GPU 集群(多個 A100 或 H100)。對於大多數開發者來說,除非您每月處理數十億個 token,否則使用 DeepSeek $0.30/M input tokens 的 API 會比私有化部署更具成本效益。
V4 Lite 與完整 V4 模型有何不同?
DeepSeek V4 Lite 於 March 9, 2026 出現在 DeepSeek 的官方網站上,但尚未發佈官方規格。根據 DeepSeek 對 V3 的命名慣例,「Lite」可能指的是一個經過蒸餾或較小的變體,以犧牲部分能力為代價來優化速度和成本。預計它會更快、更便宜,但在複雜推理任務上的表現會有所下降。
DeepSeek V4 會對某些主題進行審查嗎?
與所有中國 AI 模型一樣,DeepSeek V4 對政治敏感話題設有內容過濾,特別是與中國政治和治理相關的話題。對於一般的開發、編碼和技術使用場景,過濾的影響微乎其微。對於涉及敏感政治內容或無限制生成的應用程式,這是一個合理的考慮因素。
V4 最擅長處理哪些程式語言?
根據 SWE-Bench 的結果(主要測試 Python、JavaScript 和 Java),V4 在主流語言方面表現優異。社群報告顯示其在 Python、JavaScript/TypeScript、Java、Go、Rust 和 C++ 方面也有強勁表現。由於訓練數據分佈的原因,較少見的語言(如 Haskell、Elixir 或 Zig)可能支援較弱。
DeepSeek V4 與 Llama 4 在私有化部署方面相比如何?
兩者都是開源的,且都在寬鬆的授權協議下提供。DeepSeek V4 的 MoE 架構(每個 token ~37B 啟動參數)比密集模型提供更好的每計算單位效能 (performance-per-compute)。Llama 4 的優勢在於 Meta 更大的生態系統和社群支援。對於純粹的性價比,V4 可能會獲勝。對於社群工具和微調生態系統,Llama 可能更容易上手。
來源
- DeepSeek V4: Engram Architecture Revealed
- DeepSeek V4: What's Next — Architecture, DSA, Engram & More
- Introl: DeepSeek V4's 1-Trillion Parameter Architecture
- ByteIota: DeepSeek V4 Targets 80.9% SWE-Bench Record
- CyberNews: DeepSeek V4 Review
- Evolink: DeepSeek V4 Release Date
- PromptZone: DeepSeek V4 Status Report March 2026
- VERTU: DeepSeek V4 Engram Architecture
- Kili Technology: DeepSeek V4 Guide
- Evermx: DeepSeek V4 Multimodal Launch
- RecodeChina: DeepSeek's Next Move
- DeepSeek V4 Status and Leaks