關鍵要點
- 6 trillion parameters:Grok 5 是史上公開宣佈最大的 AI 模型 — 是傳聞中 Grok 4 的 3T 的兩倍,大約是 GPT-4 估計尺寸的 6x。
- 發布延期至 Q1 2026 之後:由 Elon Musk 確認的原定時程已過。目前估計指向 Q2 2026 進行完整發布。
- Colossus 2 是真實存在的:xAI 在 Memphis 的 1-gigawatt supercluster 正在運行並積極訓練 Grok 5 — 這是由任何實驗室建立過最大的 AI 訓練基礎設施。
- 10% AGI 的主張具有爭議:Musk 的 AGI probability 估計缺乏 benchmark 定義。其他 frontier labs 尚未做出類似的主張。
- 預測市場持懷疑態度:在 June 30, 2026 之前發貨的機率僅為 33%,而原定 March 31 截止日期的機率僅為 1%。
Grok 5:可能重塑 AI 的 6-Trillion-Parameter 模型 — 如果它真的能發貨的話
Grok 5 的故事實際上是兩個故事。
第一個是技術奇蹟:一個在世界上第一個 gigawatt-scale AI supercluster 上訓練的 6 trillion parameter 模型,並由任何 AI 實驗室所做過最雄心勃勃的基礎設施投資支持。僅工程本身 — 在一個客製化的 1 GW 設施中協調數十萬個 GPU — 便是史無前例的。
第二個是過度承諾的模式:延遲的發布日期、無法驗證的 AGI 主張,以及一位其 timelines 在歷史上與其說是運營性的,不如說是願望性的 CEO。
這兩個故事都是真實的。而兩者之間的緊張關係正是讓 Grok 5 成為目前 AI 領域最受關注模型的原因。
時程表:發生了什麼以及接下來會發生什麼
承諾
在 late 2025,Elon Musk 確認 Grok 5 將在 Q1 2026 發布。這項主張是具體且公開的,是在多個 X 貼文和採訪中做出的。
現實
| Date | Event | Status |
|---|---|---|
| Q4 2025 | Musk 確認 Q1 2026 發布 | 已宣布 |
| January 2026 | Colossus 2 進入全面運作 | 已確認 |
| February 25, 2026 | Grok 的 X 帳號更新時程至 Q2 2026 | 已延期 |
| March 31, 2026 | 原定 Q1 截止日期 | 已錯過 |
| April 2026 | 計劃將 Colossus 2 升級至 1.5 GW | 即將到來 |
| Q2 2026 | 修訂後的發布窗口 | 當前目標 |
預測市場的看法
Polymarket 和 Metaculus 的數據 顯示:
- 1% probability 在 March 31, 2026 之前發貨(已確認錯過)
- 33% probability 在 June 30, 2026 之前發貨
- ~60% probability 在 2026 年底之前發貨
市場正在反映重大不確定性的定價。在 March 和 April 2026 之間進行公開 beta 測試仍有可能,但完整的 API 發布更有可能在 Q2-Q3。
技術規格
6 Trillion Parameter 架構
Grok 5 的頭條規格是其 總計 6 trillion parameters — 這是歷史上公開宣佈最大的 AI 模型。
| Spec | Grok 5 | GPT-5.4 | Claude Opus 4.6 | DeepSeek V4 |
|---|---|---|---|---|
| Total Parameters | 6T | ~2T (estimated) | 未公開 | ~1T |
| Architecture | MoE | Reasoning model | 未公開 | MoE + Engram |
| Training Compute | 1 GW cluster | Large (undisclosed) | Large (undisclosed) | Smaller (efficient) |
| Status | 訓練中 | 已發貨 | 已發貨 | 已發貨 |
該模型使用 Mixture-of-Experts (MoE) architecture,這意味著對於任何給定的輸入,只有一小部分 6T parameters 會被激活。這與 DeepSeek V3/V4 所使用的架構方法相同,也是 GPT-5.x 模型被推測採用的方法。每個 token 的 active parameters 尚未公開。
為何 6T Parameters 可能不代表好 6x
Parameter count 並非模型質量的良好指標。重要的是:
- Architecture 效率:MoE routing 如何為每個任務選擇相關的 experts。
- 訓練數據質量:模型在什麼數據上訓練比它有多大更重要。
- 訓練時長:Grok 5 的訓練運行需要足夠長,才能在這種規模下正確收斂。
- Active parameters:如果 Grok 5 每個 token 激活 ~50B parameters(與其他 MoE 模型相似),那麼儘管總數為 6T,推理時的有效模型與競爭對手相當。
歷史表明,架構創新(如 DeepSeek 的 Engram)通常比原始的 parameter scaling 更重要。Chinchilla scaling laws 確定了最佳模型性能取決於 parameters 與訓練 tokens 的比例,而不僅僅是 parameters 本身。
Colossus 2:基礎設施的故事
Grok 5 故事中最切實的部分是 Colossus 2 — 而且它確實令人印象深刻。
Colossus 2 是什麼
Colossus 2 是 xAI 位於 Tennessee 州 Memphis 專為 AI 訓練打造的 supercluster。關鍵規格:
- Power:1 gigawatt(計劃在 April 2026 升級至 1.5 GW)
- GPU:數十萬個 NVIDIA H100s 以及據報導的 H200s
- Status:截至 January 2026 已全面運作
- Purpose:主要致力於 Grok 5 訓練
規模背景
專用於 AI 訓練的 1 GW 電力是不同尋常的:
- 這大約是一座小型核電站的輸出功率。
- 它超過了大多數其他實驗室總和的 AI 訓練算力。
- 該設施在不到 1 年 內建成 — 這本身就是一項重大的工程壯舉。
基礎設施對比結果
這就是緊張局勢所在:xAI 無疑建立了世界上最大的 AI 訓練基礎設施。但基礎設施是投入,而不是產出。問題在於這種算力優勢是否能轉化為超越競爭對手的模型能力,而競爭對手訓練較小模型卻更有效率。
DeepSeek V4 達到了 81% SWE-Bench,其估計的訓練成本比 Grok 5 的基礎設施投資低了幾個數量級。如果 Grok 5 不能顯著超越 V4,Colossus 2 的投資在經濟上將變得難以證明其合理性。
AGI 主張:10% 且正在上升
Musk 說了什麼
Elon Musk 表示他「估計 Grok 5 實現 AGI 的機率現在為 10% 且正在上升」。
為何這具有爭議
這項主張存在幾個問題:
沒有 AGI 的定義:Musk 沒有具體說明「實現 AGI」意味著什麼。如果沒有可驗證的 benchmark — 它是否通過 Turing test?在所有學術 benchmarks 上獲得 100%?執行人類能做的每一項工作? — 這項主張是無法證偽的。
同行沒有類似的主張:Anthropic、Google DeepMind 和 OpenAI — 雖然都在相當或更大的規模上運作 — 都尚未對其當前世代的模型做出類似的 AGI 概率主張。如果 AGI 真的接近了,我們預計至少會看到更廣泛的研究社群達成一些共識。
雄心勃勃的時間表記錄:Musk 在多個領域(Tesla FSD、SpaceX Mars mission、Neuralink)的時間表預測在歷史上往往樂觀了數年甚至數十年。
研究社群的反應:正如 RD World Online 所指出的,Grok 5 可能是「AI 界的戰艦大和號 (Yamato)」 — 規模大得令人印象深刻,但可能被架構更好的靈活競爭對手所超越。
10% AGI 概率的實際意義
如果我們按字面意思理解這項主張,單個模型發布就有 10% 的機率實現 AGI,那將是人類歷史上最重要的發展。這一結果的預期價值 — 即使只有 10% — 也足以證明幾乎無限的投資是合理的。
事實上,xAI 的市場行為(募資、招聘、合作夥伴關係)並未反映出「10% 機會擁有有史以來最重要的技術」,這表明這項主張應被解讀為行銷,而非真正的概率估計。
我們可以合理期待什麼
撇開 AGI 的推測不談,根據已知的架構和算力,Grok 5 可能提供以下內容:
Benchmark 表現
如果訓練成功收斂,這款 6T MoE 模型應該會達到:
| Benchmark | Expected Range | Current Best | 備註 |
|---|---|---|---|
| SWE-Bench Verified | 82-88% | ~82% (GPT-5.4) | 更多算力應該有所幫助 |
| MMLU-Pro | 85-92% | ~88% | 知識隨 parameters 規模擴展 |
| OSWorld | 70-80% | 75% (GPT-5.4) | 取決於 computer-use 訓練 |
| HumanEval | 92-96% | ~90% | coding 隨算力擴展良好 |
這些是基於資訊的估計,而非官方數字。實際表現完全取決於我們無法了解的訓練質量、數據和架構決策。
可能的能力
根據架構和 xAI 的公開聲明:
- 擴展的 context window:1M+ tokens,與 GPT-5.4 和 Claude 持平或超越。
- Multimodal 理解:文本、圖像,可能還有影片 — 這是 2026 frontier models 的標配。
- 即時 X (Twitter) 整合:Grok 的獨特優勢是直接訪問 X 的數據火龍頭 (firehose)。
- Computer use:很有可能,考慮到行業趨勢和 Grok 4 的 agentic capabilities。
- "Truth Mode" 2.0:Grok 無過濾回應模式的更新版本。
X 整合:Grok 的獨特護城河
當其他實驗室在爭奪 benchmark 分數時,Grok 擁有其他人沒有的東西:即時 X 數據。這使得 Grok 在以下方面具有優勢:
- 時事知識(無訓練截止延遲)
- 社交情緒分析
- 趨勢預測
- 公眾輿論研究
- 即時新聞摘要
這種數據優勢是 Grok 真正的競爭護城河,無論 Grok 5 的原始能力是否超過 GPT-5.4 或 Claude Opus 4.6。
Grok 5 vs. 競爭對手
截至 March 2026
| Model | Status | Key Strength | Key Weakness |
|---|---|---|---|
| Grok 5 | 訓練中 | 規模 (6T params), X 數據 | 尚未發貨,未經證實 |
| GPT-5.4 | 已發貨 | Computer use, 75% OSWorld | 定價複雜性 |
| Claude Opus 4.6 | 已發貨 | 推理深度、安全性 | 昂貴 ($15/M input) |
| DeepSeek V4 | 已發貨 | 成本 ($0.30/M input), open-source | 地緣政治風險 |
| Gemini 3.1 | 已發貨 | Multimodal, Google 生態系統 | 較少開發者採用 |
關鍵區別在於:每個競爭對手都已發貨。Grok 5 是一個由史無前例的基礎設施投資支持的承諾,但公眾 benchmark 為零。在 AI 領域,發貨比規格更重要。
xAI 的風險
如果 Grok 5 在 Q2-Q3 2026 發貨,且在主要 benchmarks 上與 GPT-5.4 的差距在 2-3% 以內,論調就會變成:「xAI 比任何人都花了更多算力,卻只達到了平手。」對於一家需要證明其 $50B+ 估值的公司來說,這不是一個勝利的故事。
Grok 5 需要在至少一個主要的 benchmark 類別中顯著領先,或者展示出其他模型都沒有的能力。X 數據整合可以提供這一點,但前提是 xAI 能夠證明即時數據轉化為用戶關心的任務上可衡量的更好表現。
對開發者意味著什麼
如果你今天正在選擇模型
不要等待 Grok 5。使用現有的工具:
- GPT-5.4 用於 computer use 和桌面自動化。
- Claude Sonnet/Opus 4.6 用於重推理的開發和 code review。
- DeepSeek V4 用於預算導向的應用。
- 在支援多個模型提供商的平台(如 ZBuild)上構建,這樣你可以在 Grok 5 發貨時(如果發貨的話)無縫切換,而無需重建應用程序。
如果你正在規劃 Q3-Q4 2026
Grok 5 值得關注,但不值得為其停滯。將你的架構設計為 model-agnostic。無論 Grok 5 是否準時發貨,API 的格局在 six months 後都會有所不同。
如果你正在構建 AI 驅動的應用
趨勢很明顯:不同提供商的模型能力正在趨同。區分點越來越在於應用層 — 你如何編排模型、管理 context、處理 edge cases 並為用戶提供結果。
工具如 ZBuild 專注於這個應用層,抽象化底層的模型選擇,以便你可以構建一次並在任何提供商上運行 — 包括 Grok 5 可用時。這種 model-agnostic 的方法可以保護你免受任何單一提供商發布時程不確定性的影響。
更宏觀的圖景:規模 vs. 效率
Grok 5 代表了一種 AI 進步的理論:更多算力、更多 parameters、更多能源。在最大的 cluster 上建立最大的模型,智慧就會湧現。
DeepSeek V4 代表了相反的理論:更好的架構、更高的效率、更好的數據。建立一個更聰明的模型,用更少的資源做更多的事。
接下來的 12 months 將告訴我們哪種理論獲勝。如果 Grok 5 戲劇性地超越競爭對手,它將驗證 scaling hypothesis,每個實驗室都會競相建立更大的 clusters。如果它在 parameters 多出 6x 的情況下僅達到平手,這將表明像 Engram memory 等效率創新和架構改進才是前進的道路。
無論哪種結果都會塑造 2026 年之後構建的每個 AI 應用的未來。即使時程再次延後,這也值得關注。
底線
Grok 5 是有史以來最雄心勃勃的 AI 模型嘗試。在 1-gigawatt supercluster 上擁有 6 trillion parameters 是前所未有的基礎設施投資。Elon Musk 的 10% AGI 主張雖然具有爭議,但成功吸引了 xAI 想要的關注。
但截至 March 2026,Grok 5 仍是一個未發布的模型,沒有公開的 benchmarks,錯過了發布日期,且預測市場對此持懷疑態度。競爭對手 — GPT-5.4、Claude Opus 4.6、DeepSeek V4 — 已經發貨、經過 benchmark 測試,並且今天就可以使用。
密切關注 Grok 5。利用現在可用的資源進行構建。為 model-agnostic 的未來做規劃。如果 Grok 5 即使只實現了其承諾的一半,也要準備好通過像 ZBuild 這樣讓模型切換變得無縫的平台立即整合它。
超級模型即將到來。它是在 Q2 還是 Q4 到來,以及它是否會重塑 AI 或僅僅是加入競爭行列,都將是 2026 年的定義性故事之一。
常見問題
Grok 5 會是免費使用的嗎?
Grok 模型目前通過 X Premium+ 訂閱($16/month)提供。Grok 5 可能會遵循相同的分發模式 — X 上的有限使用免費層、Premium+ 訂閱者的完整訪問權限,以及開發者的 API access。API 的定價尚未公佈,但考慮到 xAI 的算力投資,預計會有具競爭力的價格來推動採用。
開發者可以通過 API 訪問 Grok 5 嗎?
xAI 在 2025-2026 年期間一直在擴大 API access。Grok 5 的完整 API access 預計在 Q2 2026 提供,可能在公開 beta 期間之後。該 API 可能會支援與現有工具兼容的標準 chat completion endpoints。
Grok 5 處理即時資訊有何不同?
與依賴訓練數據截止日期的 GPT-5.4 和 Claude 不同,Grok 可以直接訪問 X (Twitter) data firehose。這意味著 Grok 5 可以引用即時發生的貼文、趨勢和討論。對於涉及時事、社交情緒或突發新聞的任務,這是其他 frontier model 都無法提供的獨特優勢。
Grok 5 是 open source 嗎?
不是。儘管 xAI 早期曾承諾將 Grok 模型 open-source,但最近發布的版本(Grok 3, Grok 4)都是私有的。沒有跡象表明 Grok 5 會 open-source。如果 open-source 是必要條件,DeepSeek V4 (Apache 2.0) 是 frontier-class 的替代方案。
Grok 4.20 和 multi-agent system 發生了什麼?
Grok 4.20,xAI 的 multi-agent system,是在 Grok 5 訓練期間作為中間步驟發布的。它使用多個專門的 Grok 4 agents 協調工作以處理複雜任務。可以將其視為 Grok 5 作為單一模型可能實現的功能預覽 — 多步推理、tool use 和自主任務完成。
來源
- Phemex:Elon Musk 確認 Grok 5 將在 Q1 2026 發布
- AdwaitX:Grok 5 仍在大柱子 2 號 (Colossus 2) 上接受訓練
- AI Base News:Grok 5 延期至 Q1 2026,擁有 6 Trillion Parameters
- WeCu Media:Grok 向 AGI 的跨越 — Colossus 2 進入運行
- SentiSight:2026 年對 Grok 的期待
- Fello AI:Grok 5 發布日期及我們所知的一切
- AI News Hub:xAI Grok 5 傳聞
- AI CERTs:Grok 5 為 2026 年下一代 AI Scaling 提高門檻
- My Living AI:Grok 5 AGI 10% 機率的現實
- RD World Online:Grok-5 是 AGI 還是戰艦大和號?
- Zelili:Grok 5 預計在 early 2026 推出
- Wikipedia:Grok (chatbot)