核心摘要
Google Gemma 4 是有史以來在真正寬鬆授權下發布的功能最強大的 open-weight 模型家族。31B Dense 模型在 MMLU Pro 上獲得 85.2%,並在 Arena AI 的所有開放模型中排名第 3 — 而 26B MoE 僅需 3.8B active parameters 即可達到幾乎相同的品質。Gemma 首次以 Apache 2.0 授權發布,消除了阻礙前幾代商業採用的所有授權摩擦。
Google Gemma 4:你需要知道的一切
發布概覽
Google DeepMind 於 April 2, 2026 發布了 Gemma 4,推出了四種基於與 Gemini 3 相同技術基礎的模型尺寸。這一代代表了 Gemma 家族在各個維度上的最大飛躍:模型品質、multimodal 能力、context length 和授權條款。
與 Gemma 3 相比的主要變化:
- Apache 2.0 授權 — 無使用限制,無自定義授權,完全的商業自由
- 四種模型尺寸 而非三種,包括全新的 MoE 架構
- 原生 multimodal 支援 涵蓋所有尺寸(文字、影像、影片、音訊)
- 可配置的思考模式 (thinking mode) 具有 4,000+ tokens 的推理鏈
- 256K context windows 用於較大型模型(高於 Gemma 3 的限制)
- 35+ 種支援語言,在 140+ 種語言上進行 pre-trained
- 結構化工具使用 (Structured tool use) 用於 agentic 工作流
四種模型尺寸
Gemma 4 提供四種不同的尺寸,每種尺寸針對不同的部署場景:
| 模型 | Parameters | Active Params | 架構 | Context | 模態 |
|---|---|---|---|---|---|
| E2B | 2.3B effective | 2.3B | Dense | 128K | 文字、影像、影片、音訊 |
| E4B | 4.5B effective | 4.5B | Dense | 128K | 文字、影像、影片、音訊 |
| 26B MoE | 26B total | 3.8B | Mixture of Experts | 256K | 文字、影像 |
| 31B Dense | 31B | 31B | Dense | 256K | 文字、影像 |
E2B 與 E4B:Edge 模型
最小的 Gemma 4 模型專為 on-device 部署而設計。分別具有 2.3B 和 4.5B effective parameters,它們可以使用 4-bit quantization 在僅有 5GB RAM 的智慧型手機、平板電腦和筆記型電腦上運行。
使這些模型引人注目的是它們的模態廣度。儘管是家族中最小的模型,E2B 和 E4B 是唯一支援所有四種輸入模態的 Gemma 4 模型:文字、影像、影片和音訊。這是一個深思熟慮的設計選擇 — 配備攝像頭和麥克風的 edge 設備從 multimodal 能力中獲益最多。
這兩款模型都支援 128K tokens 的 context windows,這對於它們的參數數量來說非常慷慨,且足以滿足大多數 on-device 使用場景。
26B MoE:最大效率
26B Mixture of Experts 模型可以說是 Gemma 4 系列中最有趣的模型。它包含 26B 總參數,但對於任何給定的輸入僅激活 3.8B parameters — 運算成本與 E4B 模型大致相同,但可以獲取大幅增加的知識和能力。
在 Arena AI 上,26B MoE 在所有開放模型中排名第 6,得分為 1441,儘管僅使用了 3.8B active parameters。這種效率比是前所未有的 — 沒有其他模型能在這種運算成本下達到同等的品質。
MoE 架構將每個 token 路由通過專門的專家子網絡,使模型在保持低 inference 成本的同時,維持龐大的知識容量。對於需要強大推理能力但 GPU 記憶體有限的部署場景,26B MoE 是最佳選擇。
31B Dense:最高品質
31B Dense 模型是 Gemma 4 的旗艦產品。每個參數對於每個 token 都是 active 的,使其在所有任務類型中提供最一致且最高品質的輸出。
在 Arena AI 上,31B Dense 在所有開放模型中排名第 3,得分為 1452。在 MMLU Pro 上,它達到了 85.2% — 與尺寸為其數倍的模型相比極具競爭力。AIME 2026 的 89.2% 得分展示了強大的數學推理能力,而 BigBench Extra Hard 的 74%(高於前幾代的 19%)則顯示了在複雜推理任務中的巨大進步。
基準測試:完整數據
推理與知識
| 基準測試 | 31B Dense | 26B MoE | 備註 |
|---|---|---|---|
| MMLU Pro | 85.2% | — | 研究生水平知識 |
| AIME 2026 | 89.2% | — | 競賽數學 |
| BigBench Extra Hard | 74% | — | 高於前一代的 19% |
| Arena AI Score | 1452 (第 3) | 1441 (第 6) | 開放模型排名 |
BigBench Extra Hard:亮眼表現
在 BigBench Extra Hard 上從 19% 躍升至 74% 值得特別關注。這項基準測試考察複雜的多步推理、邏輯演繹以及需要真正理解而非模式匹配的任務。在單一代際中實現 55 個百分點的提升,表明 Gemma 4 的推理架構發生了根本性的進步,而不僅僅是規模擴張。
這種進步可能與可配置的思考模式 (thinking mode) 以及 Gemma 4 所構建的底層 Gemini 3 技術有關。思考模式會生成擴展的推理鏈,幫助模型逐步解決複雜問題。
Arena AI 排名背景
Arena AI 根據人類偏好的對抗比較對模型進行排名。31B Dense 的 1452 分及其在開放模型中第 3 名的排名,使其超越了許多參數多得多的模型。背景參考:
- 排名高於它的通常是 70B+ 參數的模型
- 26B MoE 僅用 3.8B active parameters 就達到 1441 分,是一項效率突破
- 兩款模型的表現都明顯優於之前的 Gemma 3 27B
Multimodal 能力
影像理解
所有四款 Gemma 4 模型都能原生處理影像。功能包括:
- 影像描述與分析 — 對視覺內容的詳細理解
- OCR 與文件解析 — 從影像、收據、螢幕截圖中提取文字
- 圖表與圖示解讀 — 理解數據視覺化
- 視覺推理 — 回答需要理解空間關係的問題
影片與音訊 (僅限 E2B/E4B)
較小的 E2B 和 E4B 模型增加了原生影片和音訊處理:
- 影片理解 — 無需逐影格提取即可分析影片內容
- 音訊轉錄與理解 — 處理語音和環境音訊
- 跨模態推理 — 回答跨越文字、影像、影片和音訊輸入的問題
這一設計選擇反映了 Google 對於 edge 部署的關注。行動裝置原生捕捉影片和音訊,因此為這些裝置設計的模型支援這些模態。
可配置的思考模式 (Thinking Mode)
Gemma 4 引入了可配置的思考模式 (thinking mode),在產生回應之前會先生成 4,000+ tokens 的內部推理。這與 Claude's models 和 OpenAI 的 o-series 中看到的擴展思考能力相似,但在 open-weight 模型中實現了。
運作原理
當啟動思考模式時,模型會:
- 接收輸入 prompt
- 生成內部推理鏈(可見或隱藏,取決於配置)
- 使用推理鏈產生更高品質的最終回應
思考模式可以針對每個請求進行切換,允許開發者:
- 為複雜的數學、邏輯、編碼和分析任務 啟用思考
- 為簡單的查詢、聊天和對延遲敏感的應用 禁用思考
- 根據任務的預期複雜度 調整思考深度
對品質的影響
思考模式是 Gemma 4 強大基準測試表現的主要驅動力。AIME 2026 的 89.2% 得分和 BigBench Extra Hard 的 74% 得分都是在啟用思考模式的情況下取得的。如果沒有思考模式,這些分數會顯著降低 — 類似於在其他具有擴展推理能力的模型中看到的模式。
Apache 2.0:為什麼授權變更很重要
之前的 Gemma 代次是在 Google 自定義的 Gemma 授權下發布的,其中包括對以下方面的限制:
- 在某些應用程式中的使用
- 再分發條款
- 大規模使用的商業部署限制
Gemma 4 切換到 Apache 2.0,這是與 Kubernetes、TensorFlow 和 Apache HTTP Server 等項目相同的授權。這意味著:
- 無使用限制 — 可用於任何用途,包括商業產品
- 無再分發限制 — 自由分享修改後的 weights
- 除了授權本身外無歸屬要求 — 標準的 Apache 2.0 聲明
- 無需 Google 批准 — 可以在任何規模部署而無需許可
- 相容於其他開源授權 — 易於集成到現有項目中
對於在開放模型之上構建產品的企業和初創公司來說,這消除了 Gemma 自定義授權所需的法律審核開銷。它還使 Gemma 4 能與 Meta 的 Llama 模型(使用具有某些限制的自定義授權)直接對比,並將其定位為目前最寬鬆授權的高品質開放模型家族。
語言支援
Gemma 4 支援 35+ 種語言進行 inference,並在 140+ 種語言上進行了 pre-trained。這使其成為目前最強大的多語言開放模型之一,與同樣強調廣泛語言覆蓋的 Qwen's models 並列。
支援的語言包括世界主要語言(英語、中文、西班牙語、法語、德語、日語、韓語、阿拉伯語、印地語、葡萄牙語、俄語)以及許多數位足跡較小的語言。在 140+ 種語言上的 pre-training 意味著模型在官方支援的 35+ 種語言之外也具有一定的能力,儘管品質可能有所不同。
對於針對全球受眾或非英語市場的應用程式,這種廣泛的語言支援減少了對特定語言進行專門 fine-tuning 或單獨模型的需求。
結構化工具使用與 Agentic 工作流
Gemma 4 包含對結構化工具使用的原生支援,實現了模型可以執行以下操作的 agentic 工作流:
- 使用格式正確的請求 調用外部 API
- 從工具和服務中 解析結構化回應
- 鏈接多個工具調用 以完成複雜任務
- 在工具執行中 處理錯誤和重試
這種能力對於 Android Studio integration 特別重要,Gemma 4 在其中驅動本地 agentic 編碼工作流。模型可以理解程式碼上下文、建議更改、執行工具並進行迭代 — 所有這些都在開發者的機器上本地運行,無需將程式碼發送到外部伺服器。
對於構建 AI agents 的開發者,Gemma 4 的結構化工具使用提供了一個完全本地、完全私密的基礎。結合 Apache 2.0 授權,這使得構建和部署 agentic 應用程式時無需依賴任何外部模型提供商。
硬體要求
通過 Ollama 進行本地部署
| 模型 | 所需 RAM (4-bit) | 所需 RAM (FP16) | GPU 建議 |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | 任何現代 GPU / 僅 CPU |
| E4B | ~5 GB | ~9 GB | 任何現代 GPU / 僅 CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
E2B 和 E4B 模型專為 edge 部署而設計。它們可以在筆記型電腦、桌上型 CPU 甚至某些智慧型手機上順暢運行。26B MoE 和 31B Dense 模型需要專用的 GPU 硬體,但對於擁有消費級 GPU 的個人開發者來說仍然可以獲取。
NVIDIA 優化
NVIDIA 已發布適用於 RTX GPU 的優化版 Gemma 4,提供:
- 通過特定 GPU 內核優化實現 更快的 inference
- 在 RTX 4000 和 5000 系列顯示卡上獲得 更好的記憶體利用率
- 適用於生產部署的 TensorRT 整合
- 減少重複 inference 開銷的 CUDA graph 支援
與 Gemma 3 相比的變化
| 功能 | Gemma 3 | Gemma 4 |
|---|---|---|
| 授權 | Gemma 授權 (受限) | Apache 2.0 (無限制) |
| 模型尺寸 | 3 種尺寸 | 4 種尺寸 (新增 MoE) |
| Context Window | 高達 128K | 高達 256K |
| 模態 | 文字、影像 | 文字、影像、影片、音訊 |
| 思考模式 | 否 | 是 (可配置) |
| 工具使用 | 有限 | 結構化工具使用 |
| 語言 | 30+ | 35+ (在 140+ 種上進行 pre-trained) |
| BigBench Extra Hard | 19% | 74% |
每個維度都有提升。對開發者影響最大的變化是 Apache 2.0 授權(消除了法律摩擦)、思考模式(提高了困難任務的品質)以及 MoE 架構(以極小的運算成本提供旗艦級品質)。
實際使用場景
編碼與開發
Gemma 4 的結構化工具使用和思考模式使其在以下方面非常有效:
- 本地程式碼補全與生成
- 程式碼審查與錯誤檢測
- 自動化測試生成
- 文件撰寫
- Android Studio 中的 agentic 編碼工作流
文件處理
憑藉 256K context windows 和 multimodal 支援:
- 在單個 prompt 中處理整個程式碼庫或長篇文件
- 從文件影像、收據和表單中提取資訊
- 分析圖表和數據視覺化
- 總結冗長的學術論文或法律文件
構建 AI 驅動的應用程式
對於構建包含 AI 能力的產品的開發者,Gemma 4 提供了一個強大的 on-device 或自託管 inference 層。模型處理智能部分 — 理解查詢、生成回應、處理影像 — 而你的應用程式框架處理其餘部分。像 ZBuild 這樣的工具可以加速構建應用程式外殼(前端、後端、資料庫、部署),讓你能專注於 Gemma 4 能力最為關鍵的 AI 整合層。
Edge 與行動部署
E2B 和 E4B 模型開啟了以前開放模型無法實現的使用場景:
- 可離線工作的 on-device 助手
- 絕不將數據發送到外部伺服器的隱私保護 AI 功能
- 行動裝置上的即時影片和音訊處理
- IoT 和機器人應用中的嵌入式 AI
如何開始
Ollama (最快路徑)
# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取並執行 Gemma 4
ollama run gemma4:e2b # 最小,可在任何地方運行
ollama run gemma4:e4b # 小型,功能更廣
ollama run gemma4:26b-moe # MoE,效率最佳
ollama run gemma4:31b # Dense,品質最高
Hugging Face
所有 Gemma 4 模型都可以在 Hugging Face 上獲取,並具有完整的 transformers 整合:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google 通過 AI Studio 提供免費的 Gemma 4 API 存取,用於實驗和原型開發,並提供 Vertex AI 用於生產部署。
競爭格局中的 Gemma 4
為了理解 Gemma 4 在廣泛生態系統中的位置:
| 模型 | Params | 授權 | MMLU Pro | Arena AI | Context |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B active) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B active) | Meta 授權 | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B active) | Meta 授權 | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B active) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B 在開放模型中實現了最高的 MMLU Pro 得分和 Arena AI 排名 — 且總參數最少。這種參數效率是 Gemini 3 技術基礎和可配置思考模式的直接結果。
26B MoE 模型的效率故事更為引人注目。它在 Arena AI 上排名第 6,而每個 token 僅啟動 3.8B parameters。沒有其他模型能達到同等的品質與運算比。對於 inference 成本隨使用量擴張的生產部署,這種效率直接轉化為成本節約。
與專有模型相比,Gemma 4 31B 的基準測試可與 Anthropic 和 OpenAI 的中階產品競爭。雖然頂尖的專有模型在最困難的任務上仍然領先,但差距已大幅縮小 — 而且 Gemma 4 具有零 per-token 成本和完全的 Apache 2.0 自由。
結論
Gemma 4 為 2026 年的 open-weight 模型設定了新標準。Apache 2.0 授權、四種差異化明顯的模型尺寸、原生 multimodal 支援、可配置的思考模式以及可與更大模型競爭的基準測試得分,使其成為目前最實用的開放模型家族。
當你需要最高品質時,31B Dense 是正確選擇。當你需要以最低運算成本獲得強大品質時,26B MoE 是正確選擇。E2B 和 E4B 是 edge 部署和 on-device AI 的正確選擇。在 Gemma 家族中,授權首次不再限制任何這些使用場景。
來源
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers