什麼是 Google Gemma 4，它是在何時發佈的？

Google Gemma 4 是 Google DeepMind 於 2026 年 4 月 2 日發佈的開放權重模型系列。它包含 4 種尺寸 — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total) 以及 31B Dense。所有模型均根據 Apache 2.0 授權發佈，這是 Gemma 版本中使用過最寬鬆的授權。

Gemma 4 是真正的開源嗎？

是的。Gemma 4 是第一代根據 Apache 2.0 授權發佈的 Gemma 模型，該授權允許無限制的商業使用、修改和重新分發，無需獲得 Google 的許可。之前的 Gemma 模型使用的是 Google 自訂的 Gemma 授權，該授權對使用有所限制。

Gemma 4 支援什麼樣的 context window？

較小的模型（E2B 和 E4B）支援 128K token context windows。較大的模型（26B MoE 和 31B Dense）支援 256K token context windows。這相對於 Gemma 3 的 context 限制是一個重大改進，並且能夠在單個 prompt 中處理整個程式碼庫或長篇文件。

Gemma 4 可以處理圖像、影片和音訊嗎？

是的。所有四款 Gemma 4 模型都是原生多模態的，支援文字和圖像輸入。E2B 和 E4B 模型更進一步，具備原生影片和音訊處理能力。這使得 Gemma 4 成為第一個最小型模型擁有最廣泛模態支援的開放權重模型系列。

Gemma 4 的 thinking mode 是如何運作的？

Gemma 4 包含一個可配置的 thinking mode，在產生回覆之前會生成 4,000+ tokens 的內部推理。這種 chain-of-thought 推理可以根據每個請求開啟或關閉，讓開發者在簡單任務的快速回覆與數學、邏輯和編碼等複雜問題的深層推理之間進行選擇。

本地運行 Gemma 4 需要什麼硬體？

Gemma 4 E2B 和 E4B 可以在僅有 5GB RAM 的裝置上運行（使用 4-bit quantization），包括智慧型手機和筆記型電腦。26B MoE 模型大約需要 18GB RAM，而 31B Dense 大約需要 20GB RAM。所有模型均可透過支援 NVIDIA RTX GPU 優化的 Ollama 運行。

核心摘要

Google Gemma 4 是有史以來在真正寬鬆授權下發布的功能最強大的 open-weight 模型家族。31B Dense 模型在 MMLU Pro 上獲得 85.2%，並在 Arena AI 的所有開放模型中排名第 3 — 而 26B MoE 僅需 3.8B active parameters 即可達到幾乎相同的品質。Gemma 首次以 Apache 2.0 授權發布，消除了阻礙前幾代商業採用的所有授權摩擦。

Google Gemma 4：你需要知道的一切

發布概覽

Google DeepMind 於 April 2, 2026 發布了 Gemma 4，推出了四種基於與 Gemini 3 相同技術基礎的模型尺寸。這一代代表了 Gemma 家族在各個維度上的最大飛躍：模型品質、multimodal 能力、context length 和授權條款。

與 Gemma 3 相比的主要變化：

Apache 2.0 授權 — 無使用限制，無自定義授權，完全的商業自由
四種模型尺寸 而非三種，包括全新的 MoE 架構
原生 multimodal 支援 涵蓋所有尺寸（文字、影像、影片、音訊）
可配置的思考模式 (thinking mode) 具有 4,000+ tokens 的推理鏈
256K context windows 用於較大型模型（高於 Gemma 3 的限制）
35+ 種支援語言，在 140+ 種語言上進行 pre-trained
結構化工具使用 (Structured tool use) 用於 agentic 工作流

四種模型尺寸

Gemma 4 提供四種不同的尺寸，每種尺寸針對不同的部署場景：

模型	Parameters	Active Params	架構	Context	模態
E2B	2.3B effective	2.3B	Dense	128K	文字、影像、影片、音訊
E4B	4.5B effective	4.5B	Dense	128K	文字、影像、影片、音訊
26B MoE	26B total	3.8B	Mixture of Experts	256K	文字、影像
31B Dense	31B	31B	Dense	256K	文字、影像

來源：Google AI Blog

E2B 與 E4B：Edge 模型

最小的 Gemma 4 模型專為 on-device 部署而設計。分別具有 2.3B 和 4.5B effective parameters，它們可以使用 4-bit quantization 在僅有 5GB RAM 的智慧型手機、平板電腦和筆記型電腦上運行。

使這些模型引人注目的是它們的模態廣度。儘管是家族中最小的模型，E2B 和 E4B 是唯一支援所有四種輸入模態的 Gemma 4 模型：文字、影像、影片和音訊。這是一個深思熟慮的設計選擇 — 配備攝像頭和麥克風的 edge 設備從 multimodal 能力中獲益最多。

這兩款模型都支援 128K tokens 的 context windows，這對於它們的參數數量來說非常慷慨，且足以滿足大多數 on-device 使用場景。

26B MoE：最大效率

26B Mixture of Experts 模型可以說是 Gemma 4 系列中最有趣的模型。它包含 26B 總參數，但對於任何給定的輸入僅激活 3.8B parameters — 運算成本與 E4B 模型大致相同，但可以獲取大幅增加的知識和能力。

在 Arena AI 上，26B MoE 在所有開放模型中排名第 6，得分為 1441，儘管僅使用了 3.8B active parameters。這種效率比是前所未有的 — 沒有其他模型能在這種運算成本下達到同等的品質。

MoE 架構將每個 token 路由通過專門的專家子網絡，使模型在保持低 inference 成本的同時，維持龐大的知識容量。對於需要強大推理能力但 GPU 記憶體有限的部署場景，26B MoE 是最佳選擇。

31B Dense：最高品質

31B Dense 模型是 Gemma 4 的旗艦產品。每個參數對於每個 token 都是 active 的，使其在所有任務類型中提供最一致且最高品質的輸出。

在 Arena AI 上，31B Dense 在所有開放模型中排名第 3，得分為 1452。在 MMLU Pro 上，它達到了 85.2% — 與尺寸為其數倍的模型相比極具競爭力。AIME 2026 的 89.2% 得分展示了強大的數學推理能力，而 BigBench Extra Hard 的 74%（高於前幾代的 19%）則顯示了在複雜推理任務中的巨大進步。

基準測試：完整數據

推理與知識

基準測試	31B Dense	26B MoE	備註
MMLU Pro	85.2%	—	研究生水平知識
AIME 2026	89.2%	—	競賽數學
BigBench Extra Hard	74%	—	高於前一代的 19%
Arena AI Score	1452 (第 3)	1441 (第 6)	開放模型排名

來源：Google DeepMind 技術報告

BigBench Extra Hard：亮眼表現

在 BigBench Extra Hard 上從 19% 躍升至 74% 值得特別關注。這項基準測試考察複雜的多步推理、邏輯演繹以及需要真正理解而非模式匹配的任務。在單一代際中實現 55 個百分點的提升，表明 Gemma 4 的推理架構發生了根本性的進步，而不僅僅是規模擴張。

這種進步可能與可配置的思考模式 (thinking mode) 以及 Gemma 4 所構建的底層 Gemini 3 技術有關。思考模式會生成擴展的推理鏈，幫助模型逐步解決複雜問題。

Arena AI 排名背景

Arena AI 根據人類偏好的對抗比較對模型進行排名。31B Dense 的 1452 分及其在開放模型中第 3 名的排名，使其超越了許多參數多得多的模型。背景參考：

排名高於它的通常是 70B+ 參數的模型
26B MoE 僅用 3.8B active parameters 就達到 1441 分，是一項效率突破
兩款模型的表現都明顯優於之前的 Gemma 3 27B

Multimodal 能力

影像理解

所有四款 Gemma 4 模型都能原生處理影像。功能包括：

影像描述與分析 — 對視覺內容的詳細理解
OCR 與文件解析 — 從影像、收據、螢幕截圖中提取文字
圖表與圖示解讀 — 理解數據視覺化
視覺推理 — 回答需要理解空間關係的問題

影片與音訊 (僅限 E2B/E4B)

較小的 E2B 和 E4B 模型增加了原生影片和音訊處理：

影片理解 — 無需逐影格提取即可分析影片內容
音訊轉錄與理解 — 處理語音和環境音訊
跨模態推理 — 回答跨越文字、影像、影片和音訊輸入的問題

這一設計選擇反映了 Google 對於 edge 部署的關注。行動裝置原生捕捉影片和音訊，因此為這些裝置設計的模型支援這些模態。

可配置的思考模式 (Thinking Mode)

Gemma 4 引入了可配置的思考模式 (thinking mode)，在產生回應之前會先生成 4,000+ tokens 的內部推理。這與 Claude's models 和 OpenAI 的 o-series 中看到的擴展思考能力相似，但在 open-weight 模型中實現了。

運作原理

當啟動思考模式時，模型會：

接收輸入 prompt
生成內部推理鏈（可見或隱藏，取決於配置）
使用推理鏈產生更高品質的最終回應

思考模式可以針對每個請求進行切換，允許開發者：

為複雜的數學、邏輯、編碼和分析任務 啟用思考
為簡單的查詢、聊天和對延遲敏感的應用 禁用思考
根據任務的預期複雜度 調整思考深度

對品質的影響

思考模式是 Gemma 4 強大基準測試表現的主要驅動力。AIME 2026 的 89.2% 得分和 BigBench Extra Hard 的 74% 得分都是在啟用思考模式的情況下取得的。如果沒有思考模式，這些分數會顯著降低 — 類似於在其他具有擴展推理能力的模型中看到的模式。

Apache 2.0：為什麼授權變更很重要

之前的 Gemma 代次是在 Google 自定義的 Gemma 授權下發布的，其中包括對以下方面的限制：

在某些應用程式中的使用
再分發條款
大規模使用的商業部署限制

Gemma 4 切換到 Apache 2.0，這是與 Kubernetes、TensorFlow 和 Apache HTTP Server 等項目相同的授權。這意味著：

無使用限制 — 可用於任何用途，包括商業產品
無再分發限制 — 自由分享修改後的 weights
除了授權本身外無歸屬要求 — 標準的 Apache 2.0 聲明
無需 Google 批准 — 可以在任何規模部署而無需許可
相容於其他開源授權 — 易於集成到現有項目中

對於在開放模型之上構建產品的企業和初創公司來說，這消除了 Gemma 自定義授權所需的法律審核開銷。它還使 Gemma 4 能與 Meta 的 Llama 模型（使用具有某些限制的自定義授權）直接對比，並將其定位為目前最寬鬆授權的高品質開放模型家族。

語言支援

Gemma 4 支援 35+ 種語言進行 inference，並在 140+ 種語言上進行了 pre-trained。這使其成為目前最強大的多語言開放模型之一，與同樣強調廣泛語言覆蓋的 Qwen's models 並列。

支援的語言包括世界主要語言（英語、中文、西班牙語、法語、德語、日語、韓語、阿拉伯語、印地語、葡萄牙語、俄語）以及許多數位足跡較小的語言。在 140+ 種語言上的 pre-training 意味著模型在官方支援的 35+ 種語言之外也具有一定的能力，儘管品質可能有所不同。

對於針對全球受眾或非英語市場的應用程式，這種廣泛的語言支援減少了對特定語言進行專門 fine-tuning 或單獨模型的需求。

結構化工具使用與 Agentic 工作流

Gemma 4 包含對結構化工具使用的原生支援，實現了模型可以執行以下操作的 agentic 工作流：

使用格式正確的請求 調用外部 API
從工具和服務中 解析結構化回應
鏈接多個工具調用 以完成複雜任務
在工具執行中 處理錯誤和重試

這種能力對於 Android Studio integration 特別重要，Gemma 4 在其中驅動本地 agentic 編碼工作流。模型可以理解程式碼上下文、建議更改、執行工具並進行迭代 — 所有這些都在開發者的機器上本地運行，無需將程式碼發送到外部伺服器。

對於構建 AI agents 的開發者，Gemma 4 的結構化工具使用提供了一個完全本地、完全私密的基礎。結合 Apache 2.0 授權，這使得構建和部署 agentic 應用程式時無需依賴任何外部模型提供商。

硬體要求

通過 Ollama 進行本地部署

模型	所需 RAM (4-bit)	所需 RAM (FP16)	GPU 建議
E2B	~5 GB	~5 GB	任何現代 GPU / 僅 CPU
E4B	~5 GB	~9 GB	任何現代 GPU / 僅 CPU
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

來源：Ollama 模型庫

E2B 和 E4B 模型專為 edge 部署而設計。它們可以在筆記型電腦、桌上型 CPU 甚至某些智慧型手機上順暢運行。26B MoE 和 31B Dense 模型需要專用的 GPU 硬體，但對於擁有消費級 GPU 的個人開發者來說仍然可以獲取。

NVIDIA 優化

NVIDIA 已發布適用於 RTX GPU 的優化版 Gemma 4，提供：

通過特定 GPU 內核優化實現 更快的 inference
在 RTX 4000 和 5000 系列顯示卡上獲得 更好的記憶體利用率
適用於生產部署的 TensorRT 整合
減少重複 inference 開銷的 CUDA graph 支援

來源：NVIDIA AI Blog

與 Gemma 3 相比的變化

功能	Gemma 3	Gemma 4
授權	Gemma 授權 (受限)	Apache 2.0 (無限制)
模型尺寸	3 種尺寸	4 種尺寸 (新增 MoE)
Context Window	高達 128K	高達 256K
模態	文字、影像	文字、影像、影片、音訊
思考模式	否	是 (可配置)
工具使用	有限	結構化工具使用
語言	30+	35+ (在 140+ 種上進行 pre-trained)
BigBench Extra Hard	19%	74%

每個維度都有提升。對開發者影響最大的變化是 Apache 2.0 授權（消除了法律摩擦）、思考模式（提高了困難任務的品質）以及 MoE 架構（以極小的運算成本提供旗艦級品質）。

實際使用場景

編碼與開發

Gemma 4 的結構化工具使用和思考模式使其在以下方面非常有效：

本地程式碼補全與生成
程式碼審查與錯誤檢測
自動化測試生成
文件撰寫
Android Studio 中的 agentic 編碼工作流

文件處理

憑藉 256K context windows 和 multimodal 支援：

在單個 prompt 中處理整個程式碼庫或長篇文件
從文件影像、收據和表單中提取資訊
分析圖表和數據視覺化
總結冗長的學術論文或法律文件

構建 AI 驅動的應用程式

對於構建包含 AI 能力的產品的開發者，Gemma 4 提供了一個強大的 on-device 或自託管 inference 層。模型處理智能部分 — 理解查詢、生成回應、處理影像 — 而你的應用程式框架處理其餘部分。像 ZBuild 這樣的工具可以加速構建應用程式外殼（前端、後端、資料庫、部署），讓你能專注於 Gemma 4 能力最為關鍵的 AI 整合層。

Edge 與行動部署

E2B 和 E4B 模型開啟了以前開放模型無法實現的使用場景：

可離線工作的 on-device 助手
絕不將數據發送到外部伺服器的隱私保護 AI 功能
行動裝置上的即時影片和音訊處理
IoT 和機器人應用中的嵌入式 AI

如何開始

Ollama (最快路徑)

# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取並執行 Gemma 4
ollama run gemma4:e2b      # 最小，可在任何地方運行
ollama run gemma4:e4b      # 小型，功能更廣
ollama run gemma4:26b-moe  # MoE，效率最佳
ollama run gemma4:31b      # Dense，品質最高

Hugging Face

所有 Gemma 4 模型都可以在 Hugging Face 上獲取，並具有完整的 transformers 整合：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google 通過 AI Studio 提供免費的 Gemma 4 API 存取，用於實驗和原型開發，並提供 Vertex AI 用於生產部署。

競爭格局中的 Gemma 4

為了理解 Gemma 4 在廣泛生態系統中的位置：

模型	Params	授權	MMLU Pro	Arena AI	Context
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B active)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B active)	Meta 授權	79.6%	1417	1M
Llama 4 Scout	109B (~17B active)	Meta 授權	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B active)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B 在開放模型中實現了最高的 MMLU Pro 得分和 Arena AI 排名 — 且總參數最少。這種參數效率是 Gemini 3 技術基礎和可配置思考模式的直接結果。

26B MoE 模型的效率故事更為引人注目。它在 Arena AI 上排名第 6，而每個 token 僅啟動 3.8B parameters。沒有其他模型能達到同等的品質與運算比。對於 inference 成本隨使用量擴張的生產部署，這種效率直接轉化為成本節約。

與專有模型相比，Gemma 4 31B 的基準測試可與 Anthropic 和 OpenAI 的中階產品競爭。雖然頂尖的專有模型在最困難的任務上仍然領先，但差距已大幅縮小 — 而且 Gemma 4 具有零 per-token 成本和完全的 Apache 2.0 自由。

結論

Gemma 4 為 2026 年的 open-weight 模型設定了新標準。Apache 2.0 授權、四種差異化明顯的模型尺寸、原生 multimodal 支援、可配置的思考模式以及可與更大模型競爭的基準測試得分，使其成為目前最實用的開放模型家族。

當你需要最高品質時，31B Dense 是正確選擇。當你需要以最低運算成本獲得強大品質時，26B MoE 是正確選擇。E2B 和 E4B 是 edge 部署和 on-device AI 的正確選擇。在 Gemma 家族中，授權首次不再限制任何這些使用場景。

Google Gemma 4: 規格、基準測試與新功能全面指南 (2026)