← 返回新聞
ZBuild News

Google Gemma 4: 規格、基準測試與新功能全面指南 (2026)

關於 Google Gemma 4 的一切須知 — 第一款採用 Apache 2.0 授權的 Gemma 版本。涵蓋所有 4 種模型尺寸(E2B, E4B, 26B MoE, 31B Dense)、多模態能力、可配置的 thinking mode、256K context、85.2% MMLU Pro 以及本地部署的硬體需求。

Published
2026-04-03T00:00:00.000Z
Author
ZBuild Team
Reading Time
6 min read
gemma 4google gemma 4gemma 4 releasegemma 4 benchmarksgemma 4 specsgemma 4 open source
Google Gemma 4: 規格、基準測試與新功能全面指南 (2026)
ZBuild Teamzh-TW
XLinkedIn

核心摘要

Google Gemma 4 是有史以來在真正寬鬆授權下發布的功能最強大的 open-weight 模型家族。31B Dense 模型在 MMLU Pro 上獲得 85.2%,並在 Arena AI 的所有開放模型中排名第 3 — 而 26B MoE 僅需 3.8B active parameters 即可達到幾乎相同的品質。Gemma 首次以 Apache 2.0 授權發布,消除了阻礙前幾代商業採用的所有授權摩擦。


Google Gemma 4:你需要知道的一切

發布概覽

Google DeepMind 於 April 2, 2026 發布了 Gemma 4,推出了四種基於與 Gemini 3 相同技術基礎的模型尺寸。這一代代表了 Gemma 家族在各個維度上的最大飛躍:模型品質、multimodal 能力、context length 和授權條款。

與 Gemma 3 相比的主要變化:

  • Apache 2.0 授權 — 無使用限制,無自定義授權,完全的商業自由
  • 四種模型尺寸 而非三種,包括全新的 MoE 架構
  • 原生 multimodal 支援 涵蓋所有尺寸(文字、影像、影片、音訊)
  • 可配置的思考模式 (thinking mode) 具有 4,000+ tokens 的推理鏈
  • 256K context windows 用於較大型模型(高於 Gemma 3 的限制)
  • 35+ 種支援語言,在 140+ 種語言上進行 pre-trained
  • 結構化工具使用 (Structured tool use) 用於 agentic 工作流

四種模型尺寸

Gemma 4 提供四種不同的尺寸,每種尺寸針對不同的部署場景:

模型ParametersActive Params架構Context模態
E2B2.3B effective2.3BDense128K文字、影像、影片、音訊
E4B4.5B effective4.5BDense128K文字、影像、影片、音訊
26B MoE26B total3.8BMixture of Experts256K文字、影像
31B Dense31B31BDense256K文字、影像

來源:Google AI Blog

E2B 與 E4B:Edge 模型

最小的 Gemma 4 模型專為 on-device 部署而設計。分別具有 2.3B 和 4.5B effective parameters,它們可以使用 4-bit quantization 在僅有 5GB RAM 的智慧型手機、平板電腦和筆記型電腦上運行。

使這些模型引人注目的是它們的模態廣度。儘管是家族中最小的模型,E2B 和 E4B 是唯一支援所有四種輸入模態的 Gemma 4 模型:文字、影像、影片和音訊。這是一個深思熟慮的設計選擇 — 配備攝像頭和麥克風的 edge 設備從 multimodal 能力中獲益最多。

這兩款模型都支援 128K tokens 的 context windows,這對於它們的參數數量來說非常慷慨,且足以滿足大多數 on-device 使用場景。

26B MoE:最大效率

26B Mixture of Experts 模型可以說是 Gemma 4 系列中最有趣的模型。它包含 26B 總參數,但對於任何給定的輸入僅激活 3.8B parameters — 運算成本與 E4B 模型大致相同,但可以獲取大幅增加的知識和能力。

Arena AI 上,26B MoE 在所有開放模型中排名第 6,得分為 1441,儘管僅使用了 3.8B active parameters。這種效率比是前所未有的 — 沒有其他模型能在這種運算成本下達到同等的品質。

MoE 架構將每個 token 路由通過專門的專家子網絡,使模型在保持低 inference 成本的同時,維持龐大的知識容量。對於需要強大推理能力但 GPU 記憶體有限的部署場景,26B MoE 是最佳選擇。

31B Dense:最高品質

31B Dense 模型是 Gemma 4 的旗艦產品。每個參數對於每個 token 都是 active 的,使其在所有任務類型中提供最一致且最高品質的輸出。

在 Arena AI 上,31B Dense 在所有開放模型中排名第 3,得分為 1452。在 MMLU Pro 上,它達到了 85.2% — 與尺寸為其數倍的模型相比極具競爭力。AIME 2026 的 89.2% 得分展示了強大的數學推理能力,而 BigBench Extra Hard 的 74%(高於前幾代的 19%)則顯示了在複雜推理任務中的巨大進步。


基準測試:完整數據

推理與知識

基準測試31B Dense26B MoE備註
MMLU Pro85.2%研究生水平知識
AIME 202689.2%競賽數學
BigBench Extra Hard74%高於前一代的 19%
Arena AI Score1452 (第 3)1441 (第 6)開放模型排名

來源:Google DeepMind 技術報告

BigBench Extra Hard:亮眼表現

在 BigBench Extra Hard 上從 19% 躍升至 74% 值得特別關注。這項基準測試考察複雜的多步推理、邏輯演繹以及需要真正理解而非模式匹配的任務。在單一代際中實現 55 個百分點的提升,表明 Gemma 4 的推理架構發生了根本性的進步,而不僅僅是規模擴張。

這種進步可能與可配置的思考模式 (thinking mode) 以及 Gemma 4 所構建的底層 Gemini 3 技術有關。思考模式會生成擴展的推理鏈,幫助模型逐步解決複雜問題。

Arena AI 排名背景

Arena AI 根據人類偏好的對抗比較對模型進行排名。31B Dense 的 1452 分及其在開放模型中第 3 名的排名,使其超越了許多參數多得多的模型。背景參考:

  • 排名高於它的通常是 70B+ 參數的模型
  • 26B MoE 僅用 3.8B active parameters 就達到 1441 分,是一項效率突破
  • 兩款模型的表現都明顯優於之前的 Gemma 3 27B

Multimodal 能力

影像理解

所有四款 Gemma 4 模型都能原生處理影像。功能包括:

  • 影像描述與分析 — 對視覺內容的詳細理解
  • OCR 與文件解析 — 從影像、收據、螢幕截圖中提取文字
  • 圖表與圖示解讀 — 理解數據視覺化
  • 視覺推理 — 回答需要理解空間關係的問題

影片與音訊 (僅限 E2B/E4B)

較小的 E2B 和 E4B 模型增加了原生影片和音訊處理:

  • 影片理解 — 無需逐影格提取即可分析影片內容
  • 音訊轉錄與理解 — 處理語音和環境音訊
  • 跨模態推理 — 回答跨越文字、影像、影片和音訊輸入的問題

這一設計選擇反映了 Google 對於 edge 部署的關注。行動裝置原生捕捉影片和音訊,因此為這些裝置設計的模型支援這些模態。


可配置的思考模式 (Thinking Mode)

Gemma 4 引入了可配置的思考模式 (thinking mode),在產生回應之前會先生成 4,000+ tokens 的內部推理。這與 Claude's models 和 OpenAI 的 o-series 中看到的擴展思考能力相似,但在 open-weight 模型中實現了。

運作原理

當啟動思考模式時,模型會:

  1. 接收輸入 prompt
  2. 生成內部推理鏈(可見或隱藏,取決於配置)
  3. 使用推理鏈產生更高品質的最終回應

思考模式可以針對每個請求進行切換,允許開發者:

  • 為複雜的數學、邏輯、編碼和分析任務 啟用思考
  • 為簡單的查詢、聊天和對延遲敏感的應用 禁用思考
  • 根據任務的預期複雜度 調整思考深度

對品質的影響

思考模式是 Gemma 4 強大基準測試表現的主要驅動力。AIME 2026 的 89.2% 得分和 BigBench Extra Hard 的 74% 得分都是在啟用思考模式的情況下取得的。如果沒有思考模式,這些分數會顯著降低 — 類似於在其他具有擴展推理能力的模型中看到的模式。


Apache 2.0:為什麼授權變更很重要

之前的 Gemma 代次是在 Google 自定義的 Gemma 授權下發布的,其中包括對以下方面的限制:

  • 在某些應用程式中的使用
  • 再分發條款
  • 大規模使用的商業部署限制

Gemma 4 切換到 Apache 2.0,這是與 Kubernetes、TensorFlow 和 Apache HTTP Server 等項目相同的授權。這意味著:

  • 無使用限制 — 可用於任何用途,包括商業產品
  • 無再分發限制 — 自由分享修改後的 weights
  • 除了授權本身外無歸屬要求 — 標準的 Apache 2.0 聲明
  • 無需 Google 批准 — 可以在任何規模部署而無需許可
  • 相容於其他開源授權 — 易於集成到現有項目中

對於在開放模型之上構建產品的企業和初創公司來說,這消除了 Gemma 自定義授權所需的法律審核開銷。它還使 Gemma 4 能與 Meta 的 Llama 模型(使用具有某些限制的自定義授權)直接對比,並將其定位為目前最寬鬆授權的高品質開放模型家族。


語言支援

Gemma 4 支援 35+ 種語言進行 inference,並在 140+ 種語言上進行了 pre-trained。這使其成為目前最強大的多語言開放模型之一,與同樣強調廣泛語言覆蓋的 Qwen's models 並列。

支援的語言包括世界主要語言(英語、中文、西班牙語、法語、德語、日語、韓語、阿拉伯語、印地語、葡萄牙語、俄語)以及許多數位足跡較小的語言。在 140+ 種語言上的 pre-training 意味著模型在官方支援的 35+ 種語言之外也具有一定的能力,儘管品質可能有所不同。

對於針對全球受眾或非英語市場的應用程式,這種廣泛的語言支援減少了對特定語言進行專門 fine-tuning 或單獨模型的需求。


結構化工具使用與 Agentic 工作流

Gemma 4 包含對結構化工具使用的原生支援,實現了模型可以執行以下操作的 agentic 工作流:

  • 使用格式正確的請求 調用外部 API
  • 從工具和服務中 解析結構化回應
  • 鏈接多個工具調用 以完成複雜任務
  • 在工具執行中 處理錯誤和重試

這種能力對於 Android Studio integration 特別重要,Gemma 4 在其中驅動本地 agentic 編碼工作流。模型可以理解程式碼上下文、建議更改、執行工具並進行迭代 — 所有這些都在開發者的機器上本地運行,無需將程式碼發送到外部伺服器。

對於構建 AI agents 的開發者,Gemma 4 的結構化工具使用提供了一個完全本地、完全私密的基礎。結合 Apache 2.0 授權,這使得構建和部署 agentic 應用程式時無需依賴任何外部模型提供商。


硬體要求

通過 Ollama 進行本地部署

模型所需 RAM (4-bit)所需 RAM (FP16)GPU 建議
E2B~5 GB~5 GB任何現代 GPU / 僅 CPU
E4B~5 GB~9 GB任何現代 GPU / 僅 CPU
26B MoE~18 GB~52 GBRTX 4090 / RTX 5090
31B Dense~20 GB~62 GBRTX 4090 / RTX 5090

來源:Ollama 模型庫

E2B 和 E4B 模型專為 edge 部署而設計。它們可以在筆記型電腦、桌上型 CPU 甚至某些智慧型手機上順暢運行。26B MoE 和 31B Dense 模型需要專用的 GPU 硬體,但對於擁有消費級 GPU 的個人開發者來說仍然可以獲取。

NVIDIA 優化

NVIDIA 已發布適用於 RTX GPU 的優化版 Gemma 4,提供:

  • 通過特定 GPU 內核優化實現 更快的 inference
  • 在 RTX 4000 和 5000 系列顯示卡上獲得 更好的記憶體利用率
  • 適用於生產部署的 TensorRT 整合
  • 減少重複 inference 開銷的 CUDA graph 支援

來源:NVIDIA AI Blog


與 Gemma 3 相比的變化

功能Gemma 3Gemma 4
授權Gemma 授權 (受限)Apache 2.0 (無限制)
模型尺寸3 種尺寸4 種尺寸 (新增 MoE)
Context Window高達 128K高達 256K
模態文字、影像文字、影像、影片、音訊
思考模式是 (可配置)
工具使用有限結構化工具使用
語言30+35+ (在 140+ 種上進行 pre-trained)
BigBench Extra Hard19%74%

每個維度都有提升。對開發者影響最大的變化是 Apache 2.0 授權(消除了法律摩擦)、思考模式(提高了困難任務的品質)以及 MoE 架構(以極小的運算成本提供旗艦級品質)。


實際使用場景

編碼與開發

Gemma 4 的結構化工具使用和思考模式使其在以下方面非常有效:

  • 本地程式碼補全與生成
  • 程式碼審查與錯誤檢測
  • 自動化測試生成
  • 文件撰寫
  • Android Studio 中的 agentic 編碼工作流

文件處理

憑藉 256K context windows 和 multimodal 支援:

  • 在單個 prompt 中處理整個程式碼庫或長篇文件
  • 從文件影像、收據和表單中提取資訊
  • 分析圖表和數據視覺化
  • 總結冗長的學術論文或法律文件

構建 AI 驅動的應用程式

對於構建包含 AI 能力的產品的開發者,Gemma 4 提供了一個強大的 on-device 或自託管 inference 層。模型處理智能部分 — 理解查詢、生成回應、處理影像 — 而你的應用程式框架處理其餘部分。像 ZBuild 這樣的工具可以加速構建應用程式外殼(前端、後端、資料庫、部署),讓你能專注於 Gemma 4 能力最為關鍵的 AI 整合層。

Edge 與行動部署

E2B 和 E4B 模型開啟了以前開放模型無法實現的使用場景:

  • 可離線工作的 on-device 助手
  • 絕不將數據發送到外部伺服器的隱私保護 AI 功能
  • 行動裝置上的即時影片和音訊處理
  • IoT 和機器人應用中的嵌入式 AI

如何開始

Ollama (最快路徑)

# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取並執行 Gemma 4
ollama run gemma4:e2b      # 最小,可在任何地方運行
ollama run gemma4:e4b      # 小型,功能更廣
ollama run gemma4:26b-moe  # MoE,效率最佳
ollama run gemma4:31b      # Dense,品質最高

Hugging Face

所有 Gemma 4 模型都可以在 Hugging Face 上獲取,並具有完整的 transformers 整合:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google 通過 AI Studio 提供免費的 Gemma 4 API 存取,用於實驗和原型開發,並提供 Vertex AI 用於生產部署。


競爭格局中的 Gemma 4

為了理解 Gemma 4 在廣泛生態系統中的位置:

模型Params授權MMLU ProArena AIContext
Gemma 4 31B31BApache 2.085.2%1452256K
Gemma 4 26B MoE26B (3.8B active)Apache 2.01441256K
Llama 4 Maverick400B (~17B active)Meta 授權79.6%14171M
Llama 4 Scout109B (~17B active)Meta 授權~140010M
Qwen 3.5 72B72BApache 2.081.4%1438128K
Qwen 3.5 MoE397B (~22B active)Apache 2.083.1%1449128K

Gemma 4 31B 在開放模型中實現了最高的 MMLU Pro 得分和 Arena AI 排名 — 且總參數最少。這種參數效率是 Gemini 3 技術基礎和可配置思考模式的直接結果。

26B MoE 模型的效率故事更為引人注目。它在 Arena AI 上排名第 6,而每個 token 僅啟動 3.8B parameters。沒有其他模型能達到同等的品質與運算比。對於 inference 成本隨使用量擴張的生產部署,這種效率直接轉化為成本節約。

與專有模型相比,Gemma 4 31B 的基準測試可與 Anthropic 和 OpenAI 的中階產品競爭。雖然頂尖的專有模型在最困難的任務上仍然領先,但差距已大幅縮小 — 而且 Gemma 4 具有零 per-token 成本和完全的 Apache 2.0 自由。


結論

Gemma 4 為 2026 年的 open-weight 模型設定了新標準。Apache 2.0 授權、四種差異化明顯的模型尺寸、原生 multimodal 支援、可配置的思考模式以及可與更大模型競爭的基準測試得分,使其成為目前最實用的開放模型家族。

當你需要最高品質時,31B Dense 是正確選擇。當你需要以最低運算成本獲得強大品質時,26B MoE 是正確選擇。E2B 和 E4B 是 edge 部署和 on-device AI 的正確選擇。在 Gemma 家族中,授權首次不再限制任何這些使用場景。


來源

返回所有新聞
喜歡這篇文章嗎?
FAQ

Common questions

什麼是 Google Gemma 4,它是在何時發佈的?+
Google Gemma 4 是 Google DeepMind 於 2026 年 4 月 2 日發佈的開放權重模型系列。它包含 4 種尺寸 — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total) 以及 31B Dense。所有模型均根據 Apache 2.0 授權發佈,這是 Gemma 版本中使用過最寬鬆的授權。
Gemma 4 是真正的開源嗎?+
是的。Gemma 4 是第一代根據 Apache 2.0 授權發佈的 Gemma 模型,該授權允許無限制的商業使用、修改和重新分發,無需獲得 Google 的許可。之前的 Gemma 模型使用的是 Google 自訂的 Gemma 授權,該授權對使用有所限制。
Gemma 4 支援什麼樣的 context window?+
較小的模型(E2B 和 E4B)支援 128K token context windows。較大的模型(26B MoE 和 31B Dense)支援 256K token context windows。這相對於 Gemma 3 的 context 限制是一個重大改進,並且能夠在單個 prompt 中處理整個程式碼庫或長篇文件。
Gemma 4 可以處理圖像、影片和音訊嗎?+
是的。所有四款 Gemma 4 模型都是原生多模態的,支援文字和圖像輸入。E2B 和 E4B 模型更進一步,具備原生影片和音訊處理能力。這使得 Gemma 4 成為第一個最小型模型擁有最廣泛模態支援的開放權重模型系列。
Gemma 4 的 thinking mode 是如何運作的?+
Gemma 4 包含一個可配置的 thinking mode,在產生回覆之前會生成 4,000+ tokens 的內部推理。這種 chain-of-thought 推理可以根據每個請求開啟或關閉,讓開發者在簡單任務的快速回覆與數學、邏輯和編碼等複雜問題的深層推理之間進行選擇。
本地運行 Gemma 4 需要什麼硬體?+
Gemma 4 E2B 和 E4B 可以在僅有 5GB RAM 的裝置上運行(使用 4-bit quantization),包括智慧型手機和筆記型電腦。26B MoE 模型大約需要 18GB RAM,而 31B Dense 大約需要 20GB RAM。所有模型均可透過支援 NVIDIA RTX GPU 優化的 Ollama 運行。

用 ZBuild 建構

將您的想法變成可運行的應用——無需編程。

本月已有 46,000+ 開發者使用 ZBuild 建構

現在自己試試

描述您想要的——ZBuild 為您建構。

本月已有 46,000+ 開發者使用 ZBuild 建構
More Reading

Related articles

Claude Sonnet 4.6 完全指南:Benchmarks、Pricing、Capabilities 以及何時使用它 (2026)
2026-03-27T00:00:00.000Z

Claude Sonnet 4.6 完全指南:Benchmarks、Pricing、Capabilities 以及何時使用它 (2026)

Claude Sonnet 4.6 的權威指南 — Anthropic 於 2026 年 2 月 17 日發佈的中階模型。涵蓋所有 benchmarks (SWE-bench 79.6%, OSWorld 72.5%, ARC-AGI-2 58.3%)、API pricing (每百萬 tokens $3/$15)、extended thinking、1M context window,以及與 Opus 4.6 和 GPT-5.4 的詳細比較。

DeepSeek V4 發佈:Specs, Benchmarks 及關於這款 1T Open-Source Model 的一切已知資訊 (2026)
2026-03-27T00:00:00.000Z

DeepSeek V4 發佈:Specs, Benchmarks 及關於這款 1T Open-Source Model 的一切已知資訊 (2026)

DeepSeek V4 完整指南 — 這是一款具備 1 trillion parameter 的 Open-Source Model,搭載 Engram memory、million-token context 及 81% SWE-Bench。我們涵蓋了 architecture、benchmarks、pricing、release timeline,以及它與 GPT-5.4 和 Claude Opus 4.6 的比較。

Grok 5 完整指南:發布日期、6T 參數、Colossus 2 及 xAI 的 AGI 雄心 (2026)
2026-03-27T00:00:00.000Z

Grok 5 完整指南:發布日期、6T 參數、Colossus 2 及 xAI 的 AGI 雄心 (2026)

截至 2026 年 3 月關於 Grok 5 的所有已知資訊 — 這款擁有 6 trillion 參數的模型正於 xAI 的 Colossus 2 超級電腦叢集進行訓練。我們涵蓋了延遲的發布日期、技術規格、Elon Musk 的 10% AGI 主張、benchmark 預測,以及這對 AI 行業的意義。

Harness Engineering: 2026 年為 AI Agents 與 Codex 構建系統的完整指南
2026-03-27T00:00:00.000Z

Harness Engineering: 2026 年為 AI Agents 與 Codex 構建系統的完整指南

學習 Harness Engineering —— 這是一門設計系統的新學科,旨在讓 AI Coding Agents 真正實現大規模運作。內容涵蓋 OpenAI 的 1,000,000 行 Codex 實驗、Golden Principles、Dependency Layers、Repository-first Architecture、Garbage Collection 以及為您團隊提供的實踐實施指南。