核心要点
Google Gemma 4 是有史以来在真正宽松许可下发布的功能最强大的开放权重模型系列。31B Dense 模型在 MMLU Pro 上获得了 85.2% 的评分,并在 Arena AI 的所有开放模型中排名第 3 —— 而 26B MoE 仅凭 3.8B 个活跃参数就实现了几乎相同的质量。Gemma 首次在 Apache 2.0 下发布,消除了阻碍前几代产品商业应用的所有许可摩擦。
Google Gemma 4:你需要了解的一切
发布概览
Google DeepMind 于 April 2, 2026 发布了 Gemma 4,推出了基于与 Gemini 3 相同技术基础的四种模型尺寸。这一代代表了 Gemma 系列在各个维度的最大飞跃:模型质量、多模态能力、上下文长度和许可条款。
相较于 Gemma 3 的主要变化:
- Apache 2.0 许可 —— 无使用限制,无自定义许可,完全的商业自由
- 四种模型尺寸 而非三种,包括全新的 MoE 架构
- 原生多模态支持 覆盖所有尺寸(文本、图像、视频、音频)
- 可配置的思考模式 具有 4,000+ tokens 的推理链
- 256K 上下文窗口 见于较大模型(高于 Gemma 3 的限制)
- 支持 35+ 种语言,在 140+ 种语言上进行了预训练
- 结构化工具使用 用于智能体工作流
四种模型尺寸
Gemma 4 发布了四种不同的尺寸,每种都针对不同的部署场景:
| 模型 | 参数 | 活跃参数 | 架构 | 上下文 | 模态 |
|---|---|---|---|---|---|
| E2B | 2.3B effective | 2.3B | Dense | 128K | 文本、图像、视频、音频 |
| E4B | 4.5B effective | 4.5B | Dense | 128K | 文本、图像、视频、音频 |
| 26B MoE | 26B total | 3.8B | Mixture of Experts | 256K | 文本、图像 |
| 31B Dense | 31B | 31B | Dense | 256K | 文本、图像 |
E2B 和 E4B:边缘模型
最小的 Gemma 4 模型专为设备端部署而设计。其有效参数分别为 2.3B 和 4.5B,在使用 4-bit 量化的情况下,仅需 5GB RAM 即可在智能手机、平板电脑和笔记本电脑上运行。
这些模型的卓越之处在于其模态的广度。尽管是该系列中最小的模型,E2B 和 E4B 却是唯一支持所有四种输入模态(文本、图像、视频和音频)的 Gemma 4 模型。这是一个深思熟虑的设计选择 —— 带有摄像头和麦克风的边缘设备从多模态能力中获益最多。
两种模型都支持 128K tokens 的上下文窗口,这对于它们的参数量来说是非常慷慨的,足以满足大多数设备端用例。
26B MoE:最高效率
26B Mixture of Experts 模型可以说是 Gemma 4 阵容中最有趣的模型。它总共包含 26B 参数,但对于任何给定的输入仅激活 3.8B 参数 —— 计算成本与 E4B 模型大致相同,但却能获取显著更多的知识和能力。
在 Arena AI 上,26B MoE 在所有开放模型中排名第 6,分数为 1441,尽管它仅使用了 3.8B 个活跃参数。这种效率比是前所未有的 —— 没有其他模型能在这种计算成本下实现同等的质量。
MoE 架构通过专门的专家子网络路由每个 token,使模型能够保持巨大的知识容量,同时保持较低的推理成本。对于需要强大推理能力但 GPU 内存有限的部署场景,26B MoE 是最佳选择。
31B Dense:最高质量
31B Dense 模型是 Gemma 4 的旗舰产品。每个参数对每个 token 都是活跃的,这使其在所有任务类型中都能提供最一致和最高质量的输出。
在 Arena AI 上,31B Dense 在所有开放模型中排名第 3,分数为 1452。在 MMLU Pro 上,它达到了 85.2% —— 足以与尺寸大其数倍的模型竞争。在 AIME 2026 上 89.2% 的得分展示了强大的数学推理能力,而在 BigBench Extra Hard 上的 74%(从前几代的 19% 提升而来)则显示了复杂推理任务的巨大进步。
基准测试:完整数据
推理与知识
| 基准测试 | 31B Dense | 26B MoE | 备注 |
|---|---|---|---|
| MMLU Pro | 85.2% | — | 研究生水平知识 |
| AIME 2026 | 89.2% | — | 竞赛数学 |
| BigBench Extra Hard | 74% | — | 较前一代的 19% 有所提升 |
| Arena AI 分数 | 1452 (第 3) | 1441 (第 6) | 开放模型排名 |
BigBench Extra Hard:最突出的结果
在 BigBench Extra Hard 上从 19% 到 74% 的跨越值得特别关注。该基准测试考察复杂的多步推理、逻辑演绎以及需要真正理解而非模式匹配的任务。单代 55 个百分点的提升表明 Gemma 4 的推理架构有了根本性的进步,而不仅仅是规模扩展。
这种提升可能与可配置的思考模式以及 Gemma 4 所构建的底层 Gemini 3 技术有关。思考模式会生成扩展的推理链,帮助模型逐步解决复杂问题。
Arena AI 排名背景
Arena AI 根据人类偏好的面对面比较对模型进行排名。31B Dense 得分为 1452,在开放模型中排名第 3,领先于许多参数量大得多的模型。背景参考:
- 排名高于它的通常是 70B+ 参数的模型
- 26B MoE 仅凭 3.8B 活跃参数就达到了 1441 分,是一项效率突破
- 两款模型均显著优于之前的 Gemma 3 27B
多模态能力
图像理解
所有四种 Gemma 4 模型均原生处理图像。能力包括:
- 图像描述与分析 —— 对视觉内容的详细理解
- OCR 与文档解析 —— 从图像、收据、屏幕截图中提取文本
- 图表与示意图解读 —— 理解数据可视化
- 视觉推理 —— 回答需要理解空间关系的问题
视频与音频(仅限 E2B/E4B)
较小的 E2B 和 E4B 模型增加了原生视频和音频处理:
- 视频理解 —— 无需逐帧提取即可分析视频内容
- 音频转录与理解 —— 处理语音和环境音频
- 跨模态推理 —— 回答跨越文本、图像、视频和音频输入的提问
这一设计选择反映了 Google 对边缘部署的关注。移动设备原生捕获视频和音频,因此为这些设备设计的模型支持这些模态。
可配置思考模式
Gemma 4 引入了一种可配置的思考模式,在生成响应之前会生成 4,000+ tokens 的内部推理。这类似于 Claude's models 和 OpenAI 的 o-series 中看到的扩展思考能力,但在开放权重模型中实现了。
工作原理
当启用思考模式时,模型会:
- 接收输入提示词
- 生成内部推理链(根据配置可见或隐藏)
- 使用推理链生成更高质量的最终响应
思考模式可以按请求切换,允许开发者:
- 为复杂的数学、逻辑、编码和分析任务启用思考
- 为简单的查询、聊天和延迟敏感的应用禁用思考
- 根据任务的预期复杂度调整思考深度
对质量的影响
思考模式是 Gemma 4 强劲基准测试表现的主要驱动力。AIME 2026 的 89.2% 分数和 BigBench Extra Hard 的 74% 分数都是在启用思考模式的情况下获得的。如果不使用思考模式,这些分数会显著降低 —— 类似于在其他具有扩展推理能力的模型中看到的模式。
Apache 2.0:为什么许可变更很重要
之前的 Gemma 版本是在 Google 的自定义 Gemma 许可下发布的,其中包括对以下方面的限制:
- 在某些应用程序中的使用
- 再分发条款
- 大规模使用的商业部署限制
Gemma 4 切换到了 Apache 2.0,这是 Kubernetes、TensorFlow 和 Apache HTTP Server 等项目使用的相同许可。这意味着:
- 无使用限制 —— 可用于任何用途,包括商业产品
- 无再分发限制 —— 自由分享修改后的权重
- 除许可外无署名要求 —— 遵循标准的 Apache 2.0 告知
- 无需 Google 批准 —— 无需许可即可进行任何规模的部署
- 与其他开源许可兼容 —— 易于集成到现有项目中
对于在开放模型之上构建产品的企业和初创公司,这消除了 Gemma 自定义许可所需的法律审查开销。这也使得 Gemma 4 可以直接与 Meta 的 Llama 模型(使用具有某些限制的自定义许可)进行比较,并将其定位为目前最宽松授权的高质量开放模型系列。
语言支持
Gemma 4 支持 35+ 种语言进行推理,并在 140+ 种语言上进行了预训练。这使其成为可用的最多样化的开放模型之一,与同样强调广泛语言覆盖的 Qwen's models 并列。
支持的语言包括主要的世界语言(英语、中文、西班牙语、法语、德语、日语、韩语、阿拉伯语、印地语、葡萄牙语、俄语)以及许多数字足迹较小的语言。在 140+ 种语言上的预训练意味着该模型在官方支持的 35+ 种语言之外也具有一定的能力,尽管质量可能会有所不同。
对于针对全球受众或非英语市场的应用,这种广泛的语言支持减少了对专门微调或为每种语言使用单独模型的需求。
结构化工具使用与智能体工作流
Gemma 4 包含对结构化工具使用的原生支持,能够实现智能体工作流,使模型可以:
- 使用格式正确的请求调用外部 API
- 从工具和服务中解析结构化响应
- 链式调用多个工具以完成复杂任务
- 处理工具执行中的错误和重试
这种能力与 Android Studio integration 特别相关,Gemma 4 在其中驱动本地智能体编码工作流。模型可以理解代码上下文、建议更改、执行工具并进行迭代 —— 这一切都在开发者的机器上本地运行,无需将代码发送到外部服务器。
对于构建 AI 智能体的开发者来说,Gemma 4 的结构化工具使用提供了一个完全本地、完全私有的基础。结合 Apache 2.0 许可,这使得构建和部署智能体应用无需依赖任何外部模型提供商。
硬件要求
通过 Ollama 进行本地部署
| 模型 | 所需内存 (4-bit) | 所需内存 (FP16) | GPU 推荐 |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | 任何现代 GPU / 仅 CPU |
| E4B | ~5 GB | ~9 GB | 任何现代 GPU / 仅 CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
E2B 和 E4B 模型专为边缘部署设计。它们可以在笔记本电脑、桌面 CPU 甚至某些智能手机上顺畅运行。26B MoE 和 31B Dense 模型需要专门的 GPU 硬件,但对于拥有消费级 GPU 的个人开发者来说仍然是可以触达的。
NVIDIA 优化
NVIDIA 已发布针对 RTX GPU 优化的 Gemma 4 版本,提供:
- 通过 GPU 特定内核优化实现更快的推理
- 在 RTX 4000 和 5000 系列显卡上实现更好的内存利用率
- 用于生产环境部署的 TensorRT 集成
- CUDA graph 支持,以减少重复推理中的开销
与 Gemma 3 相比的变化
| 特性 | Gemma 3 | Gemma 4 |
|---|---|---|
| 许可 | Gemma 许可 (受限) | Apache 2.0 (不受限) |
| 模型尺寸 | 3 种尺寸 | 4 种尺寸 (增加了 MoE) |
| 上下文窗口 | 最高 128K | 最高 256K |
| 模态 | 文本、图像 | 文本、图像、视频、音频 |
| 思考模式 | 否 | 是 (可配置) |
| 工具使用 | 受限 | 结构化工具使用 |
| 语言 | 30+ | 35+ (预训练于 140+) |
| BigBench Extra Hard | 19% | 74% |
每个维度都有提升。对开发者来说影响最大的变化是 Apache 2.0 许可(消除了法律摩擦)、思考模式(提高了困难任务的质量)以及 MoE 架构(以一小部分计算成本提供了旗舰级质量)。
实际应用场景
编码与开发
Gemma 4 的结构化工具使用和思考模式使其在以下方面非常有效:
- 本地代码补全与生成
- 代码审查与错误检测
- 自动化测试生成
- 文档编写
- Android Studio 中的智能体编码工作流
文档处理
凭借 256K 上下文窗口和多模态支持:
- 在单个提示词中处理整个代码库或长文档
- 从文档图像、收据和表格中提取信息
- 分析图表和数据可视化
- 总结漫长的研究论文或法律文档
构建 AI 驱动的应用
对于构建集成 AI 功能的产品的开发者,Gemma 4 提供了一个强大的设备端或自托管推理层。模型负责处理智能部分 —— 理解查询、生成响应、处理图像 —— 而你的应用框架处理其余部分。像 ZBuild 这样的工具可以加速构建应用外壳(前端、后端、数据库、部署),让你将开发精力集中在 Gemma 4 能力至关重要的 AI 集成层。
边缘和移动端部署
E2B 和 E4B 模型开辟了以前使用开放模型无法实现的用例:
- 离线工作的设备端助手
- 永不将数据发送到外部服务器的隐私保护 AI 功能
- 移动设备上的实时视频和音频处理
- 物联网和机器人应用中的嵌入式 AI
如何开始
Ollama (最快路径)
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取并运行 Gemma 4
ollama run gemma4:e2b # 最小,随处运行
ollama run gemma4:e4b # 小巧,能力更广
ollama run gemma4:26b-moe # MoE,效率最佳
ollama run gemma4:31b # Dense,最高质量
Hugging Face
所有 Gemma 4 模型均可在 Hugging Face 上获取,并具有完整的 transformers 集成:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google 通过 AI Studio 为实验和原型设计提供免费的 Gemma 4 API 访问,并提供 Vertex AI 用于生产部署。
Gemma 4 在竞争格局中的地位
为了了解 Gemma 4 在更广泛生态系统中的位置:
| 模型 | 参数 | 许可 | MMLU Pro | Arena AI | 上下文 |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B 活跃) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B 活跃) | Meta 许可 | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B 活跃) | Meta 许可 | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B 活跃) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B 在开放模型中实现了最高的 MMLU Pro 分数和 Arena AI 排名 —— 且总参数量最少。这种参数效率是 Gemini 3 技术基础和可配置思考模式的直接结果。
26B MoE 模型的效率故事更具吸引力。它在 Arena AI 上排名第 6,而每个 token 仅激活 3.8B 参数。没有其他模型能达到同等的质量计算比。对于推理成本随使用量增加的生产部署,这种效率直接转化为成本节约。
与专有模型相比,Gemma 4 31B 的基准测试结果足以与 Anthropic 和 OpenAI 的中阶产品竞争。虽然顶级专有模型在最困难的任务上仍然领先,但差距已急剧缩小 —— 而且 Gemma 4 带来了零 token 成本和完整的 Apache 2.0 自由。
结论
Gemma 4 为 2026 年的开放权重模型树立了新标准。Apache 2.0 许可、四种差异化明显的模型尺寸、原生多模态支持、可配置思考模式以及足以与更大模型竞争的基准测试得分,这些组合使其成为了目前最实用的开放模型系列。
当你需要最高质量时,31B Dense 是正确选择。当你需要以最低计算成本获得强大质量时,26B MoE 是正确选择。E2B 和 E4B 则是边缘部署和设备端 AI 的正确选择。在 Gemma 系列中,许可协议首次不再限制这些用例。
来源
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers