主要なポイント
Google Gemma 4 は、真に寛容なライセンスの下でリリースされた、これまでで最も有能な open-weight モデルファミリーです。31B Dense モデルは MMLU Pro で 85.2% を記録し、Arena AI の全 open モデルの中で 3位にランクされています。一方で 26B MoE は、わずか 3.8B アクティブパラメータでほぼ同等の品質を実現しています。Gemma は今回初めて Apache 2.0 の下で提供され、前世代の商用利用を妨げていたあらゆるライセンスの摩擦を解消します。
Google Gemma 4: 知っておくべきことのすべて
リリースの概要
Google DeepMind は April 2, 2026 に Gemma 4 をリリースし、Gemini 3 と同じ技術基盤の上に構築された 4つのモデルサイズを導入しました。この世代は、モデルの品質、マルチモーダル能力、コンテキスト長、およびライセンス条項のあらゆる側面において、Gemma ファミリーの中で最大の飛躍を遂げています。
Gemma 3 からの主な変更点:
- Apache 2.0 ライセンス — 使用制限なし、カスタムライセンスなし、完全な商用の自由
- 4つのモデルサイズ — 3つから増加し、新しい MoE アーキテクチャを含む
- ネイティブマルチモーダルサポート — すべてのサイズで対応(テキスト、画像、ビデオ、オーディオ)
- 設定可能な thinking mode — 4,000+ tokens の推論チェーン
- 256K コンテキストウィンドウ — 大規模モデルで対応(Gemma 3 の制限から拡張)
- 35+ の対応言語 — 140+ の言語で事前学習
- 構造化された tool use — エージェントワークフローに対応
4つのモデルサイズ
Gemma 4 は、それぞれ異なる展開シナリオをターゲットとした 4つの異なるサイズで提供されます。
| モデル | パラメータ | アクティブパラメータ | アーキテクチャ | コンテキスト | モダリティ |
|---|---|---|---|---|---|
| E2B | 2.3B 有効 | 2.3B | Dense | 128K | テキスト, 画像, ビデオ, オーディオ |
| E4B | 4.5B 有効 | 4.5B | Dense | 128K | テキスト, 画像, ビデオ, オーディオ |
| 26B MoE | 26B 合計 | 3.8B | Mixture of Experts | 256K | テキスト, 画像 |
| 31B Dense | 31B | 31B | Dense | 256K | テキスト, 画像 |
E2B および E4B: エッジモデル
最も小さい Gemma 4 モデルは、デバイス上での展開向けに設計されています。それぞれ 2.3B および 4.5B の有効パラメータを持ち、4-bit 量子化を使用することで、わずか 5GB の RAM を搭載したスマートフォン、タブレット、ノート PC で動作します。
これらのモデルが注目に値するのは、そのモダリティの幅広さです。ファミリーの中で最小であるにもかかわらず、E2B と E4B は、テキスト、画像、ビデオ、オーディオの 4つの入力モダリティすべてをサポートする唯一の Gemma 4 モデルです。これは意図的な設計上の選択であり、カメラやマイクを備えたエッジデバイスはマルチモーダル機能から最も大きな恩恵を受けるためです。
両モデルとも 128K tokens のコンテキストウィンドウをサポートしており、これはパラメータ数に対して寛容であり、ほとんどのデバイス上のユースケースに十分です。
26B MoE: 最大の効率
26B Mixture of Experts モデルは、間違いなく Gemma 4 のラインナップの中で最も興味深いモデルです。合計 26B のパラメータを含んでいますが、任意の入力に対してアクティブになるのは 3.8B パラメータのみです。これは E4B モデルとほぼ同じ計算コストでありながら、劇的に多くの知識と能力にアクセスできることを意味します。
Arena AI では、26B MoE はわずか 3.8B のアクティブパラメータしか使用していないにもかかわらず、1441 のスコアで全 open モデル中 6位にランクされています。この効率比は前例がありません。この計算コストでこれに匹敵する品質を達成しているモデルは他にありません。
MoE アーキテクチャは、各 token を専門化されたエキスパートサブネットワーク経由でルーティングするため、推論コストを低く抑えながら大規模な知識容量を維持できます。強力な推論が必要だが GPU メモリが限られている展開シナリオにおいて、26B MoE は最適な選択肢です。
31B Dense: 最高品質
31B Dense モデルは Gemma 4 のフラッグシップです。すべての token に対してすべてのパラメータがアクティブになり、あらゆるタスクタイプにおいて最も一貫性のある高品質な出力を提供します。
Arena AI では、31B Dense は 1452 のスコアで 全 open モデル中 3位 にランクされています。MMLU Pro では 85.2% を達成しており、これは数倍のサイズのモデルと競合する数値です。AIME 2026 での 89.2% というスコアは強力な数学的推論を示し、BigBench Extra Hard での 74%(前世代の 19% から向上)は、複雑な推論タスクにおける大幅な改善を示しています。
ベンチマーク: 完全なデータ
推論と知識
| ベンチマーク | 31B Dense | 26B MoE | 備考 |
|---|---|---|---|
| MMLU Pro | 85.2% | — | 大学院レベルの知識 |
| AIME 2026 | 89.2% | — | 競技数学 |
| BigBench Extra Hard | 74% | — | 前世代の 19% から向上 |
| Arena AI Score | 1452 (3位) | 1441 (6位) | open モデルランキング |
BigBench Extra Hard: 特筆すべき結果
BigBench Extra Hard における 19% から 74% への飛躍は、特筆に値します。このベンチマークは、複雑なマルチステップの推論、論理的演繹、およびパターンマッチングではなく真の理解を必要とするタスクをテストします。単一の世代で 55 パーセンテージポイント向上したことは、単なるスケーリングではなく、Gemma 4 の推論アーキテクチャにおける根本的な進歩を示唆しています。
この改善は、設定可能な thinking mode および Gemma 4 が構築されている基盤となる Gemini 3 技術に関連している可能性が高いです。thinking mode は、モデルが複雑な問題をステップバイステップで解決するのを助ける拡張された推論チェーンを生成します。
Arena AI ランキングの背景
Arena AI は、人間による 1対1 の好みの比較に基づいてモデルをランク付けします。31B Dense が 1452 を記録し、open モデルの中で 3位にランクされたことは、大幅に多くのパラメータを持つ多くのモデルを上回っていることを意味します。背景として:
- これより上位にランクされているモデルは、通常 70B+ パラメータのモデルです。
- 26B MoE がわずか 3.8B のアクティブパラメータで 1441 を達成したことは、効率性におけるブレークスルーです。
- 両モデルとも、前世代の Gemma 3 27B を大幅に上回っています。
マルチモーダル能力
画像理解
4つの Gemma 4 モデルすべてが画像をネイティブに処理します。機能には以下が含まれます:
- 画像の記述と分析 — 視覚的コンテンツの詳細な理解
- OCR とドキュメント解析 — 画像、レシート、スクリーンショットからのテキスト抽出
- チャートと図解の解釈 — データ視覚化の理解
- 視覚的推論 — 空間的関係の理解を必要とする質問への回答
ビデオとオーディオ(E2B/E4B のみ)
より小規模な E2B および E4B モデルには、ネイティブのビデオおよびオーディオ処理が追加されています:
- ビデオ理解 — フレームごとの抽出なしでのビデオコンテンツの分析
- オーディオの文字起こしと理解 — 音声および環境音の処理
- クロスモーダル推論 — テキスト、画像、ビデオ、オーディオの入力を跨ぐ質問への回答
この設計上の選択は、Google のエッジ展開への注力を反映しています。モバイルデバイスはビデオやオーディオをネイティブにキャプチャするため、それらのデバイス向けに設計されたモデルがこれらのモダリティをサポートしています。
設定可能な thinking mode
Gemma 4 は、応答を生成する前に 4,000+ tokens の内部推論を生成する、設定可能な thinking mode を導入しました。これは Claude のモデル や OpenAI の o-series に見られる拡張された思考機能に似ていますが、open-weight モデルで実装されています。
仕組み
thinking mode が有効になると、モデルは以下を行います:
- 入力プロンプトを受け取る
- 内部推論チェーンを生成する(設定に応じて表示または非表示)
- 推論チェーンを使用して、より高品質な最終応答を生成する
thinking mode はリクエストごとに切り替えることができ、開発者は以下のことが可能です:
- 複雑な数学、論理、コーディング、および分析タスクのために thinking を有効にする
- 単純なクエリ、チャット、およびレイテンシに敏感なアプリケーションのために thinking を無効にする
- タスクの予想される複雑さに基づいて thinking の深さを調整する
品質への影響
thinking mode は、Gemma 4 の強力なベンチマークパフォーマンスの主要な原動力です。AIME 2026 の 89.2% や BigBench Extra Hard の 74% というスコアは、すべて thinking mode を有効にして達成されたものです。thinking mode なしでは、これらのスコアは著しく低くなります。これは、拡張された推論機能を備えた他のモデルで見られるパターンと同様です。
Apache 2.0: なぜライセンス変更が重要なのか
以前の Gemma 世代は Google のカスタム Gemma ライセンスの下で提供されており、以下の制限が含まれていました:
- 特定のアプリケーションでの使用制限
- 再配布条項
- 大規模利用における商用展開の制限
Gemma 4 は、Kubernetes、TensorFlow、Apache HTTP Server などのプロジェクトで使用されているのと同じライセンスである Apache 2.0 に切り替わりました。これは以下を意味します:
- 使用制限なし — 商用製品を含むあらゆる目的に使用可能
- 再配布の制限なし — 変更されたウェイトを自由に共有可能
- ライセンス以外の帰属表示要件なし — 標準的な Apache 2.0 の通知のみ
- Google の承認不要 — 許可なくあらゆる規模で展開可能
- 他のオープンソースライセンスとの互換性 — 既存のプロジェクトへの統合が容易
オープンモデルの上に製品を構築している企業やスタートアップにとって、これにより Gemma のカスタムライセンスが必要としていた法的審査のオーバーヘッドが解消されます。また、Gemma 4 は Meta の Llama モデル(独自の制限付きカスタムライセンスを使用)と直接比較可能になり、利用可能な中で最も寛容なライセンスを持つ高品質な open モデルファミリーとしての地位を確立しました。
言語サポート
Gemma 4 は推論において 35+ の言語をサポートしており、140+ の言語で事前学習されています。これにより、広範な言語カバー率を強調する Qwen のモデル と並び、利用可能な中で最も多言語対応が進んだ open モデルの 1つとなっています。
サポートされている言語には、世界の主要言語(英語、中国語、スペイン語、フランス語、ドイツ語、日本語、韓国語、アラビア語、ヒンディー語、ポルトガル語、ロシア語)に加え、デジタルフットプリントの小さい多くの言語が含まれます。140+ の言語での事前学習は、公式にサポートされている 35 言語以外でもモデルが一定の能力を持っていることを意味しますが、品質は異なる場合があります。
グローバルな聴衆や英語圏以外の市場をターゲットとするアプリケーションにとって、この広範な言語サポートは、言語ごとの専門的な fine-tuning や個別のモデルの必要性を減らします。
構造化された tool use とエージェントワークフロー
Gemma 4 は構造化された tool use をネイティブにサポートしており、モデルが以下を行うエージェントワークフローを可能にします:
- 適切にフォーマットされたリクエストで 外部 API を呼び出す
- ツールやサービスからの 構造化された応答を解析する
- 複雑なタスクを完了するために 複数のツール呼び出しを連鎖させる
- ツール実行における エラーとリトライを処理する
この機能は、Gemma 4 がローカルなエージェントコーディングワークフローを支える Android Studio 統合 において特に重要です。モデルはコードの文脈を理解し、変更を提案し、ツールを実行し、反復することができます。これらすべてが、外部サーバーにコードを送信することなく、開発者のマシン上でローカルに実行されます。
AI エージェントを構築する開発者にとって、Gemma 4 の構造化された tool use は、完全にローカルでプライベートな基盤を提供します。Apache 2.0 ライセンスと組み合わせることで、外部モデルプロバイダーに依存することなく、エージェントアプリケーションの構築と展開が可能になります。
ハードウェア要件
Ollama によるローカル展開
| モデル | 必要 RAM (4-bit) | 必要 RAM (FP16) | 推奨 GPU |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | 現代的なあらゆる GPU / CPU のみ |
| E4B | ~5 GB | ~9 GB | 現代的なあらゆる GPU / CPU のみ |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
E2B および E4B モデルは、エッジ展開向けに特別に設計されています。これらはノート PC、デスクトップ CPU、さらには一部のスマートフォンでも快適に動作します。26B MoE および 31B Dense モデルは専用の GPU ハードウェアを必要としますが、コンシューマー向け GPU を持つ個別の開発者でもアクセス可能な範囲にとどまっています。
NVIDIA の最適化
NVIDIA は RTX GPU 向けに最適化された Gemma 4 バージョンをリリースし、以下を提供しています:
- GPU 特有のカーネル最適化による より高速な推論
- RTX 4000 および 5000 シリーズカードでの より優れたメモリ利用
- 本番展開のための TensorRT 統合
- 繰り返される推論におけるオーバーヘッドを削減する CUDA グラフのサポート
Gemma 3 から何が変わったか
| 機能 | Gemma 3 | Gemma 4 |
|---|---|---|
| ライセンス | Gemma ライセンス (制限あり) | Apache 2.0 (制限なし) |
| モデルサイズ | 3サイズ | 4サイズ (MoE を追加) |
| コンテキストウィンドウ | 最大 128K | 最大 256K |
| モダリティ | テキスト, 画像 | テキスト, 画像, ビデオ, オーディオ |
| Thinking Mode | なし | あり (設定可能) |
| Tool Use | 限定的 | 構造化された tool use |
| 言語 | 30+ | 35+ (140+ で事前学習) |
| BigBench Extra Hard | 19% | 74% |
あらゆる次元で向上しました。開発者にとって最も影響力のある変更は、Apache 2.0 ライセンス(法的な摩擦の解消)、thinking mode(困難なタスクでの品質向上)、および MoE アーキテクチャ(フラッグシップ級の品質をわずかな計算コストで提供)です。
実際的なユースケース
コーディングと開発
Gemma 4 の構造化された tool use と thinking mode は、以下の用途に効果的です:
- ローカルでのコード補完と生成
- コードレビューとバグ検出
- 自動テスト生成
- ドキュメント作成
- Android Studio におけるエージェントコーディングワークフロー
ドキュメント処理
256K コンテキストウィンドウとマルチモーダルサポートにより:
- 単一のプロンプトでコードベース全体や長いドキュメントを処理
- ドキュメント、レシート、フォームの画像から情報を抽出
- チャートやデータの視覚化を分析
- 長い研究論文や法的文書を要約
AI 駆動型アプリケーションの構築
AI 機能を組み込んだ製品を構築する開発者にとって、Gemma 4 は強力なデバイス上またはセルフホストの推論レイヤーを提供します。モデルがインテリジェンス(クエリの理解、応答の生成、画像の処理)を処理し、アプリケーションフレームワークが残りを処理します。ZBuild のようなツールを使用すると、アプリケーションのシェル(フロントエンド、バックエンド、データベース、デプロイ)の構築を加速でき、Gemma 4 の能力が最も重要となる AI 統合レイヤーの開発に注力できます。
エッジおよびモバイル展開
E2B および E4B モデルは、以前の open モデルでは不可能だったユースケースを切り拓きます:
- オフラインで動作するデバイス上のアシスタント
- 外部サーバーにデータを送信しない、プライバシーを保護する AI 機能
- モバイルデバイスでのリアルタイムのビデオおよびオーディオ処理
- IoT およびロボティクスアプリケーションにおける組み込み AI
始め方
Ollama (最短ルート)
# Ollama のインストール
curl -fsSL https://ollama.com/install.sh | sh
# Gemma 4 のプルと実行
ollama run gemma4:e2b # 最小サイズ、どこでも動作
ollama run gemma4:e4b # 小サイズ、より広範な能力
ollama run gemma4:26b-moe # MoE、最高の効率
ollama run gemma4:31b # Dense、最高品質
Hugging Face
すべての Gemma 4 モデルは Hugging Face で提供されており、完全な transformers 統合が可能です:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google は、実験やプロトタイピングのために AI Studio を通じて Gemma 4 への無料 API アクセスを提供しており、本番展開には Vertex AI が利用可能です。
競争環境における Gemma 4
広範なエコシステムにおける Gemma 4 の位置付けを理解するために:
| モデル | パラメータ | ライセンス | MMLU Pro | Arena AI | コンテキスト |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B アクティブ) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B アクティブ) | Meta ライセンス | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B アクティブ) | Meta ライセンス | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B アクティブ) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B は、open モデルの中で最も少ない合計パラメータ数でありながら、最高の MMLU Pro スコアと Arena AI ランキングを達成しています。このパラメータ効率は、Gemini 3 の技術基盤と設定可能な thinking mode の直接的な成果です。
26B MoE モデルの効率性はさらに説得力があります。token ごとにわずか 3.8B パラメータしかアクティブにしないにもかかわらず、Arena AI で 6位にランクされています。この品質対計算比に匹敵するモデルは他にありません。使用量に応じて推論コストがスケールする本番展開において、この効率性は直接的なコスト削減につながります。
プロプライエタリなモデルと比較すると、Gemma 4 31B のベンチマークは Anthropic や OpenAI のミドルティア製品と競合します。最高峰のプロプライエタリモデルは依然として最も困難なタスクでリードしていますが、その差は劇的に縮まっており、Gemma 4 は token ごとのコストがゼロであり、完全な Apache 2.0 の自由を備えています。
結論
Gemma 4 は 2026 年における open-weight モデルの新たな基準を打ち立てました。Apache 2.0 ライセンス、明確に差別化された 4つのモデルサイズ、ネイティブマルチモーダルサポート、設定可能な thinking mode、そしてはるかに大きなモデルと競合するベンチマークスコアの組み合わせにより、現在利用可能な中で最も実用的な open モデルファミリーとなっています。
31B Dense は、最高の品質が必要な場合に最適な選択です。26B MoE は、最小の計算コストで強力な品質が必要な場合に最適な選択です。E2B および E4B は、エッジ展開やデバイス上の AI に最適です。Gemma ファミリーにおいて初めて、ライセンスがこれらのユースケースを制限することはありません。
出典
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers