Google Gemma 4 とは何ですか？いつリリースされましたか？

Google Gemma 4 は、2026年4月2日にリリースされた Google DeepMind の open-weight モデルファミリーです。E2B（2.3B effective）、E4B（4.5B effective）、26B MoE（3.8B active / 26B total）、31B Dense の4つのサイズが含まれています。すべてのモデルは、Gemma のリリース史上最も寛容な Apache 2.0 ライセンスの下で公開されています。

Gemma 4 は真のオープンソースですか？

はい。Gemma 4 は Apache 2.0 ライセンスでリリースされた最初の Gemma ジェネレーションであり、Google の許可を必要とせず、無制限の商用利用、改変、再配布が可能です。以前の Gemma モデルは、利用制限を課す Google 独自の Gemma license を使用していました。

Gemma 4 はどの程度の context window をサポートしていますか？

小規模モデル（E2B および E4B）は 128K token の context window をサポートしています。大規模モデル（26B MoE および 31B Dense）は 256K token の context window をサポートします。これは Gemma 3 の context 制限に対する大幅な改善であり、単一の prompt でコードベース全体や長いドキュメントを処理することを可能にします。

Gemma 4 は画像、動画、音声を処理できますか？

はい。4つの Gemma 4 モデルはすべてネイティブで multimodal であり、text と image の入力をサポートしています。E2B と E4B モデルはさらに進化し、ネイティブの video および audio 処理機能を備えています。これにより、Gemma 4 は、最も小さいモデルが最も幅広い modality をサポートする初の open-weight モデルファミリーとなりました。

Gemma 4 の thinking mode はどのように機能しますか？

Gemma 4 には、応答を生成する前に 4,000+ tokens 以上の内部推論を生成する設定可能な thinking mode が含まれています。この chain-of-thought 推論はリクエストごとにオン/オフを切り替えることができ、開発者は単純なタスクには高速な応答を、数学、論理、コーディングなどの複雑な問題には深い推論を選択できます。

Gemma 4 をローカルで実行するにはどのような hardware が必要ですか？

Gemma 4 E2B と E4B は、4-bit quantization を使用することで、スマートフォンやノートパソコンを含む 5GB RAM 程度のデバイスで動作します。26B MoE モデルには約 18GB RAM が、31B Dense には約 20GB RAM が必要です。すべてのモデルは Ollama 経由で動作し、NVIDIA RTX GPU の最適化が利用可能です。

主要なポイント

Google Gemma 4 は、真に寛容なライセンスの下でリリースされた、これまでで最も有能な open-weight モデルファミリーです。31B Dense モデルは MMLU Pro で 85.2% を記録し、Arena AI の全 open モデルの中で 3位にランクされています。一方で 26B MoE は、わずか 3.8B アクティブパラメータでほぼ同等の品質を実現しています。Gemma は今回初めて Apache 2.0 の下で提供され、前世代の商用利用を妨げていたあらゆるライセンスの摩擦を解消します。

Google Gemma 4: 知っておくべきことのすべて

リリースの概要

Google DeepMind は April 2, 2026 に Gemma 4 をリリースし、Gemini 3 と同じ技術基盤の上に構築された 4つのモデルサイズを導入しました。この世代は、モデルの品質、マルチモーダル能力、コンテキスト長、およびライセンス条項のあらゆる側面において、Gemma ファミリーの中で最大の飛躍を遂げています。

Gemma 3 からの主な変更点：

Apache 2.0 ライセンス — 使用制限なし、カスタムライセンスなし、完全な商用の自由
4つのモデルサイズ — 3つから増加し、新しい MoE アーキテクチャを含む
ネイティブマルチモーダルサポート — すべてのサイズで対応（テキスト、画像、ビデオ、オーディオ）
設定可能な thinking mode — 4,000+ tokens の推論チェーン
256K コンテキストウィンドウ — 大規模モデルで対応（Gemma 3 の制限から拡張）
35+ の対応言語 — 140+ の言語で事前学習
構造化された tool use — エージェントワークフローに対応

4つのモデルサイズ

Gemma 4 は、それぞれ異なる展開シナリオをターゲットとした 4つの異なるサイズで提供されます。

モデル	パラメータ	アクティブパラメータ	アーキテクチャ	コンテキスト	モダリティ
E2B	2.3B 有効	2.3B	Dense	128K	テキスト, 画像, ビデオ, オーディオ
E4B	4.5B 有効	4.5B	Dense	128K	テキスト, 画像, ビデオ, オーディオ
26B MoE	26B 合計	3.8B	Mixture of Experts	256K	テキスト, 画像
31B Dense	31B	31B	Dense	256K	テキスト, 画像

出典: Google AI Blog

E2B および E4B: エッジモデル

最も小さい Gemma 4 モデルは、デバイス上での展開向けに設計されています。それぞれ 2.3B および 4.5B の有効パラメータを持ち、4-bit 量子化を使用することで、わずか 5GB の RAM を搭載したスマートフォン、タブレット、ノート PC で動作します。

これらのモデルが注目に値するのは、そのモダリティの幅広さです。ファミリーの中で最小であるにもかかわらず、E2B と E4B は、テキスト、画像、ビデオ、オーディオの 4つの入力モダリティすべてをサポートする唯一の Gemma 4 モデルです。これは意図的な設計上の選択であり、カメラやマイクを備えたエッジデバイスはマルチモーダル機能から最も大きな恩恵を受けるためです。

両モデルとも 128K tokens のコンテキストウィンドウをサポートしており、これはパラメータ数に対して寛容であり、ほとんどのデバイス上のユースケースに十分です。

26B MoE: 最大の効率

26B Mixture of Experts モデルは、間違いなく Gemma 4 のラインナップの中で最も興味深いモデルです。合計 26B のパラメータを含んでいますが、任意の入力に対してアクティブになるのは 3.8B パラメータのみです。これは E4B モデルとほぼ同じ計算コストでありながら、劇的に多くの知識と能力にアクセスできることを意味します。

Arena AI では、26B MoE はわずか 3.8B のアクティブパラメータしか使用していないにもかかわらず、1441 のスコアで全 open モデル中 6位にランクされています。この効率比は前例がありません。この計算コストでこれに匹敵する品質を達成しているモデルは他にありません。

MoE アーキテクチャは、各 token を専門化されたエキスパートサブネットワーク経由でルーティングするため、推論コストを低く抑えながら大規模な知識容量を維持できます。強力な推論が必要だが GPU メモリが限られている展開シナリオにおいて、26B MoE は最適な選択肢です。

31B Dense: 最高品質

31B Dense モデルは Gemma 4 のフラッグシップです。すべての token に対してすべてのパラメータがアクティブになり、あらゆるタスクタイプにおいて最も一貫性のある高品質な出力を提供します。

Arena AI では、31B Dense は 1452 のスコアで全 open モデル中 3位にランクされています。MMLU Pro では 85.2% を達成しており、これは数倍のサイズのモデルと競合する数値です。AIME 2026 での 89.2% というスコアは強力な数学的推論を示し、BigBench Extra Hard での 74%（前世代の 19% から向上）は、複雑な推論タスクにおける大幅な改善を示しています。

ベンチマーク: 完全なデータ

推論と知識

ベンチマーク	31B Dense	26B MoE	備考
MMLU Pro	85.2%	—	大学院レベルの知識
AIME 2026	89.2%	—	競技数学
BigBench Extra Hard	74%	—	前世代の 19% から向上
Arena AI Score	1452 (3位)	1441 (6位)	open モデルランキング

出典: Google DeepMind テクニカルレポート

BigBench Extra Hard: 特筆すべき結果

BigBench Extra Hard における 19% から 74% への飛躍は、特筆に値します。このベンチマークは、複雑なマルチステップの推論、論理的演繹、およびパターンマッチングではなく真の理解を必要とするタスクをテストします。単一の世代で 55 パーセンテージポイント向上したことは、単なるスケーリングではなく、Gemma 4 の推論アーキテクチャにおける根本的な進歩を示唆しています。

この改善は、設定可能な thinking mode および Gemma 4 が構築されている基盤となる Gemini 3 技術に関連している可能性が高いです。thinking mode は、モデルが複雑な問題をステップバイステップで解決するのを助ける拡張された推論チェーンを生成します。

Arena AI ランキングの背景

Arena AI は、人間による 1対1 の好みの比較に基づいてモデルをランク付けします。31B Dense が 1452 を記録し、open モデルの中で 3位にランクされたことは、大幅に多くのパラメータを持つ多くのモデルを上回っていることを意味します。背景として：

これより上位にランクされているモデルは、通常 70B+ パラメータのモデルです。
26B MoE がわずか 3.8B のアクティブパラメータで 1441 を達成したことは、効率性におけるブレークスルーです。
両モデルとも、前世代の Gemma 3 27B を大幅に上回っています。

マルチモーダル能力

画像理解

4つの Gemma 4 モデルすべてが画像をネイティブに処理します。機能には以下が含まれます：

画像の記述と分析 — 視覚的コンテンツの詳細な理解
OCR とドキュメント解析 — 画像、レシート、スクリーンショットからのテキスト抽出
チャートと図解の解釈 — データ視覚化の理解
視覚的推論 — 空間的関係の理解を必要とする質問への回答

ビデオとオーディオ（E2B/E4B のみ）

より小規模な E2B および E4B モデルには、ネイティブのビデオおよびオーディオ処理が追加されています：

ビデオ理解 — フレームごとの抽出なしでのビデオコンテンツの分析
オーディオの文字起こしと理解 — 音声および環境音の処理
クロスモーダル推論 — テキスト、画像、ビデオ、オーディオの入力を跨ぐ質問への回答

この設計上の選択は、Google のエッジ展開への注力を反映しています。モバイルデバイスはビデオやオーディオをネイティブにキャプチャするため、それらのデバイス向けに設計されたモデルがこれらのモダリティをサポートしています。

設定可能な thinking mode

Gemma 4 は、応答を生成する前に 4,000+ tokens の内部推論を生成する、設定可能な thinking mode を導入しました。これは Claude のモデルや OpenAI の o-series に見られる拡張された思考機能に似ていますが、open-weight モデルで実装されています。

仕組み

thinking mode が有効になると、モデルは以下を行います：

入力プロンプトを受け取る
内部推論チェーンを生成する（設定に応じて表示または非表示）
推論チェーンを使用して、より高品質な最終応答を生成する

thinking mode はリクエストごとに切り替えることができ、開発者は以下のことが可能です：

複雑な数学、論理、コーディング、および分析タスクのために thinking を有効にする
単純なクエリ、チャット、およびレイテンシに敏感なアプリケーションのために thinking を無効にする
タスクの予想される複雑さに基づいて thinking の深さを調整する

品質への影響

thinking mode は、Gemma 4 の強力なベンチマークパフォーマンスの主要な原動力です。AIME 2026 の 89.2% や BigBench Extra Hard の 74% というスコアは、すべて thinking mode を有効にして達成されたものです。thinking mode なしでは、これらのスコアは著しく低くなります。これは、拡張された推論機能を備えた他のモデルで見られるパターンと同様です。

Apache 2.0: なぜライセンス変更が重要なのか

以前の Gemma 世代は Google のカスタム Gemma ライセンスの下で提供されており、以下の制限が含まれていました：

特定のアプリケーションでの使用制限
再配布条項
大規模利用における商用展開の制限

Gemma 4 は、Kubernetes、TensorFlow、Apache HTTP Server などのプロジェクトで使用されているのと同じライセンスである Apache 2.0 に切り替わりました。これは以下を意味します：

使用制限なし — 商用製品を含むあらゆる目的に使用可能
再配布の制限なし — 変更されたウェイトを自由に共有可能
ライセンス以外の帰属表示要件なし — 標準的な Apache 2.0 の通知のみ
Google の承認不要 — 許可なくあらゆる規模で展開可能
他のオープンソースライセンスとの互換性 — 既存のプロジェクトへの統合が容易

オープンモデルの上に製品を構築している企業やスタートアップにとって、これにより Gemma のカスタムライセンスが必要としていた法的審査のオーバーヘッドが解消されます。また、Gemma 4 は Meta の Llama モデル（独自の制限付きカスタムライセンスを使用）と直接比較可能になり、利用可能な中で最も寛容なライセンスを持つ高品質な open モデルファミリーとしての地位を確立しました。

言語サポート

Gemma 4 は推論において 35+ の言語をサポートしており、140+ の言語で事前学習されています。これにより、広範な言語カバー率を強調する Qwen のモデルと並び、利用可能な中で最も多言語対応が進んだ open モデルの 1つとなっています。

サポートされている言語には、世界の主要言語（英語、中国語、スペイン語、フランス語、ドイツ語、日本語、韓国語、アラビア語、ヒンディー語、ポルトガル語、ロシア語）に加え、デジタルフットプリントの小さい多くの言語が含まれます。140+ の言語での事前学習は、公式にサポートされている 35 言語以外でもモデルが一定の能力を持っていることを意味しますが、品質は異なる場合があります。

グローバルな聴衆や英語圏以外の市場をターゲットとするアプリケーションにとって、この広範な言語サポートは、言語ごとの専門的な fine-tuning や個別のモデルの必要性を減らします。

構造化された tool use とエージェントワークフロー

Gemma 4 は構造化された tool use をネイティブにサポートしており、モデルが以下を行うエージェントワークフローを可能にします：

適切にフォーマットされたリクエストで 外部 API を呼び出す
ツールやサービスからの 構造化された応答を解析する
複雑なタスクを完了するために 複数のツール呼び出しを連鎖させる
ツール実行における エラーとリトライを処理する

この機能は、Gemma 4 がローカルなエージェントコーディングワークフローを支える Android Studio 統合において特に重要です。モデルはコードの文脈を理解し、変更を提案し、ツールを実行し、反復することができます。これらすべてが、外部サーバーにコードを送信することなく、開発者のマシン上でローカルに実行されます。

AI エージェントを構築する開発者にとって、Gemma 4 の構造化された tool use は、完全にローカルでプライベートな基盤を提供します。Apache 2.0 ライセンスと組み合わせることで、外部モデルプロバイダーに依存することなく、エージェントアプリケーションの構築と展開が可能になります。

ハードウェア要件

Ollama によるローカル展開

モデル	必要 RAM (4-bit)	必要 RAM (FP16)	推奨 GPU
E2B	~5 GB	~5 GB	現代的なあらゆる GPU / CPU のみ
E4B	~5 GB	~9 GB	現代的なあらゆる GPU / CPU のみ
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

出典: Ollama モデルライブラリ

E2B および E4B モデルは、エッジ展開向けに特別に設計されています。これらはノート PC、デスクトップ CPU、さらには一部のスマートフォンでも快適に動作します。26B MoE および 31B Dense モデルは専用の GPU ハードウェアを必要としますが、コンシューマー向け GPU を持つ個別の開発者でもアクセス可能な範囲にとどまっています。

NVIDIA の最適化

NVIDIA は RTX GPU 向けに最適化された Gemma 4 バージョンをリリースし、以下を提供しています：

GPU 特有のカーネル最適化による より高速な推論
RTX 4000 および 5000 シリーズカードでの より優れたメモリ利用
本番展開のための TensorRT 統合
繰り返される推論におけるオーバーヘッドを削減する CUDA グラフのサポート

出典: NVIDIA AI Blog

Gemma 3 から何が変わったか

機能	Gemma 3	Gemma 4
ライセンス	Gemma ライセンス (制限あり)	Apache 2.0 (制限なし)
モデルサイズ	3サイズ	4サイズ (MoE を追加)
コンテキストウィンドウ	最大 128K	最大 256K
モダリティ	テキスト, 画像	テキスト, 画像, ビデオ, オーディオ
Thinking Mode	なし	あり (設定可能)
Tool Use	限定的	構造化された tool use
言語	30+	35+ (140+ で事前学習)
BigBench Extra Hard	19%	74%

あらゆる次元で向上しました。開発者にとって最も影響力のある変更は、Apache 2.0 ライセンス（法的な摩擦の解消）、thinking mode（困難なタスクでの品質向上）、および MoE アーキテクチャ（フラッグシップ級の品質をわずかな計算コストで提供）です。

実際的なユースケース

コーディングと開発

Gemma 4 の構造化された tool use と thinking mode は、以下の用途に効果的です：

ローカルでのコード補完と生成
コードレビューとバグ検出
自動テスト生成
ドキュメント作成
Android Studio におけるエージェントコーディングワークフロー

ドキュメント処理

256K コンテキストウィンドウとマルチモーダルサポートにより：

単一のプロンプトでコードベース全体や長いドキュメントを処理
ドキュメント、レシート、フォームの画像から情報を抽出
チャートやデータの視覚化を分析
長い研究論文や法的文書を要約

AI 駆動型アプリケーションの構築

AI 機能を組み込んだ製品を構築する開発者にとって、Gemma 4 は強力なデバイス上またはセルフホストの推論レイヤーを提供します。モデルがインテリジェンス（クエリの理解、応答の生成、画像の処理）を処理し、アプリケーションフレームワークが残りを処理します。ZBuild のようなツールを使用すると、アプリケーションのシェル（フロントエンド、バックエンド、データベース、デプロイ）の構築を加速でき、Gemma 4 の能力が最も重要となる AI 統合レイヤーの開発に注力できます。

エッジおよびモバイル展開

E2B および E4B モデルは、以前の open モデルでは不可能だったユースケースを切り拓きます：

オフラインで動作するデバイス上のアシスタント
外部サーバーにデータを送信しない、プライバシーを保護する AI 機能
モバイルデバイスでのリアルタイムのビデオおよびオーディオ処理
IoT およびロボティクスアプリケーションにおける組み込み AI

始め方

Ollama (最短ルート)

# Ollama のインストール
curl -fsSL https://ollama.com/install.sh | sh

# Gemma 4 のプルと実行
ollama run gemma4:e2b      # 最小サイズ、どこでも動作
ollama run gemma4:e4b      # 小サイズ、より広範な能力
ollama run gemma4:26b-moe  # MoE、最高の効率
ollama run gemma4:31b      # Dense、最高品質

Hugging Face

すべての Gemma 4 モデルは Hugging Face で提供されており、完全な transformers 統合が可能です：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google は、実験やプロトタイピングのために AI Studio を通じて Gemma 4 への無料 API アクセスを提供しており、本番展開には Vertex AI が利用可能です。

競争環境における Gemma 4

広範なエコシステムにおける Gemma 4 の位置付けを理解するために：

モデル	パラメータ	ライセンス	MMLU Pro	Arena AI	コンテキスト
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B アクティブ)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B アクティブ)	Meta ライセンス	79.6%	1417	1M
Llama 4 Scout	109B (~17B アクティブ)	Meta ライセンス	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B アクティブ)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B は、open モデルの中で最も少ない合計パラメータ数でありながら、最高の MMLU Pro スコアと Arena AI ランキングを達成しています。このパラメータ効率は、Gemini 3 の技術基盤と設定可能な thinking mode の直接的な成果です。

26B MoE モデルの効率性はさらに説得力があります。token ごとにわずか 3.8B パラメータしかアクティブにしないにもかかわらず、Arena AI で 6位にランクされています。この品質対計算比に匹敵するモデルは他にありません。使用量に応じて推論コストがスケールする本番展開において、この効率性は直接的なコスト削減につながります。

プロプライエタリなモデルと比較すると、Gemma 4 31B のベンチマークは Anthropic や OpenAI のミドルティア製品と競合します。最高峰のプロプライエタリモデルは依然として最も困難なタスクでリードしていますが、その差は劇的に縮まっており、Gemma 4 は token ごとのコストがゼロであり、完全な Apache 2.0 の自由を備えています。

結論

Gemma 4 は 2026 年における open-weight モデルの新たな基準を打ち立てました。Apache 2.0 ライセンス、明確に差別化された 4つのモデルサイズ、ネイティブマルチモーダルサポート、設定可能な thinking mode、そしてはるかに大きなモデルと競合するベンチマークスコアの組み合わせにより、現在利用可能な中で最も実用的な open モデルファミリーとなっています。

31B Dense は、最高の品質が必要な場合に最適な選択です。26B MoE は、最小の計算コストで強力な品質が必要な場合に最適な選択です。E2B および E4B は、エッジ展開やデバイス上の AI に最適です。Gemma ファミリーにおいて初めて、ライセンスがこれらのユースケースを制限することはありません。

Google Gemma 4: スペック、ベンチマーク、新機能の完全ガイド (2026)