Apa itu Google Gemma 4 dan kapan dirilis?

Google Gemma 4 adalah lini model open-weight dari Google DeepMind yang dirilis pada 2 April 2026. Ini mencakup 4 ukuran — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total), dan 31B Dense. Semua model dirilis di bawah Apache 2.0, lisensi paling permisif yang pernah digunakan untuk rilis Gemma.

Apakah Gemma 4 benar-benar open source?

Ya. Gemma 4 adalah generasi Gemma pertama yang dirilis di bawah lisensi Apache 2.0, yang memungkinkan penggunaan komersial, modifikasi, dan redistribusi tanpa batas tanpa memerlukan izin dari Google. Model Gemma sebelumnya menggunakan lisensi kustom Gemma dari Google yang memberlakukan batasan penggunaan.

Berapa context window yang didukung Gemma 4?

Model yang lebih kecil (E2B dan E4B) mendukung context window 128K token. Model yang lebih besar (26B MoE dan 31B Dense) mendukung context window 256K token. Ini merupakan peningkatan besar dibandingkan batas context Gemma 3 dan memungkinkan pemrosesan seluruh codebase atau dokumen panjang dalam satu prompt.

Dapatkah Gemma 4 memproses gambar, video, dan audio?

Ya. Keempat model Gemma 4 bersifat multimodal secara native dan mendukung input teks serta gambar. Model E2B dan E4B melangkah lebih jauh dengan kemampuan pemrosesan video dan audio native. Ini menjadikan Gemma 4 lini model open-weight pertama di mana model terkecil memiliki dukungan modalitas terluas.

Bagaimana cara kerja thinking mode pada Gemma 4?

Gemma 4 menyertakan thinking mode yang dapat dikonfigurasi yang menghasilkan 4.000+ token penalaran internal sebelum memberikan respons. Penalaran chain-of-thought ini dapat diaktifkan atau dinonaktifkan per permintaan, memungkinkan pengembang memilih antara respons yang lebih cepat untuk tugas sederhana dan penalaran yang lebih mendalam untuk masalah kompleks seperti matematika, logika, dan coding.

Hardware apa yang saya butuhkan untuk menjalankan Gemma 4 secara lokal?

Gemma 4 E2B dan E4B berjalan pada perangkat dengan RAM sekecil 5GB menggunakan 4-bit quantization, termasuk smartphone dan laptop. Model 26B MoE membutuhkan sekitar 18GB RAM dan 31B Dense membutuhkan sekitar 20GB RAM. Semua model berjalan melalui Ollama dengan optimasi NVIDIA RTX GPU yang tersedia.

Poin Penting

Google Gemma 4 adalah keluarga model open-weight paling mumpuni yang pernah dirilis di bawah lisensi yang benar-benar permisif. Model 31B Dense mencetak skor 85.2% pada MMLU Pro dan menempati peringkat ke-3 di antara semua model terbuka di Arena AI — sementara 26B MoE mencapai kualitas yang hampir identik dengan hanya 3.8B active params. Untuk pertama kalinya, Gemma hadir di bawah Apache 2.0, menghilangkan setiap hambatan lisensi yang menghambat adopsi komersial dari generasi sebelumnya.

Google Gemma 4: Segala Hal yang Perlu Anda Ketahui

Ikhtisar Rilis

Google DeepMind merilis Gemma 4 pada April 2, 2026, memperkenalkan empat ukuran model yang dibangun di atas fondasi teknologi yang sama dengan Gemini 3. Generasi ini mewakili lompatan terbesar dalam keluarga Gemma di setiap dimensi: kualitas model, kemampuan multimodal, panjang context, dan ketentuan lisensi.

Perubahan utama dari Gemma 3:

Lisensi Apache 2.0 — tidak ada batasan penggunaan, tidak ada lisensi kustom, kebebasan komersial penuh
Empat ukuran model alih-alih tiga, termasuk arsitektur MoE baru
Dukungan multimodal bawaan di semua ukuran (teks, gambar, video, audio)
Mode pemikiran yang dapat dikonfigurasi dengan rantai penalaran 4,000+ tokens
256K context windows pada model yang lebih besar (naik dari batas Gemma 3)
35+ bahasa yang didukung, dilatih sebelumnya pada 140+ bahasa
Penggunaan tool terstruktur untuk alur kerja agentic

Empat Ukuran Model

Gemma 4 hadir dalam empat ukuran berbeda, masing-masing menargetkan skenario penerapan yang berbeda:

Model	Parameters	Active Params	Architecture	Context	Modalities
E2B	2.3B effective	2.3B	Dense	128K	Text, Image, Video, Audio
E4B	4.5B effective	4.5B	Dense	128K	Text, Image, Video, Audio
26B MoE	26B total	3.8B	Mixture of Experts	256K	Text, Image
31B Dense	31B	31B	Dense	256K	Text, Image

Sumber: Google AI Blog

E2B dan E4B: Model Edge

Model Gemma 4 terkecil dirancang untuk penerapan on-device. Dengan masing-masing 2.3B dan 4.5B effective parameters, model ini berjalan pada smartphone, tablet, dan laptop dengan RAM sekecil 5GB menggunakan 4-bit quantization.

Apa yang membuat model-model ini luar biasa adalah luasnya modalitas mereka. Meskipun merupakan yang terkecil dalam keluarga ini, E2B dan E4B adalah satu-satunya model Gemma 4 yang mendukung keempat modalitas input: teks, gambar, video, dan audio. Ini adalah pilihan desain yang disengaja — perangkat edge dengan kamera dan mikrofon paling diuntungkan dari kemampuan multimodal.

Kedua model mendukung 128K token context windows, yang cukup besar untuk jumlah parameter mereka dan memadai untuk sebagian besar kasus penggunaan on-device.

26B MoE: Efisiensi Maksimal

Model 26B Mixture of Experts bisa dibilang merupakan model yang paling menarik dalam lini Gemma 4. Ia berisi total 26B parameters tetapi hanya mengaktifkan 3.8B parameters untuk input tertentu — kira-kira biaya compute yang sama dengan model E4B tetapi dengan akses ke pengetahuan dan kemampuan yang jauh lebih besar.

Di Arena AI, 26B MoE menempati peringkat ke-6 di antara semua model terbuka dengan skor 1441, meskipun hanya menggunakan 3.8B active params. Rasio efisiensi ini belum pernah terjadi sebelumnya — tidak ada model lain yang mencapai kualitas sebanding pada biaya compute ini.

Arsitektur MoE merutekan setiap token melalui sub-jaringan pakar yang terspesialisasi, memungkinkan model untuk mempertahankan kapasitas pengetahuan yang besar sambil menjaga biaya inference tetap rendah. Untuk skenario penerapan di mana Anda membutuhkan penalaran yang kuat tetapi memiliki memori GPU yang terbatas, 26B MoE adalah pilihan optimal.

31B Dense: Kualitas Maksimal

Model 31B Dense adalah unggulan dari Gemma 4. Setiap parameter aktif untuk setiap token, memberikan hasil yang paling konsisten dan berkualitas tinggi di semua jenis tugas.

Di Arena AI, 31B Dense menempati peringkat ke-3 di antara semua model terbuka dengan skor 1452. Pada MMLU Pro, ia mencapai 85.2% — kompetitif dengan model-model yang ukurannya beberapa kali lipat lebih besar. Skor 89.2% pada AIME 2026 menunjukkan penalaran matematika yang kuat, sementara 74% pada BigBench Extra Hard (naik dari 19% pada generasi sebelumnya) menunjukkan peningkatan masif dalam tugas penalaran yang kompleks.

Benchmark: Data Lengkap

Penalaran dan Pengetahuan

Benchmark	31B Dense	26B MoE	Catatan
MMLU Pro	85.2%	—	Pengetahuan tingkat pascasarjana
AIME 2026	89.2%	—	Matematika kompetisi
BigBench Extra Hard	74%	—	Naik dari 19% di gen sebelumnya
Arena AI Score	1452 (ke-3)	1441 (ke-6)	Peringkat model terbuka

Sumber: Laporan teknis Google DeepMind

BigBench Extra Hard: Hasil yang Menonjol

Lompatan dari 19% ke 74% pada BigBench Extra Hard layak mendapatkan perhatian khusus. Benchmark ini menguji penalaran multi-langkah yang kompleks, deduksi logis, dan tugas-tugas yang membutuhkan pemahaman sejati alih-alih sekadar pencocokan pola. Peningkatan 55 poin persentase dalam satu generasi menunjukkan kemajuan mendasar dalam arsitektur penalaran Gemma 4, bukan sekadar penskalaan.

Peningkatan ini kemungkinan besar terkait dengan mode pemikiran yang dapat dikonfigurasi dan teknologi dasar Gemini 3 yang mendasari pembuatan Gemma 4. Mode pemikiran menghasilkan rantai penalaran panjang yang membantu model bekerja melalui masalah kompleks langkah demi langkah.

Konteks Peringkat Arena AI

Arena AI memberikan peringkat model berdasarkan perbandingan preferensi manusia secara langsung. Skor 31B Dense sebesar 1452 dan peringkat ke-3 di antara model terbuka menempatkannya di atas banyak model dengan jumlah parameter yang jauh lebih banyak. Sebagai konteks:

Model yang berperingkat di atasnya biasanya adalah model dengan 70B+ parameter
26B MoE yang mencapai 1441 dengan hanya 3.8B active params adalah terobosan efisiensi
Kedua model mengungguli Gemma 3 27B sebelumnya dengan selisih yang signifikan

Kemampuan Multimodal

Pemahaman Gambar

Keempat model Gemma 4 memproses gambar secara native. Kemampuannya meliputi:

Deskripsi dan analisis gambar — pemahaman mendalam tentang konten visual
OCR dan penguraian dokumen — mengekstrak teks dari gambar, tanda terima, screenshot
Interpretasi bagan dan diagram — memahami visualisasi data
Penalaran visual — menjawab pertanyaan yang membutuhkan pemahaman hubungan spasial

Video dan Audio (Hanya E2B/E4B)

Model E2B dan E4B yang lebih kecil menambahkan pemrosesan video dan audio native:

Pemahaman video — menganalisis konten video tanpa ekstraksi bingkai demi bingkai
Transkripsi dan pemahaman audio — memproses ucapan dan audio lingkungan
Penalaran lintas-modal — menjawab pertanyaan yang mencakup input teks, gambar, video, dan audio

Pilihan desain ini mencerminkan fokus Google pada penerapan edge. Perangkat seluler menangkap video dan audio secara native, sehingga model yang dirancang untuk perangkat tersebut mendukung modalitas tersebut.

Mode Pemikiran yang Dapat Dikonfigurasi

Gemma 4 memperkenalkan mode pemikiran yang dapat dikonfigurasi yang menghasilkan 4,000+ tokens penalaran internal sebelum memberikan respons. Ini mirip dengan kemampuan berpikir yang diperluas yang terlihat pada model-model Claude dan o-series dari OpenAI, tetapi diimplementasikan dalam model open-weight.

Cara Kerjanya

Saat mode pemikiran diaktifkan, model:

Menerima prompt input
Menghasilkan rantai penalaran internal (terlihat atau tersembunyi, tergantung pada konfigurasi)
Menggunakan rantai penalaran tersebut untuk menghasilkan respons akhir yang berkualitas lebih tinggi

Mode pemikiran dapat diaktifkan per permintaan, memungkinkan pengembang untuk:

Mengaktifkan pemikiran untuk tugas matematika kompleks, logika, pemrograman, dan analisis
Menonaktifkan pemikiran untuk pertanyaan sederhana, obrolan, dan aplikasi yang sensitif terhadap latensi
Menyesuaikan kedalaman pemikiran berdasarkan kompleksitas tugas yang diharapkan

Dampak pada Kualitas

Mode pemikiran adalah pendorong utama di balik kinerja benchmark Gemma 4 yang kuat. Skor AIME 2026 sebesar 89.2% dan skor BigBench Extra Hard sebesar 74% keduanya dicapai dengan mode pemikiran yang diaktifkan. Tanpa mode pemikiran, skor ini akan jauh lebih rendah — serupa dengan pola yang terlihat pada model lain dengan kemampuan penalaran yang diperluas.

Apache 2.0: Mengapa Perubahan Lisensi Itu Penting

Generasi Gemma sebelumnya dikirimkan di bawah lisensi kustom Gemma dari Google, yang mencakup batasan pada:

Penggunaan dalam aplikasi tertentu
Ketentuan redistribusi
Batasan penerapan komersial untuk penggunaan skala besar

Gemma 4 beralih ke Apache 2.0, lisensi yang sama yang digunakan oleh proyek-proyek seperti Kubernetes, TensorFlow, dan Apache HTTP Server. Ini berarti:

Tidak ada batasan penggunaan — gunakan untuk apa pun, termasuk produk komersial
Tidak ada batasan redistribusi — bagikan bobot yang dimodifikasi secara bebas
Tidak ada persyaratan atribusi di luar lisensi — pemberitahuan standar Apache 2.0
Tidak perlu persetujuan Google — terapkan pada skala apa pun tanpa izin
Kompatibel dengan lisensi open-source lainnya — mudah diintegrasikan ke dalam proyek yang sudah ada

Bagi perusahaan dan startup yang membangun produk di atas model terbuka, hal ini menghilangkan beban tinjauan hukum yang diwajibkan oleh lisensi kustom Gemma. Ini juga membuat Gemma 4 dapat dibandingkan secara langsung dengan model Llama dari Meta (yang menggunakan lisensi kustom mereka sendiri dengan beberapa batasan) dan menempatkannya sebagai keluarga model terbuka berkualitas tinggi dengan lisensi paling permisif yang tersedia.

Dukungan Bahasa

Gemma 4 mendukung 35+ bahasa untuk inference dan dilatih sebelumnya pada 140+ bahasa. Ini menjadikannya salah satu model terbuka paling multibahasa yang tersedia, di samping model-model Qwen yang juga menekankan cakupan bahasa yang luas.

Bahasa yang didukung mencakup bahasa-bahasa utama dunia (Inggris, Mandarin, Spanyol, Prancis, Jerman, Jepang, Korea, Arab, Hindi, Portugis, Rusia) serta banyak bahasa dengan jejak digital yang lebih kecil. Pelatihan awal pada 140+ bahasa berarti model memiliki beberapa kemampuan dalam bahasa di luar 35+ yang didukung secara resmi, meskipun kualitasnya mungkin bervariasi.

Untuk aplikasi yang menargetkan audiens global atau pasar non-Inggris, dukungan bahasa yang luas ini mengurangi kebutuhan akan fine-tuning khusus atau model terpisah per bahasa.

Penggunaan Tool Terstruktur dan Alur Kerja Agentic

Gemma 4 menyertakan dukungan native untuk penggunaan tool terstruktur, memungkinkan alur kerja agentic di mana model dapat:

Memanggil API eksternal dengan permintaan yang diformat dengan benar
Mengurai respons terstruktur dari tool dan layanan
Merantai beberapa panggilan tool untuk menyelesaikan tugas-tugas kompleks
Menangani kesalahan dan percobaan ulang dalam eksekusi tool

Kemampuan ini sangat relevan untuk integrasi Android Studio, di mana Gemma 4 mendukung alur kerja coding agentic lokal. Model dapat memahami konteks kode, menyarankan perubahan, mengeksekusi tool, dan melakukan iterasi — semuanya berjalan secara lokal di mesin pengembang tanpa mengirim kode ke server eksternal.

Bagi pengembang yang membangun agen AI, penggunaan tool terstruktur Gemma 4 menyediakan fondasi yang sepenuhnya lokal dan privat. Dikombinasikan dengan lisensi Apache 2.0, ini memungkinkan pembangunan dan penerapan aplikasi agentic tanpa ketergantungan pada penyedia model eksternal.

Persyaratan Perangkat Keras

Penerapan Lokal melalui Ollama

Model	RAM yang Dibutuhkan (4-bit)	RAM yang Dibutuhkan (FP16)	Rekomendasi GPU
E2B	~5 GB	~5 GB	GPU modern apa pun / CPU saja
E4B	~5 GB	~9 GB	GPU modern apa pun / CPU saja
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Sumber: Perpustakaan model Ollama

Model E2B dan E4B dirancang khusus untuk penerapan edge. Mereka berjalan dengan nyaman di laptop, CPU desktop, dan bahkan beberapa smartphone. Model 26B MoE dan 31B Dense memerlukan perangkat keras GPU khusus tetapi tetap dapat diakses oleh pengembang individu dengan GPU konsumen.

Optimasi NVIDIA

NVIDIA telah merilis versi Gemma 4 yang dioptimalkan untuk GPU RTX, memberikan:

Inference lebih cepat melalui optimasi kernel khusus GPU
Pemanfaatan memori yang lebih baik pada kartu seri RTX 4000 dan 5000
Integrasi TensorRT untuk penerapan produksi
Dukungan CUDA graph untuk mengurangi overhead dalam inference berulang

Sumber: NVIDIA AI Blog

Apa yang Berubah dari Gemma 3

Fitur	Gemma 3	Gemma 4
Lisensi	Lisensi Gemma (terbatas)	Apache 2.0 (tidak terbatas)
Ukuran Model	3 ukuran	4 ukuran (ditambah MoE)
Context Window	Hingga 128K	Hingga 256K
Modalitas	Teks, Gambar	Teks, Gambar, Video, Audio
Mode Pemikiran	Tidak	Ya (dapat dikonfigurasi)
Penggunaan Tool	Terbatas	Penggunaan tool terstruktur
Bahasa	30+	35+ (dilatih pada 140+)
BigBench Extra Hard	19%	74%

Setiap dimensi ditingkatkan. Perubahan yang paling berdampak bagi pengembang adalah lisensi Apache 2.0 (menghilangkan hambatan hukum), mode pemikiran (meningkatkan kualitas pada tugas-tugas sulit), dan arsitektur MoE (memberikan kualitas unggulan dengan sebagian kecil dari biaya compute).

Kasus Penggunaan Praktis

Pemrograman dan Pengembangan

Penggunaan tool terstruktur dan mode pemikiran Gemma 4 membuatnya efektif untuk:

Melengkapi dan menghasilkan kode secara lokal
Tinjauan kode dan deteksi bug
Pembuatan pengujian otomatis
Penulisan dokumentasi
Alur kerja coding agentic di Android Studio

Pemrosesan Dokumen

Dengan 256K context windows dan dukungan multimodal:

Memproses seluruh basis kode atau dokumen panjang dalam satu prompt
Mengekstrak informasi dari gambar dokumen, tanda terima, dan formulir
Menganalisis bagan dan visualisasi data
Meringkas makalah penelitian yang panjang atau dokumen hukum

Membangun Aplikasi Berbasis AI

Bagi pengembang yang membangun produk yang menyertakan kemampuan AI, Gemma 4 menyediakan lapisan inference on-device atau self-hosted yang kuat. Model menangani kecerdasan — memahami kueri, menghasilkan respons, memproses gambar — sementara framework aplikasi Anda menangani sisanya. Alat seperti ZBuild dapat mempercepat pembangunan kerangka aplikasi (frontend, backend, database, deployment), memungkinkan Anda memfokuskan upaya pengembangan pada lapisan integrasi AI di mana kemampuan Gemma 4 paling berperan.

Penerapan Edge dan Seluler

Model E2B dan E4B membuka kasus penggunaan yang sebelumnya tidak mungkin dilakukan dengan model terbuka:

Asisten on-device yang bekerja secara offline
Fitur AI yang menjaga privasi dan tidak pernah mengirim data ke server eksternal
Pemrosesan video dan audio real-time pada perangkat seluler
AI tertanam dalam aplikasi IoT dan robotika

Cara Memulai

Ollama (Jalur Tercepat)

# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Tarik dan jalankan Gemma 4
ollama run gemma4:e2b      # Terkecil, berjalan di mana saja
ollama run gemma4:e4b      # Kecil, kemampuan lebih luas
ollama run gemma4:26b-moe  # MoE, efisiensi terbaik
ollama run gemma4:31b      # Dense, kualitas tertinggi

Hugging Face

Semua model Gemma 4 tersedia di Hugging Face dengan integrasi transformers penuh:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google menyediakan akses API gratis ke Gemma 4 melalui AI Studio untuk eksperimen dan pembuatan prototipe, dengan Vertex AI tersedia untuk penerapan produksi.

Gemma 4 dalam Lanskap Kompetitif

Untuk memahami posisi Gemma 4 dalam ekosistem yang lebih luas:

Model	Params	License	MMLU Pro	Arena AI	Context
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B active)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B active)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B active)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B active)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B mencapai skor MMLU Pro tertinggi dan peringkat Arena AI di antara model terbuka — dengan total parameter paling sedikit. Efisiensi parameter ini adalah hasil langsung dari fondasi teknologi Gemini 3 dan mode pemikiran yang dapat dikonfigurasi.

Kisah efisiensi model 26B MoE bahkan lebih menarik. Ia menempati peringkat ke-6 di Arena AI sementara hanya mengaktifkan 3.8B parameters per token. Tidak ada model lain yang mencapai rasio kualitas-terhadap-compute yang sebanding. Untuk penerapan produksi di mana biaya inference berskala dengan penggunaan, efisiensi ini diterjemahkan langsung menjadi penghematan biaya.

Dibandingkan dengan model proprietary, benchmark Gemma 4 31B kompetitif dengan penawaran tingkat menengah dari Anthropic dan OpenAI. Meskipun model proprietary teratas masih memimpin dalam tugas-tugas tersulit, kesenjangannya telah menyempit secara dramatis — dan Gemma 4 hadir dengan biaya nol per token dan kebebasan penuh Apache 2.0.

Keputusan Akhir

Gemma 4 menetapkan standar baru untuk model open-weight pada tahun 2026. Kombinasi lisensi Apache 2.0, empat ukuran model yang terdiferensiasi dengan baik, dukungan multimodal native, mode pemikiran yang dapat dikonfigurasi, dan skor benchmark yang kompetitif dengan model yang jauh lebih besar menjadikannya keluarga model terbuka paling praktis yang tersedia.

31B Dense adalah pilihan yang tepat saat Anda membutuhkan kualitas maksimal. 26B MoE adalah pilihan yang tepat saat Anda membutuhkan kualitas kuat dengan biaya compute minimal. E2B dan E4B adalah pilihan yang tepat untuk penerapan edge dan AI on-device. Untuk pertama kalinya dalam keluarga Gemma, lisensi tidak membatasi kasus penggunaan ini.

Google Gemma 4: Panduan Lengkap Spesifikasi, Benchmark, dan Apa yang Baru (2026)