Poin Penting
Google Gemma 4 adalah keluarga model open-weight paling mumpuni yang pernah dirilis di bawah lisensi yang benar-benar permisif. Model 31B Dense mencetak skor 85.2% pada MMLU Pro dan menempati peringkat ke-3 di antara semua model terbuka di Arena AI — sementara 26B MoE mencapai kualitas yang hampir identik dengan hanya 3.8B active params. Untuk pertama kalinya, Gemma hadir di bawah Apache 2.0, menghilangkan setiap hambatan lisensi yang menghambat adopsi komersial dari generasi sebelumnya.
Google Gemma 4: Segala Hal yang Perlu Anda Ketahui
Ikhtisar Rilis
Google DeepMind merilis Gemma 4 pada April 2, 2026, memperkenalkan empat ukuran model yang dibangun di atas fondasi teknologi yang sama dengan Gemini 3. Generasi ini mewakili lompatan terbesar dalam keluarga Gemma di setiap dimensi: kualitas model, kemampuan multimodal, panjang context, dan ketentuan lisensi.
Perubahan utama dari Gemma 3:
- Lisensi Apache 2.0 — tidak ada batasan penggunaan, tidak ada lisensi kustom, kebebasan komersial penuh
- Empat ukuran model alih-alih tiga, termasuk arsitektur MoE baru
- Dukungan multimodal bawaan di semua ukuran (teks, gambar, video, audio)
- Mode pemikiran yang dapat dikonfigurasi dengan rantai penalaran 4,000+ tokens
- 256K context windows pada model yang lebih besar (naik dari batas Gemma 3)
- 35+ bahasa yang didukung, dilatih sebelumnya pada 140+ bahasa
- Penggunaan tool terstruktur untuk alur kerja agentic
Empat Ukuran Model
Gemma 4 hadir dalam empat ukuran berbeda, masing-masing menargetkan skenario penerapan yang berbeda:
| Model | Parameters | Active Params | Architecture | Context | Modalities |
|---|---|---|---|---|---|
| E2B | 2.3B effective | 2.3B | Dense | 128K | Text, Image, Video, Audio |
| E4B | 4.5B effective | 4.5B | Dense | 128K | Text, Image, Video, Audio |
| 26B MoE | 26B total | 3.8B | Mixture of Experts | 256K | Text, Image |
| 31B Dense | 31B | 31B | Dense | 256K | Text, Image |
E2B dan E4B: Model Edge
Model Gemma 4 terkecil dirancang untuk penerapan on-device. Dengan masing-masing 2.3B dan 4.5B effective parameters, model ini berjalan pada smartphone, tablet, dan laptop dengan RAM sekecil 5GB menggunakan 4-bit quantization.
Apa yang membuat model-model ini luar biasa adalah luasnya modalitas mereka. Meskipun merupakan yang terkecil dalam keluarga ini, E2B dan E4B adalah satu-satunya model Gemma 4 yang mendukung keempat modalitas input: teks, gambar, video, dan audio. Ini adalah pilihan desain yang disengaja — perangkat edge dengan kamera dan mikrofon paling diuntungkan dari kemampuan multimodal.
Kedua model mendukung 128K token context windows, yang cukup besar untuk jumlah parameter mereka dan memadai untuk sebagian besar kasus penggunaan on-device.
26B MoE: Efisiensi Maksimal
Model 26B Mixture of Experts bisa dibilang merupakan model yang paling menarik dalam lini Gemma 4. Ia berisi total 26B parameters tetapi hanya mengaktifkan 3.8B parameters untuk input tertentu — kira-kira biaya compute yang sama dengan model E4B tetapi dengan akses ke pengetahuan dan kemampuan yang jauh lebih besar.
Di Arena AI, 26B MoE menempati peringkat ke-6 di antara semua model terbuka dengan skor 1441, meskipun hanya menggunakan 3.8B active params. Rasio efisiensi ini belum pernah terjadi sebelumnya — tidak ada model lain yang mencapai kualitas sebanding pada biaya compute ini.
Arsitektur MoE merutekan setiap token melalui sub-jaringan pakar yang terspesialisasi, memungkinkan model untuk mempertahankan kapasitas pengetahuan yang besar sambil menjaga biaya inference tetap rendah. Untuk skenario penerapan di mana Anda membutuhkan penalaran yang kuat tetapi memiliki memori GPU yang terbatas, 26B MoE adalah pilihan optimal.
31B Dense: Kualitas Maksimal
Model 31B Dense adalah unggulan dari Gemma 4. Setiap parameter aktif untuk setiap token, memberikan hasil yang paling konsisten dan berkualitas tinggi di semua jenis tugas.
Di Arena AI, 31B Dense menempati peringkat ke-3 di antara semua model terbuka dengan skor 1452. Pada MMLU Pro, ia mencapai 85.2% — kompetitif dengan model-model yang ukurannya beberapa kali lipat lebih besar. Skor 89.2% pada AIME 2026 menunjukkan penalaran matematika yang kuat, sementara 74% pada BigBench Extra Hard (naik dari 19% pada generasi sebelumnya) menunjukkan peningkatan masif dalam tugas penalaran yang kompleks.
Benchmark: Data Lengkap
Penalaran dan Pengetahuan
| Benchmark | 31B Dense | 26B MoE | Catatan |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Pengetahuan tingkat pascasarjana |
| AIME 2026 | 89.2% | — | Matematika kompetisi |
| BigBench Extra Hard | 74% | — | Naik dari 19% di gen sebelumnya |
| Arena AI Score | 1452 (ke-3) | 1441 (ke-6) | Peringkat model terbuka |
Sumber: Laporan teknis Google DeepMind
BigBench Extra Hard: Hasil yang Menonjol
Lompatan dari 19% ke 74% pada BigBench Extra Hard layak mendapatkan perhatian khusus. Benchmark ini menguji penalaran multi-langkah yang kompleks, deduksi logis, dan tugas-tugas yang membutuhkan pemahaman sejati alih-alih sekadar pencocokan pola. Peningkatan 55 poin persentase dalam satu generasi menunjukkan kemajuan mendasar dalam arsitektur penalaran Gemma 4, bukan sekadar penskalaan.
Peningkatan ini kemungkinan besar terkait dengan mode pemikiran yang dapat dikonfigurasi dan teknologi dasar Gemini 3 yang mendasari pembuatan Gemma 4. Mode pemikiran menghasilkan rantai penalaran panjang yang membantu model bekerja melalui masalah kompleks langkah demi langkah.
Konteks Peringkat Arena AI
Arena AI memberikan peringkat model berdasarkan perbandingan preferensi manusia secara langsung. Skor 31B Dense sebesar 1452 dan peringkat ke-3 di antara model terbuka menempatkannya di atas banyak model dengan jumlah parameter yang jauh lebih banyak. Sebagai konteks:
- Model yang berperingkat di atasnya biasanya adalah model dengan 70B+ parameter
- 26B MoE yang mencapai 1441 dengan hanya 3.8B active params adalah terobosan efisiensi
- Kedua model mengungguli Gemma 3 27B sebelumnya dengan selisih yang signifikan
Kemampuan Multimodal
Pemahaman Gambar
Keempat model Gemma 4 memproses gambar secara native. Kemampuannya meliputi:
- Deskripsi dan analisis gambar — pemahaman mendalam tentang konten visual
- OCR dan penguraian dokumen — mengekstrak teks dari gambar, tanda terima, screenshot
- Interpretasi bagan dan diagram — memahami visualisasi data
- Penalaran visual — menjawab pertanyaan yang membutuhkan pemahaman hubungan spasial
Video dan Audio (Hanya E2B/E4B)
Model E2B dan E4B yang lebih kecil menambahkan pemrosesan video dan audio native:
- Pemahaman video — menganalisis konten video tanpa ekstraksi bingkai demi bingkai
- Transkripsi dan pemahaman audio — memproses ucapan dan audio lingkungan
- Penalaran lintas-modal — menjawab pertanyaan yang mencakup input teks, gambar, video, dan audio
Pilihan desain ini mencerminkan fokus Google pada penerapan edge. Perangkat seluler menangkap video dan audio secara native, sehingga model yang dirancang untuk perangkat tersebut mendukung modalitas tersebut.
Mode Pemikiran yang Dapat Dikonfigurasi
Gemma 4 memperkenalkan mode pemikiran yang dapat dikonfigurasi yang menghasilkan 4,000+ tokens penalaran internal sebelum memberikan respons. Ini mirip dengan kemampuan berpikir yang diperluas yang terlihat pada model-model Claude dan o-series dari OpenAI, tetapi diimplementasikan dalam model open-weight.
Cara Kerjanya
Saat mode pemikiran diaktifkan, model:
- Menerima prompt input
- Menghasilkan rantai penalaran internal (terlihat atau tersembunyi, tergantung pada konfigurasi)
- Menggunakan rantai penalaran tersebut untuk menghasilkan respons akhir yang berkualitas lebih tinggi
Mode pemikiran dapat diaktifkan per permintaan, memungkinkan pengembang untuk:
- Mengaktifkan pemikiran untuk tugas matematika kompleks, logika, pemrograman, dan analisis
- Menonaktifkan pemikiran untuk pertanyaan sederhana, obrolan, dan aplikasi yang sensitif terhadap latensi
- Menyesuaikan kedalaman pemikiran berdasarkan kompleksitas tugas yang diharapkan
Dampak pada Kualitas
Mode pemikiran adalah pendorong utama di balik kinerja benchmark Gemma 4 yang kuat. Skor AIME 2026 sebesar 89.2% dan skor BigBench Extra Hard sebesar 74% keduanya dicapai dengan mode pemikiran yang diaktifkan. Tanpa mode pemikiran, skor ini akan jauh lebih rendah — serupa dengan pola yang terlihat pada model lain dengan kemampuan penalaran yang diperluas.
Apache 2.0: Mengapa Perubahan Lisensi Itu Penting
Generasi Gemma sebelumnya dikirimkan di bawah lisensi kustom Gemma dari Google, yang mencakup batasan pada:
- Penggunaan dalam aplikasi tertentu
- Ketentuan redistribusi
- Batasan penerapan komersial untuk penggunaan skala besar
Gemma 4 beralih ke Apache 2.0, lisensi yang sama yang digunakan oleh proyek-proyek seperti Kubernetes, TensorFlow, dan Apache HTTP Server. Ini berarti:
- Tidak ada batasan penggunaan — gunakan untuk apa pun, termasuk produk komersial
- Tidak ada batasan redistribusi — bagikan bobot yang dimodifikasi secara bebas
- Tidak ada persyaratan atribusi di luar lisensi — pemberitahuan standar Apache 2.0
- Tidak perlu persetujuan Google — terapkan pada skala apa pun tanpa izin
- Kompatibel dengan lisensi open-source lainnya — mudah diintegrasikan ke dalam proyek yang sudah ada
Bagi perusahaan dan startup yang membangun produk di atas model terbuka, hal ini menghilangkan beban tinjauan hukum yang diwajibkan oleh lisensi kustom Gemma. Ini juga membuat Gemma 4 dapat dibandingkan secara langsung dengan model Llama dari Meta (yang menggunakan lisensi kustom mereka sendiri dengan beberapa batasan) dan menempatkannya sebagai keluarga model terbuka berkualitas tinggi dengan lisensi paling permisif yang tersedia.
Dukungan Bahasa
Gemma 4 mendukung 35+ bahasa untuk inference dan dilatih sebelumnya pada 140+ bahasa. Ini menjadikannya salah satu model terbuka paling multibahasa yang tersedia, di samping model-model Qwen yang juga menekankan cakupan bahasa yang luas.
Bahasa yang didukung mencakup bahasa-bahasa utama dunia (Inggris, Mandarin, Spanyol, Prancis, Jerman, Jepang, Korea, Arab, Hindi, Portugis, Rusia) serta banyak bahasa dengan jejak digital yang lebih kecil. Pelatihan awal pada 140+ bahasa berarti model memiliki beberapa kemampuan dalam bahasa di luar 35+ yang didukung secara resmi, meskipun kualitasnya mungkin bervariasi.
Untuk aplikasi yang menargetkan audiens global atau pasar non-Inggris, dukungan bahasa yang luas ini mengurangi kebutuhan akan fine-tuning khusus atau model terpisah per bahasa.
Penggunaan Tool Terstruktur dan Alur Kerja Agentic
Gemma 4 menyertakan dukungan native untuk penggunaan tool terstruktur, memungkinkan alur kerja agentic di mana model dapat:
- Memanggil API eksternal dengan permintaan yang diformat dengan benar
- Mengurai respons terstruktur dari tool dan layanan
- Merantai beberapa panggilan tool untuk menyelesaikan tugas-tugas kompleks
- Menangani kesalahan dan percobaan ulang dalam eksekusi tool
Kemampuan ini sangat relevan untuk integrasi Android Studio, di mana Gemma 4 mendukung alur kerja coding agentic lokal. Model dapat memahami konteks kode, menyarankan perubahan, mengeksekusi tool, dan melakukan iterasi — semuanya berjalan secara lokal di mesin pengembang tanpa mengirim kode ke server eksternal.
Bagi pengembang yang membangun agen AI, penggunaan tool terstruktur Gemma 4 menyediakan fondasi yang sepenuhnya lokal dan privat. Dikombinasikan dengan lisensi Apache 2.0, ini memungkinkan pembangunan dan penerapan aplikasi agentic tanpa ketergantungan pada penyedia model eksternal.
Persyaratan Perangkat Keras
Penerapan Lokal melalui Ollama
| Model | RAM yang Dibutuhkan (4-bit) | RAM yang Dibutuhkan (FP16) | Rekomendasi GPU |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | GPU modern apa pun / CPU saja |
| E4B | ~5 GB | ~9 GB | GPU modern apa pun / CPU saja |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
Sumber: Perpustakaan model Ollama
Model E2B dan E4B dirancang khusus untuk penerapan edge. Mereka berjalan dengan nyaman di laptop, CPU desktop, dan bahkan beberapa smartphone. Model 26B MoE dan 31B Dense memerlukan perangkat keras GPU khusus tetapi tetap dapat diakses oleh pengembang individu dengan GPU konsumen.
Optimasi NVIDIA
NVIDIA telah merilis versi Gemma 4 yang dioptimalkan untuk GPU RTX, memberikan:
- Inference lebih cepat melalui optimasi kernel khusus GPU
- Pemanfaatan memori yang lebih baik pada kartu seri RTX 4000 dan 5000
- Integrasi TensorRT untuk penerapan produksi
- Dukungan CUDA graph untuk mengurangi overhead dalam inference berulang
Apa yang Berubah dari Gemma 3
| Fitur | Gemma 3 | Gemma 4 |
|---|---|---|
| Lisensi | Lisensi Gemma (terbatas) | Apache 2.0 (tidak terbatas) |
| Ukuran Model | 3 ukuran | 4 ukuran (ditambah MoE) |
| Context Window | Hingga 128K | Hingga 256K |
| Modalitas | Teks, Gambar | Teks, Gambar, Video, Audio |
| Mode Pemikiran | Tidak | Ya (dapat dikonfigurasi) |
| Penggunaan Tool | Terbatas | Penggunaan tool terstruktur |
| Bahasa | 30+ | 35+ (dilatih pada 140+) |
| BigBench Extra Hard | 19% | 74% |
Setiap dimensi ditingkatkan. Perubahan yang paling berdampak bagi pengembang adalah lisensi Apache 2.0 (menghilangkan hambatan hukum), mode pemikiran (meningkatkan kualitas pada tugas-tugas sulit), dan arsitektur MoE (memberikan kualitas unggulan dengan sebagian kecil dari biaya compute).
Kasus Penggunaan Praktis
Pemrograman dan Pengembangan
Penggunaan tool terstruktur dan mode pemikiran Gemma 4 membuatnya efektif untuk:
- Melengkapi dan menghasilkan kode secara lokal
- Tinjauan kode dan deteksi bug
- Pembuatan pengujian otomatis
- Penulisan dokumentasi
- Alur kerja coding agentic di Android Studio
Pemrosesan Dokumen
Dengan 256K context windows dan dukungan multimodal:
- Memproses seluruh basis kode atau dokumen panjang dalam satu prompt
- Mengekstrak informasi dari gambar dokumen, tanda terima, dan formulir
- Menganalisis bagan dan visualisasi data
- Meringkas makalah penelitian yang panjang atau dokumen hukum
Membangun Aplikasi Berbasis AI
Bagi pengembang yang membangun produk yang menyertakan kemampuan AI, Gemma 4 menyediakan lapisan inference on-device atau self-hosted yang kuat. Model menangani kecerdasan — memahami kueri, menghasilkan respons, memproses gambar — sementara framework aplikasi Anda menangani sisanya. Alat seperti ZBuild dapat mempercepat pembangunan kerangka aplikasi (frontend, backend, database, deployment), memungkinkan Anda memfokuskan upaya pengembangan pada lapisan integrasi AI di mana kemampuan Gemma 4 paling berperan.
Penerapan Edge dan Seluler
Model E2B dan E4B membuka kasus penggunaan yang sebelumnya tidak mungkin dilakukan dengan model terbuka:
- Asisten on-device yang bekerja secara offline
- Fitur AI yang menjaga privasi dan tidak pernah mengirim data ke server eksternal
- Pemrosesan video dan audio real-time pada perangkat seluler
- AI tertanam dalam aplikasi IoT dan robotika
Cara Memulai
Ollama (Jalur Tercepat)
# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Tarik dan jalankan Gemma 4
ollama run gemma4:e2b # Terkecil, berjalan di mana saja
ollama run gemma4:e4b # Kecil, kemampuan lebih luas
ollama run gemma4:26b-moe # MoE, efisiensi terbaik
ollama run gemma4:31b # Dense, kualitas tertinggi
Hugging Face
Semua model Gemma 4 tersedia di Hugging Face dengan integrasi transformers penuh:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google menyediakan akses API gratis ke Gemma 4 melalui AI Studio untuk eksperimen dan pembuatan prototipe, dengan Vertex AI tersedia untuk penerapan produksi.
Gemma 4 dalam Lanskap Kompetitif
Untuk memahami posisi Gemma 4 dalam ekosistem yang lebih luas:
| Model | Params | License | MMLU Pro | Arena AI | Context |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B active) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B active) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B active) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B active) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B mencapai skor MMLU Pro tertinggi dan peringkat Arena AI di antara model terbuka — dengan total parameter paling sedikit. Efisiensi parameter ini adalah hasil langsung dari fondasi teknologi Gemini 3 dan mode pemikiran yang dapat dikonfigurasi.
Kisah efisiensi model 26B MoE bahkan lebih menarik. Ia menempati peringkat ke-6 di Arena AI sementara hanya mengaktifkan 3.8B parameters per token. Tidak ada model lain yang mencapai rasio kualitas-terhadap-compute yang sebanding. Untuk penerapan produksi di mana biaya inference berskala dengan penggunaan, efisiensi ini diterjemahkan langsung menjadi penghematan biaya.
Dibandingkan dengan model proprietary, benchmark Gemma 4 31B kompetitif dengan penawaran tingkat menengah dari Anthropic dan OpenAI. Meskipun model proprietary teratas masih memimpin dalam tugas-tugas tersulit, kesenjangannya telah menyempit secara dramatis — dan Gemma 4 hadir dengan biaya nol per token dan kebebasan penuh Apache 2.0.
Keputusan Akhir
Gemma 4 menetapkan standar baru untuk model open-weight pada tahun 2026. Kombinasi lisensi Apache 2.0, empat ukuran model yang terdiferensiasi dengan baik, dukungan multimodal native, mode pemikiran yang dapat dikonfigurasi, dan skor benchmark yang kompetitif dengan model yang jauh lebih besar menjadikannya keluarga model terbuka paling praktis yang tersedia.
31B Dense adalah pilihan yang tepat saat Anda membutuhkan kualitas maksimal. 26B MoE adalah pilihan yang tepat saat Anda membutuhkan kualitas kuat dengan biaya compute minimal. E2B dan E4B adalah pilihan yang tepat untuk penerapan edge dan AI on-device. Untuk pertama kalinya dalam keluarga Gemma, lisensi tidak membatasi kasus penggunaan ini.
Sumber
- Memperkenalkan Gemma 4 - Google Blog
- Laporan Teknis Gemma 4 - Google DeepMind
- Gemma 4 di Hugging Face
- Model Ollama Gemma 4
- Optimasi NVIDIA Gemma 4 RTX
- Peringkat Arena AI Gemma 4
- Integrasi Android Studio Gemma 4
- Lisensi Apache 2.0
- Analisis Benchmark Gemma 4 - Artificial Analysis
- Ikhtisar Gemma 4 - Google AI for Developers