Punto Chiave
Google Gemma 4 è la famiglia di modelli open-weight più capace mai rilasciata sotto una licenza veramente permissiva. Il modello 31B Dense ottiene l'85.2% su MMLU Pro e si classifica al 3° posto tra tutti i modelli open su Arena AI — mentre il 26B MoE raggiunge una qualità quasi identica con soli 3.8B parametri attivi. Per la prima volta, Gemma viene rilasciato sotto Apache 2.0, eliminando ogni attrito di licenza che ha frenato l'adozione commerciale delle generazioni precedenti.
Google Gemma 4: Tutto quello che devi sapere
Panoramica del rilascio
Google DeepMind ha rilasciato Gemma 4 il April 2, 2026, introducendo quattro dimensioni di modello costruite sulla stessa base tecnologica di Gemini 3. Questa generazione rappresenta il salto più grande nella famiglia Gemma in ogni dimensione: qualità del modello, capacità multimodali, context length e termini di licenza.
I cambiamenti chiave rispetto a Gemma 3:
- Licenza Apache 2.0 — nessuna restrizione d'uso, nessuna licenza personalizzata, piena libertà commerciale
- Quattro dimensioni di modello invece di tre, inclusa una nuova architettura MoE
- Supporto multimodale nativo in tutte le dimensioni (testo, immagini, video, audio)
- Modalità di pensiero configurabile con catene di ragionamento da oltre 4,000 tokens
- Context window da 256K sui modelli più grandi (rispetto ai limiti di Gemma 3)
- 35+ lingue supportate, pre-addestrato su oltre 140 lingue
- Uso strutturato di tool per workflow agentici
Le quattro dimensioni del modello
Gemma 4 viene fornito in quattro dimensioni distinte, ciascuna mirata a diversi scenari di deployment:
| Modello | Parametri | Parametri attivi | Architettura | Contesto | Modalità |
|---|---|---|---|---|---|
| E2B | 2.3B effettivi | 2.3B | Dense | 128K | Testo, Immagine, Video, Audio |
| E4B | 4.5B effettivi | 4.5B | Dense | 128K | Testo, Immagine, Video, Audio |
| 26B MoE | 26B totali | 3.8B | Mixture of Experts | 256K | Testo, Immagine |
| 31B Dense | 31B | 31B | Dense | 256K | Testo, Immagine |
E2B e E4B: I modelli Edge
I modelli Gemma 4 più piccoli sono progettati per il deployment on-device. Con rispettivamente 2.3B e 4.5B parametri effettivi, funzionano su smartphone, tablet e laptop con soli 5GB di RAM utilizzando una quantization a 4-bit.
Ciò che rende questi modelli straordinari è l'ampiezza delle modalità. Nonostante siano i più piccoli della famiglia, E2B e E4B sono gli unici modelli Gemma 4 che supportano tutte e quattro le modalità di input: testo, immagini, video e audio. Questa è una scelta di design deliberata — i dispositivi edge con fotocamere e microfoni traggono il massimo vantaggio dalle capacità multimodali.
Entrambi i modelli supportano context window da 128K tokens, il che è generoso per il loro numero di parametri e sufficiente per la maggior parte dei casi d'uso on-device.
26B MoE: Massima efficienza
Il modello 26B Mixture of Experts è probabilmente il modello più interessante della gamma Gemma 4. Contiene 26B di parametri totali ma attiva solo 3.8B parametri per ogni dato input — all'incirca lo stesso costo computazionale del modello E4B ma con accesso a una conoscenza e capacità drasticamente superiori.
Su Arena AI, il 26B MoE si classifica al 6° posto tra tutti i modelli open con un punteggio di 1441, nonostante l'utilizzo di soli 3.8B parametri attivi. Questo rapporto di efficienza non ha precedenti — nessun altro modello raggiunge una qualità paragonabile a questo costo computazionale.
L'architettura MoE indirizza ogni token attraverso sotto-reti di esperti specializzati, consentendo al modello di mantenere una grande capacità di conoscenza mantenendo basso il costo di inference. Per scenari di deployment in cui è necessario un forte ragionamento ma si dispone di memoria GPU limitata, il 26B MoE è la scelta ottimale.
31B Dense: Massima qualità
Il modello 31B Dense è l'ammiraglia di Gemma 4. Ogni parametro è attivo per ogni token, offrendo gli output più coerenti e di altissima qualità per tutti i tipi di task.
Su Arena AI, il 31B Dense si classifica al 3° posto tra tutti i modelli open con un punteggio di 1452. Su MMLU Pro, raggiunge l'85.2% — competitivo con modelli diverse volte più grandi. Il punteggio dell'89.2% su AIME 2026 dimostra un forte ragionamento matematico, mentre il 74% su BigBench Extra Hard (rispetto al 19% delle generazioni precedenti) mostra un miglioramento massiccio nei task di ragionamento complesso.
Benchmark: I dati completi
Ragionamento e Conoscenza
| Benchmark | 31B Dense | 26B MoE | Note |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Conoscenza a livello universitario |
| AIME 2026 | 89.2% | — | Matematica da competizione |
| BigBench Extra Hard | 74% | — | Rispetto al 19% della gen precedente |
| Punteggio Arena AI | 1452 (3°) | 1441 (6°) | Classifiche modelli open |
Fonte: Google DeepMind technical report
BigBench Extra Hard: Il risultato eccezionale
Il salto dal 19% al 74% su BigBench Extra Hard merita un'attenzione speciale. Questo benchmark testa il ragionamento complesso in più fasi, la deduzione logica e i task che richiedono una comprensione genuina piuttosto che il pattern matching. Un miglioramento di 55 punti percentuali in una singola generazione suggerisce progressi fondamentali nell'architettura di ragionamento di Gemma 4, non solo uno scaling.
Questo miglioramento è probabilmente collegato alla modalità di pensiero configurabile e alla tecnologia Gemini 3 sottostante su cui è costruito Gemma 4. La modalità di pensiero genera catene di ragionamento estese che aiutano il modello a risolvere problemi complessi passo dopo passo.
Contesto delle classifiche Arena AI
Arena AI classifica i modelli in base a confronti testa a testa sulle preferenze umane. Il punteggio di 1452 del 31B Dense e la sua posizione al 3° posto tra i modelli open lo collocano al di sopra di molti modelli con un numero di parametri significativamente superiore. Per contesto:
- I modelli che lo precedono in classifica sono tipicamente modelli con oltre 70B parametri
- Il 26B MoE che ottiene 1441 con soli 3.8B parametri attivi è una svolta in termini di efficienza
- Entrambi i modelli superano il precedente Gemma 3 27B con un margine significativo
Capacità multimodali
Comprensione delle immagini
Tutti e quattro i modelli Gemma 4 elaborano le immagini in modo nativo. Le capacità includono:
- Descrizione e analisi delle immagini — comprensione dettagliata del contenuto visivo
- OCR e parsing di documenti — estrazione di testo da immagini, ricevute, screenshot
- Interpretazione di grafici e diagrammi — comprensione delle visualizzazioni dei dati
- Ragionamento visivo — risposta a domande che richiedono la comprensione delle relazioni spaziali
Video e Audio (Solo E2B/E4B)
I modelli più piccoli E2B e E4B aggiungono l'elaborazione nativa di video e audio:
- Comprensione video — analisi del contenuto video senza estrazione fotogramma per fotogramma
- Trascrizione e comprensione audio — elaborazione del parlato e dell'audio ambientale
- Ragionamento cross-modale — risposta a domande che spaziano tra input di testo, immagine, video e audio
Questa scelta di design riflette l'attenzione di Google sul deployment edge. I dispositivi mobili catturano video e audio nativamente, quindi i modelli progettati per quei dispositivi supportano tali modalità.
Modalità di pensiero configurabile
Gemma 4 introduce una modalità di pensiero configurabile che genera oltre 4,000 tokens di ragionamento interno prima di produrre una risposta. Questo è simile alle capacità di pensiero esteso viste nei modelli di Claude e nella serie o di OpenAI, ma implementato in un modello open-weight.
Come funziona
Quando la modalità di pensiero è abilitata, il modello:
- Riceve il prompt di input
- Genera una catena di ragionamento interna (visibile o nascosta, a seconda della configurazione)
- Utilizza la catena di ragionamento per produrre una risposta finale di qualità superiore
La modalità di pensiero può essere attivata per ogni singola richiesta, consentendo agli sviluppatori di:
- Abilitare il pensiero per task complessi di matematica, logica, coding e analisi
- Disabilitare il pensiero per query semplici, chat e applicazioni sensibili alla latenza
- Regolare la profondità del pensiero in base alla complessità attesa del task
Impatto sulla qualità
La modalità di pensiero è uno dei principali motori dietro le forti prestazioni nei benchmark di Gemma 4. Il punteggio AIME 2026 dell'89.2% e il punteggio BigBench Extra Hard del 74% sono entrambi ottenuti con la modalità di pensiero abilitata. Senza la modalità di pensiero, questi punteggi sarebbero notevolmente più bassi — similmente al pattern osservato in altri modelli con capacità di ragionamento esteso.
Apache 2.0: Perché il cambio di licenza è importante
Le precedenti generazioni di Gemma venivano rilasciate sotto la licenza personalizzata di Google per Gemma, che includeva restrizioni su:
- Utilizzo in determinate applicazioni
- Termini di ridistribuzione
- Limitazioni al deployment commerciale per l'uso su larga scala
Gemma 4 passa ad Apache 2.0, la stessa licenza utilizzata da progetti come Kubernetes, TensorFlow e Apache HTTP Server. Ciò significa:
- Nessuna restrizione d'uso — utilizzalo per qualsiasi cosa, inclusi i prodotti commerciali
- Nessuna limitazione alla ridistribuzione — condividi liberamente i pesi modificati
- Nessun requisito di attribuzione oltre alla licenza — avviso standard Apache 2.0
- Nessuna approvazione da parte di Google necessaria — distribuisci a qualsiasi scala senza permesso
- Compatibile con altre licenze open-source — facile da integrare in progetti esistenti
Per le aziende e le startup che costruiscono prodotti basati su modelli open, questo elimina il carico di revisione legale richiesto dalla licenza personalizzata di Gemma. Rende inoltre Gemma 4 direttamente paragonabile ai modelli Llama di Meta (che utilizzano la propria licenza personalizzata con alcune restrizioni) e lo posiziona come la famiglia di modelli open di alta qualità con la licenza più permissiva disponibile.
Supporto linguistico
Gemma 4 supporta 35+ lingue per l'inference ed è stato pre-addestrato su oltre 140 lingue. Questo lo rende uno dei modelli open più multilingue disponibili, insieme ai modelli di Qwen che enfatizzano anch'essi un'ampia copertura linguistica.
Le lingue supportate includono le principali lingue mondiali (inglese, cinese, spagnolo, francese, tedesco, giapponese, coreano, arabo, hindi, portoghese, russo) oltre a molte lingue con una minore impronta digitale. Il pre-addestramento su oltre 140 lingue significa che il modello ha alcune capacità in lingue oltre alle 35 supportate ufficialmente, sebbene la qualità possa variare.
Per le applicazioni destinate a un pubblico globale o a mercati non anglofoni, questo ampio supporto linguistico riduce la necessità di fine-tuning specializzato o di modelli separati per lingua.
Uso strutturato di tool e workflow agentici
Gemma 4 include il supporto nativo per l'uso strutturato di tool, consentendo workflow agentici in cui il modello può:
- Chiamare API esterne con richieste formattate correttamente
- Analizzare risposte strutturate da tool e servizi
- Concatenare più chiamate a tool per completare task complessi
- Gestire errori e tentativi nell'esecuzione dei tool
Questa capacità è particolarmente rilevante per l'integrazione con Android Studio, dove Gemma 4 alimenta workflow locali di coding agentico. Il modello può comprendere il contesto del codice, suggerire modifiche, eseguire tool e iterare — tutto in esecuzione locale sulla macchina dello sviluppatore senza inviare codice a server esterni.
Per gli sviluppatori che costruiscono agenti AI, l'uso strutturato di tool di Gemma 4 fornisce una base completamente locale e privata. In combinazione con la licenza Apache 2.0, ciò consente di creare e distribuire applicazioni agentiche senza alcuna dipendenza da fornitori esterni di modelli.
Requisiti hardware
Deployment locale tramite Ollama
| Modello | RAM richiesta (4-bit) | RAM richiesta (FP16) | Raccomandazione GPU |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Qualsiasi GPU moderna / Solo CPU |
| E4B | ~5 GB | ~9 GB | Qualsiasi GPU moderna / Solo CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
I modelli E2B e E4B sono specificamente progettati per il deployment edge. Funzionano agevolmente su laptop, CPU desktop e persino su alcuni smartphone. I modelli 26B MoE e 31B Dense richiedono hardware GPU dedicato ma rimangono accessibili ai singoli sviluppatori con GPU consumer.
Ottimizzazione NVIDIA
NVIDIA ha rilasciato versioni ottimizzate di Gemma 4 per GPU RTX, fornendo:
- Inference più veloce attraverso ottimizzazioni del kernel specifiche per GPU
- Migliore utilizzo della memoria sulle schede serie RTX 4000 e 5000
- Integrazione TensorRT per il deployment in produzione
- Supporto CUDA graph per un overhead ridotto nell'inference ripetuta
Cosa è cambiato rispetto a Gemma 3
| Funzionalità | Gemma 3 | Gemma 4 |
|---|---|---|
| Licenza | Gemma License (ristretta) | Apache 2.0 (senza restrizioni) |
| Dimensioni modello | 3 dimensioni | 4 dimensioni (aggiunto MoE) |
| Context Window | Fino a 128K | Fino a 256K |
| Modalità | Testo, Immagine | Testo, Immagine, Video, Audio |
| Modalità di pensiero | No | Sì (configurabile) |
| Uso di tool | Limitato | Uso strutturato di tool |
| Lingue | 30+ | 35+ (pre-addestrato su 140+) |
| BigBench Extra Hard | 19% | 74% |
Ogni dimensione è migliorata. I cambiamenti più impattanti per gli sviluppatori sono la licenza Apache 2.0 (che elimina gli attriti legali), la modalità di pensiero (che migliora la qualità nei task difficili) e l'architettura MoE (che fornisce una qualità da ammiraglia a una frazione del costo computazionale).
Casi d'uso pratici
Programmazione e sviluppo
L'uso strutturato di tool e la modalità di pensiero di Gemma 4 lo rendono efficace per:
- Completamento e generazione di codice locale
- Code review e rilevamento di bug
- Generazione automatizzata di test
- Scrittura di documentazione
- Workflow di coding agentico in Android Studio
Elaborazione di documenti
Con context window da 256K e supporto multimodale:
- Elaborazione di intere codebase o lunghi documenti in un singolo prompt
- Estrazione di informazioni da immagini di documenti, ricevute e moduli
- Analisi di grafici e visualizzazioni di dati
- Sintesi di lunghi paper di ricerca o documenti legali
Creazione di applicazioni basate su AI
Per gli sviluppatori che costruiscono prodotti che integrano capacità AI, Gemma 4 fornisce un solido layer di inference on-device o self-hosted. Il modello gestisce l'intelligenza — comprensione delle query, generazione delle risposte, elaborazione delle immagini — mentre il framework dell'applicazione gestisce il resto. Strumenti come ZBuild possono accelerare la costruzione della struttura dell'applicazione (frontend, backend, database, deployment), permettendoti di concentrare lo sforzo di sviluppo sul layer di integrazione AI dove le capacità di Gemma 4 contano di più.
Deployment Edge e Mobile
I modelli E2B e E4B aprono casi d'uso che erano precedentemente impossibili con i modelli open:
- Assistenti on-device che funzionano offline
- Funzionalità AI che preservano la privacy senza mai inviare dati a server esterni
- Elaborazione video e audio in tempo reale su dispositivi mobili
- AI integrata in applicazioni IoT e robotica
Come iniziare
Ollama (Percorso più veloce)
# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Pull and run Gemma 4
ollama run gemma4:e2b # Smallest, runs anywhere
ollama run gemma4:e4b # Small, broader capability
ollama run gemma4:26b-moe # MoE, best efficiency
ollama run gemma4:31b # Dense, highest quality
Hugging Face
Tutti i modelli Gemma 4 sono disponibili su Hugging Face con integrazione completa dei transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google fornisce accesso gratuito alle API di Gemma 4 attraverso AI Studio per la sperimentazione e la prototipazione, con Vertex AI disponibile per il deployment in produzione.
Gemma 4 nel panorama competitivo
Per capire dove si colloca Gemma 4 nell'ecosistema più ampio:
| Modello | Parametri | Licenza | MMLU Pro | Arena AI | Contesto |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B attivi) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B attivi) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B attivi) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B attivi) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B ottiene il punteggio MMLU Pro più alto e il miglior posizionamento su Arena AI tra i modelli open — con il minor numero di parametri totali. Questa efficienza dei parametri è un risultato diretto della base tecnologica Gemini 3 e della modalità di pensiero configurabile.
La storia dell'efficienza del modello 26B MoE è ancora più convincente. Si classifica al 6° posto su Arena AI attivando solo 3.8B parametri per token. Nessun altro modello raggiunge un rapporto qualità-calcolo paragonabile. Per i deployment in produzione in cui il costo dell'inference scala con l'uso, questa efficienza si traduce direttamente in risparmi sui costi.
Rispetto ai modelli proprietari, i benchmark di Gemma 4 31B sono competitivi con le offerte di fascia media di Anthropic e OpenAI. Sebbene i modelli proprietari di punta guidino ancora nei task più difficili, il divario si è ridotto drasticamente — e Gemma 4 arriva con zero costi per token e la piena libertà della licenza Apache 2.0.
Verdetto
Gemma 4 stabilisce un nuovo standard per i modelli open-weight nel 2026. La combinazione della licenza Apache 2.0, quattro dimensioni di modello ben differenziate, supporto multimodale nativo, modalità di pensiero configurabile e punteggi nei benchmark competitivi con modelli molto più grandi, lo rende la famiglia di modelli open più pratica disponibile.
Il 31B Dense è la scelta giusta quando è necessaria la massima qualità. Il 26B MoE è la scelta giusta quando è necessaria una forte qualità al minimo costo computazionale. Gli E2B e E4B sono le scelte giuste per il deployment edge e l'AI on-device. Per la prima volta nella famiglia Gemma, la licenza non limita nessuno di questi casi d'uso.
Fonti
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers