Cos'è Google Gemma 4 e quando è stato rilasciato?

Google Gemma 4 è la famiglia di modelli open-weight di Google DeepMind rilasciata il 2 aprile 2026. Include 4 dimensioni — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total) e 31B Dense. Tutti i modelli sono rilasciati sotto Apache 2.0, la licenza più permissiva mai utilizzata per un rilascio Gemma.

Gemma 4 è veramente open source?

Sì. Gemma 4 è la prima generazione Gemma rilasciata sotto licenza Apache 2.0, che consente l'uso commerciale, la modifica e la ridistribuzione senza restrizioni senza richiedere il permesso di Google. I precedenti modelli Gemma utilizzavano la licenza personalizzata Gemma di Google che imponeva restrizioni d'uso.

Quale context window supporta Gemma 4?

I modelli più piccoli (E2B e E4B) supportano context window da 128K token. I modelli più grandi (26B MoE e 31B Dense) supportano context window da 256K token. Si tratta di un miglioramento significativo rispetto ai limiti di contesto di Gemma 3 e consente l'elaborazione di interi codebase o lunghi documenti in un singolo prompt.

Gemma 4 può elaborare immagini, video e audio?

Sì. Tutti e quattro i modelli Gemma 4 sono nativamente multimodal e supportano input di testo e immagini. I modelli E2B e E4B vanno oltre con capacità native di elaborazione video e audio. Questo rende Gemma 4 la prima famiglia di modelli open-weight in cui i modelli più piccoli hanno il supporto di modalità più ampio.

Come funziona la thinking mode di Gemma 4?

Gemma 4 include una thinking mode configurabile che genera oltre 4,000 token di ragionamento interno prima di produrre una risposta. Questo ragionamento chain-of-thought può essere attivato o disattivato per singola richiesta, consentendo agli sviluppatori di scegliere tra risposte più veloci per compiti semplici e un ragionamento più profondo per problemi complessi come matematica, logica e coding.

Di quale hardware ho bisogno per eseguire Gemma 4 localmente?

Gemma 4 E2B e E4B funzionano su dispositivi con soli 5GB RAM utilizzando la 4-bit quantization, inclusi smartphone e laptop. Il modello 26B MoE richiede circa 18GB RAM e il 31B Dense richiede circa 20GB RAM. Tutti i modelli funzionano via Ollama con ottimizzazione per GPU NVIDIA RTX disponibile.

Punto Chiave

Google Gemma 4 è la famiglia di modelli open-weight più capace mai rilasciata sotto una licenza veramente permissiva. Il modello 31B Dense ottiene l'85.2% su MMLU Pro e si classifica al 3° posto tra tutti i modelli open su Arena AI — mentre il 26B MoE raggiunge una qualità quasi identica con soli 3.8B parametri attivi. Per la prima volta, Gemma viene rilasciato sotto Apache 2.0, eliminando ogni attrito di licenza che ha frenato l'adozione commerciale delle generazioni precedenti.

Google Gemma 4: Tutto quello che devi sapere

Panoramica del rilascio

Google DeepMind ha rilasciato Gemma 4 il April 2, 2026, introducendo quattro dimensioni di modello costruite sulla stessa base tecnologica di Gemini 3. Questa generazione rappresenta il salto più grande nella famiglia Gemma in ogni dimensione: qualità del modello, capacità multimodali, context length e termini di licenza.

I cambiamenti chiave rispetto a Gemma 3:

Licenza Apache 2.0 — nessuna restrizione d'uso, nessuna licenza personalizzata, piena libertà commerciale
Quattro dimensioni di modello invece di tre, inclusa una nuova architettura MoE
Supporto multimodale nativo in tutte le dimensioni (testo, immagini, video, audio)
Modalità di pensiero configurabile con catene di ragionamento da oltre 4,000 tokens
Context window da 256K sui modelli più grandi (rispetto ai limiti di Gemma 3)
35+ lingue supportate, pre-addestrato su oltre 140 lingue
Uso strutturato di tool per workflow agentici

Le quattro dimensioni del modello

Gemma 4 viene fornito in quattro dimensioni distinte, ciascuna mirata a diversi scenari di deployment:

Modello	Parametri	Parametri attivi	Architettura	Contesto	Modalità
E2B	2.3B effettivi	2.3B	Dense	128K	Testo, Immagine, Video, Audio
E4B	4.5B effettivi	4.5B	Dense	128K	Testo, Immagine, Video, Audio
26B MoE	26B totali	3.8B	Mixture of Experts	256K	Testo, Immagine
31B Dense	31B	31B	Dense	256K	Testo, Immagine

Fonte: Google AI Blog

E2B e E4B: I modelli Edge

I modelli Gemma 4 più piccoli sono progettati per il deployment on-device. Con rispettivamente 2.3B e 4.5B parametri effettivi, funzionano su smartphone, tablet e laptop con soli 5GB di RAM utilizzando una quantization a 4-bit.

Ciò che rende questi modelli straordinari è l'ampiezza delle modalità. Nonostante siano i più piccoli della famiglia, E2B e E4B sono gli unici modelli Gemma 4 che supportano tutte e quattro le modalità di input: testo, immagini, video e audio. Questa è una scelta di design deliberata — i dispositivi edge con fotocamere e microfoni traggono il massimo vantaggio dalle capacità multimodali.

Entrambi i modelli supportano context window da 128K tokens, il che è generoso per il loro numero di parametri e sufficiente per la maggior parte dei casi d'uso on-device.

26B MoE: Massima efficienza

Il modello 26B Mixture of Experts è probabilmente il modello più interessante della gamma Gemma 4. Contiene 26B di parametri totali ma attiva solo 3.8B parametri per ogni dato input — all'incirca lo stesso costo computazionale del modello E4B ma con accesso a una conoscenza e capacità drasticamente superiori.

Su Arena AI, il 26B MoE si classifica al 6° posto tra tutti i modelli open con un punteggio di 1441, nonostante l'utilizzo di soli 3.8B parametri attivi. Questo rapporto di efficienza non ha precedenti — nessun altro modello raggiunge una qualità paragonabile a questo costo computazionale.

L'architettura MoE indirizza ogni token attraverso sotto-reti di esperti specializzati, consentendo al modello di mantenere una grande capacità di conoscenza mantenendo basso il costo di inference. Per scenari di deployment in cui è necessario un forte ragionamento ma si dispone di memoria GPU limitata, il 26B MoE è la scelta ottimale.

31B Dense: Massima qualità

Il modello 31B Dense è l'ammiraglia di Gemma 4. Ogni parametro è attivo per ogni token, offrendo gli output più coerenti e di altissima qualità per tutti i tipi di task.

Su Arena AI, il 31B Dense si classifica al 3° posto tra tutti i modelli open con un punteggio di 1452. Su MMLU Pro, raggiunge l'85.2% — competitivo con modelli diverse volte più grandi. Il punteggio dell'89.2% su AIME 2026 dimostra un forte ragionamento matematico, mentre il 74% su BigBench Extra Hard (rispetto al 19% delle generazioni precedenti) mostra un miglioramento massiccio nei task di ragionamento complesso.

Benchmark: I dati completi

Ragionamento e Conoscenza

Benchmark	31B Dense	26B MoE	Note
MMLU Pro	85.2%	—	Conoscenza a livello universitario
AIME 2026	89.2%	—	Matematica da competizione
BigBench Extra Hard	74%	—	Rispetto al 19% della gen precedente
Punteggio Arena AI	1452 (3°)	1441 (6°)	Classifiche modelli open

Fonte: Google DeepMind technical report

BigBench Extra Hard: Il risultato eccezionale

Il salto dal 19% al 74% su BigBench Extra Hard merita un'attenzione speciale. Questo benchmark testa il ragionamento complesso in più fasi, la deduzione logica e i task che richiedono una comprensione genuina piuttosto che il pattern matching. Un miglioramento di 55 punti percentuali in una singola generazione suggerisce progressi fondamentali nell'architettura di ragionamento di Gemma 4, non solo uno scaling.

Questo miglioramento è probabilmente collegato alla modalità di pensiero configurabile e alla tecnologia Gemini 3 sottostante su cui è costruito Gemma 4. La modalità di pensiero genera catene di ragionamento estese che aiutano il modello a risolvere problemi complessi passo dopo passo.

Contesto delle classifiche Arena AI

Arena AI classifica i modelli in base a confronti testa a testa sulle preferenze umane. Il punteggio di 1452 del 31B Dense e la sua posizione al 3° posto tra i modelli open lo collocano al di sopra di molti modelli con un numero di parametri significativamente superiore. Per contesto:

I modelli che lo precedono in classifica sono tipicamente modelli con oltre 70B parametri
Il 26B MoE che ottiene 1441 con soli 3.8B parametri attivi è una svolta in termini di efficienza
Entrambi i modelli superano il precedente Gemma 3 27B con un margine significativo

Capacità multimodali

Comprensione delle immagini

Tutti e quattro i modelli Gemma 4 elaborano le immagini in modo nativo. Le capacità includono:

Descrizione e analisi delle immagini — comprensione dettagliata del contenuto visivo
OCR e parsing di documenti — estrazione di testo da immagini, ricevute, screenshot
Interpretazione di grafici e diagrammi — comprensione delle visualizzazioni dei dati
Ragionamento visivo — risposta a domande che richiedono la comprensione delle relazioni spaziali

Video e Audio (Solo E2B/E4B)

I modelli più piccoli E2B e E4B aggiungono l'elaborazione nativa di video e audio:

Comprensione video — analisi del contenuto video senza estrazione fotogramma per fotogramma
Trascrizione e comprensione audio — elaborazione del parlato e dell'audio ambientale
Ragionamento cross-modale — risposta a domande che spaziano tra input di testo, immagine, video e audio

Questa scelta di design riflette l'attenzione di Google sul deployment edge. I dispositivi mobili catturano video e audio nativamente, quindi i modelli progettati per quei dispositivi supportano tali modalità.

Modalità di pensiero configurabile

Gemma 4 introduce una modalità di pensiero configurabile che genera oltre 4,000 tokens di ragionamento interno prima di produrre una risposta. Questo è simile alle capacità di pensiero esteso viste nei modelli di Claude e nella serie o di OpenAI, ma implementato in un modello open-weight.

Come funziona

Quando la modalità di pensiero è abilitata, il modello:

Riceve il prompt di input
Genera una catena di ragionamento interna (visibile o nascosta, a seconda della configurazione)
Utilizza la catena di ragionamento per produrre una risposta finale di qualità superiore

La modalità di pensiero può essere attivata per ogni singola richiesta, consentendo agli sviluppatori di:

Abilitare il pensiero per task complessi di matematica, logica, coding e analisi
Disabilitare il pensiero per query semplici, chat e applicazioni sensibili alla latenza
Regolare la profondità del pensiero in base alla complessità attesa del task

Impatto sulla qualità

La modalità di pensiero è uno dei principali motori dietro le forti prestazioni nei benchmark di Gemma 4. Il punteggio AIME 2026 dell'89.2% e il punteggio BigBench Extra Hard del 74% sono entrambi ottenuti con la modalità di pensiero abilitata. Senza la modalità di pensiero, questi punteggi sarebbero notevolmente più bassi — similmente al pattern osservato in altri modelli con capacità di ragionamento esteso.

Apache 2.0: Perché il cambio di licenza è importante

Le precedenti generazioni di Gemma venivano rilasciate sotto la licenza personalizzata di Google per Gemma, che includeva restrizioni su:

Utilizzo in determinate applicazioni
Termini di ridistribuzione
Limitazioni al deployment commerciale per l'uso su larga scala

Gemma 4 passa ad Apache 2.0, la stessa licenza utilizzata da progetti come Kubernetes, TensorFlow e Apache HTTP Server. Ciò significa:

Nessuna restrizione d'uso — utilizzalo per qualsiasi cosa, inclusi i prodotti commerciali
Nessuna limitazione alla ridistribuzione — condividi liberamente i pesi modificati
Nessun requisito di attribuzione oltre alla licenza — avviso standard Apache 2.0
Nessuna approvazione da parte di Google necessaria — distribuisci a qualsiasi scala senza permesso
Compatibile con altre licenze open-source — facile da integrare in progetti esistenti

Per le aziende e le startup che costruiscono prodotti basati su modelli open, questo elimina il carico di revisione legale richiesto dalla licenza personalizzata di Gemma. Rende inoltre Gemma 4 direttamente paragonabile ai modelli Llama di Meta (che utilizzano la propria licenza personalizzata con alcune restrizioni) e lo posiziona come la famiglia di modelli open di alta qualità con la licenza più permissiva disponibile.

Supporto linguistico

Gemma 4 supporta 35+ lingue per l'inference ed è stato pre-addestrato su oltre 140 lingue. Questo lo rende uno dei modelli open più multilingue disponibili, insieme ai modelli di Qwen che enfatizzano anch'essi un'ampia copertura linguistica.

Le lingue supportate includono le principali lingue mondiali (inglese, cinese, spagnolo, francese, tedesco, giapponese, coreano, arabo, hindi, portoghese, russo) oltre a molte lingue con una minore impronta digitale. Il pre-addestramento su oltre 140 lingue significa che il modello ha alcune capacità in lingue oltre alle 35 supportate ufficialmente, sebbene la qualità possa variare.

Per le applicazioni destinate a un pubblico globale o a mercati non anglofoni, questo ampio supporto linguistico riduce la necessità di fine-tuning specializzato o di modelli separati per lingua.

Uso strutturato di tool e workflow agentici

Gemma 4 include il supporto nativo per l'uso strutturato di tool, consentendo workflow agentici in cui il modello può:

Chiamare API esterne con richieste formattate correttamente
Analizzare risposte strutturate da tool e servizi
Concatenare più chiamate a tool per completare task complessi
Gestire errori e tentativi nell'esecuzione dei tool

Questa capacità è particolarmente rilevante per l'integrazione con Android Studio, dove Gemma 4 alimenta workflow locali di coding agentico. Il modello può comprendere il contesto del codice, suggerire modifiche, eseguire tool e iterare — tutto in esecuzione locale sulla macchina dello sviluppatore senza inviare codice a server esterni.

Per gli sviluppatori che costruiscono agenti AI, l'uso strutturato di tool di Gemma 4 fornisce una base completamente locale e privata. In combinazione con la licenza Apache 2.0, ciò consente di creare e distribuire applicazioni agentiche senza alcuna dipendenza da fornitori esterni di modelli.

Requisiti hardware

Deployment locale tramite Ollama

Modello	RAM richiesta (4-bit)	RAM richiesta (FP16)	Raccomandazione GPU
E2B	~5 GB	~5 GB	Qualsiasi GPU moderna / Solo CPU
E4B	~5 GB	~9 GB	Qualsiasi GPU moderna / Solo CPU
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Fonte: Ollama model library

I modelli E2B e E4B sono specificamente progettati per il deployment edge. Funzionano agevolmente su laptop, CPU desktop e persino su alcuni smartphone. I modelli 26B MoE e 31B Dense richiedono hardware GPU dedicato ma rimangono accessibili ai singoli sviluppatori con GPU consumer.

Ottimizzazione NVIDIA

NVIDIA ha rilasciato versioni ottimizzate di Gemma 4 per GPU RTX, fornendo:

Inference più veloce attraverso ottimizzazioni del kernel specifiche per GPU
Migliore utilizzo della memoria sulle schede serie RTX 4000 e 5000
Integrazione TensorRT per il deployment in produzione
Supporto CUDA graph per un overhead ridotto nell'inference ripetuta

Fonte: NVIDIA AI Blog

Cosa è cambiato rispetto a Gemma 3

Funzionalità	Gemma 3	Gemma 4
Licenza	Gemma License (ristretta)	Apache 2.0 (senza restrizioni)
Dimensioni modello	3 dimensioni	4 dimensioni (aggiunto MoE)
Context Window	Fino a 128K	Fino a 256K
Modalità	Testo, Immagine	Testo, Immagine, Video, Audio
Modalità di pensiero	No	Sì (configurabile)
Uso di tool	Limitato	Uso strutturato di tool
Lingue	30+	35+ (pre-addestrato su 140+)
BigBench Extra Hard	19%	74%

Ogni dimensione è migliorata. I cambiamenti più impattanti per gli sviluppatori sono la licenza Apache 2.0 (che elimina gli attriti legali), la modalità di pensiero (che migliora la qualità nei task difficili) e l'architettura MoE (che fornisce una qualità da ammiraglia a una frazione del costo computazionale).

Casi d'uso pratici

Programmazione e sviluppo

L'uso strutturato di tool e la modalità di pensiero di Gemma 4 lo rendono efficace per:

Completamento e generazione di codice locale
Code review e rilevamento di bug
Generazione automatizzata di test
Scrittura di documentazione
Workflow di coding agentico in Android Studio

Elaborazione di documenti

Con context window da 256K e supporto multimodale:

Elaborazione di intere codebase o lunghi documenti in un singolo prompt
Estrazione di informazioni da immagini di documenti, ricevute e moduli
Analisi di grafici e visualizzazioni di dati
Sintesi di lunghi paper di ricerca o documenti legali

Creazione di applicazioni basate su AI

Per gli sviluppatori che costruiscono prodotti che integrano capacità AI, Gemma 4 fornisce un solido layer di inference on-device o self-hosted. Il modello gestisce l'intelligenza — comprensione delle query, generazione delle risposte, elaborazione delle immagini — mentre il framework dell'applicazione gestisce il resto. Strumenti come ZBuild possono accelerare la costruzione della struttura dell'applicazione (frontend, backend, database, deployment), permettendoti di concentrare lo sforzo di sviluppo sul layer di integrazione AI dove le capacità di Gemma 4 contano di più.

Deployment Edge e Mobile

I modelli E2B e E4B aprono casi d'uso che erano precedentemente impossibili con i modelli open:

Assistenti on-device che funzionano offline
Funzionalità AI che preservano la privacy senza mai inviare dati a server esterni
Elaborazione video e audio in tempo reale su dispositivi mobili
AI integrata in applicazioni IoT e robotica

Come iniziare

Ollama (Percorso più veloce)

# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Pull and run Gemma 4
ollama run gemma4:e2b      # Smallest, runs anywhere
ollama run gemma4:e4b      # Small, broader capability
ollama run gemma4:26b-moe  # MoE, best efficiency
ollama run gemma4:31b      # Dense, highest quality

Hugging Face

Tutti i modelli Gemma 4 sono disponibili su Hugging Face con integrazione completa dei transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google fornisce accesso gratuito alle API di Gemma 4 attraverso AI Studio per la sperimentazione e la prototipazione, con Vertex AI disponibile per il deployment in produzione.

Gemma 4 nel panorama competitivo

Per capire dove si colloca Gemma 4 nell'ecosistema più ampio:

Modello	Parametri	Licenza	MMLU Pro	Arena AI	Contesto
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B attivi)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B attivi)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B attivi)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B attivi)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B ottiene il punteggio MMLU Pro più alto e il miglior posizionamento su Arena AI tra i modelli open — con il minor numero di parametri totali. Questa efficienza dei parametri è un risultato diretto della base tecnologica Gemini 3 e della modalità di pensiero configurabile.

La storia dell'efficienza del modello 26B MoE è ancora più convincente. Si classifica al 6° posto su Arena AI attivando solo 3.8B parametri per token. Nessun altro modello raggiunge un rapporto qualità-calcolo paragonabile. Per i deployment in produzione in cui il costo dell'inference scala con l'uso, questa efficienza si traduce direttamente in risparmi sui costi.

Rispetto ai modelli proprietari, i benchmark di Gemma 4 31B sono competitivi con le offerte di fascia media di Anthropic e OpenAI. Sebbene i modelli proprietari di punta guidino ancora nei task più difficili, il divario si è ridotto drasticamente — e Gemma 4 arriva con zero costi per token e la piena libertà della licenza Apache 2.0.

Verdetto

Gemma 4 stabilisce un nuovo standard per i modelli open-weight nel 2026. La combinazione della licenza Apache 2.0, quattro dimensioni di modello ben differenziate, supporto multimodale nativo, modalità di pensiero configurabile e punteggi nei benchmark competitivi con modelli molto più grandi, lo rende la famiglia di modelli open più pratica disponibile.

Il 31B Dense è la scelta giusta quando è necessaria la massima qualità. Il 26B MoE è la scelta giusta quando è necessaria una forte qualità al minimo costo computazionale. Gli E2B e E4B sono le scelte giuste per il deployment edge e l'AI on-device. Per la prima volta nella famiglia Gemma, la licenza non limita nessuno di questi casi d'uso.

Google Gemma 4: Guida completa a specifiche, benchmark e novità (2026)