Ce este Google Gemma 4 și când a fost lansat?

Google Gemma 4 este familia de modele open-weight de la Google DeepMind lansată pe 2 aprilie 2026. Include 4 dimensiuni — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total) și 31B Dense. Toate modelele sunt lansate sub Apache 2.0, cea mai permisivă licență utilizată vreodată pentru o versiune Gemma.

Este Gemma 4 cu adevărat open source?

Da. Gemma 4 este prima generație Gemma lansată sub licența Apache 2.0, care permite utilizarea comercială nelimitată, modificarea și redistribuirea fără a necesita permisiunea de la Google. Modelele Gemma anterioare au folosit licența custom Gemma a Google, care impunea restricții de utilizare.

Ce fereastră de context suportă Gemma 4?

Modelele mai mici (E2B și E4B) suportă ferestre de context de 128K tokens. Modelele mai mari (26B MoE și 31B Dense) suportă ferestre de context de 256K tokens. Aceasta este o îmbunătățire majoră față de limitele de context ale Gemma 3 și permite procesarea unor baze de cod întregi sau a documentelor lungi într-un singur prompt.

Poate Gemma 4 să proceseze imagini, video și audio?

Da. Toate cele patru modele Gemma 4 sunt nativ multimodale și suportă intrări de tip text și imagine. Modelele E2B și E4B merg mai departe cu capabilități native de procesare video și audio. Acest lucru face din Gemma 4 prima familie de modele open-weight în care cele mai mici modele au cel mai larg suport de modalități.

Cum funcționează modul de gândire al Gemma 4?

Gemma 4 include un mod de gândire configurabil care generează peste 4,000 de tokens de raționament intern înainte de a produce un răspuns. Acest raționament de tip chain-of-thought poate fi activat sau dezactivat per cerere, permițând dezvoltatorilor să aleagă între răspunsuri mai rapide pentru sarcini simple și raționament mai profund pentru probleme complexe precum matematică, logică și coding.

De ce hardware am nevoie pentru a rula Gemma 4 local?

Gemma 4 E2B și E4B rulează pe dispozitive cu doar 5GB RAM folosind 4-bit quantization, inclusiv smartphone-uri și laptopuri. Modelul 26B MoE necesită aproximativ 18GB RAM, iar 31B Dense necesită aproximativ 20GB RAM. Toate modelele rulează prin Ollama cu optimizare pentru NVIDIA RTX GPU disponibilă.

Concluzie Cheie

Google Gemma 4 este cea mai capabilă familie de modele open-weight lansată vreodată sub o licență cu adevărat permisivă. Modelul 31B Dense obține 85.2% pe MMLU Pro și se clasează pe locul 3rd între toate modelele open pe Arena AI — în timp ce 26B MoE atinge o calitate aproape identică cu doar 3.8B parametri activi. Pentru prima dată, Gemma este livrat sub Apache 2.0, eliminând orice fricțiune de licențiere care a împiedicat adoptarea comercială a generațiilor anterioare.

Google Gemma 4: Tot ce trebuie să știi

Prezentare Generală a Lansării

Google DeepMind a lansat Gemma 4 pe April 2, 2026, introducând patru dimensiuni de modele construite pe aceeași fundație tehnologică ca Gemini 3. Această generație reprezintă cel mai mare salt din familia Gemma în fiecare dimensiune: calitatea modelului, capacități multimodale, lungimea contextului și termenii de licențiere.

Schimbările cheie față de Gemma 3:

Licențiere Apache 2.0 — fără restricții de utilizare, fără licență personalizată, libertate comercială deplină
Patru dimensiuni de model în loc de trei, inclusiv o nouă arhitectură MoE
Suport multimodal nativ pentru toate dimensiunile (text, imagini, video, audio)
Mod de gândire configurabil cu lanțuri de raționament de peste 4,000+ tokens
Ferestre de context de 256K pe modelele mai mari (peste limitele Gemma 3)
35+ limbi suportate, pre-antrenat pe 140+ limbi
Utilizare structurată a instrumentelor pentru fluxuri de lucru agentice

Cele Patru Dimensiuni de Model

Gemma 4 este livrat în patru dimensiuni distincte, fiecare vizând scenarii de implementare diferite:

Model	Parametri	Parametri Activi	Arhitectură	Context	Modalități
E2B	2.3B efectivi	2.3B	Dense	128K	Text, Imagine, Video, Audio
E4B	4.5B efectivi	4.5B	Dense	128K	Text, Imagine, Video, Audio
26B MoE	26B total	3.8B	Mixture of Experts	256K	Text, Imagine
31B Dense	31B	31B	Dense	256K	Text, Imagine

Sursa: Google AI Blog

E2B și E4B: Modelele Edge

Cele mai mici modele Gemma 4 sunt proiectate pentru implementare on-device. Având 2.3B și respectiv 4.5B parametri efectivi, acestea rulează pe smartphone-uri, tablete și laptopuri cu doar 5GB RAM folosind cuantizarea pe 4-bit.

Ceea ce face aceste modele remarcabile este amploarea modalităților. Deși sunt cele mai mici din familie, E2B și E4B sunt singurele modele Gemma 4 care suportă toate cele patru modalități de intrare: text, imagini, video și audio. Aceasta este o alegere de design deliberată — dispozitivele edge cu camere și microfoane beneficiază cel mai mult de capacitățile multimodale.

Ambele modele suportă ferestre de context de 128K tokens, ceea ce este generos pentru numărul lor de parametri și suficient pentru majoritatea cazurilor de utilizare on-device.

26B MoE: Eficiență Maximă

Modelul 26B Mixture of Experts este, probabil, cel mai interesant model din gama Gemma 4. Acesta conține 26B parametri în total, dar activează doar 3.8B parametri pentru orice intrare dată — aproximativ același cost de calcul ca modelul E4B, dar cu acces la mult mai multe cunoștințe și capacități.

Pe Arena AI, 26B MoE se clasează pe locul 6th printre toate modelele open cu un scor de 1441, în ciuda utilizării a doar 3.8B parametri activi. Acest raport de eficiență este fără precedent — niciun alt model nu atinge o calitate comparabilă la acest cost de calcul.

Arhitectura MoE direcționează fiecare token prin sub-rețele de experți specializați, permițând modelului să mențină o capacitate mare de cunoștințe, păstrând în același timp costul de inferență scăzut. Pentru scenariile de implementare unde aveți nevoie de un raționament puternic, dar aveți memorie GPU limitată, 26B MoE este alegerea optimă.

31B Dense: Calitate Maximă

Modelul 31B Dense este vârful de gamă al Gemma 4. Fiecare parametru este activ pentru fiecare token, oferind cele mai consistente și de înaltă calitate rezultate pentru toate tipurile de sarcini.

Pe Arena AI, 31B Dense se clasează pe locul 3rd printre toate modelele open cu un scor de 1452. Pe MMLU Pro, acesta obține 85.2% — fiind competitiv cu modele de câteva ori mai mari decât el. Scorul de 89.2% pe AIME 2026 demonstrează un raționament matematic puternic, în timp ce 74% pe BigBench Extra Hard (față de 19% în generațiile anterioare) arată o îmbunătățire masivă în sarcinile de raționament complex.

Benchmarks: Datele Complete

Raționament și Cunoștințe

Benchmark	31B Dense	26B MoE	Note
MMLU Pro	85.2%	—	Cunoștințe la nivel de absolvent
AIME 2026	89.2%	—	Matematică de competiție
BigBench Extra Hard	74%	—	Față de 19% în generația anterioară
Arena AI Score	1452 (3rd)	1441 (6th)	Clasamente modele open

Sursa: Raportul tehnic Google DeepMind

BigBench Extra Hard: Rezultatul Remarcabil

Saltul de la 19% la 74% pe BigBench Extra Hard merită o atenție specială. Acest benchmark testează raționamentul complex în mai mulți pași, deducția logică și sarcinile care necesită o înțelegere autentică, mai degrabă decât potrivirea de tipare. O îmbunătățire de 55 de puncte procentuale într-o singură generație sugerează progrese fundamentale în arhitectura de raționament a Gemma 4, nu doar scalare.

Această îmbunătățire este probabil legată de modul de gândire configurabil și de tehnologia Gemini 3 subiacentă pe care este construit Gemma 4. Modul de gândire generează lanțuri extinse de raționament care ajută modelul să rezolve probleme complexe pas cu pas.

Contextul Clasamentelor Arena AI

Arena AI clasifică modelele pe baza comparațiilor directe de preferință umană. Scorul de 1452 obținut de 31B Dense și clasarea pe locul 3rd printre modelele open îl plasează deasupra multor modele cu semnificativ mai mulți parametri. Pentru context:

Modelele clasate deasupra lui sunt de obicei modele cu 70B+ parametri
Obținerea scorului de 1441 de către 26B MoE cu doar 3.8B parametri activi este o descoperire în eficiență
Ambele modele depășesc generația anterioară Gemma 3 27B cu o marjă semnificativă

Capacități Multimodale

Înțelegerea Imaginilor

Toate cele patru modele Gemma 4 procesează imagini în mod nativ. Capacitățile includ:

Descrierea și analiza imaginilor — înțelegere detaliată a conținutului vizual
OCR și parsarea documentelor — extragerea textului din imagini, chitanțe, screenshot-uri
Interpretarea diagramelor și graficelor — înțelegerea vizualizărilor de date
Raționament vizual — răspunsuri la întrebări care necesită înțelegerea relațiilor spațiale

Video și Audio (Doar E2B/E4B)

Modelele mai mici E2B și E4B adaugă procesare nativă video și audio:

Înțelegerea video — analizarea conținutului video fără extragere cadru cu cadru
Transcriere și înțelegere audio — procesarea vorbirii și a sunetului ambiental
Raționament cross-modal — răspunsuri la întrebări care acoperă intrări de text, imagine, video și audio

Această alegere de design reflectă concentrarea Google pe implementarea edge. Dispozitivele mobile captează video și audio nativ, astfel încât modelele proiectate pentru acele dispozitive suportă acele modalități.

Mod de Gândire Configurabil

Gemma 4 introduce un mod de gândire configurabil care generează peste 4,000+ tokens de raționament intern înainte de a produce un răspuns. Acesta este similar cu capacitățile de gândire extinsă văzute în modelele Claude și seria o de la OpenAI, dar implementat într-un model open-weight.

Cum Funcționează

Când modul de gândire este activat, modelul:

Primește promptul de intrare
Generează un lanț de raționament intern (vizibil sau ascuns, în funcție de configurație)
Utilizează lanțul de raționament pentru a produce un răspuns final de calitate superioară

Modul de gândire poate fi comutat per cerere, permițând dezvoltatorilor să:

Activeze gândirea pentru sarcini complexe de matematică, logică, programare și analiză
Dezactiveze gândirea pentru interogări simple, chat și aplicații sensibile la latență
Ajusteze profunzimea gândirii în funcție de complexitatea așteptată a sarcinii

Impactul asupra Calității

Modul de gândire este un motor principal din spatele performanței puternice a Gemma 4 în benchmark-uri. Scorul AIME 2026 de 89.2% și scorul BigBench Extra Hard de 74% sunt ambele obținute cu modul de gândire activat. Fără modul de gândire, aceste scoruri ar fi considerabil mai mici — similar cu modelul observat la alte modele cu capacități de raționament extins.

Apache 2.0: De ce Contează Schimbarea Licenței

Generațiile anterioare Gemma au fost livrate sub licența personalizată Gemma de la Google, care includea restricții privind:

Utilizarea în anumite aplicații
Termenii de redistribuire
Limitări ale implementării comerciale pentru utilizarea la scară largă

Gemma 4 trece la Apache 2.0, aceeași licență utilizată de proiecte precum Kubernetes, TensorFlow și Apache HTTP Server. Aceasta înseamnă:

Fără restricții de utilizare — folosiți-l pentru orice, inclusiv produse comerciale
Fără limitări de redistribuire — partajați liber ponderile modificate
Fără cerințe de atribuire dincolo de licență — notificare standard Apache 2.0
Fără necesitatea aprobării Google — implementați la orice scară fără permisiune
Compatibil cu alte licențe open-source — ușor de integrat în proiecte existente

Pentru companiile și startup-urile care construiesc produse pe baza modelelor open, acest lucru elimină povara revizuirii juridice pe care o necesita licența personalizată a Gemma. De asemenea, face ca Gemma 4 să fie direct comparabil cu modelele Llama de la Meta (care folosesc propria licență personalizată cu unele restricții) și îl poziționează ca fiind cea mai permisiv licențiată familie de modele open de înaltă calitate disponibilă.

Suport Lingvistic

Gemma 4 suportă 35+ limbi pentru inferență și a fost pre-antrenat pe 140+ limbi. Acest lucru îl face unul dintre cele mai multilingve modele open disponibile, alături de modelele Qwen care pun, de asemenea, accent pe o acoperire lingvistică largă.

Limbile suportate includ limbile majore ale lumii (engleză, chineză, spaniolă, franceză, germană, japoneză, coreeană, arabă, hindi, portugheză, rusă), precum și multe limbi cu amprente digitale mai mici. Pre-antrenarea pe 140+ limbi înseamnă că modelul are o anumită capacitate în limbi dincolo de cele 35+ suportate oficial, deși calitatea poate varia.

Pentru aplicațiile care vizează audiențe globale sau piețe non-anglofone, acest suport lingvistic larg reduce necesitatea unui fine-tuning specializat sau a unor modele separate pentru fiecare limbă.

Utilizarea Structurată a Instrumentelor și Fluxuri de Lucru Agentice

Gemma 4 include suport nativ pentru utilizarea structurată a instrumentelor, permițând fluxuri de lucru agentice unde modelul poate:

Apela API-uri externe cu cereri formatate corespunzător
Parsa răspunsuri structurate de la instrumente și servicii
Înlănțui mai multe apeluri de instrumente pentru a finaliza sarcini complexe
Gestiona erori și reîncercări în execuția instrumentelor

Această capacitate este deosebit de relevantă pentru integrarea Android Studio, unde Gemma 4 alimentează fluxuri de lucru locale de programare agentică. Modelul poate înțelege contextul codului, sugera modificări, executa instrumente și itera — totul rulând local pe mașina dezvoltatorului, fără a trimite cod către servere externe.

Pentru dezvoltatorii care construiesc agenți AI, utilizarea structurată a instrumentelor în Gemma 4 oferă o fundație complet locală și privată. Combinat cu licența Apache 2.0, acest lucru permite construirea și implementarea aplicațiilor agentice fără nicio dependență de furnizori externi de modele.

Cerințe Hardware

Implementare Locală prin Ollama

Model	RAM Necesar (4-bit)	RAM Necesar (FP16)	Recomandare GPU
E2B	~5 GB	~5 GB	Orice GPU modern / doar CPU
E4B	~5 GB	~9 GB	Orice GPU modern / doar CPU
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Sursa: Biblioteca de modele Ollama

Modelele E2B și E4B sunt proiectate special pentru implementarea edge. Acestea rulează confortabil pe laptopuri, procesoare desktop și chiar pe unele smartphone-uri. Modelele 26B MoE și 31B Dense necesită hardware GPU dedicat, dar rămân accesibile dezvoltatorilor individuali cu GPU-uri de consum.

Optimizare NVIDIA

NVIDIA a lansat versiuni optimizate ale Gemma 4 pentru GPU-uri RTX, oferind:

Inferență mai rapidă prin optimizări de kernel specifice GPU-ului
O mai bună utilizare a memoriei pe plăcile din seriile RTX 4000 și 5000
Integrare TensorRT pentru implementare în producție
Suport CUDA graph pentru reducerea overhead-ului în inferențe repetate

Sursa: NVIDIA AI Blog

Ce s-a schimbat față de Gemma 3

Caracteristică	Gemma 3	Gemma 4
Licență	Licență Gemma (restricționată)	Apache 2.0 (nerestricționată)
Dimensiuni Model	3 dimensiuni	4 dimensiuni (adăugat MoE)
Fereastră Context	Până la 128K	Până la 256K
Modalități	Text, Imagine	Text, Imagine, Video, Audio
Mod de Gândire	Nu	Da (configurabil)
Utilizare Instrumente	Limitată	Utilizare structurată
Limbi	30+	35+ (pre-antrenat pe 140+)
BigBench Extra Hard	19%	74%

Fiecare dimensiune a fost îmbunătățită. Cele mai de impact schimbări pentru dezvoltatori sunt licența Apache 2.0 (elimină fricțiunile juridice), modul de gândire (îmbunătățește calitatea sarcinilor dificile) și arhitectura MoE (oferă calitate de vârf la o fracțiune din costul de calcul).

Cazuri de Utilizare Practică

Programare și Dezvoltare

Utilizarea structurată a instrumentelor și modul de gândire din Gemma 4 îl fac eficient pentru:

Completarea și generarea locală de cod
Revizuirea codului și detectarea bug-urilor
Generarea automată de teste
Scrierea documentației
Fluxuri de lucru de programare agentică în Android Studio

Procesarea Documentelor

Cu ferestre de context de 256K și suport multimodal:

Procesarea întregilor baze de cod sau a documentelor lungi într-un singur prompt
Extragerea informațiilor din imagini ale documentelor, chitanțelor și formularelor
Analizarea graficelor și vizualizărilor de date
Rezumarea lucrărilor de cercetare lungi sau a documentelor juridice

Construirea Aplicațiilor bazate pe AI

Pentru dezvoltatorii care construiesc produse ce încorporează capacități AI, Gemma 4 oferă un strat de inferență on-device sau auto-găzduit puternic. Modelul gestionează inteligența — înțelegerea interogărilor, generarea răspunsurilor, procesarea imaginilor — în timp ce framework-ul aplicației tale gestionează restul. Instrumente precum ZBuild pot accelera construirea structurii aplicației (frontend, backend, bază de date, implementare), permițându-ți să concentrezi efortul de dezvoltare pe stratul de integrare AI unde capacitățile Gemma 4 contează cel mai mult.

Implementare Edge și Mobile

Modelele E2B și E4B deschid cazuri de utilizare care erau anterior imposibile cu modelele open:

Asistenți pe dispozitiv care funcționează offline
Funcții AI care păstrează confidențialitatea și nu trimit niciodată date către servere externe
Procesare video și audio în timp real pe dispozitive mobile
AI integrat în aplicații IoT și robotică

Cum să începi

Ollama (Cea mai rapidă cale)

# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Pull and run Gemma 4
ollama run gemma4:e2b      # Smallest, runs anywhere
ollama run gemma4:e4b      # Small, broader capability
ollama run gemma4:26b-moe  # MoE, best efficiency
ollama run gemma4:31b      # Dense, highest quality

Hugging Face

Toate modelele Gemma 4 sunt disponibile pe Hugging Face cu integrare completă transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google oferă acces gratuit prin API la Gemma 4 prin AI Studio pentru experimentare și prototipare, cu Vertex AI disponibil pentru implementarea în producție.

Gemma 4 în Peisajul Competitiv

Pentru a înțelege unde se situează Gemma 4 în ecosistemul mai larg:

Model	Parametri	Licență	MMLU Pro	Arena AI	Context
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B activi)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B activi)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B activi)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B activi)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B obține cel mai mare scor MMLU Pro și cea mai înaltă poziție în Arena AI dintre modelele open — cu cei mai puțini parametri totali. Această eficiență a parametrilor este un rezultat direct al fundației tehnologice Gemini 3 și al modului de gândire configurabil.

Povestea de eficiență a modelului 26B MoE este și mai convingătoare. Se clasează pe locul 6th în Arena AI în timp ce activează doar 3.8B parametri per token. Niciun alt model nu atinge un raport calitate-calcul comparabil. Pentru implementările în producție unde costul de inferență scalează cu utilizarea, această eficiență se traduce direct în economii de costuri.

Comparativ cu modelele proprietare, benchmark-urile Gemma 4 31B sunt competitive cu ofertele de nivel mediu de la Anthropic și OpenAI. Deși modelele proprietare de top încă conduc în sarcinile cele mai dificile, diferența s-a redus dramatic — iar Gemma 4 vine cu zero costuri per token și libertatea deplină Apache 2.0.

Verdict

Gemma 4 stabilește un nou standard pentru modelele open-weight în 2026. Combinația dintre licențierea Apache 2.0, patru dimensiuni de model bine diferențiate, suportul multimodal nativ, modul de gândire configurabil și scorurile de benchmark competitive cu modele mult mai mari îl face cea mai practică familie de modele open disponibilă.

31B Dense este alegerea potrivită atunci când aveți nevoie de calitate maximă. 26B MoE este alegerea potrivită când aveți nevoie de o calitate puternică la un cost de calcul minim. E2B și E4B sunt alegerile potrivite pentru implementarea edge și AI on-device. Pentru prima dată în familia Gemma, licența nu limitează niciunul dintre aceste cazuri de utilizare.

Google Gemma 4: Ghid complet pentru specificații, benchmark-uri și noutăți (2026)