Ključni poudarek
Google Gemma 4 je najzmogljivejša družina modelov z odprtimi utežmi (open-weight), ki je bila kdaj koli izdana pod resnično dovoljujočo licenco. Model 31B Dense dosega 85.2% na MMLU Pro in zaseda 3. mesto med vsemi odprtimi modeli na Arena AI — medtem ko 26B MoE dosega skoraj identično kakovost s samo 3.8B aktivnimi parametri. Prvič je Gemma na voljo pod Apache 2.0, kar odstranjuje vse licenčne ovire, ki so zavirale komercialno uporabo prejšnjih generacij.
Google Gemma 4: Vse, kar morate vedeti
Pregled izdaje
Google DeepMind je izdal Gemma 4 dne April 2, 2026 in predstavil štiri velikosti modelov, zgrajenih na isti tehnološki osnovi kot Gemini 3. Ta generacija predstavlja največji skok v družini Gemma v vseh dimenzijah: kakovosti modela, multimodalnih zmožnostih, dolžini konteksta in licenčnih pogojih.
Ključne spremembe v primerjavi z Gemma 3:
- Licenca Apache 2.0 — brez omejitev uporabe, brez prilagojenih licenc, popolna komercialna svoboda
- Štiri velikosti modelov namesto treh, vključno z novo MoE arhitekturo
- Nativna multimodalna podpora v vseh velikostih (besedilo, slike, video, avdio)
- Nastavljiv način razmišljanja (thinking mode) z več kot 4,000 tokens dolgimi verigami sklepanja
- 256K okna konteksta pri večjih modelih (povečano z omejitev modela Gemma 3)
- 35+ podprtih jezikov, vnaprej naučenih na 140+ jezikih
- Strukturirana uporaba orodij za agentske delovne tokove
Štiri velikosti modelov
Gemma 4 prihaja v štirih različnih velikostih, od katerih je vsaka namenjena drugačnim scenarijem uporabe:
| Model | Parametri | Aktivni parametri | Arhitektura | Kontekst | Modalnosti |
|---|---|---|---|---|---|
| E2B | 2.3B effective | 2.3B | Dense | 128K | Besedilo, slika, video, avdio |
| E4B | 4.5B effective | 4.5B | Dense | 128K | Besedilo, slika, video, avdio |
| 26B MoE | 26B total | 3.8B | Mixture of Experts | 256K | Besedilo, slika |
| 31B Dense | 31B | 31B | Dense | 256K | Besedilo, slika |
E2B in E4B: Robni modeli (Edge Models)
Najmanjši modeli Gemma 4 so zasnovani za namestitev v napravah. Z 2.3B oziroma 4.5B efektivnimi parametri delujejo na pametnih telefonih, tablicah in prenosnikih s samo 5GB RAM-a ob uporabi 4-bit kvantizacije.
Izjemne jih dela njihova širina modalnosti. Kljub temu da sta najmanjša v družini, sta E2B in E4B edina modela Gemma 4, ki podpirata vse štiri vhodne modalnosti: besedilo, slike, video in avdio. To je premišljena oblikovalska odločitev — robne naprave s kamerami in mikrofoni imajo največ koristi od multimodalnih zmožnosti.
Oba modela podpirata 128K okna konteksta, kar je velikodušno za njihovo število parametrov in zadostuje za večino primerov uporabe v napravah.
26B MoE: Največja učinkovitost
Model 26B Mixture of Experts je verjetno najzanimivejši model v liniji Gemma 4. Vsebuje 26B skupnih parametrov, vendar za kateri koli vhod aktivira le 3.8B parametrov — kar je približno enak računski strošek kot pri modelu E4B, vendar z dostopom do bistveno več znanja in zmožnosti.
Na Arena AI model 26B MoE zaseda 6. mesto med vsemi odprtimi modeli z rezultatom 1441, kljub uporabi le 3.8B aktivnih parametrov. To razmerje učinkovitosti je brez primere — noben drug model ne dosega primerljive kakovosti pri tem računskem strošku.
Arhitektura MoE usmerja vsak token skozi specializirana podomrežja strokovnjakov, kar modelu omogoča ohranjanje velike kapacitete znanja ob nizkih stroških sklepanja (inference). Za scenarije uporabe, kjer potrebujete močno sklepanje, vendar imate omejen pomnilnik GPU, je 26B MoE optimalna izbira.
31B Dense: Najvišja kakovost
Model 31B Dense je paradni konj Gemma 4. Vsak parameter je aktiven pri vsakem žetonu, kar zagotavlja najbolj dosledne in kakovostne izhode pri vseh vrstah nalog.
Na Arena AI model 31B Dense zaseda 3. mesto med vsemi odprtimi modeli z rezultatom 1452. Na MMLU Pro dosega 85.2% — kar je konkurenčno modelom, ki so večkrat večji. Rezultat 89.2% na AIME 2026 dokazuje močno matematično sklepanje, medtem ko 74% na BigBench Extra Hard (povečanje z 19% v prejšnjih generacijah) kaže na ogromen napredek pri kompleksnih nalogah sklepanja.
Primerjalni testi: Celotni podatki
Sklepanje in znanje
| Benchmark | 31B Dense | 26B MoE | Opombe |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Znanje na podiplomski ravni |
| AIME 2026 | 89.2% | — | Tekmovalna matematika |
| BigBench Extra Hard | 74% | — | Povečanje z 19% v prejšnji generaciji |
| Arena AI Score | 1452 (3rd) | 1441 (6th) | Razvrstitev odprtih modelov |
Vir: Tehnično poročilo Google DeepMind
BigBench Extra Hard: Izstopajoč rezultat
Skok z 19% na 74% na BigBench Extra Hard si zasluži posebno pozornost. Ta benchmark preizkuša kompleksno večstopenjsko sklepanje, logično dedukcijo in naloge, ki zahtevajo pristno razumevanje namesto zgolj iskanja vzorcev. Izboljšanje za 55 odstotnih točk v eni sami generaciji nakazuje na temeljne izboljšave v arhitekturi sklepanja Gemma 4, ne le na povečanje obsega.
Ta izboljšava je verjetno povezana z nastavljivim načinom razmišljanja in osnovno tehnologijo Gemini 3, na kateri temelji Gemma 4. Način razmišljanja ustvarja razširjene verige sklepanja, ki modelu pomagajo reševati kompleksne probleme korak za korakom.
Kontekst razvrstitve Arena AI
Arena AI razvršča modele na podlagi neposrednih primerjav človeških preferenc. Dosežek modela 31B Dense s 1452 točkami in 3. mestom med odprtimi modeli ga postavlja nad številne modele z bistveno več parametri. Za kontekst:
- Modeli, ki so uvrščeni višje, imajo običajno 70B+ parametrov.
- Dosežek 26B MoE s 1441 točkami ob le 3.8B aktivnih parametrih predstavlja preboj v učinkovitosti.
- Oba modela znatno prekašata prejšnjo različico Gemma 3 27B.
Multimodalne zmožnosti
Razumevanje slik
Vsi štirje modeli Gemma 4 izvorno obdelujejo slike. Zmožnosti vključujejo:
- Opisovanje in analiza slik — podrobno razumevanje vizualne vsebine
- OCR in razčlenjevanje dokumentov — pridobivanje besedila iz slik, računov, posnetkov zaslona
- Interpretacija grafikonov in diagramov — razumevanje vizualizacij podatkov
- Vizualno sklepanje — odgovarjanje na vprašanja, ki zahtevajo razumevanje prostorskih razmerij
Video in avdio (samo E2B/E4B)
Manjša modela E2B in E4B dodajata izvorno obdelavo videa in zvoka:
- Razumevanje videa — analiza video vsebine brez ekstrakcije sličic po sličicah
- Transkripcija in razumevanje avdia — obdelava govora in zvokov iz okolja
- Medmodalno sklepanje — odgovarjanje na vprašanja, ki obsegajo vnose besedila, slik, videa in zvoka
Ta oblikovalska izbira odraža Googlov fokus na robno namestitev (edge deployment). Mobilne naprave izvorno zajemajo video in zvok, zato modeli, zasnovani za te naprave, podpirajo te modalnosti.
Nastavljiv način razmišljanja (Configurable Thinking Mode)
Gemma 4 uvaja nastavljiv način razmišljanja, ki ustvari več kot 4,000 tokens notranjega sklepanja, preden poda odgovor. To je podobno zmožnostim razširjenega razmišljanja, ki jih vidimo pri modelih Claude in seriji o proizvajalca OpenAI, vendar implementirano v modelu z odprtimi utežmi.
Kako deluje
Ko je način razmišljanja omogočen, model:
- Prejme vhodni poziv
- Ustvari notranjo verigo sklepanja (vidno ali skrito, odvisno od konfiguracije)
- Uporabi verigo sklepanja za izdelavo končnega odgovora višje kakovosti
Način razmišljanja je mogoče preklapljati za vsako zahtevo posebej, kar razvijalcem omogoča:
- Omogočanje razmišljanja za kompleksne matematične, logične, kodne in analitične naloge
- Onemogočanje razmišljanja za preproste poizvedbe, klepet in aplikacije, občutljive na zakasnitev
- Prilagajanje globine razmišljanja glede na pričakovano kompleksnost naloge
Vpliv na kakovost
Način razmišljanja je primarni gonilnik za močne rezultate Gemma 4 na primerjalnih testih. Rezultat na AIME 2026 v višini 89.2% in rezultat na BigBench Extra Hard v višini 74% sta bila dosežena z omogočenim načinom razmišljanja. Brez njega bi bili ti rezultati opazno nižji — podobno kot pri drugih modelih z zmožnostmi razširjenega razmišljanja.
Apache 2.0: Zakaj je sprememba licence pomembna
Prejšnje generacije modelov Gemma so bile izdane pod Googlovo prilagojeno licenco Gemma, ki je vključevala omejitve glede:
- Uporabe v določenih aplikacijah
- Pogojev ponovne distribucije
- Komercialne namestitve za uporabo v velikem obsegu
Gemma 4 prehaja na Apache 2.0, isto licenco, ki jo uporabljajo projekti, kot so Kubernetes, TensorFlow in Apache HTTP Server. To pomeni:
- Brez omejitev uporabe — uporabite ga za karkoli, vključno s komercialnimi izdelki
- Brez omejitev ponovne distribucije — prosto delite spremenjene uteži
- Brez zahtev po navedbi avtorstva razen licence — standardno obvestilo Apache 2.0
- Brez potrebe po Googlovi odobritvi — namestite v poljubnem obsegu brez dovoljenja
- Združljivost z drugimi odprtokodnimi licencami — enostavna integracija v obstoječe projekte
Za podjetja in zagonska podjetja, ki gradijo izdelke na vrhu odprtih modelov, to odpravlja pravne preglede, ki jih je zahtevala prejšnja licenca. Prav tako naredi Gemma 4 neposredno primerljivo z modeli Llama podjetja Meta (ki uporabljajo lastno licenco z nekaterimi omejitvami) in jo postavlja kot najbolj prosto licencirano visokokakovostno družino odprtih modelov na voljo.
Jezikovna podpora
Gemma 4 podpira 35+ jezikov za sklepanje in je bila vnaprej naučena na 140+ jezikih. To jo uvršča med najbolj večjezične odprte modele, poleg modelov Qwen, ki prav tako poudarjajo široko jezikovno pokritost.
Podprti jeziki vključujejo glavne svetovne jezike (angleščina, kitajščina, španščina, francoščina, nemščina, japonščina, korejščina, arabščina, hindijščina, portugalščina, ruščina) kot tudi številne jezike z manjšim digitalnim odtisom. Vnaprejšnje učenje na 140+ jezikih pomeni, da ima model določene zmožnosti tudi v jezikih izven uradno podprtih 35+, čeprav se kakovost lahko razlikuje.
Za aplikacije, namenjene svetovnemu občinstvu ali neangleškim trgom, ta široka jezikovna podpora zmanjšuje potrebo po specializiranem finem prilagajanju ali ločenih modelih za vsak jezik.
Strukturirana uporaba orodij in agentski delovni tokovi
Gemma 4 vključuje izvorno podporo za strukturirano uporabo orodij, kar omogoča agentske delovne tokove, kjer model lahko:
- Kliče zunanje API-je s pravilno formatiranimi zahtevami
- Razčlenjuje strukturirane odgovore iz orodij in storitev
- Povezuje več klicev orodij za dokončanje kompleksnih nalog
- Upravlja z napakami in ponovnimi poskusi pri izvajanju orodij
Ta zmožnost je posebej pomembna za integracijo v Android Studio, kjer Gemma 4 poganja lokalne agentske delovne tokove za kodiranje. Model lahko razume kontekst kode, predlaga spremembe, izvaja orodja in iterira — vse to poteka lokalno na razvijalčevem računalniku, ne da bi kodo pošiljali na zunanje strežnike.
Za razvijalce, ki gradijo AI agente, strukturirana uporaba orodij v Gemma 4 zagotavlja popolnoma lokalno in zasebno osnovo. V kombinaciji z licenco Apache 2.0 to omogoča gradnjo in namestitev agentskih aplikacij brez kakršne koli odvisnosti od zunanjih ponudnikov modelov.
Strojne zahteve
Lokalna namestitev prek Ollama
| Model | Potreben RAM (4-bit) | Potreben RAM (FP16) | Priporočen GPU |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Kateri koli sodoben GPU / samo CPU |
| E4B | ~5 GB | ~9 GB | Kateri koli sodoben GPU / samo CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
Modela E2B in E4B sta posebej zasnovana za robno namestitev. Udobno delujeta na prenosnikih, namiznih procesorjih in celo nekaterih pametnih telefonih. Modela 26B MoE in 31B Dense zahtevata namensko strojno opremo GPU, vendar ostajata dostopna posameznim razvijalcem s potrošniškimi grafičnimi karticami.
Optimizacija NVIDIA
NVIDIA je izdala optimizirane različice Gemma 4 za grafične procesorje RTX, ki zagotavljajo:
- Hitrejše sklepanje prek optimizacij jedra, specifičnih za GPU
- Boljšo izrabo pomnilnika na karticah serij RTX 4000 in 5000
- Integracijo TensorRT za produkcijsko namestitev
- Podporo za CUDA grafe za zmanjšanje režijskih stroškov pri ponavljajočem se sklepanju
Kaj se je spremenilo od Gemma 3
| Funkcija | Gemma 3 | Gemma 4 |
|---|---|---|
| Licenca | Gemma Licenca (omejena) | Apache 2.0 (neomejena) |
| Velikosti modelov | 3 velikosti | 4 velikosti (dodan MoE) |
| Okno konteksta | Do 128K | Do 256K |
| Modalnosti | Besedilo, slika | Besedilo, slika, video, avdio |
| Način razmišljanja | Ne | Da (nastavljiv) |
| Uporaba orodij | Omejena | Strukturirana uporaba orodij |
| Jeziki | 30+ | 35+ (pred-učen na 140+) |
| BigBench Extra Hard | 19% | 74% |
Vsaka dimenzija se je izboljšala. Najvplivnejše spremembe za razvijalce so licenca Apache 2.0 (odpravlja pravne ovire), način razmišljanja (izboljša kakovost pri težkih nalogah) in arhitektura MoE (zagotavlja vrhunsko kakovost pri delčku računskih stroškov).
Praktični primeri uporabe
Kodiranje in razvoj
Strukturirana uporaba orodij in način razmišljanja v Gemma 4 sta učinkovita za:
- Lokalno dopolnjevanje in generiranje kode
- Pregled kode in odkrivanje hroščev
- Avtomatizirano generiranje testov
- Pisanje dokumentacije
- Agentske delovne tokove kodiranja v Android Studio
Obdelava dokumentov
Z 256K okni konteksta in multimodalno podporo:
- Obdelava celotnih baz kod ali dolgih dokumentov v enem samem pozivu
- Pridobivanje informacij iz slik dokumentov, računov in obrazcev
- Analiza grafikonov in vizualizacij podatkov
- Povzemanje dolgih raziskovalnih nalog ali pravnih dokumentov
Gradnja aplikacij na pogon AI
Za razvijalce, ki gradijo izdelke z vključenimi zmožnostmi AI, Gemma 4 zagotavlja močan nivo sklepanja v napravi ali na lastnem gostovanju. Model poskrbi za inteligenco — razumevanje poizvedb, generiranje odgovorov, obdelavo slik — medtem ko ogrodje vaše aplikacije poskrbi za ostalo. Orodja, kot je ZBuild, lahko pospešijo gradnjo ogrodja aplikacije (frontend, backend, podatkovna baza, namestitev), kar vam omogoča, da razvoj usmerite v nivo integracije AI, kjer so zmožnosti Gemma 4 najbolj pomembne.
Robna in mobilna namestitev
Modela E2B in E4B odpirata primere uporabe, ki so bili prej z odprtimi modeli nemogoči:
- Pomočniki v napravah, ki delujejo brez povezave
- Funkcije AI z varovanjem zasebnosti, ki nikoli ne pošiljajo podatkov na zunanje strežnike
- Obdelava videa in zvoka v realnem času na mobilnih napravah
- Vgrajena inteligenca v aplikacijah IoT in robotiki
Kako začeti
Ollama (Najhitrejša pot)
# Namestite Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Prenesite in zaženite Gemma 4
ollama run gemma4:e2b # Najmanjši, deluje povsod
ollama run gemma4:e4b # Majhen, širše zmožnosti
ollama run gemma4:26b-moe # MoE, najboljša učinkovitost
ollama run gemma4:31b # Dense, najvišja kakovost
Hugging Face
Vsi modeli Gemma 4 so na voljo na Hugging Face s polno integracijo transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google zagotavlja brezplačen dostop do API za Gemma 4 prek AI Studio za eksperimentiranje in prototipiranje, Vertex AI pa je na voljo za produkcijsko namestitev.
Gemma 4 v konkurenčnem okolju
Da bi razumeli, kje se nahaja Gemma 4 v širšem ekosistemu:
| Model | Parametri | Licenca | MMLU Pro | Arena AI | Kontekst |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B aktivnih) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B aktivnih) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B aktivnih) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B aktivnih) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B dosega najvišji rezultat MMLU Pro in uvrstitev na Arena AI med odprtimi modeli — z najmanjšim skupnim številom parametrov. Ta učinkovitost parametrov je neposreden rezultat tehnološke osnove Gemini 3 in nastavljivega načina razmišljanja.
Zgodba o učinkovitosti modela 26B MoE je še bolj prepričljiva. Zaseda 6. mesto na Arena AI, medtem ko aktivira le 3.8B parametrov na token. Noben drug model ne dosega primerljivega razmerja med kakovostjo in porabljenimi viri. Za produkcijske namestitve, kjer se stroški sklepanja povečujejo z uporabo, se ta učinkovitost neposredno odraža v prihrankih.
V primerjavi z lastniškimi modeli so primerjalni testi Gemma 4 31B konkurenčni ponudbam srednjega razreda podjetij Anthropic in OpenAI. Čeprav vrhunski lastniški modeli še vedno vodijo pri najtežjih nalogah, se je vrzel močno zmanjšala — Gemma 4 pa prinaša ničelne stroške na žeton in popolno svobodo licence Apache 2.0.
Razsodba
Gemma 4 postavlja nov standard za modele z odprtimi utežmi v letu 2026. Kombinacija licence Apache 2.0, štirih dobro diferenciranih velikosti modelov, nativne multimodalne podpore, nastavljivega načina razmišljanja in rezultatov na benchmarkih, ki so konkurenčni veliko večjim modelom, jo naredi za najbolj praktično družino odprtih modelov na voljo.
31B Dense je prava izbira, ko potrebujete maksimalno kakovost. 26B MoE je prava izbira, ko potrebujete visoko kakovost ob minimalnih računskih stroških. E2B in E4B sta pravi izbiri za robno namestitev in AI v napravah. Prvič v družini Gemma licenca ne omejuje nobenega od teh primerov uporabe.
Viri
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers