Kaj je Google Gemma 4 in kdaj je bila izdana?

Google Gemma 4 je družina modelov z odprtimi utežmi (open-weight) podjetja Google DeepMind, izdana 2. aprila 2026. Vključuje 4 velikosti — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total) in 31B Dense. Vsi modeli so izdani pod licenco Apache 2.0, najbolj permisivno licenco, ki je bila kdajkoli uporabljena za izdajo Gemma.

Je Gemma 4 resnično odprtokodna?

Da. Gemma 4 je prva generacija Gemma, izdana pod licenco Apache 2.0, ki omogoča neomejeno komercialno uporabo, spreminjanje in prerazporejanje brez dovoljenja podjetja Google. Prejšnji modeli Gemma so uporabljali Googlovo lastno licenco Gemma, ki je določala omejitve uporabe.

Kakšno okno konteksta (context window) podpira Gemma 4?

Manjši modeli (E2B in E4B) podpirajo okna konteksta s 128K tokeni. Večji modeli (26B MoE in 31B Dense) podpirajo okna konteksta z 256K tokeni. To je velika izboljšava v primerjavi z omejitvami konteksta pri Gemma 3 in omogoča obdelavo celotnih zbirk kode ali dolgih dokumentov v enem samem promptu.

Ali lahko Gemma 4 obdeluje slike, video in zvok?

Da. Vsi štirje modeli Gemma 4 so izvorno multimodalni in podpirajo vnose besedila in slik. Modela E2B in E4B gresta še dlje z izvornimi zmožnostmi obdelave videa in zvoka. Zaradi tega je Gemma 4 prva družina modelov z odprtimi utežmi (open-weight), kjer imajo najmanjši modeli najširšo podporo modalnosti.

Kako deluje način razmišljanja (thinking mode) v Gemma 4?

Gemma 4 vključuje nastavljiv način razmišljanja (thinking mode), ki pred odgovorom ustvari več kot 4.000 tokenov notranjega razmišljanja. To razmišljanje v verigi misli (chain-of-thought) je mogoče vklopiti ali izklopiti na zahtevo, kar razvijalcem omogoča izbiro med hitrejšimi odgovori za preproste naloge in globljim razmišljanjem za zapletene probleme, kot so matematika, logika in programiranje.

Kakšno strojno opremo potrebujem za lokalno poganjanje Gemma 4?

Gemma 4 E2B in E4B delujeta na napravah z le 5 GB RAM ob uporabi 4-bit quantization, vključno s pametnimi telefoni in prenosniki. Model 26B MoE zahteva približno 18 GB RAM, 31B Dense pa približno 20 GB RAM. Vsi modeli delujejo prek Ollama z razpoložljivo optimizacijo za NVIDIA RTX GPU.

Ključni poudarek

Google Gemma 4 je najzmogljivejša družina modelov z odprtimi utežmi (open-weight), ki je bila kdaj koli izdana pod resnično dovoljujočo licenco. Model 31B Dense dosega 85.2% na MMLU Pro in zaseda 3. mesto med vsemi odprtimi modeli na Arena AI — medtem ko 26B MoE dosega skoraj identično kakovost s samo 3.8B aktivnimi parametri. Prvič je Gemma na voljo pod Apache 2.0, kar odstranjuje vse licenčne ovire, ki so zavirale komercialno uporabo prejšnjih generacij.

Google Gemma 4: Vse, kar morate vedeti

Pregled izdaje

Google DeepMind je izdal Gemma 4 dne April 2, 2026 in predstavil štiri velikosti modelov, zgrajenih na isti tehnološki osnovi kot Gemini 3. Ta generacija predstavlja največji skok v družini Gemma v vseh dimenzijah: kakovosti modela, multimodalnih zmožnostih, dolžini konteksta in licenčnih pogojih.

Ključne spremembe v primerjavi z Gemma 3:

Licenca Apache 2.0 — brez omejitev uporabe, brez prilagojenih licenc, popolna komercialna svoboda
Štiri velikosti modelov namesto treh, vključno z novo MoE arhitekturo
Nativna multimodalna podpora v vseh velikostih (besedilo, slike, video, avdio)
Nastavljiv način razmišljanja (thinking mode) z več kot 4,000 tokens dolgimi verigami sklepanja
256K okna konteksta pri večjih modelih (povečano z omejitev modela Gemma 3)
35+ podprtih jezikov, vnaprej naučenih na 140+ jezikih
Strukturirana uporaba orodij za agentske delovne tokove

Štiri velikosti modelov

Gemma 4 prihaja v štirih različnih velikostih, od katerih je vsaka namenjena drugačnim scenarijem uporabe:

Model	Parametri	Aktivni parametri	Arhitektura	Kontekst	Modalnosti
E2B	2.3B effective	2.3B	Dense	128K	Besedilo, slika, video, avdio
E4B	4.5B effective	4.5B	Dense	128K	Besedilo, slika, video, avdio
26B MoE	26B total	3.8B	Mixture of Experts	256K	Besedilo, slika
31B Dense	31B	31B	Dense	256K	Besedilo, slika

Vir: Google AI Blog

E2B in E4B: Robni modeli (Edge Models)

Najmanjši modeli Gemma 4 so zasnovani za namestitev v napravah. Z 2.3B oziroma 4.5B efektivnimi parametri delujejo na pametnih telefonih, tablicah in prenosnikih s samo 5GB RAM-a ob uporabi 4-bit kvantizacije.

Izjemne jih dela njihova širina modalnosti. Kljub temu da sta najmanjša v družini, sta E2B in E4B edina modela Gemma 4, ki podpirata vse štiri vhodne modalnosti: besedilo, slike, video in avdio. To je premišljena oblikovalska odločitev — robne naprave s kamerami in mikrofoni imajo največ koristi od multimodalnih zmožnosti.

Oba modela podpirata 128K okna konteksta, kar je velikodušno za njihovo število parametrov in zadostuje za večino primerov uporabe v napravah.

26B MoE: Največja učinkovitost

Model 26B Mixture of Experts je verjetno najzanimivejši model v liniji Gemma 4. Vsebuje 26B skupnih parametrov, vendar za kateri koli vhod aktivira le 3.8B parametrov — kar je približno enak računski strošek kot pri modelu E4B, vendar z dostopom do bistveno več znanja in zmožnosti.

Na Arena AI model 26B MoE zaseda 6. mesto med vsemi odprtimi modeli z rezultatom 1441, kljub uporabi le 3.8B aktivnih parametrov. To razmerje učinkovitosti je brez primere — noben drug model ne dosega primerljive kakovosti pri tem računskem strošku.

Arhitektura MoE usmerja vsak token skozi specializirana podomrežja strokovnjakov, kar modelu omogoča ohranjanje velike kapacitete znanja ob nizkih stroških sklepanja (inference). Za scenarije uporabe, kjer potrebujete močno sklepanje, vendar imate omejen pomnilnik GPU, je 26B MoE optimalna izbira.

31B Dense: Najvišja kakovost

Model 31B Dense je paradni konj Gemma 4. Vsak parameter je aktiven pri vsakem žetonu, kar zagotavlja najbolj dosledne in kakovostne izhode pri vseh vrstah nalog.

Na Arena AI model 31B Dense zaseda 3. mesto med vsemi odprtimi modeli z rezultatom 1452. Na MMLU Pro dosega 85.2% — kar je konkurenčno modelom, ki so večkrat večji. Rezultat 89.2% na AIME 2026 dokazuje močno matematično sklepanje, medtem ko 74% na BigBench Extra Hard (povečanje z 19% v prejšnjih generacijah) kaže na ogromen napredek pri kompleksnih nalogah sklepanja.

Primerjalni testi: Celotni podatki

Sklepanje in znanje

Benchmark	31B Dense	26B MoE	Opombe
MMLU Pro	85.2%	—	Znanje na podiplomski ravni
AIME 2026	89.2%	—	Tekmovalna matematika
BigBench Extra Hard	74%	—	Povečanje z 19% v prejšnji generaciji
Arena AI Score	1452 (3rd)	1441 (6th)	Razvrstitev odprtih modelov

Vir: Tehnično poročilo Google DeepMind

BigBench Extra Hard: Izstopajoč rezultat

Skok z 19% na 74% na BigBench Extra Hard si zasluži posebno pozornost. Ta benchmark preizkuša kompleksno večstopenjsko sklepanje, logično dedukcijo in naloge, ki zahtevajo pristno razumevanje namesto zgolj iskanja vzorcev. Izboljšanje za 55 odstotnih točk v eni sami generaciji nakazuje na temeljne izboljšave v arhitekturi sklepanja Gemma 4, ne le na povečanje obsega.

Ta izboljšava je verjetno povezana z nastavljivim načinom razmišljanja in osnovno tehnologijo Gemini 3, na kateri temelji Gemma 4. Način razmišljanja ustvarja razširjene verige sklepanja, ki modelu pomagajo reševati kompleksne probleme korak za korakom.

Kontekst razvrstitve Arena AI

Arena AI razvršča modele na podlagi neposrednih primerjav človeških preferenc. Dosežek modela 31B Dense s 1452 točkami in 3. mestom med odprtimi modeli ga postavlja nad številne modele z bistveno več parametri. Za kontekst:

Modeli, ki so uvrščeni višje, imajo običajno 70B+ parametrov.
Dosežek 26B MoE s 1441 točkami ob le 3.8B aktivnih parametrih predstavlja preboj v učinkovitosti.
Oba modela znatno prekašata prejšnjo različico Gemma 3 27B.

Multimodalne zmožnosti

Razumevanje slik

Vsi štirje modeli Gemma 4 izvorno obdelujejo slike. Zmožnosti vključujejo:

Opisovanje in analiza slik — podrobno razumevanje vizualne vsebine
OCR in razčlenjevanje dokumentov — pridobivanje besedila iz slik, računov, posnetkov zaslona
Interpretacija grafikonov in diagramov — razumevanje vizualizacij podatkov
Vizualno sklepanje — odgovarjanje na vprašanja, ki zahtevajo razumevanje prostorskih razmerij

Video in avdio (samo E2B/E4B)

Manjša modela E2B in E4B dodajata izvorno obdelavo videa in zvoka:

Razumevanje videa — analiza video vsebine brez ekstrakcije sličic po sličicah
Transkripcija in razumevanje avdia — obdelava govora in zvokov iz okolja
Medmodalno sklepanje — odgovarjanje na vprašanja, ki obsegajo vnose besedila, slik, videa in zvoka

Ta oblikovalska izbira odraža Googlov fokus na robno namestitev (edge deployment). Mobilne naprave izvorno zajemajo video in zvok, zato modeli, zasnovani za te naprave, podpirajo te modalnosti.

Nastavljiv način razmišljanja (Configurable Thinking Mode)

Gemma 4 uvaja nastavljiv način razmišljanja, ki ustvari več kot 4,000 tokens notranjega sklepanja, preden poda odgovor. To je podobno zmožnostim razširjenega razmišljanja, ki jih vidimo pri modelih Claude in seriji o proizvajalca OpenAI, vendar implementirano v modelu z odprtimi utežmi.

Kako deluje

Ko je način razmišljanja omogočen, model:

Prejme vhodni poziv
Ustvari notranjo verigo sklepanja (vidno ali skrito, odvisno od konfiguracije)
Uporabi verigo sklepanja za izdelavo končnega odgovora višje kakovosti

Način razmišljanja je mogoče preklapljati za vsako zahtevo posebej, kar razvijalcem omogoča:

Omogočanje razmišljanja za kompleksne matematične, logične, kodne in analitične naloge
Onemogočanje razmišljanja za preproste poizvedbe, klepet in aplikacije, občutljive na zakasnitev
Prilagajanje globine razmišljanja glede na pričakovano kompleksnost naloge

Vpliv na kakovost

Način razmišljanja je primarni gonilnik za močne rezultate Gemma 4 na primerjalnih testih. Rezultat na AIME 2026 v višini 89.2% in rezultat na BigBench Extra Hard v višini 74% sta bila dosežena z omogočenim načinom razmišljanja. Brez njega bi bili ti rezultati opazno nižji — podobno kot pri drugih modelih z zmožnostmi razširjenega razmišljanja.

Apache 2.0: Zakaj je sprememba licence pomembna

Prejšnje generacije modelov Gemma so bile izdane pod Googlovo prilagojeno licenco Gemma, ki je vključevala omejitve glede:

Uporabe v določenih aplikacijah
Pogojev ponovne distribucije
Komercialne namestitve za uporabo v velikem obsegu

Gemma 4 prehaja na Apache 2.0, isto licenco, ki jo uporabljajo projekti, kot so Kubernetes, TensorFlow in Apache HTTP Server. To pomeni:

Brez omejitev uporabe — uporabite ga za karkoli, vključno s komercialnimi izdelki
Brez omejitev ponovne distribucije — prosto delite spremenjene uteži
Brez zahtev po navedbi avtorstva razen licence — standardno obvestilo Apache 2.0
Brez potrebe po Googlovi odobritvi — namestite v poljubnem obsegu brez dovoljenja
Združljivost z drugimi odprtokodnimi licencami — enostavna integracija v obstoječe projekte

Za podjetja in zagonska podjetja, ki gradijo izdelke na vrhu odprtih modelov, to odpravlja pravne preglede, ki jih je zahtevala prejšnja licenca. Prav tako naredi Gemma 4 neposredno primerljivo z modeli Llama podjetja Meta (ki uporabljajo lastno licenco z nekaterimi omejitvami) in jo postavlja kot najbolj prosto licencirano visokokakovostno družino odprtih modelov na voljo.

Jezikovna podpora

Gemma 4 podpira 35+ jezikov za sklepanje in je bila vnaprej naučena na 140+ jezikih. To jo uvršča med najbolj večjezične odprte modele, poleg modelov Qwen, ki prav tako poudarjajo široko jezikovno pokritost.

Podprti jeziki vključujejo glavne svetovne jezike (angleščina, kitajščina, španščina, francoščina, nemščina, japonščina, korejščina, arabščina, hindijščina, portugalščina, ruščina) kot tudi številne jezike z manjšim digitalnim odtisom. Vnaprejšnje učenje na 140+ jezikih pomeni, da ima model določene zmožnosti tudi v jezikih izven uradno podprtih 35+, čeprav se kakovost lahko razlikuje.

Za aplikacije, namenjene svetovnemu občinstvu ali neangleškim trgom, ta široka jezikovna podpora zmanjšuje potrebo po specializiranem finem prilagajanju ali ločenih modelih za vsak jezik.

Strukturirana uporaba orodij in agentski delovni tokovi

Gemma 4 vključuje izvorno podporo za strukturirano uporabo orodij, kar omogoča agentske delovne tokove, kjer model lahko:

Kliče zunanje API-je s pravilno formatiranimi zahtevami
Razčlenjuje strukturirane odgovore iz orodij in storitev
Povezuje več klicev orodij za dokončanje kompleksnih nalog
Upravlja z napakami in ponovnimi poskusi pri izvajanju orodij

Ta zmožnost je posebej pomembna za integracijo v Android Studio, kjer Gemma 4 poganja lokalne agentske delovne tokove za kodiranje. Model lahko razume kontekst kode, predlaga spremembe, izvaja orodja in iterira — vse to poteka lokalno na razvijalčevem računalniku, ne da bi kodo pošiljali na zunanje strežnike.

Za razvijalce, ki gradijo AI agente, strukturirana uporaba orodij v Gemma 4 zagotavlja popolnoma lokalno in zasebno osnovo. V kombinaciji z licenco Apache 2.0 to omogoča gradnjo in namestitev agentskih aplikacij brez kakršne koli odvisnosti od zunanjih ponudnikov modelov.

Strojne zahteve

Lokalna namestitev prek Ollama

Model	Potreben RAM (4-bit)	Potreben RAM (FP16)	Priporočen GPU
E2B	~5 GB	~5 GB	Kateri koli sodoben GPU / samo CPU
E4B	~5 GB	~9 GB	Kateri koli sodoben GPU / samo CPU
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Vir: Knjižnica modelov Ollama

Modela E2B in E4B sta posebej zasnovana za robno namestitev. Udobno delujeta na prenosnikih, namiznih procesorjih in celo nekaterih pametnih telefonih. Modela 26B MoE in 31B Dense zahtevata namensko strojno opremo GPU, vendar ostajata dostopna posameznim razvijalcem s potrošniškimi grafičnimi karticami.

Optimizacija NVIDIA

NVIDIA je izdala optimizirane različice Gemma 4 za grafične procesorje RTX, ki zagotavljajo:

Hitrejše sklepanje prek optimizacij jedra, specifičnih za GPU
Boljšo izrabo pomnilnika na karticah serij RTX 4000 in 5000
Integracijo TensorRT za produkcijsko namestitev
Podporo za CUDA grafe za zmanjšanje režijskih stroškov pri ponavljajočem se sklepanju

Vir: NVIDIA AI Blog

Kaj se je spremenilo od Gemma 3

Funkcija	Gemma 3	Gemma 4
Licenca	Gemma Licenca (omejena)	Apache 2.0 (neomejena)
Velikosti modelov	3 velikosti	4 velikosti (dodan MoE)
Okno konteksta	Do 128K	Do 256K
Modalnosti	Besedilo, slika	Besedilo, slika, video, avdio
Način razmišljanja	Ne	Da (nastavljiv)
Uporaba orodij	Omejena	Strukturirana uporaba orodij
Jeziki	30+	35+ (pred-učen na 140+)
BigBench Extra Hard	19%	74%

Vsaka dimenzija se je izboljšala. Najvplivnejše spremembe za razvijalce so licenca Apache 2.0 (odpravlja pravne ovire), način razmišljanja (izboljša kakovost pri težkih nalogah) in arhitektura MoE (zagotavlja vrhunsko kakovost pri delčku računskih stroškov).

Praktični primeri uporabe

Kodiranje in razvoj

Strukturirana uporaba orodij in način razmišljanja v Gemma 4 sta učinkovita za:

Lokalno dopolnjevanje in generiranje kode
Pregled kode in odkrivanje hroščev
Avtomatizirano generiranje testov
Pisanje dokumentacije
Agentske delovne tokove kodiranja v Android Studio

Obdelava dokumentov

Z 256K okni konteksta in multimodalno podporo:

Obdelava celotnih baz kod ali dolgih dokumentov v enem samem pozivu
Pridobivanje informacij iz slik dokumentov, računov in obrazcev
Analiza grafikonov in vizualizacij podatkov
Povzemanje dolgih raziskovalnih nalog ali pravnih dokumentov

Gradnja aplikacij na pogon AI

Za razvijalce, ki gradijo izdelke z vključenimi zmožnostmi AI, Gemma 4 zagotavlja močan nivo sklepanja v napravi ali na lastnem gostovanju. Model poskrbi za inteligenco — razumevanje poizvedb, generiranje odgovorov, obdelavo slik — medtem ko ogrodje vaše aplikacije poskrbi za ostalo. Orodja, kot je ZBuild, lahko pospešijo gradnjo ogrodja aplikacije (frontend, backend, podatkovna baza, namestitev), kar vam omogoča, da razvoj usmerite v nivo integracije AI, kjer so zmožnosti Gemma 4 najbolj pomembne.

Robna in mobilna namestitev

Modela E2B in E4B odpirata primere uporabe, ki so bili prej z odprtimi modeli nemogoči:

Pomočniki v napravah, ki delujejo brez povezave
Funkcije AI z varovanjem zasebnosti, ki nikoli ne pošiljajo podatkov na zunanje strežnike
Obdelava videa in zvoka v realnem času na mobilnih napravah
Vgrajena inteligenca v aplikacijah IoT in robotiki

Kako začeti

Ollama (Najhitrejša pot)

# Namestite Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Prenesite in zaženite Gemma 4
ollama run gemma4:e2b      # Najmanjši, deluje povsod
ollama run gemma4:e4b      # Majhen, širše zmožnosti
ollama run gemma4:26b-moe  # MoE, najboljša učinkovitost
ollama run gemma4:31b      # Dense, najvišja kakovost

Hugging Face

Vsi modeli Gemma 4 so na voljo na Hugging Face s polno integracijo transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google zagotavlja brezplačen dostop do API za Gemma 4 prek AI Studio za eksperimentiranje in prototipiranje, Vertex AI pa je na voljo za produkcijsko namestitev.

Gemma 4 v konkurenčnem okolju

Da bi razumeli, kje se nahaja Gemma 4 v širšem ekosistemu:

Model	Parametri	Licenca	MMLU Pro	Arena AI	Kontekst
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B aktivnih)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B aktivnih)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B aktivnih)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B aktivnih)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B dosega najvišji rezultat MMLU Pro in uvrstitev na Arena AI med odprtimi modeli — z najmanjšim skupnim številom parametrov. Ta učinkovitost parametrov je neposreden rezultat tehnološke osnove Gemini 3 in nastavljivega načina razmišljanja.

Zgodba o učinkovitosti modela 26B MoE je še bolj prepričljiva. Zaseda 6. mesto na Arena AI, medtem ko aktivira le 3.8B parametrov na token. Noben drug model ne dosega primerljivega razmerja med kakovostjo in porabljenimi viri. Za produkcijske namestitve, kjer se stroški sklepanja povečujejo z uporabo, se ta učinkovitost neposredno odraža v prihrankih.

V primerjavi z lastniškimi modeli so primerjalni testi Gemma 4 31B konkurenčni ponudbam srednjega razreda podjetij Anthropic in OpenAI. Čeprav vrhunski lastniški modeli še vedno vodijo pri najtežjih nalogah, se je vrzel močno zmanjšala — Gemma 4 pa prinaša ničelne stroške na žeton in popolno svobodo licence Apache 2.0.

Razsodba

Gemma 4 postavlja nov standard za modele z odprtimi utežmi v letu 2026. Kombinacija licence Apache 2.0, štirih dobro diferenciranih velikosti modelov, nativne multimodalne podpore, nastavljivega načina razmišljanja in rezultatov na benchmarkih, ki so konkurenčni veliko večjim modelom, jo naredi za najbolj praktično družino odprtih modelov na voljo.

31B Dense je prava izbira, ko potrebujete maksimalno kakovost. 26B MoE je prava izbira, ko potrebujete visoko kakovost ob minimalnih računskih stroških. E2B in E4B sta pravi izbiri za robno namestitev in AI v napravah. Prvič v družini Gemma licenca ne omejuje nobenega od teh primerov uporabe.

Google Gemma 4: Popoln vodnik po specifikacijah, merilih uspešnosti in novostih (2026)