Peamine järeldus
Google Gemma 4 on kõige võimekam avatud kaaludega (open-weight) mudelipere, mis on kunagi välja antud tõeliselt lubava litsentsi all. 31B Dense mudel saavutab MMLU Pro testis 85.2% ja hoiab Arena AI edetabelis avatud mudelite seas 3. kohta — samas kui 26B MoE saavutab peaaegu identse kvaliteedi vaid 3.8B aktiivse parameetriga. Esimest korda tarnitakse Gemma Apache 2.0 litsentsi all, eemaldades kõik litsentsimisega seotud takistused, mis hoidsid tagasi eelmiste põlvkondade ärilist kasutuselevõttu.
Google Gemma 4: Kõik, mida pead teadma
Väljalaske ülevaade
Google DeepMind andis Gemma 4 välja April 2, 2026, tutvustades nelja mudeli suurust, mis on ehitatud samale tehnoloogilisele alusele nagu Gemini 3. See põlvkond tähistab suurimat hüpet Gemma peres igas dimensioonis: mudeli kvaliteedis, multimodaalsetes võimekustes, konteksti pikkuses ja litsentsitingimustes.
Peamised muudatused võrreldes Gemma 3-ga:
- Apache 2.0 litsentsimine — kasutuspiirangud puuduvad, kohandatud litsentsi pole, täielik äriline vabadus
- Neli mudeli suurust kolme asemel, sealhulgas uus MoE arhitektuur
- Natiivne multimodaalne tugi kõikides suurustes (tekst, pildid, video, audio)
- Konfigureeritav mõtlemisrežiim (thinking mode) 4,000+ token pikkuste arutlusahelatega
- 256K kontekstiaknad suurematel mudelitel (suurem kui Gemma 3 piirangud)
- 35+ toetatud keelt, eelnevalt treenitud 140+ keeles
- Struktureeritud tööriistade kasutus (tool use) agendipõhisteks töövoogudeks
Neli mudeli suurust
Gemma 4 tarnitakse neljas erinevas suuruses, millest igaüks on suunatud erinevatele juurutusstsenaariumidele:
| Mudel | Parameetrid | Aktiivsed parameetrid | Arhitektuur | Kontekst | Modaliteedid |
|---|---|---|---|---|---|
| E2B | 2.3B efektiivne | 2.3B | Dense | 128K | Tekst, pilt, video, audio |
| E4B | 4.5B efektiivne | 4.5B | Dense | 128K | Tekst, pilt, video, audio |
| 26B MoE | 26B kokku | 3.8B | Mixture of Experts | 256K | Tekst, pilt |
| 31B Dense | 31B | 31B | Dense | 256K | Tekst, pilt |
E2B ja E4B: Ääreseadmete mudelid
Väikseimad Gemma 4 mudelid on loodud seadmesiseseks juurutamiseks. Vastavalt 2.3B ja 4.5B efektiivse parameetriga töötavad need nutitelefonides, tahvelarvutites ja sülearvutites kõigest 5GB RAM mäluga, kasutades 4-bit kvantimist.
Nende mudelite tähelepanuväärseks omaduseks on nende modaliteetide laius. Olgugi et need on pere väikseimad, on E2B ja E4B ainsad Gemma 4 mudelid, mis toetavad kõiki nelja sisendmodaliteeti: teksti, pilte, videot ja audiot. See on teadlik disainivalik — kaamerate ja mikrofonidega ääreseadmed saavad multimodaalsetest võimekustest kõige rohkem kasu.
Mõlemad mudelid toetavad 128K tokeni pikkust kontekstiakent, mis on nende parameetrite hulga kohta helde ja piisav enamiku seadmesiseste kasutusjuhtude jaoks.
26B MoE: Maksimaalne efektiivsus
26B Mixture of Experts mudel on vaieldamatult kõige huvitavam mudel Gemma 4 seerias. See sisaldab kokku 26B parameetrit, kuid aktiveerib igal antud sisendil vaid 3.8B parameetrit — umbes sama arvutusressurss kui E4B mudelil, kuid ligipääsuga drastiliselt suuremale teadmistebaasile ja võimekusele.
Arena AI platvormil on 26B MoE avatud mudelite seas 6. kohal skooriga 1441, hoolimata sellest, et kasutab vaid 3.8B aktiivset parameetrit. See efektiivsuse suhe on ongepäraselt hea — ükski teine mudel ei saavuta sellise arvutusressursi kuluga võrreldavat kvaliteeti.
MoE arhitektuur suunab iga tokeni läbi spetsialiseeritud ekspertide alamvõrkude, võimaldades mudelil säilitada suure teadmusmahu, hoides samal ajal inferentsi kulud madalad. Juurutusstsenaariumide puhul, kus on vaja tugevat arutlusvõimet, kuid GPU mälu on piiratud, on 26B MoE optimaalne valik.
31B Dense: Maksimaalne kvaliteet
31B Dense mudel on Gemma 4 lipulaev. Iga parameeter on iga tokeni puhul aktiivne, tagades kõige järjepidevamad ja kvaliteetsemad väljundid kõikides ülesandetüüpides.
Arena AI platvormil on 31B Dense avatud mudelite seas 3. kohal skooriga 1452. MMLU Pro testis saavutab see 85.2% — olles konkurentsivõimeline mudelitega, mis on sellest mitu korda suuremad. AIME 2026 tulemus 89.2% näitab tugevat matemaatilist arutlusvõimet, samas kui 74% testis BigBench Extra Hard (tõus 19%-lt eelmistes põlvkondades) näitab tohutut parandust keerulistes arutlusülesannetes.
Võrdlustestid: täielikud andmed
Arutlusvõime ja teadmised
| Võrdlustest | 31B Dense | 26B MoE | Märkused |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Kraadiõppe tasemel teadmised |
| AIME 2026 | 89.2% | — | Võistlusmatemaatika |
| BigBench Extra Hard | 74% | — | Tõus 19%-lt eelmisest põlvkonnast |
| Arena AI Score | 1452 (3.) | 1441 (6.) | Avatud mudelite pingerida |
Allikas: Google DeepMind tehniline aruanne
BigBench Extra Hard: silmapaistev tulemus
Hüpe 19%-lt 74%-le BigBench Extra Hard testis väärib erilist tähelepanu. See võrdlustest paneb proovile keerulise mitmeetapilise arutlusvõime, loogilise deduktsiooni ja ülesanded, mis nõuavad tõelist mõistmist, mitte ainult mustrite sobitamist. 55-protsendipunktiline parandus ühes põlvkonnas viitab fundamentaalsetele edusammudele Gemma 4 arutlusarhitektuuris, mitte ainult skaleerimisele.
See parandus on tõenäoliselt seotud konfigureeritava mõtlemisrežiimiga ja selle aluseks oleva Gemini 3 tehnoloogiaga, millele Gemma 4 on ehitatud. Mõtlemisrežiim genereerib laiendatud arutlusahelaid, mis aitavad mudelil keerulisi probleeme samm-sammult lahendada.
Arena AI edetabeli kontekst
Arena AI reastab mudeleid inimeste eelistuste otsese võrdluse põhjal. 31B Dense skoor 1452 ja 3. koht avatud mudelite seas asetab selle ettepoole paljudest märkimisväärselt suurema parameetrite arvuga mudelitest. Kontekstiks:
- Sellest kõrgemal asuvad mudelid on tavaliselt 70B+ parameetriga mudelid
- 26B MoE saavutatud 1441 punktiga vaid 3.8B aktiivse parameetri juures on läbimurre efektiivsuses
- Mõlemad mudelid ületavad eelmise põlvkonna Gemma 3 27B mudelit märkimisväärse varuga
Multimodaalsed võimekused
Piltide mõistmine
Kõik neli Gemma 4 mudelit töötlevad pilte natiivselt. Võimekused hõlmavad:
- Pildi kirjeldamine ja analüüs — visuaalse sisu detailne mõistmine
- OCR ja dokumentide parsimine — teksti eraldamine piltidelt, kviitungitelt, ekraanitõmmistelt
- Graafikute ja diagrammide tõlgendamine — andmevisualisatsioonide mõistmine
- Visuaalne arutlusvõime — vastamine küsimustele, mis nõuavad ruumiliste seoste mõistmist
Video ja audio (ainult E2B/E4B)
Väiksemad mudelid E2B ja E4B lisavad natiivse video- ja audiotöötluse:
- Video mõistmine — videosisu analüüsimine ilma kaaderhaaval eraldamiseta
- Audio transkribeerimine ja mõistmine — kõne ja keskkonnahelide töötlemine
- Ristmodaalne arutlusvõime — vastamine küsimustele, mis hõlmavad teksti-, pildi-, video- ja audiosisendeid
See disainivalik peegeldab Google'i keskendumist ääreseadmetele. Mobiilseadmed salvestavad videot ja audiot natiivselt, seega nendeks seadmeteks mõeldud mudelid toetavad neid modaliteete.
Konfigureeritav mõtlemisrežiim
Gemma 4 tutvustab konfigureeritavat mõtlemisrežiimi (thinking mode), mis genereerib enne vastuse andmist 4,000+ tokenit sisemist arutluskäiku. See sarnaneb laiendatud mõtlemisvõimekustele, mida on nähtud Claude'i mudelites ja OpenAI o-seerias, kuid see on rakendatud avatud kaaludega mudelis.
Kuidas see töötab
Kui mõtlemisrežiim on sisse lülitatud, siis mudel:
- Võtab vastu sisendviiba (prompt)
- Genereerib sisemise arutlusahela (nähtav või peidetud, sõltuvalt seadistusest)
- Kasutab arutlusahelat kõrgema kvaliteediga lõppvastuse loomiseks
Mõtlemisrežiimi saab iga päringu puhul sisse või välja lülitada, võimaldades arendajatel:
- Lülitada sisse mõtlemine keeruliste matemaatika-, loogika-, koodi- ja analüüsiülesannete puhul
- Lülitada välja mõtlemine lihtsate päringute, vestluste ja latentsustundlike rakenduste puhul
- Reguleerida mõtlemise sügavust vastavalt ülesande eeldatavale keerukusele
Mõju kvaliteedile
Mõtlemisrežiim on peamine tegur Gemma 4 tugevate võrdlustestide tulemuste taga. AIME 2026 tulemus 89.2% ja BigBench Extra Hard tulemus 74% saavutati mõlemad sisselülitatud mõtlemisrežiimiga. Ilma selleta oleksid need tulemused märgatavalt madalamad — sarnaselt mustrile, mida nähakse teiste laiendatud arutlusvõimega mudelite puhul.
Apache 2.0: Miks litsentsi muutmine on oluline
Eelmised Gemma põlvkonnad tarniti Google'i kohandatud Gemma litsentsi all, mis sisaldas piiranguid:
- Kasutamine teatud rakendustes
- Edasilevitamise tingimused
- Ärilise juurutamise piirangud suuremahulise kasutuse korral
Gemma 4 läheb üle Apache 2.0 litsentsile, samale litsentsile, mida kasutavad projektid nagu Kubernetes, TensorFlow ja Apache HTTP Server. See tähendab:
- Kasutuspiirangud puuduvad — kasuta seda mistahes eesmärgil, sealhulgas ärilistes toodetes
- Edasilevitamise piirangud puuduvad — jaga muudetud kaalusid vabalt
- Puuduvad viitamisnõuded peale litsentsi — standardne Apache 2.0 teatis
- Google'i heakskiitu pole vaja — juuruta mis tahes mahus ilma loata
- Ühildub teiste avatud lähtekoodiga litsentsidega — lihtne integreerida olemasolevatesse projektidesse
Ettevõtete ja idufirmade jaoks, kes ehitavad tooteid avatud mudelite peale, eemaldab see juriidilise ülevaatuse koormuse, mida Gemma kohandatud litsents nõudis. See teeb Gemma 4 ka otseselt võrreldavaks Meta Llama mudelitega (mis kasutavad oma kohandatud litsentsi teatud piirangutega) ja positsioneerib selle kui kõige lubavama litsentsiga kvaliteetse avatud mudelipere turul.
Keeletoetus
Gemma 4 toetab inferentsiks 35+ keelt ja on eelnevalt treenitud 140+ keeles. See teeb sellest ühe kõige mitmekeelsema avatud mudeli, mis on saadaval, kõrvuti Qwen-i mudelitega, mis samuti rõhutavad laia keelelist katvust.
Toetatud keeled hõlmavad maailma peamisi keeli (inglise, hiina, hispaania, prantsuse, saksa, jaapani, korea, araabia, hindi, portugali, vene) ja paljusid väiksema digitaalse jalajäljega keeli. Eelnev treenimine 140+ keeles tähendab, et mudelil on teatud võimekus ka keeltes väljaspool ametlikult toetatud 35 keelt, kuigi kvaliteet võib varieeruda.
Rakenduste puhul, mis on suunatud globaalsele publikule või mitte-ingliskeelsetele turgudele, vähendab see lai keeletoetus vajadust spetsiaalse peenhäälestuse (fine-tuning) või iga keele jaoks eraldi mudelite järele.
Struktureeritud tööriistade kasutus ja agendipõhised töövood
Gemma 4 sisaldab natiivset tuge struktureeritud tööriistade kasutamiseks, võimaldades agendipõhiseid töövooge, kus mudel saab:
- Kutsuda välja väliseid API-sid õigesti vormistatud päringutega
- Parsida struktureeritud vastuseid tööriistadest ja teenustest
- Aheldada mitu tööriistakutset keeruliste ülesannete täitmiseks
- Käsitleda vigu ja uuesti proovimisi tööriistade täitmisel
See võimekus on eriti asjakohane Android Studio integratsiooni puhul, kus Gemma 4 toetab kohalikke agendipõhiseid koodikirjutamise töövooge. Mudel suudab mõista koodi konteksti, soovitada muudatusi, käivitada tööriistu ja itereerida — kõik see toimub kohalikult arendaja masinas, ilma koodi välisvserveritesse saatmata.
AI-agente ehitavate arendajate jaoks pakub Gemma 4 struktureeritud tööriistakasutus täielikult kohalikku ja privaatset vundamenti. Kombineerituna Apache 2.0 litsentsiga võimaldab see ehitada ja juurutada agendipõhiseid rakendusi ilma sõltuvuseta välistest mudelipakkujatest.
Riistvaralised nõuded
Kohalik juurutamine Ollama kaudu
| Mudel | Nõutav RAM (4-bit) | Nõutav RAM (FP16) | GPU soovitus |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Mistahes kaasaegne GPU / ainult CPU |
| E4B | ~5 GB | ~9 GB | Mistahes kaasaegne GPU / ainult CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
Allikas: Ollama mudelite raamatukogu
E2B ja E4B mudelid on loodud spetsiaalselt ääreseadmetele. Need töötavad mugavalt sülearvutites, lauaarvuti protsessoritel ja isegi mõnedes nutitelefonides. 26B MoE ja 31B Dense mudelid vajavad eraldiseisvat GPU riistvara, kuid on siiski kättesaadavad tavakasutaja GPU-dega arendajatele.
NVIDIA optimeerimine
NVIDIA on välja andnud Gemma 4 optimeeritud versioonid RTX GPU-dele, pakkudes:
- Kiiremat inferentsi läbi GPU-spetsiifiliste tuuma (kernel) optimeerimiste
- Paremat mälukasutust RTX 4000 ja 5000 seeria kaartidel
- TensorRT integratsiooni tootmiskeskkonnas juurutamiseks
- CUDA graafikute tuge üldkulude vähendamiseks korduva inferentsi puhul
Mis muutus võrreldes Gemma 3-ga
| Funktsioon | Gemma 3 | Gemma 4 |
|---|---|---|
| Litsents | Gemma License (piiratud) | Apache 2.0 (piiranguteta) |
| Mudelite suurused | 3 suurust | 4 suurust (lisandus MoE) |
| Kontekstiaken | Kuni 128K | Kuni 256K |
| Modaliteedid | Tekst, pilt | Tekst, pilt, video, audio |
| Mõtlemisrežiim | Ei | Jah (konfigureeritav) |
| Tööriistade kasutus | Piiratud | Struktureeritud tool use |
| Keeled | 30+ | 35+ (eelnevalt treenitud 140+) |
| BigBench Extra Hard | 19% | 74% |
Iga dimensioon paranes. Arendajate jaoks on kõige mõjukamad muudatused Apache 2.0 litsents (eemaldab juriidilised takistused), mõtlemisrežiim (parandab kvaliteeti rasketes ülesannetes) ja MoE arhitektuur (pakub lipulaeva kvaliteeti murdosaga arvutuskulust).
Praktilised kasutusjuhtumid
Programmeerimine ja arendus
Gemma 4 struktureeritud tööriistakasutus ja mõtlemisrežiim teevad selle efektiivseks:
- Kohalik koodi täiendamine ja genereerimine
- Koodi ülevaatus ja vigade tuvastamine
- Automaatne testide genereerimine
- Dokumentatsiooni koostamine
- Agendipõhised koodikirjutamise töövood Android Studio keskkonnas
Dokumentide töötlemine
Tänu 256K kontekstiaknale ja multimodaalsele toele:
- Terve koodibaasi või pikkade dokumentide töötlemine ühe päringuga
- Info eraldamine dokumentide piltidelt, kviitungitelt ja vormidelt
- Graafikute ja andmevisualisatsioonide analüüsimine
- Mahukate teadustööde või juriidiliste dokumentide kokkuvõtmine
AI-toega rakenduste ehitamine
Arendajatele, kes ehitavad AI-võimekusega tooteid, pakub Gemma 4 tugevat seadmesisest või ise-majutatavat inferentsi kihti. Mudel tegeleb intelligentsusega — päringute mõistmise, vastuste genereerimise ja piltide töötlemisega — samal ajal kui teie rakenduse raamistik tegeleb ülejäänuga. Tööriistad nagu ZBuild saavad kiirendada rakenduse kesta (frontend, backend, andmebaas, juurutamine) ehitamist, võimaldades teil keskenduda AI integratsioonikihile, kus Gemma 4 võimekused on kõige olulisemad.
Ääreseadmete ja mobiilne juurutamine
E2B ja E4B mudelid avavad kasutusjuhtumeid, mis olid varem avatud mudelitega võimatud:
- Seadmesisesed assistendid, mis töötavad võrguühenduseta
- Privaatsust säilitavad AI-funktsioonid, mis ei saada kunagi andmeid välisserveritesse
- Reaalajas video- ja audiotöötlus mobiilseadmetes
- Sisseehitatud AI IoT ja robootika rakendustes
Kuidas alustada
Ollama (kiireim tee)
# Installi Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Tõmba ja käivita Gemma 4
ollama run gemma4:e2b # Väikseim, töötab igal pool
ollama run gemma4:e4b # Väike, laiem võimekus
ollama run gemma4:26b-moe # MoE, parim efektiivsus
ollama run gemma4:31b # Dense, kõrgeim kvaliteet
Hugging Face
Kõik Gemma 4 mudelid on saadaval Hugging Face keskkonnas koos täieliku transformers integratsiooniga:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google pakub eksperimenteerimiseks ja prototüüpimiseks tasuta API ligipääsu Gemma 4-le läbi AI Studio, kusjuures Vertex AI on saadaval tootmiskeskkonnas juurutamiseks.
Gemma 4 konkurentsiolukorras
Et mõista, kus Gemma 4 laiemas ökosüsteemis paikneb:
| Mudel | Parameetrid | Litsents | MMLU Pro | Arena AI | Kontekst |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B aktiivset) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B aktiivset) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B aktiivset) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B aktiivset) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B saavutab kõrgeima MMLU Pro skoori ja Arena AI reitingu avatud mudelite seas — vähima koguparameetrite arvuga. See parameetrite efektiivsus on Gemini 3 tehnoloogilise vundamendi ja konfigureeritava mõtlemisrežiimi otsene tulemus.
26B MoE mudeli efektiivsus on veelgi veenvam. See on Arena AI-s 6. kohal, aktiveerides vaid 3.8B parameetrit tokeni kohta. Ükski teine mudel ei saavuta võrreldavat kvaliteedi ja arvutusressursi suhet. Tootmiskeskkonnas, kus inferentsi kulu skaleerub koos kasutusega, tähendab see efektiivsus otsest rahalist kokkuhoidu.
Võrreldes suletud koodiga (proprietary) mudelitega, on Gemma 4 31B võrdlustestid konkurentsivõimelised Anthropic ja OpenAI keskklassi pakkumistega. Kuigi tipptasemel suletud mudelid juhivad endiselt kõige raskemates ülesannetes, on lõhe drastiliselt vähenenud — ning Gemma 4-ga kaasneb nullkulu tokeni kohta ja täielik Apache 2.0 vabadus.
Otsus
Gemma 4 seab 2026. aastal avatud kaaludega mudelitele uue standardi. Apache 2.0 litsentsi, nelja selgelt eristuva mudelisuuruse, natiivse multimodaalse toe, konfigureeritava mõtlemisrežiimi ja märksa suuremate mudelitega konkureerivate tulemuste kombinatsioon teeb sellest kõige praktilisema saadaoleva avatud mudelipere.
31B Dense on õige valik, kui vajate maksimaalset kvaliteeti. 26B MoE on õige valik, kui vajate tugevat kvaliteeti minimaalse arvutuskuluga. E2B ja E4B on õiged valikud ääreseadmete ja seadmesisese AI jaoks. Esimest korda Gemma peres ei piira litsents ühtegi neist kasutusjuhtudest.
Allikad
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers