Legfontosabb tudnivalók
A Google Gemma 4 a valaha kiadott legképzettebb nyílt súlyú modellcsalád valódi megengedő licenc alatt. A 31B Dense modell 85.2%-ot ér el az MMLU Pro teszten, és a 3. helyen áll az összes nyílt modell között az Arena AI rangsorában — míg a 26B MoE szinte azonos minőséget nyújt mindössze 3.8B aktív paraméterrel. A Gemma most először Apache 2.0 licenc alatt érhető el, eltávolítva minden olyan licencelési akadályt, amely korábban visszatartotta a kereskedelmi bevezetést az előző generációk esetében.
Google Gemma 4: Minden, amit tudni érdemes
Megjelenési áttekintés
A Google DeepMind [April 2, 2026]-án adta ki a Gemma 4-et, négy különböző modellméretet bevezetve, amelyek ugyanarra a technológiai alapra épülnek, mint a Gemini 3. Ez a generáció jelenti a legnagyobb előrelépést a Gemma családban minden dimenzióban: modellminőség, multimodális képességek, kontextushossz és licencelési feltételek tekintetében.
A legfontosabb változások a Gemma 3-hoz képest:
- Apache 2.0 licencelés — nincsenek használati korlátozások, nincs egyedi licenc, teljes kereskedelmi szabadság
- Négy modellméret három helyett, beleértve egy új MoE architektúrát
- Natív multimodális támogatás minden méretben (szöveg, kép, videó, hang)
- Konfigurálható gondolkodási mód 4,000+ token hosszúságú érvelési láncokkal
- 256K kontextus ablak a nagyobb modelleken (a Gemma 3 korlátaihoz képest)
- 35+ támogatott nyelv, 140+ nyelven előtanítva
- Strukturált eszközhasználat az ágens alapú munkafolyamatokhoz
A négy modellméret
A Gemma 4 négy különböző méretben érkezik, amelyek mindegyike más-más alkalmazási területet céloz meg:
| Modell | Paraméterek | Aktív paraméterek | Architektúra | Kontextus | Modalitások |
|---|---|---|---|---|---|
| E2B | 2.3B effektív | 2.3B | Dense | 128K | Szöveg, Kép, Videó, Hang |
| E4B | 4.5B effektív | 4.5B | Dense | 128K | Szöveg, Kép, Videó, Hang |
| 26B MoE | 26B összesen | 3.8B | Mixture of Experts | 256K | Szöveg, Kép |
| 31B Dense | 31B | 31B | Dense | 256K | Szöveg, Kép |
E2B és E4B: Az Edge modellek
A legkisebb Gemma 4 modelleket eszközön történő futtatásra tervezték. A 2.3B és 4.5B effektív paraméterszámmal rendelkező modellek okostelefonokon, táblagépeken és laptopokon futnak, akár 5GB RAM mellett, 4-bit quantization alkalmazásával.
Ami ezeket a modelleket figyelemre méltóvá teszi, az a modalitások szélessége. Annak ellenére, hogy a család legkisebb tagjai, az E2B és az E4B az egyetlen Gemma 4 modellek, amelyek mind a négy bemeneti modalitást támogatják: szöveget, képet, videót és hangot. Ez egy tudatos tervezési döntés — a kamerával és mikrofonnal rendelkező edge eszközök profitálnak a legtöbbet a multimodális képességekből.
Mindkét modell támogatja a 128K token kontextus ablakot, ami bőséges a paraméterszámukhoz képest, és elegendő a legtöbb eszközön futó alkalmazáshoz.
26B MoE: Maximális hatékonyság
A 26B Mixture of Experts modell vitathatatlanul a legérdekesebb modell a Gemma 4 kínálatában. Összesen 26B paramétert tartalmaz, de bármely adott bemenethez csak 3.8B paramétert aktivál — ami nagyjából megegyezik az E4B modell számítási költségével, de lényegesen nagyobb tudáshoz és képességekhez biztosít hozzáférést.
Az Arena AI rangsorában a 26B MoE a 6. helyen áll az összes nyílt modell között 1441-es pontszámmal, annak ellenére, hogy csak 3.8B aktív paramétert használ. Ez a hatékonysági arány példátlan — egyetlen más modell sem ér el hasonló minőséget ilyen alacsony számítási költség mellett.
A MoE architektúra minden egyes tokent specializált szakértői alhálózatokon keresztül irányít, lehetővé téve a modell számára a nagy tudáskapacitás fenntartását, miközben az inference költsége alacsony marad. Olyan telepítési forgatókönyvek esetén, ahol erős érvelésre van szükség, de korlátozott a GPU memória, a 26B MoE az optimális választás.
31B Dense: Maximális minőség
A 31B Dense modell a Gemma 4 zászlóshajója. Minden paraméter aktív minden egyes tokenhez, ami a legkonzisztensebb és legmagasabb minőségű kimenetet biztosítja minden feladattípusban.
Az Arena AI rangsorában a 31B Dense a 3. helyen áll az összes nyílt modell között 1452-es pontszámmal. Az MMLU Pro teszten 85.2%-ot ér el, ami versenyképes a nála többször nagyobb modellekkel is. Az AIME 2026-on elért 89.2%-os pontszám erős matematikai érvelést mutat, míg a BigBench Extra Hard teszten elért 74% (szemben az előző generációk 19%-ával) hatalmas fejlődést jelez a komplex érvelési feladatokban.
Benchmarkok: A teljes adat
Érvelés és tudás
| Benchmark | 31B Dense | 26B MoE | Megjegyzések |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Diplomás szintű tudás |
| AIME 2026 | 89.2% | — | Versenymatematika |
| BigBench Extra Hard | 74% | — | 19%-ról az előző generációban |
| Arena AI Score | 1452 (3rd) | 1441 (6th) | Nyílt modell rangsor |
Forrás: Google DeepMind technical report
BigBench Extra Hard: A kiemelkedő eredmény
A BigBench Extra Hard teszten elért ugrás 19%-ról 74%-ra külön figyelmet érdemel. Ez a benchmark az összetett, több lépésből álló érvelést, a logikai dedukciót és az olyan feladatokat teszteli, amelyek valódi megértést igényelnek a mintafelismerés helyett. Az egyetlen generáció alatt elért 55 százalékpontos javulás a Gemma 4 érvelési architektúrájának alapvető fejlődésére utal, nem csupán skálázásra.
Ez a javulás valószínűleg összefügg a konfigurálható gondolkodási móddal és az alapul szolgáló Gemini 3 technológiával, amelyre a Gemma 4 épül. A gondolkodási mód kiterjesztett érvelési láncokat generál, amelyek segítenek a modellnek lépésről lépésre kidolgozni a komplex problémákat.
Arena AI rangsor kontextus
Az Arena AI a modelleket közvetlen emberi preferencia-összehasonlítások alapján rangsorolja. A 31B Dense 1452-es pontszáma és a nyílt modellek közötti 3. helyezése számos, jelentősen több paraméterrel rendelkező modell elé helyezi. Kontextusként:
- A felette rangsorolt modellek jellemzően 70B+ paraméteres modellek
- A 26B MoE 1441-es pontszáma mindössze 3.8B aktív paraméterrel hatékonysági áttörés
- Mindkét modell jelentősen felülmúlja a korábbi Gemma 3 27B modellt
Multimodális képességek
Képértelmezés
Mind a négy Gemma 4 modell natív módon dolgozza fel a képeket. A képességek közé tartozik:
- Képleírás és elemzés — a vizuális tartalom részletes megértése
- OCR és dokumentum feldolgozás — szöveg kinyerése képekből, nyugtákból, képernyőképekből
- Grafikonok és diagramok értelmezése — adatvizualizációk megértése
- Vizuális érvelés — térbeli kapcsolatok megértését igénylő kérdések megválaszolása
Videó és hang (Csak E2B/E4B)
A kisebb E2B és E4B modellek natív videó- és hangfeldolgozással egészülnek ki:
- Videó megértés — videótartalom elemzése kockánkénti kinyerés nélkül
- Hang transzkripció és megértés — beszéd és környezeti hangok feldolgozása
- Keresztmodális érvelés — szöveges, képi, videós és hangbemeneteken átívelő kérdések megválaszolása
Ez a tervezési döntés a Google edge telepítésre irányuló fókuszát tükrözi. A mobileszközök natív módon rögzítenek videót és hangot, így az ezekre az eszközökre tervezett modellek támogatják ezeket a modalitásokat.
Konfigurálható gondolkodási mód
A Gemma 4 bevezet egy konfigurálható gondolkodási módot, amely 4,000+ tokennyi belső érvelést generál a válasz elkészítése előtt. Ez hasonló a Claude modelljeiben és az OpenAI o-sorozatában látható kiterjesztett gondolkodási képességekhez, de egy nyílt súlyú modellben megvalósítva.
Hogyan működik
Amikor a gondolkodási mód engedélyezve van, a modell:
- Megkapja a bemeneti promptot
- Létrehoz egy belső érvelési láncot (amely a konfigurációtól függően látható vagy rejtett)
- Az érvelési láncot felhasználva magasabb minőségű végső választ produkál
A gondolkodási mód kérésenként kapcsolható, lehetővé téve a fejlesztők számára:
- Gondolkodás engedélyezése összetett matematikai, logikai, kódolási és elemzési feladatokhoz
- Gondolkodás letiltása egyszerű lekérdezésekhez, csevegéshez és késleltetésre érzékeny alkalmazásokhoz
- Gondolkodási mélység beállítása a feladat várható összetettsége alapján
Hatás a minőségre
A gondolkodási mód a Gemma 4 erős benchmark teljesítményének elsődleges mozgatórugója. Az AIME 2026-os 89.2%-os és a BigBench Extra Hard 74%-os pontszáma egyaránt engedélyezett gondolkodási mód mellett született. Gondolkodási mód nélkül ezek a pontszámok jelentősen alacsonyabbak lennének — hasonlóan a más, kiterjesztett érvelési képességekkel rendelkező modelleknél tapasztalt mintához.
Apache 2.0: Miért számít a licencmódosítás?
A korábbi Gemma generációk a Google egyedi Gemma licence alatt jelentek meg, amely korlátozásokat tartalmazott a következőkre vonatkozóan:
- Használat bizonyos alkalmazásokban
- Terjesztési feltételek
- Kereskedelmi felhasználási korlátok nagy léptékű használat esetén
A Gemma 4 átvált az Apache 2.0-ra, ugyanarra a licencre, amelyet olyan projektek használnak, mint a Kubernetes, a TensorFlow és az Apache HTTP Server. Ez a következőt jelenti:
- Nincsenek használati korlátozások — bármire használható, beleértve a kereskedelmi termékeket is
- Nincsenek terjesztési korlátok — a módosított súlyok szabadon megoszthatók
- Nincsenek a licencen túli forrásmegjelölési követelmények — szabványos Apache 2.0 értesítés
- Nincs szükség a Google jóváhagyására — bármilyen léptékben telepíthető engedély nélkül
- Kompatibilis más nyílt forráskódú licencekkel — könnyen integrálható meglévő projektekbe
A nyílt modellekre épülő termékeket fejlesztő vállalatok és startupok számára ez eltávolítja azt a jogi felülvizsgálati terhet, amelyet a Gemma egyedi licence megkövetelt. Ez teszi a Gemma 4-et közvetlenül összehasonlíthatóvá a Meta Llama modelljeivel (amelyek saját, bizonyos korlátozásokat tartalmazó egyedi licencet használnak), és a legmegengedőbb licencelésű, kiváló minőségű nyílt modellcsaládként pozícionálja a piacon.
Nyelvi támogatás
A Gemma 4 35+ nyelvet támogat az inference során, és 140+ nyelven lett előtanítva. Ez az egyik leginkább többnyelvű nyílt modellé teszi, a Qwen modelljei mellett, amelyek szintén a széles körű nyelvi lefedettséget hangsúlyozzák.
A támogatott nyelvek közé tartoznak a világ főbb nyelvei (angol, kínai, spanyol, francia, német, japán, korean, arab, hindi, portugál, orosz), valamint számos kisebb digitális lábnyommal rendelkező nyelv. A 140+ nyelven végzett előtanítás azt jelenti, hogy a modell rendelkezik bizonyos képességekkel a hivatalosan támogatott 35 nyelven túl is, bár a minőség változó lehet.
A globális közönséget vagy nem angol nyelvű piacokat célzó alkalmazások esetében ez a széles körű nyelvi támogatás csökkenti a speciális fine-tuning vagy a nyelvenkénti külön modellek szükségességét.
Strukturált eszközhasználat és ágens alapú munkafolyamatok
A Gemma 4 natív támogatást tartalmaz a strukturált eszközhasználathoz, lehetővé téve az ágens alapú munkafolyamatokat, ahol a modell képes:
- Külső API-k hívására megfelelően formázott kérésekkel
- Strukturált válaszok elemzésére eszközökből és szolgáltatásokból
- Több eszközhívás láncolására komplex feladatok elvégzéséhez
- Hibák és újrapróbálkozások kezelésére az eszközök végrehajtása során
Ez a képesség különösen releváns az Android Studio integráció szempontjából, ahol a Gemma 4 helyi ágens alapú kódolási munkafolyamatokat hajt végre. A modell képes megérteni a kód kontextusát, módosításokat javasolni, eszközöket futtatni és iterálni — mindezt helyben a fejlesztő gépén, anélkül, hogy kódot küldene külső szerverekre.
Az AI ágenseket építő fejlesztők számára a Gemma 4 strukturált eszközhasználata teljes mértékben helyi és privát alapot biztosít. Az Apache 2.0 licenccel kombinálva ez lehetővé teszi ágens alapú alkalmazások építését és telepítését külső szolgáltatóktól való függőség nélkül.
Hardverkövetelmények
Helyi telepítés Ollama használatával
| Modell | Szükséges RAM (4-bit) | Szükséges RAM (FP16) | GPU ajánlás |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Bármilyen modern GPU / csak CPU |
| E4B | ~5 GB | ~9 GB | Bármilyen modern GPU / csak CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
Az E2B és E4B modelleket kifejezetten edge telepítésre tervezték. Kényelmesen futnak laptopokon, asztali CPU-kon és akár bizonyos okostelefonokon is. A 26B MoE és 31B Dense modellek dedikált GPU hardvert igényelnek, de továbbra is elérhetőek az egyéni fejlesztők számára fogyasztói kategóriás GPU-kkal.
NVIDIA optimalizáció
Az NVIDIA kiadta a Gemma 4 optimalizált verzióit RTX GPU-khoz, biztosítva a következőket:
- Gyorsabb inference GPU-specifikus kernel optimalizációkon keresztül
- Jobb memóriahasználat az RTX 4000 és 5000 sorozatú kártyákon
- TensorRT integráció éles környezetben való használathoz
- CUDA graph támogatás az ismételt inference során jelentkező overhead csökkentésére
Mi változott a Gemma 3 óta
| Funkció | Gemma 3 | Gemma 4 |
|---|---|---|
| Licenc | Gemma Licenc (korlátozott) | Apache 2.0 (korlátozásmentes) |
| Modellméretek | 3 méret | 4 méret (MoE hozzáadva) |
| Kontextus ablak | Max 128K | Max 256K |
| Modalitások | Szöveg, Kép | Szöveg, Kép, Videó, Hang |
| Gondolkodási mód | Nem | Igen (konfigurálható) |
| Eszközhasználat | Korlátozott | Strukturált eszközhasználat |
| Nyelvek | 30+ | 35+ (140+ nyelven előtanítva) |
| BigBench Extra Hard | 19% | 74% |
Minden dimenzió fejlődött. A fejlesztők számára a legmeghatározóbb változások az Apache 2.0 licenc (jogi akadályok elhárítása), a gondolkodási mód (minőségjavulás nehéz feladatoknál) és a MoE architektúra (zászlóshajó-minőség a számítási költség töredékéért).
Gyakorlati felhasználási esetek
Kódolás és fejlesztés
A Gemma 4 strukturált eszközhasználata és gondolkodási módja hatékonnyá teszi a következőkhöz:
- Helyi kódkiegészítés és generálás
- Kódellenőrzés és hibafelismerés
- Automatizált tesztgenerálás
- Dokumentáció írása
- Ágens alapú kódolási munkafolyamatok az Android Studio-ban
Dokumentumfeldolgozás
A 256K kontextus ablaknak és a multimodális támogatásnak köszönhetően:
- Teljes kódbázisok vagy hosszú dokumentumok feldolgozása egyetlen promptban
- Információk kinyerése dokumentumokról, nyugtákról és űrlapokról készült képekből
- Grafikonok és adatvizualizációk elemzése
- Hosszú kutatási tanulmányok vagy jogi dokumentumok összegzése
AI-alapú alkalmazások építése
Az AI képességeket integráló termékeket építő fejlesztők számára a Gemma 4 erős eszközön futó vagy saját gazdagépű inference réteget biztosít. A modell kezeli az intelligenciát — lekérdezések megértését, válaszok generálását, képek feldolgozását —, míg az alkalmazás-keretrendszer intézi a többit. Olyan eszközök, mint a ZBuild, felgyorsíthatják az alkalmazás vázának felépítését (frontend, backend, adatbázis, telepítés), lehetővé téve, hogy a fejlesztési erőfeszítéseket az AI integrációs rétegre összpontosítsa, ahol a Gemma 4 képességei a legfontosabbak.
Edge és mobil telepítés
Az E2B és E4B modellek olyan felhasználási eseteket nyitnak meg, amelyek korábban lehetetlenek voltak nyílt modellekkel:
- Offline működő, eszközön futó asszisztensek
- Adatvédelmet biztosító AI funkciók, amelyek soha nem küldenek adatokat külső szerverekre
- Valós idejű videó- és hangfeldolgozás mobileszközökön
- Beágyazott AI IoT és robotikai alkalmazásokban
Hogyan kezdjünk hozzá
Ollama (A leggyorsabb út)
# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Pull and run Gemma 4
ollama run gemma4:e2b # Legkisebb, bárhol fut
ollama run gemma4:e4b # Kicsi, szélesebb képességek
ollama run gemma4:26b-moe # MoE, legjobb hatékonyság
ollama run gemma4:31b # Dense, legmagasabb minőség
Hugging Face
Minden Gemma 4 modell elérhető a Hugging Face-en teljes transformers integrációval:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
A Google ingyenes API hozzáférést biztosít a Gemma 4-hez az AI Studio-n keresztül kísérletezéshez és prototípus-készítéshez, a Vertex AI pedig elérhető éles telepítéshez.
Gemma 4 a versenykörnyezetben
Hogy megértsük, hol helyezkedik el a Gemma 4 a tágabb ökoszisztémában:
| Modell | Paraméterek | Licenc | MMLU Pro | Arena AI | Kontextus |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B aktív) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B aktív) | Meta Licenc | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B aktív) | Meta Licenc | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B aktív) | Apache 2.0 | 83.1% | 1449 | 128K |
A Gemma 4 31B éri el a legmagasabb MMLU Pro pontszámot és Arena AI rangsorolást a nyílt modellek között — a legkevesebb összesített paraméterszámmal. Ez a paraméter-hatékonyság a Gemini 3 technológiai alapnak és a konfigurálható gondolkodási módnak köszönhető.
A 26B MoE modell hatékonysága még lenyűgözőbb. A 6. helyen áll az Arena AI rangsorában, miközben tokenenként mindössze 3.8B paramétert aktivál. Egyetlen más modell sem ér el hasonló minőség-számítási arányt. Az olyan éles alkalmazásoknál, ahol az inference költsége a használattal arányosan skálázódik, ez a hatékonyság közvetlenül költségmegtakarítást jelent.
A zárt modellekkel összehasonlítva a Gemma 4 31B benchmarkjai versenyképesek az Anthropic és az OpenAI középkategóriás kínálatával. Bár a csúcskategóriás zárt modellek továbbra is vezetnek a legnehezebb feladatokban, a különbség drámaian lecsökkent — a Gemma 4 pedig nulla tokenenkénti költséggel és teljes Apache 2.0 szabadsággal érkezik.
Végszó
A Gemma 4 új mércét állít fel a nyílt súlyú modellek számára [2026]-ban. Az Apache 2.0 licencelés, a négy jól elkülönített modellméret, a natív multimodális támogatás, a konfigurálható gondolkodási mód és a jóval nagyobb modellekkel is versenyképes benchmark eredmények kombinációja a legpraktikusabb elérhető nyílt modellcsaláddá teszi.
A 31B Dense a megfelelő választás, ha maximális minőségre van szükség. A 26B MoE a jó választás, ha erős minőségre van szükség minimális számítási költség mellett. Az E2B és E4B a megfelelő választások edge telepítéshez és eszközön futó AI-hoz. A Gemma családban most először a licenc nem korlátozza ezen felhasználási módok egyikét sem.
Források
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers