Legfontosabb megállapítás
A nyílt forráskódú AI modellvilág 2026-ban egy háromszereplős verseny a Google Gemma 4, a Meta Llama 4 és az Alibaba Qwen 3.5 között. Mindegyik család más dimenziókban dominál: a Gemma 4 a hatékonyság és a licencelés terén győz, a Llama 4 a nyers méret és a kontextushossz tekintetében nyer, a Qwen 3.5 pedig a többnyelvűség szélességében és a modellválasztékban bizonyul a legjobbnak. A „legjobb” modell kiválasztása teljesen a telepítési korlátoktól, a célpiacoktól és a hardverkerettől függ.
Gemma 4 vs Llama 4 vs Qwen 3.5: A teljes összehasonlítás
A versenytársak áttekintése
Mielőtt elmerülnénk a részletekben, íme a jelenlegi helyzet:
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Fejlesztő | Google DeepMind | Meta | Alibaba Cloud |
| Megjelenés | April 2, 2026 | April 2025 (Scout/Maverick) | Q1 2026 |
| Licenc | Apache 2.0 | Meta Custom License | Apache 2.0 (legtöbb modell) |
| Modellméretek | E2B, E4B, 26B MoE, 31B Dense | Scout 109B, Maverick 400B | Többféle (0.6B-től 397B-ig) |
| Max kontextus | 256K | 10M (Scout) | 128K |
| Multimodális | Szöveg, Kép, Videó, Audió | Szöveg, Kép | Szöveg, Kép |
| Gondolkodási mód | Igen (konfigurálható) | Nem | Igen (hibrid) |
Forrás: Hivatalos modellbejelentések a Google, Meta és Alibaba oldaláról
Modellméretek és architektúra
Gemma 4: Négy méret, két architektúra
A Gemma 4 kínálja a leginkább differenciált választékot:
| Modell | Összes paraméter | Aktív paraméter | Architektúra |
|---|---|---|---|
| E2B | 2.3B | 2.3B | Dense |
| E4B | 4.5B | 4.5B | Dense |
| 26B MoE | 26B | 3.8B | Mixture of Experts |
| 31B Dense | 31B | 31B | Dense |
A 26B MoE kiemelkedő — csúcskategóriát megközelítő minőséget nyújt, miközben tokenenként csak 3.8B paramétert aktivál. Ez azt jelenti, hogy nagyjából azonos sebességgel és memóriaigénnyel fut, mint az E4B modell, miközben 26B paraméternyi tudáshoz fér hozzá. Az Arena AI rangsorában 1441 pontot ért el, amivel a 6. helyen áll a nyílt modellek között, annak ellenére, hogy minimális számítási kapacitást igényel.
Llama 4: Két hatalmas modell
A Meta Llama 4 az ellenkező megközelítést alkalmazza — kevesebb, de sokkal nagyobb modell:
| Modell | Összes paraméter | Aktív paraméter | Architektúra |
|---|---|---|---|
| Scout | 109B | ~17B | Mixture of Experts (16 experts) |
| Maverick | 400B | ~17B | Mixture of Experts (128 experts) |
Mindkét Llama 4 modell MoE architektúrát használ. A Scout tokenenként körülbelül 17B paramétert aktivál a 109B-os keretből. A Maverick hasonló mennyiséget aktivál a 400B összes paraméterből, 128 experts használatával a nagyobb tudáskapacitás érdekében. A kulcsfontosságú kompromisszum: még az MoE hatékonysága mellett is ezek a modellek jelentősen több memóriát igényelnek a teljes paraméterkészlet tárolásához.
A Llama 4 Scout meghatározó jellemzője a 10 millió tokenes kontextusablak — ami a leghosszabb a jelentősebb nyílt modellek között. Ez lehetővé teszi teljes kódbázisok, hosszú videó-leiratok vagy hatalmas dokumentumgyűjtemények feldolgozását egyetlen prompt segítségével.
Qwen 3.5: A legszélesebb skála
Az Alibaba Qwen 3.5 családja kínálja a legtöbb modellméretet:
| Modell | Paraméterek | Architektúra |
|---|---|---|
| Qwen 3.5 0.6B | 0.6B | Dense |
| Qwen 3.5 1.7B | 1.7B | Dense |
| Qwen 3.5 4B | 4B | Dense |
| Qwen 3.5 8B | 8B | Dense |
| Qwen 3.5 14B | 14B | Dense |
| Qwen 3.5 32B | 32B | Dense |
| Qwen 3.5 72B | 72B | Dense |
| Qwen 3.5 MoE (A22B) | 397B | Mixture of Experts |
A Qwen 3.5 minden paraméterniust lefed. A 0.6B-os modell gyakorlatilag bármilyen eszközön fut. A 397B MoE összemérhető a Llama 4 Maverick modellel az összesített paraméterszám tekintetében. Ez a szélesség azt jelenti, hogy mindig van olyan Qwen modell, amely pontosan illeszkedik a hardveres korlátokhoz.
A Qwen 3.5 hibrid gondolkodási módot is kínál, lehetővé téve a felhasználók számára a gyors válaszok és a mélyebb érvelés közötti váltást ugyanazon a modellen belül — hasonlóan a Gemma 4 konfigurálható gondolkodási módjához.
Benchmark összehasonlítás
Érvelés és tudás
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B | Qwen 3.5 MoE |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 79.6% | 81.4% | 83.1% |
| AIME 2026 | 89.2% | — | 79.8% | 85.6% |
| BigBench Extra Hard | 74% | — | 62% | 68% |
| Arena AI Score | 1452 (3rd) | 1417 | 1438 | 1449 |
Források: Arena AI, vonatkozó technikai jelentések
A Gemma 4 31B vezet az érvelési benchmarkokban, ami figyelemre méltó, tekintve, hogy ez a legkisebb csúcsmodell ebben az összehasonlításban (31B vs 400B vs 72B/397B). A gondolkodási mód itt jelentős szerepet játszik — a Gemma 4 bekapcsolt gondolkodással kiválóan teljesít az olyan feladatokban, amelyek a lépésről lépésre történő érvelést igénylik.
Hatékonysággal korrigált teljesítmény
A nyers benchmarkok nem mondják el a teljes történetet. Ha figyelembe vesszük az aktív paramétereket — a tokenenkénti számítási költséget —, a kép megváltozik:
| Modell | Arena AI Score | Aktív paraméter | Pontszám aktív milliárdonként |
|---|---|---|---|
| Gemma 4 26B MoE | 1441 | 3.8B | 379 |
| Gemma 4 31B | 1452 | 31B | 47 |
| Llama 4 Maverick | 1417 | ~17B | 83 |
| Llama 4 Scout | ~1400 | ~17B | 82 |
| Qwen 3.5 72B | 1438 | 72B | 20 |
| Qwen 3.5 MoE | 1449 | ~22B | 66 |
A Gemma 4 26B MoE dominál a hatékonyság terén. Úgy ér el 1441-es Arena AI pontszámot, hogy mindössze 3.8B paramétert aktivál — ez az aktív paraméterenkénti pontszám arány 4-5-ször jobb, mint a versenytársaké. Azokban a telepítési forgatókönyvekben, ahol az inferencia költsége számít (ami a legtöbb produkciós környezetre igaz), ez a hatékonysági előny közvetlenül költségmegtakarítást jelent.
Programozási teljesítmény
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B |
|---|---|---|---|
| HumanEval+ | 82.3% | 85.1% | 83.7% |
| LiveCodeBench | 46.8% | 51.2% | 49.5% |
| MultiPL-E (Python) | 79.4% | 83.6% | 81.2% |
A Llama 4 Maverick abszolút értékben vezet a kódolási benchmarkokban, ami elvárható a 400B paraméteres előnye miatt. Azonban a Gemma 4 strukturált eszközhasználati képessége és gondolkodási módja praktikusabbá teszi az ágens-alapú kódolási munkafolyamatokhoz, ahol a modellnek terveznie, végrehajtania és iterálnia kell, nem csak egyszerre kódot generálnia.
Licencelés: A rejtett döntő tényező
Kereskedelmi célú felhasználás esetén a licencelés fontosabb lehet, mint a benchmarkok:
Gemma 4: Apache 2.0
- Nincsenek felhasználási korlátozások — bármilyen célra felhasználható
- Nincsenek felhasználói küszöbértékek — nincs a cég méretétől függő korlát
- Teljes módosítási jog — szabadon módosítható és továbbterjeszthető
- Standard jogi felülvizsgálat — az Apache 2.0 a jogi csapatok számára világszerte jól ismert
Llama 4: Meta Custom License
- A legtöbb kereskedelmi felhasználás ingyenes — de feltételekkel
- 700M MAU korlátozás — a havi 700 milliónál több aktív felhasználóval rendelkező cégeknek külön licencet kell kérniük a Meta-tól
- Elfogadható használati szabályzat — bizonyos felhasználási módok tiltottak
- Egyedi licenc — jogi felülvizsgálatot igényel a megfelelőségi követelmények értékeléséhez
Qwen 3.5: Apache 2.0 (Legtöbb modell)
- Apache 2.0 a legtöbb modellmérethez — ugyanaz a szabadság, mint a Gemma 4 esetében
- Néhány nagyobb modellnél eltérő feltételek lehetnek — modellenként ellenőrizendő
- Standard jogi felülvizsgálat — az Apache 2.0 jól értelmezhető
Startupok és nagyvállalatok számára a licencelésbeli különbség valós tényező. Az Apache 2.0 (Gemma 4 és a legtöbb Qwen 3.5 modell) nem igényel különleges jogi felülvizsgálatot a szabványos nyílt forráskódú megfelelőségen túl. A Meta egyedi licence a 700M MAU küszöb és az elfogadható használati szabályzat miatt specifikus vizsgálatot igényel. A gyakorlatban a 700M MAU küszöb csak néhány globális céget érint, de az egyedi licenc a cég méretétől függetlenül plusz adminisztrációt jelent.
Multimodális képességek
| Képesség | Gemma 4 | Llama 4 | Qwen 3.5 |
|---|---|---|---|
| Szöveg | Minden modell | Minden modell | Minden modell |
| Képek | Minden modell | Minden modell | Legtöbb modell |
| Videó | Csak E2B, E4B | Nem | Nem |
| Audió | Csak E2B, E4B | Nem | Nem |
| Gondolkodási mód | Igen (konfigurálható) | Nem | Igen (hibrid) |
A Gemma 4 rendelkezik a legszélesebb multimodális támogatással. Az a tény, hogy a videó- és audió képességek a legkisebb modellekben (E2B és E4B) érhetők el a nagyobbak helyett, figyelemre méltó tervezési döntés, amely lehetővé teszi az eszközön futó multimodális AI-t.
A Llama 4 mindkét modellnél támogatja a szöveg- és képfeldolgozást, de hiányzik belőle a natív videó- és audió támogatás. A Qwen 3.5 hasonló szöveges és képi képességeket kínál, natív videó- vagy audiófeldolgozás nélkül.
Kontextusablakok
| Modell | Kontextusablak |
|---|---|
| Llama 4 Scout | 10,000,000 token |
| Gemma 4 31B/26B MoE | 256,000 token |
| Gemma 4 E2B/E4B | 128,000 token |
| Qwen 3.5 (legtöbb modell) | 128,000 token |
| Llama 4 Maverick | 1,000,000 token |
A Llama 4 Scout 10M tokenes kontextusablaka külön kategóriát képvisel. Ez nagyjából 40-szer nagyobb, mint a Gemma 4 maximuma, és olyan felhasználási eseteket tesz lehetővé, amelyeket más nyílt modell nem tud:
- Teljes, nagy kódbázisok feldolgozása (több millió sor) egyetlen promptban
- Éveknyi beszélgetési előzmény elemzése ügyfélszolgálati alkalmazásokhoz
- Teljes könyvek vagy kutatási dokumentációk feldolgozása
Azonban a 10M-os kontextusablak kihasználása arányos hardvert igényel. A 10M token KV cache tárolásához szükséges memória jelentős, így ez a képesség gyakorlatilag csak szerver-szintű hardveren használható.
A legtöbb alkalmazáshoz a Gemma 4 256K és a Qwen 3.5 128K kontextusablaka bőven elegendő. Egy 256K-s kontextusablak nagyjából 750-1000 oldalnyi szöveget vagy több mint 50 000 sornyi kódot képes befogadni.
Hardverkövetelmények
Helyi futtatás
| Modell | RAM (4-bit) | RAM (FP16) | Fogyasztói szinten elérhető? |
|---|---|---|---|
| Gemma 4 E2B | ~5 GB | ~5 GB | Igen (laptop/telefon) |
| Gemma 4 E4B | ~5 GB | ~9 GB | Igen (laptop) |
| Gemma 4 26B MoE | ~18 GB | ~52 GB | Igen (RTX 4090) |
| Gemma 4 31B | ~20 GB | ~62 GB | Igen (RTX 4090) |
| Qwen 3.5 8B | ~6 GB | ~16 GB | Igen (laptop) |
| Qwen 3.5 32B | ~20 GB | ~64 GB | Igen (RTX 4090) |
| Qwen 3.5 72B | ~42 GB | ~144 GB | Nem (szerver GPU) |
| Llama 4 Scout | ~70 GB | ~218 GB | Nem (több-GPU-s szerver) |
| Llama 4 Maverick | ~250 GB | ~800 GB | Nem (GPU klaszter) |
Azoknak a fejlesztőknek, akik helyben szeretnének modelleket futtatni — laptopon az adatvédelem miatt, vagy egyetlen GPU-n a költséghatékonyság érdekében —, a Gemma 4 és a kisebb Qwen 3.5 modellek az egyetlen reális opciók. A Gemma 4 E2B és E4B gyakorlatilag bármilyen modern számítógépen fut. A 26B MoE és a 31B Dense elfér egyetlen RTX 4090-en vagy RTX 5090-en.
A Llama 4 modellek alapvetően szerver-szintűek. Még agresszív kvantálás mellett is, a Scout több-GPU-s konfigurációt igényel, a Maverick pedig egy egész GPU klasztert. Ez korlátozza a Llama 4-et a felhőalapú számítási kerettel vagy dedikált GPU infrastruktúrával rendelkező szervezetekre.
Többnyelvű támogatás
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Támogatott nyelvek | 35+ | 12 | 29+ |
| Előtanítási nyelvek | 140+ | — | 100+ |
| CJK minőség | Jó | Megfelelő | Kiváló |
| Arab/Héber | Jó | Megfelelő | Jó |
| Alacsony erőforrású nyelvek | Közepes | Korlátozott | Közepes |
A Qwen 3.5 a legerősebb választás az ázsiai piacokat célzó alkalmazásokhoz, különösen kínai, japán és koreai nyelveken. Az Alibaba tréning adatai kiterjedt, kiváló minőségű CJK szövegeket tartalmaznak, ami mérhető előnyt ad a Qwen modelleknek ezeken a nyelveken.
A Gemma 4 kínálja a legszélesebb hivatalos támogatást 35+ nyelvvel, míg az előtanítás 140+ nyelven történt. Ez elfogadható minőséget biztosít a nyelvek széles skáláján, így ez a legsokoldalúbb választás globális alkalmazásokhoz.
A Llama 4 12 nyelvből álló támogatása a legkorlátozottabb. Bár a legnagyobb forgalmú világnyelveket lefedi, jelentős hiányosságokat hagy a kisebb nyelvpiacokat célzó alkalmazások számára.
Felhasználási javaslatok
Válassza a Gemma 4-et, ha:
- Maximális hatékonyságra van szüksége — A 26B MoE csúcskategóriás minőséget nyújt 3.8B aktív paraméter mellett
- A licencelés döntő fontosságú — Az Apache 2.0 korlátozások nélkül a legegyszerűbb út a kereskedelmi bevezetéshez
- Multimodális edge AI-ra van szüksége — Az E2B/E4B videó és audió támogatással fogyasztói eszközökön is fut
- Konfigurálható gondolkodást szeretne — Váltson a gyors és a mély érvelés között kérésenként
- Ágens-alapú munkafolyamatokat épít — A strukturált eszközhasználat beépített funkció
Válassza a Llama 4-et, ha:
- Maximális kontextusra van szüksége — A Scout 10M tokenje páratlan
- A nyers benchmark pontszámok a legfontosabbak — A Maverick 400B paramétere előnyt jelent bizonyos teszteken
- Rendelkezik szerver-szintű hardverrel — Felhőalapú telepítés, ahol a GPU költsége kezelhető
- A Meta ökoszisztémájában dolgozik — Integráció a Meta AI infrastruktúrájával
- Nem lépi át a 700M MAU küszöböt — Ami a cégek 99.99%-ára érvényes
Válassza a Qwen 3.5-öt, ha:
- Ázsiai piacokat céloz meg — A legjobb CJK nyelvi minőség a nyílt modellek között
- Specifikus modellméretre van szüksége — 8 méret 0.6B-től 397B-ig minden igényt kielégít
- Hibrid gondolkodást szeretne — Hasonló a Gemma 4 konfigurálható módjához
- Kódspecifikus modellekre van szüksége — A Qwen Code variánsok programozásra optimalizáltak
- Apache 2.0-t szeretne több méretválasztékkal — A legtöbb modell Apache 2.0 licencet használ
Alkalmazások építése nyílt modellekkel
Függetlenül attól, hogy melyik modellt választja, egy nyílt modell produkciós környezetbe állításához ki kell építeni köré az alkalmazásréteget — API végpontokat, felhasználói felületeket, hitelesítést, adatbázist a beszélgetések tárolásához és a telepítési infrastruktúrát.
Az AI-alapú termékeket fejlesztő csapatok számára a modell csak egy elem. Az olyan platformok, mint a ZBuild, kezelik az alkalmazás vázát — a frontendet, a backendet, az adatbázist és a telepítést —, így a mérnöki erőfeszítéseket a modellintegrációra, a prompt engineering-re és a terméket megkülönböztető felhasználói élményre összpontosíthatja.
A modell-összehasonlítás az integrációs rétegben számít a leginkább. Egy jól felépített alkalmazás képes váltani a Gemma 4, Llama 4 vagy Qwen 3.5 között az adott feladattól függően — a Gemma 4 MoE-t használva a hatékonyság-érzékeny kérésekhez, a Llama 4 Scout-ot a hosszú kontextusú feladatokhoz, és a Qwen 3.5-öt a CJK-központú tartalmakhoz.
Finomhangolás és testreszabás
Mindhárom modellcsalád támogatja a finomhangolást, de a gyakorlati tapasztalat eltérő:
Gemma 4
- LoRA és QLoRA támogatás minden méretnél
- Apache 2.0 azt jelenti, hogy nincs korlátozás a finomhangolt súlyok terjesztésére
- Google Colab notebookok állnak rendelkezésre a finomhangolás elkezdéséhez ingyenes GPU-kon
- Keras integráció a KerasNLP segítségével a magas szintű finomhangolási munkafolyamatokhoz
- Az E2B és E4B egyetlen fogyasztói GPU-n órák alatt finomhangolható
Llama 4
- LoRA és QLoRA támogatás a Hugging Face transformers segítségével
- Meta egyedi licence vonatkozik a finomhangolt származékokra is — a 700M MAU korlátozás továbbvivődik
- A nagy modellméretek miatt a Scout (109B) vagy a Maverick (400B) finomhangolása több-GPU-s rendszert igényel
- A Meta-tól származó Torchtune hivatalos finomhangolási recepteket biztosít
Qwen 3.5
- LoRA, QLoRA és teljes finomhangolás támogatott részletes dokumentációval
- Apache 2.0 a legtöbb modellnél korlátozásmentes terjesztést tesz lehetővé
- A széles méretválaszték miatt finomhangolhat egy 4B-os modellt laptopon vagy egy 72B-ost szerveren
- Erős kínai/CJK finomhangolási adatok érhetők el az Alibaba ökoszisztémáján keresztül
A legtöbb finomhangolási forgatókönyvhöz a Gemma 4 E4B vagy 26B MoE nyújtja a legjobb kiindulópontot. A modellek elég kicsik ahhoz, hogy fogyasztói hardveren finomhangolják őket, elég erősek a kiváló eredményekhez, és a licencelésük elég megengedő ahhoz, hogy a kész modellt bárhol üzembe helyezzék.
A konvergencia-trend
Az adatokat holisztikusan szemlélve a legmeglepőbb észrevétel az, hogy milyen gyorsan zárkóznak fel a nyílt forráskódú modellek képességei a zárt modellekhez. A Gemma 4 31B 85.2%-os MMLU Pro eredménye karnyújtásnyira van a Claude Sonnet 4.6 és a GPT-5.4 zárt forráskódú pontszámaitól — a hardverköltségen túl nulla inferencia költség mellett.
A különbség a nyílt modellcsaládok között eltolódik: már nem az a kérdés, hogy „melyik az okosabb”, hanem az, hogy „melyik illeszkedik a telepítési korlátokhoz”. A hardverkövetelmények, a licencfeltételek, a multimodális képességek és a nyelvi támogatás ma már ugyanannyit nyomnak a latban, mint a nyers benchmark pontszámok.
A legtöbb fejlesztő és cég számára 2026-ban a kérdés már nem az, hogy „használjak-e nyílt modellt?”, hanem az, hogy „melyik nyílt modell felel meg a specifikus igényeimnek?” — és ez az ökoszisztéma érettségének egyértelmű jele.
Verdikt
2026-ban nincs egyetlen „legjobb” nyílt forráskódú modell. A helyes választás a specifikus igényektől függ:
- Legjobb általános hatékonyság: Gemma 4 26B MoE — 3.8B aktív paraméter, Arena AI 6. hely, Apache 2.0
- Legjobb nyers minőség (nyílt modell): Gemma 4 31B Dense — 85.2% MMLU Pro, Arena AI 3. hely
- Legjobb hosszú dokumentumokhoz: Llama 4 Scout — 10M tokenes kontextusablak
- Legjobb ázsiai nyelvekhez: Qwen 3.5 — kiemelkedő CJK teljesítmény
- Legjobb fogyasztói hardverhez: Gemma 4 E2B — 5GB RAM, telefonokon is fut
- Legmegengedőbb licenc: Gemma 4 és Qwen 3.5 (Apache 2.0)
- Legtöbb modellméret-opció: Qwen 3.5 — 8 méret 0.6B-től 397B-ig
Ha csak egyetlen családot kellene választania, és prioritás a hatékonyság, a licencelés és a multimodális képességek, akkor 2026 áprilisában a Gemma 4 a legerősebb általános választás.
Források
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Llama 4 Announcement - Meta AI
- Llama 4 License
- Qwen 3.5 - Alibaba Cloud / Qwen Team
- Qwen 3.5 Technical Report
- Arena AI Open Model Rankings
- Gemma 4 on Ollama
- Open Source LLM Comparison 2026 - Artificial Analysis
- Gemma 4 vs Llama 4 Analysis - The Decoder
- Open Model Benchmark Aggregator - Hugging Face