Klíčové poznatky
Prostředí open-source modelů AI v roce 2026 je soubojem tří stran mezi Google Gemma 4, Meta Llama 4 a Alibaba Qwen 3.5. Každá rodina dominuje v jiných rozměrech: Gemma 4 vítězí v efektivitě a licencování, Llama 4 vítězí v hrubém měřítku a délce kontextu a Qwen 3.5 vítězí v mnohojazyčném rozsahu a rozmanitosti modelů. „Nejlepší“ model závisí zcela na vašich omezeních nasazení, cílových trzích a rozpočtu na hardware.
Gemma 4 vs Llama 4 vs Qwen 3.5: Kompletní srovnání
Přehled konkurentů
Před ponořením se do podrobností je zde celkový přehled:
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Vývojář | Google DeepMind | Meta | Alibaba Cloud |
| Vydáno | April 2, 2026 | April 2025 (Scout/Maverick) | Q1 2026 |
| Licence | Apache 2.0 | Meta Custom License | Apache 2.0 (většina modelů) |
| Velikosti modelů | E2B, E4B, 26B MoE, 31B Dense | Scout 109B, Maverick 400B | Několik (0.6B až 397B) |
| Maximální kontext | 256K | 10M (Scout) | 128K |
| Multimodální | Text, Image, Video, Audio | Text, Image | Text, Image |
| Režim uvažování | Ano (konfigurovatelný) | Ne | Ano (hybridní) |
Zdroj: Oznámení příslušných modelů od Google, Meta a Alibaba
Velikosti modelů a architektura
Gemma 4: Čtyři velikosti, dvě architektury
Gemma 4 nabízí nejvíce diferencovanou řadu:
| Model | Celkem parametrů | Aktivní parametry | Architektura |
|---|---|---|---|
| E2B | 2.3B | 2.3B | Dense |
| E4B | 4.5B | 4.5B | Dense |
| 26B MoE | 26B | 3.8B | Mixture of Experts |
| 31B Dense | 31B | 31B | Dense |
Model 26B MoE je výjimečný — poskytuje kvalitu blízkou vlajkovým lodím, přičemž na každý token aktivuje pouze 3.8B parametrů. To znamená, že běží přibližně stejnou rychlostí a s podobnými náklady na paměť jako model E4B, přestože přistupuje k 26B parametrům znalostí. Na Arena AI dosahuje skóre 1441 a řadí se na 6. místo mezi open-source modely i přes tuto minimální výpočetní stopu.
Llama 4: Dva masivní modely
Llama 4 od Meta volí opačný přístup — méně modelů, které jsou mnohem větší:
| Model | Celkem parametrů | Aktivní parametry | Architektura |
|---|---|---|---|
| Scout | 109B | ~17B | Mixture of Experts (16 expertů) |
| Maverick | 400B | ~17B | Mixture of Experts (128 expertů) |
Oba modely Llama 4 využívají architekturu MoE. Scout aktivuje přibližně 17B parametrů na token z fondu 109B. Maverick aktivuje podobné množství z celkových 400B parametrů, přičemž využívá 128 expertů pro větší znalostní kapacitu. Klíčový kompromis: i s efektivitou MoE vyžadují tyto modely výrazně více paměti pro udržení celé sady parametrů.
Definující vlastností Llama 4 Scout je jeho kontextové okno 10 milionů tokenů — nejdelší ze všech hlavních otevřených modelů. To umožňuje zpracování celých kódových bází, dlouhých video přepisů nebo masivních sbírek dokumentů v jediném promptu.
Qwen 3.5: Nejširší sortiment
Rodina Qwen 3.5 od Alibaba nabízí nejvíce velikostí modelů:
| Model | Parametry | Architektura |
|---|---|---|
| Qwen 3.5 0.6B | 0.6B | Dense |
| Qwen 3.5 1.7B | 1.7B | Dense |
| Qwen 3.5 4B | 4B | Dense |
| Qwen 3.5 8B | 8B | Dense |
| Qwen 3.5 14B | 14B | Dense |
| Qwen 3.5 32B | 32B | Dense |
| Qwen 3.5 72B | 72B | Dense |
| Qwen 3.5 MoE (A22B) | 397B | Mixture of Experts |
Qwen 3.5 vyplňuje každou niku v počtu parametrů. Model 0.6B běží prakticky na jakémkoli zařízení. Model 397B MoE odpovídá Llama 4 Maverick v celkovém počtu parametrů. Tato šíře znamená, že vždy existuje model Qwen, který přesně odpovídá vašim hardwarovým omezením.
Qwen 3.5 také nabízí hybridní režim uvažování, který uživatelům umožňuje přepínat mezi rychlými odpověďmi a hlubším uvažováním v rámci stejného modelu — podobně jako konfigurovatelný režim uvažování u Gemma 4.
Srovnání benchmarků
Uvažování a znalosti
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B | Qwen 3.5 MoE |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 79.6% | 81.4% | 83.1% |
| AIME 2026 | 89.2% | — | 79.8% | 85.6% |
| BigBench Extra Hard | 74% | — | 62% | 68% |
| Arena AI Score | 1452 (3rd) | 1417 | 1438 | 1449 |
Zdroje: Arena AI, příslušné technické zprávy
Gemma 4 31B vede v benchmarcích uvažování, což je pozoruhodné vzhledem k tomu, že se jedná o nejmenší vlajkový model v tomto srovnání (31B vs 400B vs 72B/397B). Zásadní roli zde hraje režim uvažování — Gemma 4 se zapnutým uvažováním vyniká v úlohách, které těží z postupu krok za krokem.
Výkon upravený podle efektivity
Hrubé benchmarky neříkají celý příběh. Když započítáte aktivní parametry — výpočetní náklady na token — obraz se změní:
| Model | Arena AI Score | Aktivní parametry | Skóre na 1B aktivních |
|---|---|---|---|
| Gemma 4 26B MoE | 1441 | 3.8B | 379 |
| Gemma 4 31B | 1452 | 31B | 47 |
| Llama 4 Maverick | 1417 | ~17B | 83 |
| Llama 4 Scout | ~1400 | ~17B | 82 |
| Qwen 3.5 72B | 1438 | 72B | 20 |
| Qwen 3.5 MoE | 1449 | ~22B | 66 |
Gemma 4 26B MoE dominuje v efektivitě. Dosahuje skóre Arena AI 1441, přičemž aktivuje pouze 3.8B parametrů — poměr skóre na aktivní parametr je 4-5x lepší než u konkurence. Pro scénáře nasazení, kde záleží na nákladech na inferenci (což je většina produkčních scénářů), se tato výhoda v efektivitě přímo promítá do úspor nákladů.
Výkon v kódování
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B |
|---|---|---|---|
| HumanEval+ | 82.3% | 85.1% | 83.7% |
| LiveCodeBench | 46.8% | 51.2% | 49.5% |
| MultiPL-E (Python) | 79.4% | 83.6% | 81.2% |
Llama 4 Maverick mírně vede v benchmarcích kódování v absolutních číslech, což se očekává vzhledem k jeho výhodě 400B parametrů. Nicméně schopnost strukturovaného používání nástrojů a režim uvažování modelu Gemma 4 jej činí praktičtějším pro agentní pracovní postupy kódování, kde model musí plánovat, vykonávat a iterovat, spíše než jen generovat kód najednou.
Licencování: Skrytý rozhodující faktor
Pro komerční nasazení může být licencování důležitější než benchmarky:
Gemma 4: Apache 2.0
- Žádná omezení použití — použití pro jakýkoli účel
- Žádné uživatelské limity — žádné limity založené na velikosti společnosti
- Plná práva na úpravy — možnost libovolně měnit a redistribuovat
- Standardní právní kontrola — Apache 2.0 je srozumitelná pro právní týmy po celém světě
Llama 4: Meta Custom License
- Zdarma pro většinu komerčního použití — ale s podmínkami
- Omezení 700M MAU — společnosti přesahující 700 milionů aktivních uživatelů měsíčně musí požádat Meta o samostatnou licenci
- Zásady přijatelného užití — určité případy užití jsou zakázány
- Vlastní licence — vyžaduje právní kontrolu k posouzení specifických požadavků na shodu
Qwen 3.5: Apache 2.0 (Většina modelů)
- Apache 2.0 pro většinu velikostí modelů — stejná svoboda jako u Gemma 4
- Některé větší modely mohou mít odlišné podmínky — ověřte u každého modelu
- Standardní právní kontrola — Apache 2.0 je dobře srozumitelná
Pro startupy a podniky je rozdíl v licencování reálný. Apache 2.0 (Gemma 4 a většina modelů Qwen 3.5) nevyžaduje žádnou speciální právní kontrolu nad rámec standardního dodržování open-source pravidel. Vlastní licence Meta vyžaduje specifickou kontrolu kvůli prahu 700M MAU a zásadám přijatelného užití. V praxi práh 700M MAU ovlivňuje pouze hrstku společností globálně, ale vlastní licence přináší administrativní zátěž bez ohledu na velikost společnosti.
Multimodální schopnosti
| Schopnost | Gemma 4 | Llama 4 | Qwen 3.5 |
|---|---|---|---|
| Text | Všechny modely | Všechny modely | Všechny modely |
| Obrázky | Všechny modely | Všechny modely | Většina modelů |
| Video | Pouze E2B, E4B | Ne | Ne |
| Audio | Pouze E2B, E4B | Ne | Ne |
| Režim uvažování | Ano (konfigurovatelný) | Ne | Ano (hybridní) |
Gemma 4 má nejširší multimodální podporu. Skutečnost, že schopnosti videa a audia jsou k dispozici v nejmenších modelech (E2B a E4B) spíše než v těch největších, je pozoruhodným designovým rozhodnutím, které umožňuje multimodální AI přímo v zařízení.
Llama 4 podporuje zpracování textu a obrázků u obou modelů, ale postrádá nativní podporu videa a audia. Qwen 3.5 nabízí podobné schopnosti pro text a obrázky bez nativního zpracování videa nebo audia.
Kontextová okna
| Model | Kontextové okno |
|---|---|
| Llama 4 Scout | 10,000,000 tokenů |
| Gemma 4 31B/26B MoE | 256,000 tokenů |
| Gemma 4 E2B/E4B | 128,000 tokenů |
| Qwen 3.5 (většina modelů) | 128,000 tokenů |
| Llama 4 Maverick | 1,000,000 tokenů |
Kontextové okno 10M tokenů u Llama 4 Scout je třída sama pro sebe. To je zhruba 40x více než maximum u Gemma 4 a umožňuje to případy užití, kterým se žádný jiný otevřený model nevyrovná:
- Zpracování celých velkých kódových bází (miliony řádků) v jediném promptu
- Analýza let historie konverzací pro aplikace zákaznického servisu
- Načtení celých knih nebo sbírek výzkumných prací
Využití kontextového okna 10M však vyžaduje úměrný hardware. Paměť vyžadovaná pro udržení KV cache pro 10M tokenů je značná, což činí tuto schopnost praktickou pouze na serverovém hardwaru.
Pro většinu aplikací jsou kontextová okna 256K u Gemma 4 a 128K u Qwen 3.5 více než dostatečná. Okno 256K pojme zhruba 750-1000 stran textu nebo více než 50,000 řádků kódu.
Hardwarové požadavky
Lokální spouštění
| Model | RAM (4-bit) | RAM (FP16) | Vhodné pro běžné uživatele? |
|---|---|---|---|
| Gemma 4 E2B | ~5 GB | ~5 GB | Ano (notebook/telefon) |
| Gemma 4 E4B | ~5 GB | ~9 GB | Ano (notebook) |
| Gemma 4 26B MoE | ~18 GB | ~52 GB | Ano (RTX 4090) |
| Gemma 4 31B | ~20 GB | ~62 GB | Ano (RTX 4090) |
| Qwen 3.5 8B | ~6 GB | ~16 GB | Ano (notebook) |
| Qwen 3.5 32B | ~20 GB | ~64 GB | Ano (RTX 4090) |
| Qwen 3.5 72B | ~42 GB | ~144 GB | Ne (serverové GPU) |
| Llama 4 Scout | ~70 GB | ~218 GB | Ne (více-GPU server) |
| Llama 4 Maverick | ~250 GB | ~800 GB | Ne (GPU cluster) |
Pro vývojáře, kteří chtějí spouštět modely lokálně — na notebooku kvůli soukromí nebo na jediném GPU kvůli nákladům — jsou Gemma 4 a malé modely Qwen 3.5 jedinými praktickými možnostmi. Gemma 4 E2B a E4B běží prakticky na jakémkoli moderním počítači. Modely 26B MoE a 31B Dense se vejdou na jediné RTX 4090 nebo RTX 5090.
Modely Llama 4 jsou v podstatě serverové úrovně. I s agresivní kvantizací vyžaduje Scout konfigurace s více GPU a Maverick vyžaduje GPU cluster. To omezuje Llama 4 na organizace s rozpočty pro cloud compute nebo dedikovanou infrastrukturu GPU.
Mnohojazyčná podpora
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Podporované jazyky | 35+ | 12 | 29+ |
| Jazyky předtrénování | 140+ | — | 100+ |
| Kvalita CJK | Dobrá | Dostatečná | Vynikající |
| Arabština/Hebrejština | Dobrá | Dostatečná | Dobrá |
| Jazyky s málo zdroji | Průměrná | Omezená | Průměrná |
Qwen 3.5 je nejsilnější volbou pro aplikace zaměřené na asijské trhy, zejména čínštinu, japonštinu a korejštinu. Trénovací data Alibaba zahrnují rozsáhlé vysoce kvalitní texty CJK, což dává modelům Qwen měřitelnou výhodu v těchto jazycích.
Gemma 4 nabízí nejširší oficiální jazykovou podporu s více než 35 jazyky a předtrénováním na více než 140 jazycích. To poskytuje rozumnou kvalitu v širokém spektru jazyků, což z ní činí nejuniverzálnější volbu pro globální aplikace.
Podpora 12 jazyků u Llama 4 je nejvíce omezená. I když pokrývá nejpoužívanější světové jazyky, zanechává značné mezery pro aplikace cílené na trhy s méně rozšířenými jazyky.
Doporučení pro případy užití
Zvolte Gemma 4, když:
- Potřebujete maximální efektivitu — Model 26B MoE poskytuje kvalitu vlajkové lodi s 3.8B aktivními parametry
- Záleží na licencování — Apache 2.0 bez omezení je nejjednodušší cesta ke komerčnímu nasazení
- Potřebujete multimodální AI na okraji sítě (edge AI) — E2B/E4B s videem a audiem běží na spotřebitelských zařízeních
- Chcete konfigurovatelné uvažování — Přepínejte mezi rychlým a hlubokým uvažováním podle požadavku
- Budujete agentní pracovní postupy — Strukturované používání nástrojů je vestavěno
Zvolte Llama 4, když:
- Potřebujete maximální kontext — 10M tokenů u Scoutu je bezkonkurenční
- Nejdůležitější jsou hrubé benchmarky — 400B parametrů modelu Maverick mu dává náskok v některých testech
- Máte k dispozici serverový hardware — Cloudová nasazení, kde jsou náklady na GPU zvládnutelné
- Jste v ekosystému Meta — Integrace s infrastrukturu AI společnosti Meta
- Nepřekračujete práh 700M MAU — Což platí pro 99.99 % společností
Zvolte Qwen 3.5, když:
- Cílíte na asijské trhy — Nejlepší kvalita jazyků CJK mezi otevřenými modely
- Potřebujete specifickou velikost modelu — 8 velikostí od 0.6B do 397B vyplní každou mezeru
- Chcete hybridní uvažování — Podobné jako konfigurovatelný režim uvažování u Gemma 4
- Potřebujete modely specifické pro kód — Varianty Qwen Code jsou optimalizovány pro programování
- Potřebujete Apache 2.0 s více možnostmi velikosti — Většina modelů používá Apache 2.0
Budování aplikací s open-source modely
Bez ohledu na to, který model zvolíte, nasazení otevřeného modelu v produkci vyžaduje vybudování aplikační vrstvy kolem něj — koncové body API, uživatelská rozhraní, autentizaci, databázové úložiště pro konverzace a infrastrukturu pro nasazení.
Pro týmy budující produkty poháněné AI je model pouze jednou částí. Platformy jako ZBuild se starají o lešení aplikace — frontend, backend, databázi a nasazení — abyste se mohli soustředit na integraci modelu, prompt engineering a uživatelskou zkušenost, které odlišují váš produkt.
Srovnání modelů je nejdůležitější v integrační vrstvě. Dobře postavená aplikace může přepínat mezi Gemma 4, Llama 4 nebo Qwen 3.5 v závislosti na konkrétním úkolu — používat Gemma 4 MoE pro požadavky citlivé na efektivitu, Llama 4 Scout pro úkoly s dlouhým kontextem a Qwen 3.5 pro obsah v jazycích CJK.
Fine-Tuning a přizpůsobení
Všechny tři rodiny modelů podporují fine-tuning, ale praktická zkušenost se liší:
Gemma 4
- LoRA a QLoRA podporovány ve všech velikostech
- Apache 2.0 znamená žádná omezení pro distribuci jemně doladěných vah
- Google Colab notebooky jsou k dispozici pro začátek s fine-tuningem na bezplatných GPU
- Integrace s Keras prostřednictvím KerasNLP pro vysokoúrovňové pracovní postupy fine-tuningu
- E2B a E4B lze jemně doladit na jediném spotřebitelském GPU během několika hodin
Llama 4
- LoRA a QLoRA podporovány přes Hugging Face transformers
- Vlastní licence Meta se vztahuje i na jemně doladěné deriváty — omezení 700M MAU se přenáší dál
- Velké velikosti modelů znamenají, že fine-tuning Scout (109B) nebo Maverick (400B) vyžaduje konfigurace s více GPU
- Torchtune od Meta poskytuje oficiální recepty pro fine-tuning
Qwen 3.5
- LoRA, QLoRA a plný fine-tuning podporovány s komplexní dokumentací
- Apache 2.0 pro většinu modelů znamená neomezenou distribuci jemně doladěných vah
- Široký rozsah velikostí znamená, že můžete jemně doladit 4B model na notebooku nebo 72B model na serveru
- Silná data pro fine-tuning v čínštině/CJK dostupná prostřednictvím ekosystému Alibaba
Pro většinu scénářů fine-tuningu nabízejí Gemma 4 E4B nebo 26B MoE nejlepší výchozí bod. Modely jsou dostatečně malé pro fine-tuning na spotřebitelském hardwaru, dostatečně schopné produkovat vysoce kvalitní výsledky a licencované dostatečně benevolentně pro nasazení kdekoli.
Trend konvergence
Při pohledu na data jako celek je nejpozoruhodnějším zjištěním, jak rychle se schopnosti open-source modelů přibližují proprietárním modelům. Výsledek MMLU Pro 85.2% u Gemma 4 31B je na dosah skóre proprietárních modelů Claude Sonnet 4.6 a GPT-5.4 — a to při nulových nákladech na inferenci kromě hardwaru.
Diferenciace mezi rodinami otevřených modelů se posouvá od otázky „který z nich je chytřejší“ k otázce „který z nich vyhovuje vašim omezením nasazení.“ Hardwarové požadavky, licenční podmínky, multimodální schopnosti a jazyková podpora nyní záleží stejně jako hrubé skóre benchmarků.
Pro většinu vývojářů a společností v roce 2026 už otázka nezní „mám použít otevřený model?“, ale „který otevřený model vyhovuje mým konkrétním potřebám?“ — a to je známka toho, jak dospělým se tento ekosystém stal.
Verdikt
V roce 2026 neexistuje jediný „nejlepší“ open-source model. Správná volba závisí na vašich konkrétních požadavcích:
- Nejlepší celková efektivita: Gemma 4 26B MoE — 3.8B aktivních parametrů, 6. místo v žebříčku Arena AI, Apache 2.0
- Nejlepší hrubá kvalita (otevřený model): Gemma 4 31B Dense — 85.2% MMLU Pro, 3. místo v žebříčku Arena AI
- Nejlepší pro dlouhé dokumenty: Llama 4 Scout — kontextové okno 10M tokenů
- Nejlepší pro asijské jazyky: Qwen 3.5 — vynikající výkon v CJK
- Nejlepší pro spotřebitelský hardware: Gemma 4 E2B — 5GB RAM, běží na telefonech
- Nejméně omezující licence: Gemma 4 a Qwen 3.5 (Apache 2.0)
- Nejvíce možností velikosti modelu: Qwen 3.5 — 8 velikostí od 0.6B do 397B
Pokud byste si měli vybrat pouze jednu rodinu a prioritou pro vás je efektivita, licencování a multimodální schopnosti, Gemma 4 je v dubnu 2026 nejsilnější všestrannou volbou.
Zdroje
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Llama 4 Announcement - Meta AI
- Llama 4 License
- Qwen 3.5 - Alibaba Cloud / Qwen Team
- Qwen 3.5 Technical Report
- Arena AI Open Model Rankings
- Gemma 4 on Ollama
- Open Source LLM Comparison 2026 - Artificial Analysis
- Gemma 4 vs Llama 4 Analysis - The Decoder
- Open Model Benchmark Aggregator - Hugging Face