Klíčový poznatek
Google Gemma 4 je nejschopnější rodina modelů s otevřenými vahami (open-weight), která kdy byla vydána pod skutečně permisivní licencí. Model 31B Dense dosahuje 85.2% v MMLU Pro a řadí se na 3. místo mezi všemi otevřenými modely na Arena AI — zatímco 26B MoE dosahuje téměř identické kvality s pouhými 3.8B aktivními parametry. Poprvé je Gemma dodávána pod licencí Apache 2.0, čímž odstraňuje veškeré licenční tření, které brzdilo komerční přijetí předchozích generací.
Google Gemma 4: Vše, co potřebujete vědět
Přehled vydání
Google DeepMind vydal Gemma 4 dne April 2, 2026, čímž představil čtyři velikosti modelů postavené na stejném technologickém základu jako Gemini 3. Tato generace představuje největší skok v rodině Gemma v každém rozměru: kvalita modelu, multimodální schopnosti, délka kontextu a licenční podmínky.
Klíčové změny oproti Gemma 3:
- Apache 2.0 licencování — žádná omezení použití, žádná vlastní licence, plná komerční svoboda
- Čtyři velikosti modelů místo tří, včetně nové architektury MoE
- Nativní multimodální podpora u všech velikostí (text, obrázky, video, audio)
- Konfigurovatelný thinking mode s řetězci úvah o délce 4,000+ tokens
- 256K kontextová okna u větších modelů (navýšení oproti limitům Gemma 3)
- 35+ podporovaných jazyků, trénováno na 140+ jazycích
- Strukturované použití nástrojů (tool use) pro agentní pracovní postupy
Čtyři velikosti modelů
Gemma 4 přichází ve čtyřech odlišných velikostech, z nichž každá cílí na jiné scénáře nasazení:
| Model | Parametry | Aktivní parametry | Architektura | Kontext | Modality |
|---|---|---|---|---|---|
| E2B | 2.3B efektivní | 2.3B | Dense | 128K | Text, Image, Video, Audio |
| E4B | 4.5B efektivní | 4.5B | Dense | 128K | Text, Image, Video, Audio |
| 26B MoE | 26B celkem | 3.8B | Mixture of Experts | 256K | Text, Image |
| 31B Dense | 31B | 31B | Dense | 256K | Text, Image |
E2B a E4B: Edge modely
Nejmenší modely Gemma 4 jsou navrženy pro nasazení přímo v zařízeních (on-device). S 2.3B a 4.5B efektivními parametry běží na smartphonech, tabletech a laptopech s pouhými 5GB RAM při použití 4-bit kvantizace.
To, co dělá tyto modely výjimečnými, je šíře jejich modalit. Navzdory tomu, že jsou nejmenší v rodině, E2B a E4B jsou jediné modely Gemma 4, které podporují všechny čtyři vstupní modality: text, obrázky, video a audio. Toto je záměrná designová volba — koncová zařízení s kamerami a mikrofony nejvíce těží z multimodálních schopností.
Oba modely podporují kontextová okna o velikosti 128K tokens, což je štědré vzhledem k jejich počtu parametrů a dostatečné pro většinu on-device případů použití.
26B MoE: Maximální efektivita
Model 26B Mixture of Experts je pravděpodobně nejzajímavějším modelem v řadě Gemma 4. Obsahuje celkem 26B parametrů, ale pro jakýkoli daný vstup aktivuje pouze 3.8B parametrů — což představuje zhruba stejné výpočetní náklady jako u modelu E4B, ale s přístupem k dramaticky většímu množství znalostí a schopností.
Na Arena AI se 26B MoE řadí na 6. místo mezi všemi otevřenými modely se skóre 1441, přestože využívá pouze 3.8B aktivních parametrů. Tento poměr efektivity je bezprecedentní — žádný jiný model nedosahuje srovnatelné kvality při těchto výpočetních nákladech.
Architektura MoE směruje každý token skrze specializované expertní sub-sítě, což modelu umožňuje udržet velkou kapacitu znalostí při zachování nízkých nákladů na inferenci. Pro scénáře nasazení, kde potřebujete silné uvažování, ale máte omezenou paměť GPU, je 26B MoE optimální volbou.
31B Dense: Maximální kvalita
Model 31B Dense je vlajkovou lodí Gemma 4. Každý parametr je aktivní pro každý token, což mu zajišťuje nejkonzistentnější a nejkvalitnější výstupy napříč všemi typy úloh.
Na Arena AI se 31B Dense řadí na 3. místo mezi všemi otevřenými modely se skóre 1452. V MMLU Pro dosahuje 85.2% — což je konkurenceschopné s modely několikrát většími. Skóre 89.2% v AIME 2026 demonstruje silné matematické uvažování, zatímco 74% v BigBench Extra Hard (nárůst z 19% v předchozích generacích) ukazuje masivní zlepšení v komplexních úlohách uvažování.
Benchmarky: Kompletní data
Uvažování a znalosti
| Benchmark | 31B Dense | 26B MoE | Poznámky |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Znalosti na úrovni postgraduálního studia |
| AIME 2026 | 89.2% | — | Soutěžní matematika |
| BigBench Extra Hard | 74% | — | Nárůst z 19% v předchozí generaci |
| Arena AI Score | 1452 (3.) | 1441 (6.) | Žebříček otevřených modelů |
Zdroj: Technická zpráva Google DeepMind
BigBench Extra Hard: Výjimečný výsledek
Skok z 19% na 74% v BigBench Extra Hard si zaslouží zvláštní pozornost. Tento benchmark testuje komplexní vícekrokové uvažování, logickou dedukci a úlohy, které vyžadují skutečné porozumění spíše než jen přiřazování vzorců. Zlepšení o 55 procentních bodů v jediné generaci naznačuje zásadní pokroky v architektuře uvažování Gemma 4, nikoli jen pouhé škálování.
Toto zlepšení pravděpodobně souvisí s konfigurovatelným thinking mode a základní technologií Gemini 3, na které je Gemma 4 postavena. Thinking mode generuje rozšířené řetězce úvah, které modelu pomáhají procházet složitými problémy krok za krokem.
Kontext žebříčku Arena AI
Arena AI řadí modely na základě přímého porovnání lidských preferencí. Skóre 31B Dense 1452 a 3. místo mezi otevřenými modely jej staví nad mnoho modelů s výrazně více parametry. Pro kontext:
- Modely umístěné nad ním jsou obvykle modely s 70B+ parametry
- 26B MoE dosahující 1441 s pouhými 3.8B aktivními parametry je průlomem v efektivitě
- Oba modely výrazně překonávají předchozí Gemma 3 27B
Multimodální schopnosti
Porozumění obrázkům
Všechny čtyři modely Gemma 4 zpracovávají obrázky nativně. Schopnosti zahrnují:
- Popis a analýza obrázků — detailní porozumění vizuálnímu obsahu
- OCR a parsování dokumentů — extrakce textu z obrázků, účtenek, screenshotů
- Interpretace grafů a diagramů — porozumění vizualizacím dat
- Vizuální uvažování — odpovídání na otázky vyžadující pochopení prostorových vztahů
Video a audio (pouze E2B/E4B)
Menší modely E2B a E4B přidávají nativní zpracování videa a audia:
- Porozumění videu — analýza obsahu videa bez extrakce po jednotlivých snímcích
- Transkripce a porozumění audiu — zpracování řeči a zvuků prostředí
- Cross-modální uvažování — odpovídání na otázky, které zahrnují textové, obrazové, video a audio vstupy
Tato designová volba odráží zaměření společnosti Google na nasazení v koncových zařízeních. Mobilní zařízení nativně zachycují video a audio, takže modely navržené pro tato zařízení tyto modality podporují.
Konfigurovatelný thinking mode
Gemma 4 představuje konfigurovatelný thinking mode, který generuje 4,000+ tokens interního uvažování před vytvořením odpovědi. To je podobné schopnostem rozšířeného přemýšlení u modelů Claude a řady o od OpenAI, ale implementované v modelu s otevřenými vahami.
Jak to funguje
Když je thinking mode povolen, model:
- Přijme vstupní prompt
- Vygeneruje interní řetězec úvah (viditelný nebo skrytý v závislosti na konfiguraci)
- Použije řetězec úvah k vytvoření kvalitnější finální odpovědi
Thinking mode lze přepínat u každého požadavku, což vývojářům umožňuje:
- Povolit thinking pro složité úlohy v matematice, logice, kódování a analýze
- Zakázat thinking pro jednoduché dotazy, chat a aplikace citlivé na latenci
- Upravit hloubku thinking na základě očekávané složitosti úlohy
Dopad na kvalitu
Thinking mode je hlavním hnacím motorem silného výkonu Gemma 4 v benchmarcích. Skóre AIME 2026 ve výši 89.2% a skóre BigBench Extra Hard ve výši 74% jsou obě dosažena se zapnutým thinking mode. Bez thinking mode by tato skóre byla znatelně nižší — podobně jako u vzorců pozorovaných u jiných modelů s rozšířenými schopnostmi uvažování.
Apache 2.0: Proč na změně licence záleží
Předchozí generace Gemma byly dodávány pod vlastní licencí Gemma společnosti Google, která zahrnovala omezení týkající se:
- Použití v určitých aplikacích
- Podmínek redistribuce
- Omezení komerčního nasazení pro rozsáhlé použití
Gemma 4 přechází na Apache 2.0, stejnou licenci, kterou používají projekty jako Kubernetes, TensorFlow a Apache HTTP Server. To znamená:
- Žádná omezení použití — používejte jej pro cokoli, včetně komerčních produktů
- Žádná omezení redistribuce — volně sdílejte upravené váhy
- Žádné požadavky na uvedení autora nad rámec licence — standardní oznámení Apache 2.0
- Není vyžadováno schválení od Google — nasaďte v jakémkoli měřítku bez povolení
- Kompatibilní s ostatními open-source licencemi — snadná integrace do stávajících projektů
Pro podniky a startupy budující produkty na otevřených modelech to odstraňuje administrativní zátěž spojenou s právním přezkumem, kterou vyžadovala vlastní licence Gemma. Rovněž to činí Gemma 4 přímo srovnatelnou s modely Llama od Meta (které používají vlastní licenci s určitými omezeními) a staví ji do pozice nejpřívětivěji licencované rodiny vysoce kvalitních otevřených modelů na trhu.
Jazyková podpora
Gemma 4 podporuje 35+ jazyků pro inferenci a byla předtrénována na 140+ jazycích. To z ní dělá jeden z nejvíce vícejazyčných otevřených modelů, po boku modelů Qwen, které také kladou důraz na široké pokrytí jazyků.
Podporované jazyky zahrnují hlavní světové jazyky (angličtina, čínština, španělština, francouzština, němčina, japonština, korejština, arabština, hindština, portugalština, ruština) a také mnoho jazyků s menší digitální stopou. Předtrénování na 140+ jazycích znamená, že model má určité schopnosti i v jazycích nad rámec oficiálně podporovaných 35, ačkoli kvalita se může lišit.
Pro aplikace cílící na globální publikum nebo neanglické trhy toto široké jazykové pokrytí snižuje potřebu specializovaného fine-tuning nebo samostatných modelů pro každý jazyk.
Strukturované použití nástrojů a agentní pracovní postupy
Gemma 4 obsahuje nativní podporu pro strukturované použití nástrojů (tool use), což umožňuje agentní pracovní postupy, kde model může:
- Volat externí API pomocí správně formátovaných požadavků
- Parsovat strukturované odpovědi z nástrojů a služeb
- Řetězit více volání nástrojů k dokončení složitých úkolů
- Zvládat chyby a opakované pokusy při provádění nástrojů
Tato schopnost je zvláště relevantní pro integraci s Android Studio, kde Gemma 4 pohání lokální agentní pracovní postupy kódování. Model dokáže pochopit kontext kódu, navrhnout změny, spustit nástroje a iterovat — to vše běží lokálně na stroji vývojáře, aniž by se kód odesílal na externí servery.
Pro vývojáře budující AI agenty poskytuje strukturované použití nástrojů v Gemma 4 plně lokální a plně soukromý základ. V kombinaci s licencí Apache 2.0 to umožňuje budování a nasazování agentních aplikací bez jakékoli závislosti na externích poskytovatelích modelů.
Hardwarové požadavky
Lokální nasazení přes Ollama
| Model | Požadovaná RAM (4-bit) | Požadovaná RAM (FP16) | Doporučení GPU |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Jakékoli moderní GPU / pouze CPU |
| E4B | ~5 GB | ~9 GB | Jakékoli moderní GPU / pouze CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
Modely E2B a E4B jsou speciálně navrženy pro nasazení v koncových zařízeních. Běží pohodlně na laptopech, desktopových CPU a dokonce i na některých smartphonech. Modely 26B MoE a 31B Dense vyžadují dedikovaný GPU hardware, ale zůstávají přístupné individuálním vývojářům s komerčními GPU.
Optimalizace NVIDIA
Společnost NVIDIA vydala optimalizované verze Gemma 4 pro RTX GPU, které poskytují:
- Rychlejší inferenci díky kernel optimalizacím specifickým pro GPU
- Lepší využití paměti na kartách řad RTX 4000 a 5000
- Integraci TensorRT pro produkční nasazení
- Podporu CUDA graph pro snížení režie při opakované inferenci
Co se změnilo oproti Gemma 3
| Funkce | Gemma 3 | Gemma 4 |
|---|---|---|
| Licence | Gemma License (omezená) | Apache 2.0 (neomezená) |
| Velikosti modelů | 3 velikosti | 4 velikosti (přidáno MoE) |
| Kontextové okno | Až 128K | Až 256K |
| Modality | Text, Image | Text, Image, Video, Audio |
| Thinking Mode | Ne | Ano (konfigurovatelný) |
| Použití nástrojů | Omezené | Strukturované použití nástrojů |
| Jazyky | 30+ | 35+ (trénováno na 140+) |
| BigBench Extra Hard | 19% | 74% |
Zlepšení nastalo v každém rozměru. Nejdůležitějšími změnami pro vývojáře jsou licence Apache 2.0 (odstraňuje právní tření), thinking mode (zvyšuje kvalitu u těžkých úloh) a architektura MoE (poskytuje špičkovou kvalitu za zlomek výpočetních nákladů).
Praktické případy použití
Kódování a vývoj
Strukturované použití nástrojů a thinking mode v Gemma 4 jej činí efektivním pro:
- Lokální doplňování a generování kódu
- Revizi kódu a detekci chyb
- Automatické generování testů
- Psaní dokumentace
- Agentní pracovní postupy kódování v Android Studio
Zpracování dokumentů
S kontextovými okny 256K a multimodální podporou:
- Zpracovávejte celé kódové báze nebo dlouhé dokumenty v jediném promptu
- Extrahujejte informace z obrázků dokumentů, účtenek a formulářů
- Analyzujte grafy a vizualizace dat
- Sumarizujte rozsáhlé výzkumné práce nebo právní dokumenty
Budování aplikací poháněných AI
Pro vývojáře budující produkty, které zahrnují schopnosti AI, poskytuje Gemma 4 silnou vrstvu inference v zařízení nebo s vlastním hostováním. Model se stará o inteligenci — porozumění dotazům, generování odpovědí, zpracování obrázků — zatímco váš aplikační framework se stará o zbytek. Nástroje jako ZBuild mohou urychlit budování obalu aplikace (frontend, backend, databáze, nasazení), což vám umožní soustředit vývojové úsilí na vrstvu integrace AI, kde na schopnostech Gemma 4 záleží nejvíce.
Nasazení v koncových zařízeních a mobilních telefonech
Modely E2B a E4B otevírají případy použití, které byly dříve s otevřenými modely nemožné:
- Asistenti v zařízení, kteří fungují offline
- Funkce AI chránící soukromí, které nikdy neodesílají data na externí servery
- Zpracování videa a audia v reálném čase na mobilních zařízeních
- Vestavěná AI v aplikacích IoT a robotice
Jak začít
Ollama (Nejrychlejší cesta)
# Instalace Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Stažení a spuštění Gemma 4
ollama run gemma4:e2b # Nejméně náročný, běží kdekoli
ollama run gemma4:e4b # Malý, širší schopnosti
ollama run gemma4:26b-moe # MoE, nejlepší efektivita
ollama run gemma4:31b # Dense, nejvyšší kvalita
Hugging Face
Všechny modely Gemma 4 jsou k dispozici na Hugging Face s plnou integrací transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google poskytuje bezplatný API přístup ke Gemma 4 skrze AI Studio pro experimentování a prototypování, přičemž Vertex AI je k dispozici pro produkční nasazení.
Gemma 4 v konkurenčním prostředí
Pro pochopení toho, kde Gemma 4 stojí v širším ekosystému:
| Model | Parametry | Licence | MMLU Pro | Arena AI | Kontext |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B aktivní) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B aktivní) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B aktivní) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B aktivní) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B dosahuje nejvyššího skóre MMLU Pro a umístění v Arena AI mezi otevřenými modely — a to s nejmenším celkovým počtem parametrů. Tato efektivita parametrů je přímým důsledkem technologického základu Gemini 3 a konfigurovatelného thinking mode.
Příběh efektivity modelu 26B MoE je ještě přesvědčivější. Řadí se na 6. místo na Arena AI, přičemž aktivuje pouze 3.8B parametrů na token. Žádný jiný model nedosahuje srovnatelného poměru kvality k výpočtu. Pro produkční nasazení, kde náklady na inferenci rostou s používáním, se tato efektivita přímo promítá do úspor nákladů.
Ve srovnání s proprietárními modely jsou benchmarky Gemma 4 31B konkurenceschopné s nabídkami střední třídy od Anthropic a OpenAI. Zatímco špičkové proprietární modely stále vedou v nejtěžších úlohách, propast se dramaticky zúžila — a Gemma 4 přichází s nulovými náklady na token a plnou svobodou Apache 2.0.
Verdikt
Gemma 4 nastavuje v roce 2026 nový standard pro modely s otevřenými vahami. Kombinace licencování Apache 2.0, čtyř dobře diferencovaných velikostí modelů, nativní multimodální podpory, konfigurovatelného thinking mode a výsledků v benchmarcích konkurenceschopných s mnohem většími modely z ní činí nejpraktičtější dostupnou rodinu otevřených modelů.
31B Dense je správnou volbou, když potřebujete maximální kvalitu. 26B MoE je správnou volbou, když potřebujete silnou kvalitu při minimálních výpočetních nákladech. E2B a E4B jsou správnými volbami pro nasazení v koncových zařízeních a on-device AI. Poprvé v rodině Gemma licence neomezuje žádný z těchto případů použití.
Zdroje
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers