Co je Google Gemma 4 a kdy byla vydána?

Google Gemma 4 je rodina open-weight modelů od Google DeepMind vydaná 2. dubna 2026. Zahrnuje 4 velikosti – E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total) a 31B Dense. Všechny modely jsou vydány pod Apache 2.0, nejvíce permisivní licencí, jaká kdy byla pro verzi Gemma použita.

Je Gemma 4 skutečně open source?

Ano. Gemma 4 je první generace Gemma vydaná pod licencí Apache 2.0, která umožňuje neomezené komerční využití, úpravy a redistribuci bez nutnosti povolení od Google. Předchozí modely Gemma používaly vlastní licenci Gemma společnosti Google, která ukládala omezení použití.

Jaký context window Gemma 4 podporuje?

Menší modely (E2B a E4B) podporují 128K token context window. Větší modely (26B MoE a 31B Dense) podporují 256K token context window. Jde o významné zlepšení oproti limitům contextu u Gemma 3 a umožňuje to zpracování celých codebase nebo dlouhých dokumentů v jediném promptu.

Dokáže Gemma 4 zpracovávat obrázky, video a audio?

Ano. Všechny čtyři modely Gemma 4 jsou nativně multimodální a podporují textové a obrazové vstupy. Modely E2B a E4B jdou ještě dál s nativními schopnostmi zpracování videa a audia. To dělá z Gemma 4 první rodinu open-weight modelů, kde nejmenší modely mají nejširší podporu modalit.

Jak funguje thinking mode u Gemma 4?

Gemma 4 obsahuje konfigurovatelný thinking mode, který generuje 4,000+ tokenů interního uvažování před vytvořením odpovědi. Toto chain-of-thought uvažování lze zapnout nebo vypnout pro každý požadavek, což vývojářům umožňuje volit mezi rychlejšími odpověďmi pro jednoduché úkoly a hlubším uvažováním pro složité problémy, jako je matematika, logika a programování.

Jaký hardware potřebuji ke spuštění Gemma 4 lokálně?

Gemma 4 E2B a E4B běží na zařízeních s pouhými 5GB RAM při použití 4-bitové kvantizace, včetně smartphonů a notebooků. Model 26B MoE vyžaduje přibližně 18GB RAM a 31B Dense vyžaduje přibližně 20GB RAM. Všechny modely běží přes Ollama s dostupnou optimalizací pro NVIDIA RTX GPU.

Klíčový poznatek

Google Gemma 4 je nejschopnější rodina modelů s otevřenými vahami (open-weight), která kdy byla vydána pod skutečně permisivní licencí. Model 31B Dense dosahuje 85.2% v MMLU Pro a řadí se na 3. místo mezi všemi otevřenými modely na Arena AI — zatímco 26B MoE dosahuje téměř identické kvality s pouhými 3.8B aktivními parametry. Poprvé je Gemma dodávána pod licencí Apache 2.0, čímž odstraňuje veškeré licenční tření, které brzdilo komerční přijetí předchozích generací.

Google Gemma 4: Vše, co potřebujete vědět

Přehled vydání

Google DeepMind vydal Gemma 4 dne April 2, 2026, čímž představil čtyři velikosti modelů postavené na stejném technologickém základu jako Gemini 3. Tato generace představuje největší skok v rodině Gemma v každém rozměru: kvalita modelu, multimodální schopnosti, délka kontextu a licenční podmínky.

Klíčové změny oproti Gemma 3:

Apache 2.0 licencování — žádná omezení použití, žádná vlastní licence, plná komerční svoboda
Čtyři velikosti modelů místo tří, včetně nové architektury MoE
Nativní multimodální podpora u všech velikostí (text, obrázky, video, audio)
Konfigurovatelný thinking mode s řetězci úvah o délce 4,000+ tokens
256K kontextová okna u větších modelů (navýšení oproti limitům Gemma 3)
35+ podporovaných jazyků, trénováno na 140+ jazycích
Strukturované použití nástrojů (tool use) pro agentní pracovní postupy

Čtyři velikosti modelů

Gemma 4 přichází ve čtyřech odlišných velikostech, z nichž každá cílí na jiné scénáře nasazení:

Model	Parametry	Aktivní parametry	Architektura	Kontext	Modality
E2B	2.3B efektivní	2.3B	Dense	128K	Text, Image, Video, Audio
E4B	4.5B efektivní	4.5B	Dense	128K	Text, Image, Video, Audio
26B MoE	26B celkem	3.8B	Mixture of Experts	256K	Text, Image
31B Dense	31B	31B	Dense	256K	Text, Image

Zdroj: Google AI Blog

E2B a E4B: Edge modely

Nejmenší modely Gemma 4 jsou navrženy pro nasazení přímo v zařízeních (on-device). S 2.3B a 4.5B efektivními parametry běží na smartphonech, tabletech a laptopech s pouhými 5GB RAM při použití 4-bit kvantizace.

To, co dělá tyto modely výjimečnými, je šíře jejich modalit. Navzdory tomu, že jsou nejmenší v rodině, E2B a E4B jsou jediné modely Gemma 4, které podporují všechny čtyři vstupní modality: text, obrázky, video a audio. Toto je záměrná designová volba — koncová zařízení s kamerami a mikrofony nejvíce těží z multimodálních schopností.

Oba modely podporují kontextová okna o velikosti 128K tokens, což je štědré vzhledem k jejich počtu parametrů a dostatečné pro většinu on-device případů použití.

26B MoE: Maximální efektivita

Model 26B Mixture of Experts je pravděpodobně nejzajímavějším modelem v řadě Gemma 4. Obsahuje celkem 26B parametrů, ale pro jakýkoli daný vstup aktivuje pouze 3.8B parametrů — což představuje zhruba stejné výpočetní náklady jako u modelu E4B, ale s přístupem k dramaticky většímu množství znalostí a schopností.

Na Arena AI se 26B MoE řadí na 6. místo mezi všemi otevřenými modely se skóre 1441, přestože využívá pouze 3.8B aktivních parametrů. Tento poměr efektivity je bezprecedentní — žádný jiný model nedosahuje srovnatelné kvality při těchto výpočetních nákladech.

Architektura MoE směruje každý token skrze specializované expertní sub-sítě, což modelu umožňuje udržet velkou kapacitu znalostí při zachování nízkých nákladů na inferenci. Pro scénáře nasazení, kde potřebujete silné uvažování, ale máte omezenou paměť GPU, je 26B MoE optimální volbou.

31B Dense: Maximální kvalita

Model 31B Dense je vlajkovou lodí Gemma 4. Každý parametr je aktivní pro každý token, což mu zajišťuje nejkonzistentnější a nejkvalitnější výstupy napříč všemi typy úloh.

Na Arena AI se 31B Dense řadí na 3. místo mezi všemi otevřenými modely se skóre 1452. V MMLU Pro dosahuje 85.2% — což je konkurenceschopné s modely několikrát většími. Skóre 89.2% v AIME 2026 demonstruje silné matematické uvažování, zatímco 74% v BigBench Extra Hard (nárůst z 19% v předchozích generacích) ukazuje masivní zlepšení v komplexních úlohách uvažování.

Benchmarky: Kompletní data

Uvažování a znalosti

Benchmark	31B Dense	26B MoE	Poznámky
MMLU Pro	85.2%	—	Znalosti na úrovni postgraduálního studia
AIME 2026	89.2%	—	Soutěžní matematika
BigBench Extra Hard	74%	—	Nárůst z 19% v předchozí generaci
Arena AI Score	1452 (3.)	1441 (6.)	Žebříček otevřených modelů

Zdroj: Technická zpráva Google DeepMind

BigBench Extra Hard: Výjimečný výsledek

Skok z 19% na 74% v BigBench Extra Hard si zaslouží zvláštní pozornost. Tento benchmark testuje komplexní vícekrokové uvažování, logickou dedukci a úlohy, které vyžadují skutečné porozumění spíše než jen přiřazování vzorců. Zlepšení o 55 procentních bodů v jediné generaci naznačuje zásadní pokroky v architektuře uvažování Gemma 4, nikoli jen pouhé škálování.

Toto zlepšení pravděpodobně souvisí s konfigurovatelným thinking mode a základní technologií Gemini 3, na které je Gemma 4 postavena. Thinking mode generuje rozšířené řetězce úvah, které modelu pomáhají procházet složitými problémy krok za krokem.

Kontext žebříčku Arena AI

Arena AI řadí modely na základě přímého porovnání lidských preferencí. Skóre 31B Dense 1452 a 3. místo mezi otevřenými modely jej staví nad mnoho modelů s výrazně více parametry. Pro kontext:

Modely umístěné nad ním jsou obvykle modely s 70B+ parametry
26B MoE dosahující 1441 s pouhými 3.8B aktivními parametry je průlomem v efektivitě
Oba modely výrazně překonávají předchozí Gemma 3 27B

Multimodální schopnosti

Porozumění obrázkům

Všechny čtyři modely Gemma 4 zpracovávají obrázky nativně. Schopnosti zahrnují:

Popis a analýza obrázků — detailní porozumění vizuálnímu obsahu
OCR a parsování dokumentů — extrakce textu z obrázků, účtenek, screenshotů
Interpretace grafů a diagramů — porozumění vizualizacím dat
Vizuální uvažování — odpovídání na otázky vyžadující pochopení prostorových vztahů

Video a audio (pouze E2B/E4B)

Menší modely E2B a E4B přidávají nativní zpracování videa a audia:

Porozumění videu — analýza obsahu videa bez extrakce po jednotlivých snímcích
Transkripce a porozumění audiu — zpracování řeči a zvuků prostředí
Cross-modální uvažování — odpovídání na otázky, které zahrnují textové, obrazové, video a audio vstupy

Tato designová volba odráží zaměření společnosti Google na nasazení v koncových zařízeních. Mobilní zařízení nativně zachycují video a audio, takže modely navržené pro tato zařízení tyto modality podporují.

Konfigurovatelný thinking mode

Gemma 4 představuje konfigurovatelný thinking mode, který generuje 4,000+ tokens interního uvažování před vytvořením odpovědi. To je podobné schopnostem rozšířeného přemýšlení u modelů Claude a řady o od OpenAI, ale implementované v modelu s otevřenými vahami.

Jak to funguje

Když je thinking mode povolen, model:

Přijme vstupní prompt
Vygeneruje interní řetězec úvah (viditelný nebo skrytý v závislosti na konfiguraci)
Použije řetězec úvah k vytvoření kvalitnější finální odpovědi

Thinking mode lze přepínat u každého požadavku, což vývojářům umožňuje:

Povolit thinking pro složité úlohy v matematice, logice, kódování a analýze
Zakázat thinking pro jednoduché dotazy, chat a aplikace citlivé na latenci
Upravit hloubku thinking na základě očekávané složitosti úlohy

Dopad na kvalitu

Thinking mode je hlavním hnacím motorem silného výkonu Gemma 4 v benchmarcích. Skóre AIME 2026 ve výši 89.2% a skóre BigBench Extra Hard ve výši 74% jsou obě dosažena se zapnutým thinking mode. Bez thinking mode by tato skóre byla znatelně nižší — podobně jako u vzorců pozorovaných u jiných modelů s rozšířenými schopnostmi uvažování.

Apache 2.0: Proč na změně licence záleží

Předchozí generace Gemma byly dodávány pod vlastní licencí Gemma společnosti Google, která zahrnovala omezení týkající se:

Použití v určitých aplikacích
Podmínek redistribuce
Omezení komerčního nasazení pro rozsáhlé použití

Gemma 4 přechází na Apache 2.0, stejnou licenci, kterou používají projekty jako Kubernetes, TensorFlow a Apache HTTP Server. To znamená:

Žádná omezení použití — používejte jej pro cokoli, včetně komerčních produktů
Žádná omezení redistribuce — volně sdílejte upravené váhy
Žádné požadavky na uvedení autora nad rámec licence — standardní oznámení Apache 2.0
Není vyžadováno schválení od Google — nasaďte v jakémkoli měřítku bez povolení
Kompatibilní s ostatními open-source licencemi — snadná integrace do stávajících projektů

Pro podniky a startupy budující produkty na otevřených modelech to odstraňuje administrativní zátěž spojenou s právním přezkumem, kterou vyžadovala vlastní licence Gemma. Rovněž to činí Gemma 4 přímo srovnatelnou s modely Llama od Meta (které používají vlastní licenci s určitými omezeními) a staví ji do pozice nejpřívětivěji licencované rodiny vysoce kvalitních otevřených modelů na trhu.

Jazyková podpora

Gemma 4 podporuje 35+ jazyků pro inferenci a byla předtrénována na 140+ jazycích. To z ní dělá jeden z nejvíce vícejazyčných otevřených modelů, po boku modelů Qwen, které také kladou důraz na široké pokrytí jazyků.

Podporované jazyky zahrnují hlavní světové jazyky (angličtina, čínština, španělština, francouzština, němčina, japonština, korejština, arabština, hindština, portugalština, ruština) a také mnoho jazyků s menší digitální stopou. Předtrénování na 140+ jazycích znamená, že model má určité schopnosti i v jazycích nad rámec oficiálně podporovaných 35, ačkoli kvalita se může lišit.

Pro aplikace cílící na globální publikum nebo neanglické trhy toto široké jazykové pokrytí snižuje potřebu specializovaného fine-tuning nebo samostatných modelů pro každý jazyk.

Strukturované použití nástrojů a agentní pracovní postupy

Gemma 4 obsahuje nativní podporu pro strukturované použití nástrojů (tool use), což umožňuje agentní pracovní postupy, kde model může:

Volat externí API pomocí správně formátovaných požadavků
Parsovat strukturované odpovědi z nástrojů a služeb
Řetězit více volání nástrojů k dokončení složitých úkolů
Zvládat chyby a opakované pokusy při provádění nástrojů

Tato schopnost je zvláště relevantní pro integraci s Android Studio, kde Gemma 4 pohání lokální agentní pracovní postupy kódování. Model dokáže pochopit kontext kódu, navrhnout změny, spustit nástroje a iterovat — to vše běží lokálně na stroji vývojáře, aniž by se kód odesílal na externí servery.

Pro vývojáře budující AI agenty poskytuje strukturované použití nástrojů v Gemma 4 plně lokální a plně soukromý základ. V kombinaci s licencí Apache 2.0 to umožňuje budování a nasazování agentních aplikací bez jakékoli závislosti na externích poskytovatelích modelů.

Hardwarové požadavky

Lokální nasazení přes Ollama

Model	Požadovaná RAM (4-bit)	Požadovaná RAM (FP16)	Doporučení GPU
E2B	~5 GB	~5 GB	Jakékoli moderní GPU / pouze CPU
E4B	~5 GB	~9 GB	Jakékoli moderní GPU / pouze CPU
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Zdroj: Knihovna modelů Ollama

Modely E2B a E4B jsou speciálně navrženy pro nasazení v koncových zařízeních. Běží pohodlně na laptopech, desktopových CPU a dokonce i na některých smartphonech. Modely 26B MoE a 31B Dense vyžadují dedikovaný GPU hardware, ale zůstávají přístupné individuálním vývojářům s komerčními GPU.

Optimalizace NVIDIA

Společnost NVIDIA vydala optimalizované verze Gemma 4 pro RTX GPU, které poskytují:

Rychlejší inferenci díky kernel optimalizacím specifickým pro GPU
Lepší využití paměti na kartách řad RTX 4000 a 5000
Integraci TensorRT pro produkční nasazení
Podporu CUDA graph pro snížení režie při opakované inferenci

Zdroj: NVIDIA AI Blog

Co se změnilo oproti Gemma 3

Funkce	Gemma 3	Gemma 4
Licence	Gemma License (omezená)	Apache 2.0 (neomezená)
Velikosti modelů	3 velikosti	4 velikosti (přidáno MoE)
Kontextové okno	Až 128K	Až 256K
Modality	Text, Image	Text, Image, Video, Audio
Thinking Mode	Ne	Ano (konfigurovatelný)
Použití nástrojů	Omezené	Strukturované použití nástrojů
Jazyky	30+	35+ (trénováno na 140+)
BigBench Extra Hard	19%	74%

Zlepšení nastalo v každém rozměru. Nejdůležitějšími změnami pro vývojáře jsou licence Apache 2.0 (odstraňuje právní tření), thinking mode (zvyšuje kvalitu u těžkých úloh) a architektura MoE (poskytuje špičkovou kvalitu za zlomek výpočetních nákladů).

Praktické případy použití

Kódování a vývoj

Strukturované použití nástrojů a thinking mode v Gemma 4 jej činí efektivním pro:

Lokální doplňování a generování kódu
Revizi kódu a detekci chyb
Automatické generování testů
Psaní dokumentace
Agentní pracovní postupy kódování v Android Studio

Zpracování dokumentů

S kontextovými okny 256K a multimodální podporou:

Zpracovávejte celé kódové báze nebo dlouhé dokumenty v jediném promptu
Extrahujejte informace z obrázků dokumentů, účtenek a formulářů
Analyzujte grafy a vizualizace dat
Sumarizujte rozsáhlé výzkumné práce nebo právní dokumenty

Budování aplikací poháněných AI

Pro vývojáře budující produkty, které zahrnují schopnosti AI, poskytuje Gemma 4 silnou vrstvu inference v zařízení nebo s vlastním hostováním. Model se stará o inteligenci — porozumění dotazům, generování odpovědí, zpracování obrázků — zatímco váš aplikační framework se stará o zbytek. Nástroje jako ZBuild mohou urychlit budování obalu aplikace (frontend, backend, databáze, nasazení), což vám umožní soustředit vývojové úsilí na vrstvu integrace AI, kde na schopnostech Gemma 4 záleží nejvíce.

Nasazení v koncových zařízeních a mobilních telefonech

Modely E2B a E4B otevírají případy použití, které byly dříve s otevřenými modely nemožné:

Asistenti v zařízení, kteří fungují offline
Funkce AI chránící soukromí, které nikdy neodesílají data na externí servery
Zpracování videa a audia v reálném čase na mobilních zařízeních
Vestavěná AI v aplikacích IoT a robotice

Jak začít

Ollama (Nejrychlejší cesta)

# Instalace Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Stažení a spuštění Gemma 4
ollama run gemma4:e2b      # Nejméně náročný, běží kdekoli
ollama run gemma4:e4b      # Malý, širší schopnosti
ollama run gemma4:26b-moe  # MoE, nejlepší efektivita
ollama run gemma4:31b      # Dense, nejvyšší kvalita

Hugging Face

Všechny modely Gemma 4 jsou k dispozici na Hugging Face s plnou integrací transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google poskytuje bezplatný API přístup ke Gemma 4 skrze AI Studio pro experimentování a prototypování, přičemž Vertex AI je k dispozici pro produkční nasazení.

Gemma 4 v konkurenčním prostředí

Pro pochopení toho, kde Gemma 4 stojí v širším ekosystému:

Model	Parametry	Licence	MMLU Pro	Arena AI	Kontext
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B aktivní)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B aktivní)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B aktivní)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B aktivní)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B dosahuje nejvyššího skóre MMLU Pro a umístění v Arena AI mezi otevřenými modely — a to s nejmenším celkovým počtem parametrů. Tato efektivita parametrů je přímým důsledkem technologického základu Gemini 3 a konfigurovatelného thinking mode.

Příběh efektivity modelu 26B MoE je ještě přesvědčivější. Řadí se na 6. místo na Arena AI, přičemž aktivuje pouze 3.8B parametrů na token. Žádný jiný model nedosahuje srovnatelného poměru kvality k výpočtu. Pro produkční nasazení, kde náklady na inferenci rostou s používáním, se tato efektivita přímo promítá do úspor nákladů.

Ve srovnání s proprietárními modely jsou benchmarky Gemma 4 31B konkurenceschopné s nabídkami střední třídy od Anthropic a OpenAI. Zatímco špičkové proprietární modely stále vedou v nejtěžších úlohách, propast se dramaticky zúžila — a Gemma 4 přichází s nulovými náklady na token a plnou svobodou Apache 2.0.

Verdikt

Gemma 4 nastavuje v roce 2026 nový standard pro modely s otevřenými vahami. Kombinace licencování Apache 2.0, čtyř dobře diferencovaných velikostí modelů, nativní multimodální podpory, konfigurovatelného thinking mode a výsledků v benchmarcích konkurenceschopných s mnohem většími modely z ní činí nejpraktičtější dostupnou rodinu otevřených modelů.

31B Dense je správnou volbou, když potřebujete maximální kvalitu. 26B MoE je správnou volbou, když potřebujete silnou kvalitu při minimálních výpočetních nákladech. E2B a E4B jsou správnými volbami pro nasazení v koncových zařízeních a on-device AI. Poprvé v rodině Gemma licence neomezuje žádný z těchto případů použití.

Google Gemma 4: Kompletní průvodce specifikacemi, benchmarky a novinkami (2026)