Vad är Google Gemma 4 och när släpptes den?

Google Gemma 4 är Google DeepMinds open-weight-modellfamilj som släpptes den 2 april 2026. Den innehåller 4 storlekar — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total) och 31B Dense. Alla modeller släpps under Apache 2.0, den mest tillåtande licens som någonsin använts för en Gemma-release.

Är Gemma 4 verkligen open source?

Ja. Gemma 4 är den första Gemma-generationen som släppts under Apache 2.0-licensen, vilket tillåter obegränsad kommersiell användning, modifiering och vidaredistribution utan att kräva tillstånd från Google. Tidigare Gemma-modeller använde Googles egna Gemma-licens som införde användningsrestriktioner.

Vilket context window stöder Gemma 4?

De mindre modellerna (E2B och E4B) stöder 128K token context windows. De större modellerna (26B MoE och 31B Dense) stöder 256K token context windows. Detta är en stor förbättring jämfört med context-begränsningarna i Gemma 3 och möjliggör bearbetning av hela kodbaser eller långa dokument i en enda prompt.

Kan Gemma 4 bearbeta bilder, video och ljud?

Ja. Alla fyra Gemma 4-modeller är ursprungligen multimodala och stöder text- och bildinmatning. E2B- och E4B-modellerna går ännu längre med inbyggt stöd för video- och ljudbearbetning. Detta gör Gemma 4 till den första open-weight-modellfamiljen där de minsta modellerna har det bredaste stödet för olika modaliteter.

Hur fungerar Gemma 4:s thinking mode?

Gemma 4 inkluderar ett konfigurerbart thinking mode som genererar 4,000+ tokens av intern slutledning innan den ger ett svar. Denna chain-of-thought-slutledning kan slås på eller av per förfrågan, vilket låter utvecklare välja mellan snabbare svar för enkla uppgifter och djupare resonemang för komplexa problem som matematik, logik och kodning.

Vilken hårdvara behöver jag för att köra Gemma 4 lokalt?

Gemma 4 E2B och E4B kan köras på enheter med så lite som 5GB RAM med 4-bit quantization, inklusive smartphones och bärbara datorer. 26B MoE-modellen kräver ungefär 18GB RAM och 31B Dense kräver ungefär 20GB RAM. Alla modeller körs via Ollama med NVIDIA RTX GPU-optimering tillgänglig.

Viktig slutsats

Google Gemma 4 är den mest kapabla modellfamiljen med öppna vikter som någonsin släppts under en genuint tillåtande licens. 31B Dense-modellen når 85.2% på MMLU Pro och rankas som 3:a bland alla öppna modeller på Arena AI — samtidigt som 26B MoE uppnår nästan identisk kvalitet med endast 3.8B aktiva parametrar. För första gången levereras Gemma under Apache 2.0, vilket tar bort alla licensieringshinder som höll tillbaka kommersiellt införande av tidigare generationer.

Google Gemma 4: Allt du behöver veta

Översikt över lanseringen

Google DeepMind släppte Gemma 4 den April 2, 2026, och introducerade fyra modellstorlekar byggda på samma tekniska grund som Gemini 3. Denna generation representerar det största språnget i Gemma-familjen i alla dimensioner: modellkvalitet, multimodala förmågor, kontextlängd och licensvillkor.

De viktigaste förändringarna från Gemma 3:

Apache 2.0-licensiering — inga användningsrestriktioner, ingen anpassad licens, full kommersiell frihet
Fyra modellstorlekar istället för tre, inklusive en ny MoE-arkitektur
Nativt multimodalt stöd i alla storlekar (text, bilder, video, ljud)
Konfigurerbart tänkläge med 4,000+ token resonemangskedjor
256K kontextfönster på större modeller (upp från Gemma 3:s begränsningar)
35+ stödda språk, förtränad på 140+ språk
Strukturerad verktygsanvändning för agentiska arbetsflöden

De fyra modellstorlekarna

Gemma 4 levereras i fyra distinkta storlekar, var och en riktad mot olika driftsättningsscenarier:

Modell	Parametrar	Aktiva parametrar	Arkitektur	Kontext	Modaliteter
E2B	2.3B effektiva	2.3B	Dense	128K	Text, Image, Video, Audio
E4B	4.5B effektiva	4.5B	Dense	128K	Text, Image, Video, Audio
26B MoE	26B totalt	3.8B	Mixture of Experts	256K	Text, Image
31B Dense	31B	31B	Dense	256K	Text, Image

Källa: Google AI Blog

E2B och E4B: Edge-modellerna

De minsta Gemma 4-modellerna är designade för driftsättning direkt på enheter. Med 2.3B respektive 4.5B effektiva parametrar körs de på smartphones, surfplattor och bärbara datorer med så lite som 5GB RAM med 4-bit quantization.

Det som gör dessa modeller anmärkningsvärda är deras modala bredd. Trots att de är de minsta i familjen är E2B och E4B de enda Gemma 4-modellerna som stöder alla fyra inmatningsmodaliteter: text, bilder, video och ljud. Detta är ett medvetet designval — edge-enheter med kameror och mikrofoner drar störst nytta av multimodala förmågor.

Båda modellerna stöder 128K token kontextfönster, vilket är generöst för deras antal parametrar och tillräckligt för de flesta användningsfall på enhet.

26B MoE: Maximal effektivitet

Modellen 26B Mixture of Experts är utan tvekan den mest intressanta modellen i Gemma 4-serien. Den innehåller 26B totala parametrar men aktiverar endast 3.8B parametrar för varje given inmatning — ungefär samma beräkningskostnad som E4B-modellen men med tillgång till dramatiskt mer kunskap och förmåga.

På Arena AI rankas 26B MoE som 6:a bland alla öppna modeller med en poäng på 1441, trots att den endast använder 3.8B aktiva parametrar. Detta effektivitetsförhållande saknar motstycke — ingen annan modell uppnår jämförbar kvalitet till denna beräkningskostnad.

MoE-arkitekturen dirigerar varje token genom specialiserade expertnätverk, vilket gör att modellen kan bibehålla en stor kunskapskapacitet samtidigt som kostnaden för inferens hålls låg. För driftsättningsscenarier där du behöver starkt resonemang men har begränsat GPU-minne är 26B MoE det optimala valet.

31B Dense: Maximal kvalitet

31B Dense-modellen är flaggskeppet i Gemma 4. Varje parameter är aktiv för varje token, vilket ger den de mest konsekventa resultaten med högst kvalitet över alla typer av uppgifter.

På Arena AI rankas 31B Dense som 3:a bland alla öppna modeller med en poäng på 1452. På MMLU Pro når den 85.2% — vilket är konkurrenskraftigt med modeller som är flera gånger större. Poängen 89.2% på AIME 2026 påvisar ett starkt matematiskt resonemang, medan 74% på BigBench Extra Hard (upp från 19% i tidigare generationer) visar en enorm förbättring i komplexa resonemangsuppgifter.

Benchmarks: Fullständig data

Resonemang och kunskap

Benchmark	31B Dense	26B MoE	Noteringar
MMLU Pro	85.2%	—	Kunskap på forskarnivå
AIME 2026	89.2%	—	Tävlingsmatematik
BigBench Extra Hard	74%	—	Upp från 19% i föregående gen
Arena AI Score	1452 (3:a)	1441 (6:a)	Ranking för öppna modeller

Källa: Google DeepMind technical report

BigBench Extra Hard: Det mest framstående resultatet

Hoppet från 19% till 74% på BigBench Extra Hard förtjänar särskild uppmärksamhet. Detta benchmark testar komplexa resonemang i flera steg, logisk deduktion och uppgifter som kräver genuin förståelse snarare än mönstermatchning. En förbättring på 55 procentenheter i en enda generation tyder på fundamentala framsteg i Gemma 4:s resonemangsarkitektur, inte bara skalning.

Denna förbättring är sannolikt kopplad till det konfigurerbara tänkläget och den underliggande Gemini 3-teknologin som Gemma 4 är byggd på. Tänkläget genererar utökade resonemangskedjor som hjälper modellen att arbeta sig igenom komplexa problem steg för steg.

Kontext för Arena AI-ranking

Arena AI rankar modeller baserat på mänskliga preferensjämförelser sida vid sida. Att 31B Dense får 1452 poäng och rankas som 3:a bland öppna modeller placerar den över många modeller med betydligt fler parametrar. Som kontext:

Modeller som rankas högre är vanligtvis modeller med 70B+ parametrar
Att 26B MoE når 1441 med endast 3.8B aktiva parametrar är ett genombrott för effektivitet
Båda modellerna utpresterar den tidigare Gemma 3 27B med god marginal

Multimodala förmågor

Bildförståelse

Alla fyra Gemma 4-modeller bearbetar bilder nativt. Förmågorna inkluderar:

Beskrivning och analys av bilder — detaljerad förståelse av visuellt innehåll
OCR och dokumenttolkning — extrahering av text från bilder, kvitton, skärmdumpar
Tolkning av diagram och scheman — förståelse av datavisualiseringar
Visuellt resonemang — svara på frågor som kräver förståelse för rumsliga relationer

Video och ljud (Endast E2B/E4B)

De mindre modellerna E2B och E4B lägger till nativ video- och ljudbearbetning:

Videoförståelse — analysera videoinnehåll utan extrahering av enskilda rutor
Transkribering och förståelse av ljud — bearbetning av tal och omgivningsljud
Korsmodal resonemang — svara på frågor som spänner över text, bild, video och ljud

Detta designval speglar Googles fokus på driftsättning i kanten. Mobila enheter fångar video och ljud nativt, så modellerna som är designade för dessa enheter stöder dessa modaliteter.

Konfigurerbart tänkläge

Gemma 4 introducerar ett konfigurerbart tänkläge som genererar 4,000+ tokens av internt resonemang innan ett svar produceras. Detta liknar de utökade tänkningsförmågorna som ses i Claude-modeller och OpenAI:s o-serie, men implementerat i en modell med öppna vikter.

Hur det fungerar

När tänkläget är aktiverat:

Tar modellen emot inmatningen (prompten)
Genererar en intern resonemangskedja (synlig eller dold, beroende på konfiguration)
Använder resonemangskedjan för att producera ett slutgiltigt svar med högre kvalitet

Tänkläget kan växlas per begäran, vilket gör att utvecklare kan:

Aktivera tänkande för komplex matematik, logik, kodning och analysuppgifter
Inaktivera tänkande för enkla frågor, chatt och latenskänsliga applikationer
Justera tänkandets djup baserat på uppgiftens förväntade komplexitet

Påverkan på kvalitet

Tänkläget är en primär drivkraft bakom Gemma 4:s starka benchmark-prestanda. Poängen på 89.2% i AIME 2026 och 74% i BigBench Extra Hard uppnåddes båda med tänkläget aktiverat. Utan tänkläge skulle dessa poäng vara märkbart lägre — liknande mönstret som ses i andra modeller med utökade resonemangsförmågor.

Apache 2.0: Varför licensändringen spelar roll

Tidigare Gemma-generationer levererades under Googles anpassade Gemma-licens, som inkluderade restriktioner för:

Användning i vissa applikationer
Vidaredistributionsvillkor
Begränsningar för kommersiell driftsättning för storskalig användning

Gemma 4 går över till Apache 2.0, samma licens som används av projekt som Kubernetes, TensorFlow och Apache HTTP Server. Detta innebär:

Inga användningsrestriktioner — använd den för vad som helst, inklusive kommersiella produkter
Inga begränsningar för vidaredistribution — dela modifierade vikter fritt
Inga krav på tillskrivning utöver licensen — standard Apache 2.0-meddelande
Inget godkännande från Google krävs — driftsätt i vilken skala som helst utan tillstånd
Kompatibel med andra open-source-licenser — lätt att integrera i befintliga projekt

För företag och nystartade bolag som bygger produkter ovanpå öppna modeller tar detta bort den juridiska granskningsbörda som Gemmas anpassade licens krävde. Det gör också Gemma 4 direkt jämförbar med Metas Llama-modeller (som använder sin egen anpassade licens med vissa restriktioner) och positionerar den som den mest tillåtande licensierade modellfamiljen av hög kvalitet som finns tillgänglig.

Språkstöd

Gemma 4 stöder 35+ språk för inferens och var förtränad på 140+ språk. Detta gör den till en av de mest flerspråkiga öppna modellerna som finns, vid sidan av Qwen-modeller som också betonar brett språkstöd.

Språk som stöds inkluderar stora världsspråk (engelska, kinesiska, spanska, franska, tyska, japanska, koreanska, arabiska, hindi, portugisiska, ryska) samt många språk med mindre digital närvaro. Förträningsfasen på 140+ språk innebär att modellen har viss förmåga i språk utöver de officiellt stödda 35+, även om kvaliteten kan variera.

För applikationer som riktar sig till en global publik eller icke-engelska marknader minskar detta breda språkstöd behovet av specialiserad finjustering eller separata modeller per språk.

Strukturerad verktygsanvändning och agentiska arbetsflöden

Gemma 4 inkluderar nativt stöd för strukturerad verktygsanvändning, vilket möjliggör agentiska arbetsflöden där modellen kan:

Anropa externa API med korrekt formaterade förfrågningar
Tolka strukturerade svar från verktyg och tjänster
Kedja flera verktygsanrop för att slutföra komplexa uppgifter
Hantera fel och omförsök vid verktygsexekvering

Denna förmåga är särskilt relevant för Android Studio-integration, där Gemma 4 driver lokala agentiska arbetsflöden för kodning. Modellen kan förstå kodkontext, föreslå ändringar, köra verktyg och iterera — allt körs lokalt på utvecklarens maskin utan att skicka kod till externa servrar.

För utvecklare som bygger AI-agenter ger Gemma 4:s strukturerade verktygsanvändning en helt lokal och privat grund. Kombinerat med Apache 2.0-licensen möjliggör detta att bygga och driftsätta agentiska applikationer utan beroende av externa modell-leverantörer.

Hårdvarukrav

Lokal driftsättning via Ollama

Modell	RAM-krav (4-bit)	RAM-krav (FP16)	GPU-rekommendation
E2B	~5 GB	~5 GB	Vilken modern GPU som helst / endast CPU
E4B	~5 GB	~9 GB	Vilken modern GPU som helst / endast CPU
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Källa: Ollama model library

E2B- och E4B-modellerna är specifikt designade för driftsättning i kanten. De körs obehindrat på bärbara datorer, stationära CPU:er och till och med vissa smartphones. 26B MoE- och 31B Dense-modellerna kräver dedikerad GPU-hårdvara men förblir tillgängliga för enskilda utvecklare med konsument-GPU:er.

NVIDIA-optimering

NVIDIA har släppt optimerade versioner av Gemma 4 för RTX-GPU:er, vilket ger:

Snabbare inferens genom GPU-specifika kernel-optimeringar
Bättre minnesutnyttjande på RTX 4000- och 5000-seriens kort
TensorRT-integration för produktionsdriftsättning
CUDA graph-stöd för minskad overhead vid upprepad inferens

Källa: NVIDIA AI Blog

Vad som ändrats från Gemma 3

Funktion	Gemma 3	Gemma 4
Licens	Gemma License (begränsad)	Apache 2.0 (obegränsad)
Modellstorlekar	3 storlekar	4 storlekar (MoE tillagd)
Kontextfönster	Upp till 128K	Upp till 256K
Modaliteter	Text, Image	Text, Image, Video, Audio
Tänkläge	Nej	Ja (konfigurerbart)
Verktygsanvändning	Begränsad	Strukturerad verktygsanvändning
Språk	30+	35+ (förtränad på 140+)
BigBench Extra Hard	19%	74%

Varje dimension har förbättrats. De mest betydelsefulla förändringarna för utvecklare är Apache 2.0-licensen (tar bort juridisk friktion), tänkläget (förbättrar kvalitet på svåra uppgifter) och MoE-arkitekturen (ger flaggskeppskvalitet till en bråkdel av beräkningskostnaden).

Praktiska användningsfall

Kodning och utveckling

Gemma 4:s strukturerade verktygsanvändning och tänkläge gör den effektiv för:

Lokal kodkomplettering och generering
Kodgranskning och upptäckt av buggar
Automatiserad testgenerering
Skrivande av dokumentation
Agentiska arbetsflöden för kodning i Android Studio

Dokumentbehandling

Med 256K kontextfönster och multimodalt stöd:

Bearbeta hela kodbaser eller långa dokument i en enda prompt
Extrahera information från bilder av dokument, kvitton och formulär
Analysera diagram och datavisualiseringar
Sammanfatta långa forskningsrapporter eller juridiska dokument

Bygga AI-drivna applikationer

För utvecklare som bygger produkter som inkluderar AI-förmågor ger Gemma 4 ett starkt lager för inferens på enhet eller genom självhanterad hosting. Modellen hanterar intelligensen — förstår frågor, genererar svar, bearbetar bilder — medan ditt applikationsramverk hanterar resten. Verktyg som ZBuild kan påskynda uppbyggnaden av applikationsskalet (frontend, backend, databas, driftsättning), vilket gör att du kan fokusera utvecklingsarbetet på AI-integrationslagret där Gemma 4:s förmågor spelar störst roll.

Edge- och mobil driftsättning

E2B- och E4B-modellerna öppnar upp användningsfall som tidigare var omöjliga med öppna modeller:

Assistenter på enheten som fungerar offline
Integritetsbevarande AI-funktioner som aldrig skickar data till externa servrar
Realtidsbearbetning av video och ljud på mobila enheter
Inbäddad AI i IoT- och robotikapplikationer

Hur man kommer igång

Ollama (Snabbaste vägen)

# Installera Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Hämta och kör Gemma 4
ollama run gemma4:e2b      # Minst, körs överallt
ollama run gemma4:e4b      # Liten, bredare förmåga
ollama run gemma4:26b-moe  # MoE, bäst effektivitet
ollama run gemma4:31b      # Dense, högst kvalitet

Hugging Face

Alla Gemma 4-modeller finns tillgängliga på Hugging Face med full transformers-integration:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google erbjuder gratis API-åtkomst till Gemma 4 via AI Studio för experiment och prototypskapande, med Vertex AI tillgängligt för driftsättning i produktion.

Gemma 4 i det konkurrensutsatta landskapet

För att förstå var Gemma 4 befinner sig i det bredare ekosystemet:

Modell	Parametrar	Licens	MMLU Pro	Arena AI	Kontext
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B aktiva)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B aktiva)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B aktiva)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B aktiva)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B uppnår den högsta poängen i MMLU Pro och ranking i Arena AI bland öppna modeller — med lägst antal totala parametrar. Denna parametereffektivitet är ett direkt resultat av Gemini 3-teknologin och det konfigurerbara tänkläget.

26B MoE-modellens effektivitetshistoria är ännu mer övertygande. Den rankas som 6:a på Arena AI trots att den bara aktiverar 3.8B parametrar per token. Ingen annan modell uppnår ett jämförbart förhållande mellan kvalitet och beräkning. För produktionsdriftsättningar där inferenskostnaden skalar med användning, översätts denna effektivitet direkt till kostnadsbesparingar.

Jämfört med proprietära modeller är Gemma 4 31B:s benchmarks konkurrenskraftiga med mellanklass-erbjudanden från Anthropic och OpenAI. Även om de främsta proprietära modellerna fortfarande leder på de svåraste uppgifterna har klyftan minskat dramatiskt — och Gemma 4 kommer med noll kostnad per token och full Apache 2.0-frihet.

Omdöme

Gemma 4 sätter en ny standard för modeller med öppna vikter under 2026. Kombinationen av Apache 2.0-licensiering, fyra väl differentierade modellstorlekar, nativt multimodalt stöd, konfigurerbart tänkläge och benchmark-poäng som är konkurrenskraftiga med mycket större modeller gör den till den mest praktiska öppna modellfamiljen som finns tillgänglig.

31B Dense är rätt val när du behöver maximal kvalitet. 26B MoE är rätt val när du behöver stark kvalitet till minimal beräkningskostnad. E2B och E4B är rätt val för driftsättning i kanten och AI på enheten. För första gången i Gemma-familjen begränsar licensen inte något av dessa användningsfall.

Google Gemma 4: Komplett guide till specifikationer, benchmarks och nyheter (2026)