← Back to news
ZBuild News

Google Gemma 4: Komplett guide till specifikationer, benchmarks och nyheter (2026)

Allt du behöver veta om Google Gemma 4 — den första Apache 2.0-licensierade Gemma-releasen. Täcker alla 4 modellstorlekar (E2B, E4B, 26B MoE, 31B Dense), multimodala funktioner, konfigurerbart thinking mode, 256K context, 85.2% MMLU Pro och hårdvarukrav för lokal driftsättning.

Published
2026-04-03T00:00:00.000Z
Author
ZBuild Team
Reading Time
12 min read
gemma 4google gemma 4gemma 4 releasegemma 4 benchmarksgemma 4 specsgemma 4 open source
Google Gemma 4: Komplett guide till specifikationer, benchmarks och nyheter (2026)
ZBuild Teamsv
XLinkedIn

Viktig slutsats

Google Gemma 4 är den mest kapabla modellfamiljen med öppna vikter som någonsin släppts under en genuint tillåtande licens. 31B Dense-modellen når 85.2% på MMLU Pro och rankas som 3:a bland alla öppna modeller på Arena AI — samtidigt som 26B MoE uppnår nästan identisk kvalitet med endast 3.8B aktiva parametrar. För första gången levereras Gemma under Apache 2.0, vilket tar bort alla licensieringshinder som höll tillbaka kommersiellt införande av tidigare generationer.


Google Gemma 4: Allt du behöver veta

Översikt över lanseringen

Google DeepMind släppte Gemma 4 den April 2, 2026, och introducerade fyra modellstorlekar byggda på samma tekniska grund som Gemini 3. Denna generation representerar det största språnget i Gemma-familjen i alla dimensioner: modellkvalitet, multimodala förmågor, kontextlängd och licensvillkor.

De viktigaste förändringarna från Gemma 3:

  • Apache 2.0-licensiering — inga användningsrestriktioner, ingen anpassad licens, full kommersiell frihet
  • Fyra modellstorlekar istället för tre, inklusive en ny MoE-arkitektur
  • Nativt multimodalt stöd i alla storlekar (text, bilder, video, ljud)
  • Konfigurerbart tänkläge med 4,000+ token resonemangskedjor
  • 256K kontextfönster på större modeller (upp från Gemma 3:s begränsningar)
  • 35+ stödda språk, förtränad på 140+ språk
  • Strukturerad verktygsanvändning för agentiska arbetsflöden

De fyra modellstorlekarna

Gemma 4 levereras i fyra distinkta storlekar, var och en riktad mot olika driftsättningsscenarier:

ModellParametrarAktiva parametrarArkitekturKontextModaliteter
E2B2.3B effektiva2.3BDense128KText, Image, Video, Audio
E4B4.5B effektiva4.5BDense128KText, Image, Video, Audio
26B MoE26B totalt3.8BMixture of Experts256KText, Image
31B Dense31B31BDense256KText, Image

Källa: Google AI Blog

E2B och E4B: Edge-modellerna

De minsta Gemma 4-modellerna är designade för driftsättning direkt på enheter. Med 2.3B respektive 4.5B effektiva parametrar körs de på smartphones, surfplattor och bärbara datorer med så lite som 5GB RAM med 4-bit quantization.

Det som gör dessa modeller anmärkningsvärda är deras modala bredd. Trots att de är de minsta i familjen är E2B och E4B de enda Gemma 4-modellerna som stöder alla fyra inmatningsmodaliteter: text, bilder, video och ljud. Detta är ett medvetet designval — edge-enheter med kameror och mikrofoner drar störst nytta av multimodala förmågor.

Båda modellerna stöder 128K token kontextfönster, vilket är generöst för deras antal parametrar och tillräckligt för de flesta användningsfall på enhet.

26B MoE: Maximal effektivitet

Modellen 26B Mixture of Experts är utan tvekan den mest intressanta modellen i Gemma 4-serien. Den innehåller 26B totala parametrar men aktiverar endast 3.8B parametrar för varje given inmatning — ungefär samma beräkningskostnad som E4B-modellen men med tillgång till dramatiskt mer kunskap och förmåga.

Arena AI rankas 26B MoE som 6:a bland alla öppna modeller med en poäng på 1441, trots att den endast använder 3.8B aktiva parametrar. Detta effektivitetsförhållande saknar motstycke — ingen annan modell uppnår jämförbar kvalitet till denna beräkningskostnad.

MoE-arkitekturen dirigerar varje token genom specialiserade expertnätverk, vilket gör att modellen kan bibehålla en stor kunskapskapacitet samtidigt som kostnaden för inferens hålls låg. För driftsättningsscenarier där du behöver starkt resonemang men har begränsat GPU-minne är 26B MoE det optimala valet.

31B Dense: Maximal kvalitet

31B Dense-modellen är flaggskeppet i Gemma 4. Varje parameter är aktiv för varje token, vilket ger den de mest konsekventa resultaten med högst kvalitet över alla typer av uppgifter.

På Arena AI rankas 31B Dense som 3:a bland alla öppna modeller med en poäng på 1452. På MMLU Pro når den 85.2% — vilket är konkurrenskraftigt med modeller som är flera gånger större. Poängen 89.2% på AIME 2026 påvisar ett starkt matematiskt resonemang, medan 74% på BigBench Extra Hard (upp från 19% i tidigare generationer) visar en enorm förbättring i komplexa resonemangsuppgifter.


Benchmarks: Fullständig data

Resonemang och kunskap

Benchmark31B Dense26B MoENoteringar
MMLU Pro85.2%Kunskap på forskarnivå
AIME 202689.2%Tävlingsmatematik
BigBench Extra Hard74%Upp från 19% i föregående gen
Arena AI Score1452 (3:a)1441 (6:a)Ranking för öppna modeller

Källa: Google DeepMind technical report

BigBench Extra Hard: Det mest framstående resultatet

Hoppet från 19% till 74% på BigBench Extra Hard förtjänar särskild uppmärksamhet. Detta benchmark testar komplexa resonemang i flera steg, logisk deduktion och uppgifter som kräver genuin förståelse snarare än mönstermatchning. En förbättring på 55 procentenheter i en enda generation tyder på fundamentala framsteg i Gemma 4:s resonemangsarkitektur, inte bara skalning.

Denna förbättring är sannolikt kopplad till det konfigurerbara tänkläget och den underliggande Gemini 3-teknologin som Gemma 4 är byggd på. Tänkläget genererar utökade resonemangskedjor som hjälper modellen att arbeta sig igenom komplexa problem steg för steg.

Kontext för Arena AI-ranking

Arena AI rankar modeller baserat på mänskliga preferensjämförelser sida vid sida. Att 31B Dense får 1452 poäng och rankas som 3:a bland öppna modeller placerar den över många modeller med betydligt fler parametrar. Som kontext:

  • Modeller som rankas högre är vanligtvis modeller med 70B+ parametrar
  • Att 26B MoE når 1441 med endast 3.8B aktiva parametrar är ett genombrott för effektivitet
  • Båda modellerna utpresterar den tidigare Gemma 3 27B med god marginal

Multimodala förmågor

Bildförståelse

Alla fyra Gemma 4-modeller bearbetar bilder nativt. Förmågorna inkluderar:

  • Beskrivning och analys av bilder — detaljerad förståelse av visuellt innehåll
  • OCR och dokumenttolkning — extrahering av text från bilder, kvitton, skärmdumpar
  • Tolkning av diagram och scheman — förståelse av datavisualiseringar
  • Visuellt resonemang — svara på frågor som kräver förståelse för rumsliga relationer

Video och ljud (Endast E2B/E4B)

De mindre modellerna E2B och E4B lägger till nativ video- och ljudbearbetning:

  • Videoförståelse — analysera videoinnehåll utan extrahering av enskilda rutor
  • Transkribering och förståelse av ljud — bearbetning av tal och omgivningsljud
  • Korsmodal resonemang — svara på frågor som spänner över text, bild, video och ljud

Detta designval speglar Googles fokus på driftsättning i kanten. Mobila enheter fångar video och ljud nativt, så modellerna som är designade för dessa enheter stöder dessa modaliteter.


Konfigurerbart tänkläge

Gemma 4 introducerar ett konfigurerbart tänkläge som genererar 4,000+ tokens av internt resonemang innan ett svar produceras. Detta liknar de utökade tänkningsförmågorna som ses i Claude-modeller och OpenAI:s o-serie, men implementerat i en modell med öppna vikter.

Hur det fungerar

När tänkläget är aktiverat:

  1. Tar modellen emot inmatningen (prompten)
  2. Genererar en intern resonemangskedja (synlig eller dold, beroende på konfiguration)
  3. Använder resonemangskedjan för att producera ett slutgiltigt svar med högre kvalitet

Tänkläget kan växlas per begäran, vilket gör att utvecklare kan:

  • Aktivera tänkande för komplex matematik, logik, kodning och analysuppgifter
  • Inaktivera tänkande för enkla frågor, chatt och latenskänsliga applikationer
  • Justera tänkandets djup baserat på uppgiftens förväntade komplexitet

Påverkan på kvalitet

Tänkläget är en primär drivkraft bakom Gemma 4:s starka benchmark-prestanda. Poängen på 89.2% i AIME 2026 och 74% i BigBench Extra Hard uppnåddes båda med tänkläget aktiverat. Utan tänkläge skulle dessa poäng vara märkbart lägre — liknande mönstret som ses i andra modeller med utökade resonemangsförmågor.


Apache 2.0: Varför licensändringen spelar roll

Tidigare Gemma-generationer levererades under Googles anpassade Gemma-licens, som inkluderade restriktioner för:

  • Användning i vissa applikationer
  • Vidaredistributionsvillkor
  • Begränsningar för kommersiell driftsättning för storskalig användning

Gemma 4 går över till Apache 2.0, samma licens som används av projekt som Kubernetes, TensorFlow och Apache HTTP Server. Detta innebär:

  • Inga användningsrestriktioner — använd den för vad som helst, inklusive kommersiella produkter
  • Inga begränsningar för vidaredistribution — dela modifierade vikter fritt
  • Inga krav på tillskrivning utöver licensen — standard Apache 2.0-meddelande
  • Inget godkännande från Google krävs — driftsätt i vilken skala som helst utan tillstånd
  • Kompatibel med andra open-source-licenser — lätt att integrera i befintliga projekt

För företag och nystartade bolag som bygger produkter ovanpå öppna modeller tar detta bort den juridiska granskningsbörda som Gemmas anpassade licens krävde. Det gör också Gemma 4 direkt jämförbar med Metas Llama-modeller (som använder sin egen anpassade licens med vissa restriktioner) och positionerar den som den mest tillåtande licensierade modellfamiljen av hög kvalitet som finns tillgänglig.


Språkstöd

Gemma 4 stöder 35+ språk för inferens och var förtränad på 140+ språk. Detta gör den till en av de mest flerspråkiga öppna modellerna som finns, vid sidan av Qwen-modeller som också betonar brett språkstöd.

Språk som stöds inkluderar stora världsspråk (engelska, kinesiska, spanska, franska, tyska, japanska, koreanska, arabiska, hindi, portugisiska, ryska) samt många språk med mindre digital närvaro. Förträningsfasen på 140+ språk innebär att modellen har viss förmåga i språk utöver de officiellt stödda 35+, även om kvaliteten kan variera.

För applikationer som riktar sig till en global publik eller icke-engelska marknader minskar detta breda språkstöd behovet av specialiserad finjustering eller separata modeller per språk.


Strukturerad verktygsanvändning och agentiska arbetsflöden

Gemma 4 inkluderar nativt stöd för strukturerad verktygsanvändning, vilket möjliggör agentiska arbetsflöden där modellen kan:

  • Anropa externa API med korrekt formaterade förfrågningar
  • Tolka strukturerade svar från verktyg och tjänster
  • Kedja flera verktygsanrop för att slutföra komplexa uppgifter
  • Hantera fel och omförsök vid verktygsexekvering

Denna förmåga är särskilt relevant för Android Studio-integration, där Gemma 4 driver lokala agentiska arbetsflöden för kodning. Modellen kan förstå kodkontext, föreslå ändringar, köra verktyg och iterera — allt körs lokalt på utvecklarens maskin utan att skicka kod till externa servrar.

För utvecklare som bygger AI-agenter ger Gemma 4:s strukturerade verktygsanvändning en helt lokal och privat grund. Kombinerat med Apache 2.0-licensen möjliggör detta att bygga och driftsätta agentiska applikationer utan beroende av externa modell-leverantörer.


Hårdvarukrav

Lokal driftsättning via Ollama

ModellRAM-krav (4-bit)RAM-krav (FP16)GPU-rekommendation
E2B~5 GB~5 GBVilken modern GPU som helst / endast CPU
E4B~5 GB~9 GBVilken modern GPU som helst / endast CPU
26B MoE~18 GB~52 GBRTX 4090 / RTX 5090
31B Dense~20 GB~62 GBRTX 4090 / RTX 5090

Källa: Ollama model library

E2B- och E4B-modellerna är specifikt designade för driftsättning i kanten. De körs obehindrat på bärbara datorer, stationära CPU:er och till och med vissa smartphones. 26B MoE- och 31B Dense-modellerna kräver dedikerad GPU-hårdvara men förblir tillgängliga för enskilda utvecklare med konsument-GPU:er.

NVIDIA-optimering

NVIDIA har släppt optimerade versioner av Gemma 4 för RTX-GPU:er, vilket ger:

  • Snabbare inferens genom GPU-specifika kernel-optimeringar
  • Bättre minnesutnyttjande på RTX 4000- och 5000-seriens kort
  • TensorRT-integration för produktionsdriftsättning
  • CUDA graph-stöd för minskad overhead vid upprepad inferens

Källa: NVIDIA AI Blog


Vad som ändrats från Gemma 3

FunktionGemma 3Gemma 4
LicensGemma License (begränsad)Apache 2.0 (obegränsad)
Modellstorlekar3 storlekar4 storlekar (MoE tillagd)
KontextfönsterUpp till 128KUpp till 256K
ModaliteterText, ImageText, Image, Video, Audio
TänklägeNejJa (konfigurerbart)
VerktygsanvändningBegränsadStrukturerad verktygsanvändning
Språk30+35+ (förtränad på 140+)
BigBench Extra Hard19%74%

Varje dimension har förbättrats. De mest betydelsefulla förändringarna för utvecklare är Apache 2.0-licensen (tar bort juridisk friktion), tänkläget (förbättrar kvalitet på svåra uppgifter) och MoE-arkitekturen (ger flaggskeppskvalitet till en bråkdel av beräkningskostnaden).


Praktiska användningsfall

Kodning och utveckling

Gemma 4:s strukturerade verktygsanvändning och tänkläge gör den effektiv för:

  • Lokal kodkomplettering och generering
  • Kodgranskning och upptäckt av buggar
  • Automatiserad testgenerering
  • Skrivande av dokumentation
  • Agentiska arbetsflöden för kodning i Android Studio

Dokumentbehandling

Med 256K kontextfönster och multimodalt stöd:

  • Bearbeta hela kodbaser eller långa dokument i en enda prompt
  • Extrahera information från bilder av dokument, kvitton och formulär
  • Analysera diagram och datavisualiseringar
  • Sammanfatta långa forskningsrapporter eller juridiska dokument

Bygga AI-drivna applikationer

För utvecklare som bygger produkter som inkluderar AI-förmågor ger Gemma 4 ett starkt lager för inferens på enhet eller genom självhanterad hosting. Modellen hanterar intelligensen — förstår frågor, genererar svar, bearbetar bilder — medan ditt applikationsramverk hanterar resten. Verktyg som ZBuild kan påskynda uppbyggnaden av applikationsskalet (frontend, backend, databas, driftsättning), vilket gör att du kan fokusera utvecklingsarbetet på AI-integrationslagret där Gemma 4:s förmågor spelar störst roll.

Edge- och mobil driftsättning

E2B- och E4B-modellerna öppnar upp användningsfall som tidigare var omöjliga med öppna modeller:

  • Assistenter på enheten som fungerar offline
  • Integritetsbevarande AI-funktioner som aldrig skickar data till externa servrar
  • Realtidsbearbetning av video och ljud på mobila enheter
  • Inbäddad AI i IoT- och robotikapplikationer

Hur man kommer igång

Ollama (Snabbaste vägen)

# Installera Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Hämta och kör Gemma 4
ollama run gemma4:e2b      # Minst, körs överallt
ollama run gemma4:e4b      # Liten, bredare förmåga
ollama run gemma4:26b-moe  # MoE, bäst effektivitet
ollama run gemma4:31b      # Dense, högst kvalitet

Hugging Face

Alla Gemma 4-modeller finns tillgängliga på Hugging Face med full transformers-integration:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google erbjuder gratis API-åtkomst till Gemma 4 via AI Studio för experiment och prototypskapande, med Vertex AI tillgängligt för driftsättning i produktion.


Gemma 4 i det konkurrensutsatta landskapet

För att förstå var Gemma 4 befinner sig i det bredare ekosystemet:

ModellParametrarLicensMMLU ProArena AIKontext
Gemma 4 31B31BApache 2.085.2%1452256K
Gemma 4 26B MoE26B (3.8B aktiva)Apache 2.01441256K
Llama 4 Maverick400B (~17B aktiva)Meta License79.6%14171M
Llama 4 Scout109B (~17B aktiva)Meta License~140010M
Qwen 3.5 72B72BApache 2.081.4%1438128K
Qwen 3.5 MoE397B (~22B aktiva)Apache 2.083.1%1449128K

Gemma 4 31B uppnår den högsta poängen i MMLU Pro och ranking i Arena AI bland öppna modeller — med lägst antal totala parametrar. Denna parametereffektivitet är ett direkt resultat av Gemini 3-teknologin och det konfigurerbara tänkläget.

26B MoE-modellens effektivitetshistoria är ännu mer övertygande. Den rankas som 6:a på Arena AI trots att den bara aktiverar 3.8B parametrar per token. Ingen annan modell uppnår ett jämförbart förhållande mellan kvalitet och beräkning. För produktionsdriftsättningar där inferenskostnaden skalar med användning, översätts denna effektivitet direkt till kostnadsbesparingar.

Jämfört med proprietära modeller är Gemma 4 31B:s benchmarks konkurrenskraftiga med mellanklass-erbjudanden från Anthropic och OpenAI. Även om de främsta proprietära modellerna fortfarande leder på de svåraste uppgifterna har klyftan minskat dramatiskt — och Gemma 4 kommer med noll kostnad per token och full Apache 2.0-frihet.


Omdöme

Gemma 4 sätter en ny standard för modeller med öppna vikter under 2026. Kombinationen av Apache 2.0-licensiering, fyra väl differentierade modellstorlekar, nativt multimodalt stöd, konfigurerbart tänkläge och benchmark-poäng som är konkurrenskraftiga med mycket större modeller gör den till den mest praktiska öppna modellfamiljen som finns tillgänglig.

31B Dense är rätt val när du behöver maximal kvalitet. 26B MoE är rätt val när du behöver stark kvalitet till minimal beräkningskostnad. E2B och E4B är rätt val för driftsättning i kanten och AI på enheten. För första gången i Gemma-familjen begränsar licensen inte något av dessa användningsfall.


Källor

Back to all news
Enjoyed this article?
FAQ

Common questions

Vad är Google Gemma 4 och när släpptes den?+
Google Gemma 4 är Google DeepMinds open-weight-modellfamilj som släpptes den 2 april 2026. Den innehåller 4 storlekar — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total) och 31B Dense. Alla modeller släpps under Apache 2.0, den mest tillåtande licens som någonsin använts för en Gemma-release.
Är Gemma 4 verkligen open source?+
Ja. Gemma 4 är den första Gemma-generationen som släppts under Apache 2.0-licensen, vilket tillåter obegränsad kommersiell användning, modifiering och vidaredistribution utan att kräva tillstånd från Google. Tidigare Gemma-modeller använde Googles egna Gemma-licens som införde användningsrestriktioner.
Vilket context window stöder Gemma 4?+
De mindre modellerna (E2B och E4B) stöder 128K token context windows. De större modellerna (26B MoE och 31B Dense) stöder 256K token context windows. Detta är en stor förbättring jämfört med context-begränsningarna i Gemma 3 och möjliggör bearbetning av hela kodbaser eller långa dokument i en enda prompt.
Kan Gemma 4 bearbeta bilder, video och ljud?+
Ja. Alla fyra Gemma 4-modeller är ursprungligen multimodala och stöder text- och bildinmatning. E2B- och E4B-modellerna går ännu längre med inbyggt stöd för video- och ljudbearbetning. Detta gör Gemma 4 till den första open-weight-modellfamiljen där de minsta modellerna har det bredaste stödet för olika modaliteter.
Hur fungerar Gemma 4:s thinking mode?+
Gemma 4 inkluderar ett konfigurerbart thinking mode som genererar 4,000+ tokens av intern slutledning innan den ger ett svar. Denna chain-of-thought-slutledning kan slås på eller av per förfrågan, vilket låter utvecklare välja mellan snabbare svar för enkla uppgifter och djupare resonemang för komplexa problem som matematik, logik och kodning.
Vilken hårdvara behöver jag för att köra Gemma 4 lokalt?+
Gemma 4 E2B och E4B kan köras på enheter med så lite som 5GB RAM med 4-bit quantization, inklusive smartphones och bärbara datorer. 26B MoE-modellen kräver ungefär 18GB RAM och 31B Dense kräver ungefär 20GB RAM. Alla modeller körs via Ollama med NVIDIA RTX GPU-optimering tillgänglig.

Bygg med ZBuild

Förvandla din idé till en fungerande app — ingen kodning krävs.

46 000+ utvecklare byggde med ZBuild den här månaden

Prova själv

Beskriv vad du vill — ZBuild bygger det åt dig.

46 000+ utvecklare byggde med ZBuild den här månaden
More Reading

Related articles

Claude Sonnet 4.6 Komplett Guide: Benchmarks, Prissättning, Kapaciteter och När Du Ska Använda Den (2026)
2026-03-27T00:00:00.000Z

Claude Sonnet 4.6 Komplett Guide: Benchmarks, Prissättning, Kapaciteter och När Du Ska Använda Den (2026)

Den definitiva guiden till Claude Sonnet 4.6 — Anthropics mellanklassmodell släppt February 17, 2026. Täcker alla benchmarks (SWE-bench 79.6%, OSWorld 72.5%, ARC-AGI-2 58.3%), API prissättning ($3/$15 per miljon tokens), extended thinking, 1M context window, och detaljerade jämförelser med Opus 4.6 och GPT-5.4.

Grok 5 Komplett guide: Utgivningsdatum, 6T parametrar, Colossus 2 & xAI:s AGI-ambitioner (2026)
2026-03-27T00:00:00.000Z

Grok 5 Komplett guide: Utgivningsdatum, 6T parametrar, Colossus 2 & xAI:s AGI-ambitioner (2026)

Allt som är känt om Grok 5 per mars 2026 — modellen med 6 biljoner parametrar som tränas på xAI:s Colossus 2 supercluster. Vi täcker det försenade utgivningsdatumet, tekniska specifikationer, Elon Musks påstående om 10 % AGI, benchmark-förutsägelser och vad det innebär för AI-industrin.

DeepSeek V4 Release: Specs, Benchmarks & allt vi vet om 1T Open-Source-modellen (2026)
2026-03-27T00:00:00.000Z

DeepSeek V4 Release: Specs, Benchmarks & allt vi vet om 1T Open-Source-modellen (2026)

En komplett guide till DeepSeek V4 — den Open-Source-modell med 1 biljon parametrar med Engram memory, million-token context och 81 % SWE-Bench. Vi täcker arkitektur, benchmarks, prissättning, release-tidslinje och hur den jämförs med GPT-5.4 och Claude Opus 4.6.

Seedance 2.0 Komplett Guide: ByteDance's AI Video Generation Model för Text-, Bild-, Ljud- och Videoinmatning (2026)
2026-03-27T00:00:00.000Z

Seedance 2.0 Komplett Guide: ByteDance's AI Video Generation Model för Text-, Bild-, Ljud- och Videoinmatning (2026)

Den definitiva guiden till Seedance 2.0, ByteDance's AI video generation model som bearbetar text, bilder, videoklipp och ljud samtidigt. Täcker funktioner, API-inställning, prissättning, prompt engineering, jämförelse med Sora 2 och Kling 3.0, samt arbetsflöden för verklig produktion.