Viktig slutsats
Google Gemma 4 är den mest kapabla modellfamiljen med öppna vikter som någonsin släppts under en genuint tillåtande licens. 31B Dense-modellen når 85.2% på MMLU Pro och rankas som 3:a bland alla öppna modeller på Arena AI — samtidigt som 26B MoE uppnår nästan identisk kvalitet med endast 3.8B aktiva parametrar. För första gången levereras Gemma under Apache 2.0, vilket tar bort alla licensieringshinder som höll tillbaka kommersiellt införande av tidigare generationer.
Google Gemma 4: Allt du behöver veta
Översikt över lanseringen
Google DeepMind släppte Gemma 4 den April 2, 2026, och introducerade fyra modellstorlekar byggda på samma tekniska grund som Gemini 3. Denna generation representerar det största språnget i Gemma-familjen i alla dimensioner: modellkvalitet, multimodala förmågor, kontextlängd och licensvillkor.
De viktigaste förändringarna från Gemma 3:
- Apache 2.0-licensiering — inga användningsrestriktioner, ingen anpassad licens, full kommersiell frihet
- Fyra modellstorlekar istället för tre, inklusive en ny MoE-arkitektur
- Nativt multimodalt stöd i alla storlekar (text, bilder, video, ljud)
- Konfigurerbart tänkläge med 4,000+ token resonemangskedjor
- 256K kontextfönster på större modeller (upp från Gemma 3:s begränsningar)
- 35+ stödda språk, förtränad på 140+ språk
- Strukturerad verktygsanvändning för agentiska arbetsflöden
De fyra modellstorlekarna
Gemma 4 levereras i fyra distinkta storlekar, var och en riktad mot olika driftsättningsscenarier:
| Modell | Parametrar | Aktiva parametrar | Arkitektur | Kontext | Modaliteter |
|---|---|---|---|---|---|
| E2B | 2.3B effektiva | 2.3B | Dense | 128K | Text, Image, Video, Audio |
| E4B | 4.5B effektiva | 4.5B | Dense | 128K | Text, Image, Video, Audio |
| 26B MoE | 26B totalt | 3.8B | Mixture of Experts | 256K | Text, Image |
| 31B Dense | 31B | 31B | Dense | 256K | Text, Image |
E2B och E4B: Edge-modellerna
De minsta Gemma 4-modellerna är designade för driftsättning direkt på enheter. Med 2.3B respektive 4.5B effektiva parametrar körs de på smartphones, surfplattor och bärbara datorer med så lite som 5GB RAM med 4-bit quantization.
Det som gör dessa modeller anmärkningsvärda är deras modala bredd. Trots att de är de minsta i familjen är E2B och E4B de enda Gemma 4-modellerna som stöder alla fyra inmatningsmodaliteter: text, bilder, video och ljud. Detta är ett medvetet designval — edge-enheter med kameror och mikrofoner drar störst nytta av multimodala förmågor.
Båda modellerna stöder 128K token kontextfönster, vilket är generöst för deras antal parametrar och tillräckligt för de flesta användningsfall på enhet.
26B MoE: Maximal effektivitet
Modellen 26B Mixture of Experts är utan tvekan den mest intressanta modellen i Gemma 4-serien. Den innehåller 26B totala parametrar men aktiverar endast 3.8B parametrar för varje given inmatning — ungefär samma beräkningskostnad som E4B-modellen men med tillgång till dramatiskt mer kunskap och förmåga.
På Arena AI rankas 26B MoE som 6:a bland alla öppna modeller med en poäng på 1441, trots att den endast använder 3.8B aktiva parametrar. Detta effektivitetsförhållande saknar motstycke — ingen annan modell uppnår jämförbar kvalitet till denna beräkningskostnad.
MoE-arkitekturen dirigerar varje token genom specialiserade expertnätverk, vilket gör att modellen kan bibehålla en stor kunskapskapacitet samtidigt som kostnaden för inferens hålls låg. För driftsättningsscenarier där du behöver starkt resonemang men har begränsat GPU-minne är 26B MoE det optimala valet.
31B Dense: Maximal kvalitet
31B Dense-modellen är flaggskeppet i Gemma 4. Varje parameter är aktiv för varje token, vilket ger den de mest konsekventa resultaten med högst kvalitet över alla typer av uppgifter.
På Arena AI rankas 31B Dense som 3:a bland alla öppna modeller med en poäng på 1452. På MMLU Pro når den 85.2% — vilket är konkurrenskraftigt med modeller som är flera gånger större. Poängen 89.2% på AIME 2026 påvisar ett starkt matematiskt resonemang, medan 74% på BigBench Extra Hard (upp från 19% i tidigare generationer) visar en enorm förbättring i komplexa resonemangsuppgifter.
Benchmarks: Fullständig data
Resonemang och kunskap
| Benchmark | 31B Dense | 26B MoE | Noteringar |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Kunskap på forskarnivå |
| AIME 2026 | 89.2% | — | Tävlingsmatematik |
| BigBench Extra Hard | 74% | — | Upp från 19% i föregående gen |
| Arena AI Score | 1452 (3:a) | 1441 (6:a) | Ranking för öppna modeller |
Källa: Google DeepMind technical report
BigBench Extra Hard: Det mest framstående resultatet
Hoppet från 19% till 74% på BigBench Extra Hard förtjänar särskild uppmärksamhet. Detta benchmark testar komplexa resonemang i flera steg, logisk deduktion och uppgifter som kräver genuin förståelse snarare än mönstermatchning. En förbättring på 55 procentenheter i en enda generation tyder på fundamentala framsteg i Gemma 4:s resonemangsarkitektur, inte bara skalning.
Denna förbättring är sannolikt kopplad till det konfigurerbara tänkläget och den underliggande Gemini 3-teknologin som Gemma 4 är byggd på. Tänkläget genererar utökade resonemangskedjor som hjälper modellen att arbeta sig igenom komplexa problem steg för steg.
Kontext för Arena AI-ranking
Arena AI rankar modeller baserat på mänskliga preferensjämförelser sida vid sida. Att 31B Dense får 1452 poäng och rankas som 3:a bland öppna modeller placerar den över många modeller med betydligt fler parametrar. Som kontext:
- Modeller som rankas högre är vanligtvis modeller med 70B+ parametrar
- Att 26B MoE når 1441 med endast 3.8B aktiva parametrar är ett genombrott för effektivitet
- Båda modellerna utpresterar den tidigare Gemma 3 27B med god marginal
Multimodala förmågor
Bildförståelse
Alla fyra Gemma 4-modeller bearbetar bilder nativt. Förmågorna inkluderar:
- Beskrivning och analys av bilder — detaljerad förståelse av visuellt innehåll
- OCR och dokumenttolkning — extrahering av text från bilder, kvitton, skärmdumpar
- Tolkning av diagram och scheman — förståelse av datavisualiseringar
- Visuellt resonemang — svara på frågor som kräver förståelse för rumsliga relationer
Video och ljud (Endast E2B/E4B)
De mindre modellerna E2B och E4B lägger till nativ video- och ljudbearbetning:
- Videoförståelse — analysera videoinnehåll utan extrahering av enskilda rutor
- Transkribering och förståelse av ljud — bearbetning av tal och omgivningsljud
- Korsmodal resonemang — svara på frågor som spänner över text, bild, video och ljud
Detta designval speglar Googles fokus på driftsättning i kanten. Mobila enheter fångar video och ljud nativt, så modellerna som är designade för dessa enheter stöder dessa modaliteter.
Konfigurerbart tänkläge
Gemma 4 introducerar ett konfigurerbart tänkläge som genererar 4,000+ tokens av internt resonemang innan ett svar produceras. Detta liknar de utökade tänkningsförmågorna som ses i Claude-modeller och OpenAI:s o-serie, men implementerat i en modell med öppna vikter.
Hur det fungerar
När tänkläget är aktiverat:
- Tar modellen emot inmatningen (prompten)
- Genererar en intern resonemangskedja (synlig eller dold, beroende på konfiguration)
- Använder resonemangskedjan för att producera ett slutgiltigt svar med högre kvalitet
Tänkläget kan växlas per begäran, vilket gör att utvecklare kan:
- Aktivera tänkande för komplex matematik, logik, kodning och analysuppgifter
- Inaktivera tänkande för enkla frågor, chatt och latenskänsliga applikationer
- Justera tänkandets djup baserat på uppgiftens förväntade komplexitet
Påverkan på kvalitet
Tänkläget är en primär drivkraft bakom Gemma 4:s starka benchmark-prestanda. Poängen på 89.2% i AIME 2026 och 74% i BigBench Extra Hard uppnåddes båda med tänkläget aktiverat. Utan tänkläge skulle dessa poäng vara märkbart lägre — liknande mönstret som ses i andra modeller med utökade resonemangsförmågor.
Apache 2.0: Varför licensändringen spelar roll
Tidigare Gemma-generationer levererades under Googles anpassade Gemma-licens, som inkluderade restriktioner för:
- Användning i vissa applikationer
- Vidaredistributionsvillkor
- Begränsningar för kommersiell driftsättning för storskalig användning
Gemma 4 går över till Apache 2.0, samma licens som används av projekt som Kubernetes, TensorFlow och Apache HTTP Server. Detta innebär:
- Inga användningsrestriktioner — använd den för vad som helst, inklusive kommersiella produkter
- Inga begränsningar för vidaredistribution — dela modifierade vikter fritt
- Inga krav på tillskrivning utöver licensen — standard Apache 2.0-meddelande
- Inget godkännande från Google krävs — driftsätt i vilken skala som helst utan tillstånd
- Kompatibel med andra open-source-licenser — lätt att integrera i befintliga projekt
För företag och nystartade bolag som bygger produkter ovanpå öppna modeller tar detta bort den juridiska granskningsbörda som Gemmas anpassade licens krävde. Det gör också Gemma 4 direkt jämförbar med Metas Llama-modeller (som använder sin egen anpassade licens med vissa restriktioner) och positionerar den som den mest tillåtande licensierade modellfamiljen av hög kvalitet som finns tillgänglig.
Språkstöd
Gemma 4 stöder 35+ språk för inferens och var förtränad på 140+ språk. Detta gör den till en av de mest flerspråkiga öppna modellerna som finns, vid sidan av Qwen-modeller som också betonar brett språkstöd.
Språk som stöds inkluderar stora världsspråk (engelska, kinesiska, spanska, franska, tyska, japanska, koreanska, arabiska, hindi, portugisiska, ryska) samt många språk med mindre digital närvaro. Förträningsfasen på 140+ språk innebär att modellen har viss förmåga i språk utöver de officiellt stödda 35+, även om kvaliteten kan variera.
För applikationer som riktar sig till en global publik eller icke-engelska marknader minskar detta breda språkstöd behovet av specialiserad finjustering eller separata modeller per språk.
Strukturerad verktygsanvändning och agentiska arbetsflöden
Gemma 4 inkluderar nativt stöd för strukturerad verktygsanvändning, vilket möjliggör agentiska arbetsflöden där modellen kan:
- Anropa externa API med korrekt formaterade förfrågningar
- Tolka strukturerade svar från verktyg och tjänster
- Kedja flera verktygsanrop för att slutföra komplexa uppgifter
- Hantera fel och omförsök vid verktygsexekvering
Denna förmåga är särskilt relevant för Android Studio-integration, där Gemma 4 driver lokala agentiska arbetsflöden för kodning. Modellen kan förstå kodkontext, föreslå ändringar, köra verktyg och iterera — allt körs lokalt på utvecklarens maskin utan att skicka kod till externa servrar.
För utvecklare som bygger AI-agenter ger Gemma 4:s strukturerade verktygsanvändning en helt lokal och privat grund. Kombinerat med Apache 2.0-licensen möjliggör detta att bygga och driftsätta agentiska applikationer utan beroende av externa modell-leverantörer.
Hårdvarukrav
Lokal driftsättning via Ollama
| Modell | RAM-krav (4-bit) | RAM-krav (FP16) | GPU-rekommendation |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Vilken modern GPU som helst / endast CPU |
| E4B | ~5 GB | ~9 GB | Vilken modern GPU som helst / endast CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
E2B- och E4B-modellerna är specifikt designade för driftsättning i kanten. De körs obehindrat på bärbara datorer, stationära CPU:er och till och med vissa smartphones. 26B MoE- och 31B Dense-modellerna kräver dedikerad GPU-hårdvara men förblir tillgängliga för enskilda utvecklare med konsument-GPU:er.
NVIDIA-optimering
NVIDIA har släppt optimerade versioner av Gemma 4 för RTX-GPU:er, vilket ger:
- Snabbare inferens genom GPU-specifika kernel-optimeringar
- Bättre minnesutnyttjande på RTX 4000- och 5000-seriens kort
- TensorRT-integration för produktionsdriftsättning
- CUDA graph-stöd för minskad overhead vid upprepad inferens
Vad som ändrats från Gemma 3
| Funktion | Gemma 3 | Gemma 4 |
|---|---|---|
| Licens | Gemma License (begränsad) | Apache 2.0 (obegränsad) |
| Modellstorlekar | 3 storlekar | 4 storlekar (MoE tillagd) |
| Kontextfönster | Upp till 128K | Upp till 256K |
| Modaliteter | Text, Image | Text, Image, Video, Audio |
| Tänkläge | Nej | Ja (konfigurerbart) |
| Verktygsanvändning | Begränsad | Strukturerad verktygsanvändning |
| Språk | 30+ | 35+ (förtränad på 140+) |
| BigBench Extra Hard | 19% | 74% |
Varje dimension har förbättrats. De mest betydelsefulla förändringarna för utvecklare är Apache 2.0-licensen (tar bort juridisk friktion), tänkläget (förbättrar kvalitet på svåra uppgifter) och MoE-arkitekturen (ger flaggskeppskvalitet till en bråkdel av beräkningskostnaden).
Praktiska användningsfall
Kodning och utveckling
Gemma 4:s strukturerade verktygsanvändning och tänkläge gör den effektiv för:
- Lokal kodkomplettering och generering
- Kodgranskning och upptäckt av buggar
- Automatiserad testgenerering
- Skrivande av dokumentation
- Agentiska arbetsflöden för kodning i Android Studio
Dokumentbehandling
Med 256K kontextfönster och multimodalt stöd:
- Bearbeta hela kodbaser eller långa dokument i en enda prompt
- Extrahera information från bilder av dokument, kvitton och formulär
- Analysera diagram och datavisualiseringar
- Sammanfatta långa forskningsrapporter eller juridiska dokument
Bygga AI-drivna applikationer
För utvecklare som bygger produkter som inkluderar AI-förmågor ger Gemma 4 ett starkt lager för inferens på enhet eller genom självhanterad hosting. Modellen hanterar intelligensen — förstår frågor, genererar svar, bearbetar bilder — medan ditt applikationsramverk hanterar resten. Verktyg som ZBuild kan påskynda uppbyggnaden av applikationsskalet (frontend, backend, databas, driftsättning), vilket gör att du kan fokusera utvecklingsarbetet på AI-integrationslagret där Gemma 4:s förmågor spelar störst roll.
Edge- och mobil driftsättning
E2B- och E4B-modellerna öppnar upp användningsfall som tidigare var omöjliga med öppna modeller:
- Assistenter på enheten som fungerar offline
- Integritetsbevarande AI-funktioner som aldrig skickar data till externa servrar
- Realtidsbearbetning av video och ljud på mobila enheter
- Inbäddad AI i IoT- och robotikapplikationer
Hur man kommer igång
Ollama (Snabbaste vägen)
# Installera Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Hämta och kör Gemma 4
ollama run gemma4:e2b # Minst, körs överallt
ollama run gemma4:e4b # Liten, bredare förmåga
ollama run gemma4:26b-moe # MoE, bäst effektivitet
ollama run gemma4:31b # Dense, högst kvalitet
Hugging Face
Alla Gemma 4-modeller finns tillgängliga på Hugging Face med full transformers-integration:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google erbjuder gratis API-åtkomst till Gemma 4 via AI Studio för experiment och prototypskapande, med Vertex AI tillgängligt för driftsättning i produktion.
Gemma 4 i det konkurrensutsatta landskapet
För att förstå var Gemma 4 befinner sig i det bredare ekosystemet:
| Modell | Parametrar | Licens | MMLU Pro | Arena AI | Kontext |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B aktiva) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B aktiva) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B aktiva) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B aktiva) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B uppnår den högsta poängen i MMLU Pro och ranking i Arena AI bland öppna modeller — med lägst antal totala parametrar. Denna parametereffektivitet är ett direkt resultat av Gemini 3-teknologin och det konfigurerbara tänkläget.
26B MoE-modellens effektivitetshistoria är ännu mer övertygande. Den rankas som 6:a på Arena AI trots att den bara aktiverar 3.8B parametrar per token. Ingen annan modell uppnår ett jämförbart förhållande mellan kvalitet och beräkning. För produktionsdriftsättningar där inferenskostnaden skalar med användning, översätts denna effektivitet direkt till kostnadsbesparingar.
Jämfört med proprietära modeller är Gemma 4 31B:s benchmarks konkurrenskraftiga med mellanklass-erbjudanden från Anthropic och OpenAI. Även om de främsta proprietära modellerna fortfarande leder på de svåraste uppgifterna har klyftan minskat dramatiskt — och Gemma 4 kommer med noll kostnad per token och full Apache 2.0-frihet.
Omdöme
Gemma 4 sätter en ny standard för modeller med öppna vikter under 2026. Kombinationen av Apache 2.0-licensiering, fyra väl differentierade modellstorlekar, nativt multimodalt stöd, konfigurerbart tänkläge och benchmark-poäng som är konkurrenskraftiga med mycket större modeller gör den till den mest praktiska öppna modellfamiljen som finns tillgänglig.
31B Dense är rätt val när du behöver maximal kvalitet. 26B MoE är rätt val när du behöver stark kvalitet till minimal beräkningskostnad. E2B och E4B är rätt val för driftsättning i kanten och AI på enheten. För första gången i Gemma-familjen begränsar licensen inte något av dessa användningsfall.
Källor
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers