Vigtigste pointer
Google Gemma 4 er den mest kapable open-weight model-familie nogensinde udgivet under en virkelig permissiv licens. 31B Dense-modellen scorer 85.2% på MMLU Pro og rangerer som nr. 3 blandt alle open modeller på Arena AI — mens 26B MoE opnår næsten identisk kvalitet med kun 3.8B aktive parametre. For første gang leveres Gemma under Apache 2.0, hvilket fjerner enhver licensmæssig friktion, der holdt den kommercielle adoption af tidligere generationer tilbage.
Google Gemma 4: Alt hvad du behøver at vide
Oversigt over udgivelsen
Google DeepMind udgav Gemma 4 den April 2, 2026, og introducerede fire modelstørrelser bygget på samme teknologiske fundament som Gemini 3. Denne generation repræsenterer det største spring i Gemma-familien på tværs af alle dimensioner: modelkvalitet, multimodale egenskaber, kontekstlængde og licensvilkår.
De vigtigste ændringer fra Gemma 3:
- Apache 2.0 licensering — ingen brugsbegrænsninger, ingen speciallicens, fuld kommerciel frihed
- Fire modelstørrelser i stedet for tre, inklusiv en ny MoE-arkitektur
- Nativ multimodal understøttelse på tværs af alle størrelser (tekst, billeder, video, lyd)
- Konfigurerbar thinking mode med 4,000+ token ræsonnementskæder
- 256K context windows på de større modeller (op fra Gemma 3's begrænsninger)
- 35+ understøttede sprog, forudtrænet på 140+ sprog
- Struktureret tool use til agentic workflows
De fire modelstørrelser
Gemma 4 leveres i fire forskellige størrelser, der hver især er rettet mod forskellige implementeringsscenarier:
| Model | Parametre | Aktive Params | Arkitektur | Kontekst | Modaliteter |
|---|---|---|---|---|---|
| E2B | 2.3B effektive | 2.3B | Dense | 128K | Tekst, Billede, Video, Lyd |
| E4B | 4.5B effektive | 4.5B | Dense | 128K | Tekst, Billede, Video, Lyd |
| 26B MoE | 26B total | 3.8B | Mixture of Experts | 256K | Tekst, Billede |
| 31B Dense | 31B | 31B | Dense | 256K | Tekst, Billede |
E2B og E4B: Edge-modellerne
De mindste Gemma 4-modeller er designet til on-device udrulning. Med henholdsvis 2.3B og 4.5B effektive parametre kører de på smartphones, tablets og bærbare computere med så lidt som 5GB RAM ved brug af 4-bit kvantisering.
Det, der gør disse modeller bemærkelsesværdige, er deres modalitetsbredde. På trods af at de er de mindste i familien, er E2B og E4B de eneste Gemma 4-modeller, der understøtter alle fire input-modaliteter: tekst, billeder, video og lyd. Dette er et bevidst designvalg — edge-enheder med kameraer og mikrofoner har størst gavn af multimodale evner.
Begge modeller understøtter 128K token context windows, hvilket er generøst for deres parameterantal og tilstrækkeligt til de fleste on-device use cases.
26B MoE: Maksimal effektivitet
26B Mixture of Experts-modellen er uden tvivl den mest interessante model i Gemma 4-serien. Den indeholder 26B parametre i alt, men aktiverer kun 3.8B parametre for et givet input — hvilket svarer til omtrent samme compute-omkostning som E4B-modellen, men med adgang til markant mere viden og kapacitet.
På Arena AI rangerer 26B MoE som nr. 6 blandt alle open modeller med en score på 1441, selvom den kun bruger 3.8B aktive parametre. Dette effektivitetsforhold er uden sidestykke — ingen anden model opnår sammenlignelig kvalitet ved denne compute-omkostning.
MoE-arkitekturen router hver token gennem specialiserede ekspert-sub-netværk, hvilket gør det muligt for modellen at opretholde en stor videnskapacitet, mens inference-omkostningerne holdes lave. Til udrulningsscenarier, hvor du har brug for stærkt ræsonnement, men har begrænset GPU-hukommelse, er 26B MoE det optimale valg.
31B Dense: Maksimal kvalitet
31B Dense-modellen er Gemma 4's flagskib. Hver parameter er aktiv for hver token, hvilket giver den de mest konsistente resultater af højeste kvalitet på tværs af alle opgavetyper.
På Arena AI rangerer 31B Dense som nr. 3 blandt alle open modeller med en score på 1452. På MMLU Pro opnår den 85.2% — hvilket er konkurrencedygtigt med modeller, der er flere gange dens størrelse. Scoren på 89.2% på AIME 2026 demonstrerer stærkt matematisk ræsonnement, mens 74% på BigBench Extra Hard (op fra 19% i de foregående generationer) viser en massiv forbedring i komplekse ræsonnementsopgaver.
Benchmarks: De komplette data
Ræsonnement og viden
| Benchmark | 31B Dense | 26B MoE | Noter |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Viden på kandidatniveau |
| AIME 2026 | 89.2% | — | Konkurrencematematik |
| BigBench Extra Hard | 74% | — | Op fra 19% i forrige gen |
| Arena AI Score | 1452 (3rd) | 1441 (6th) | Rangering af open modeller |
Kilde: Google DeepMind teknisk rapport
BigBench Extra Hard: Det opsigtsvækkende resultat
Springet fra 19% til 74% på BigBench Extra Hard fortjener særlig opmærksomhed. Denne benchmark tester komplekst ræsonnement i flere trin, logisk deduktion og opgaver, der kræver ægte forståelse snarere end mønstergenkendelse. En forbedring på 55 procentpoint i en enkelt generation antyder fundamentale fremskridt i Gemma 4's ræsonnementsarkitektur, ikke blot skalering.
Denne forbedring er sandsynligvis forbundet med den konfigurerbare thinking mode og den underliggende Gemini 3-teknologi, som Gemma 4 er bygget på. Thinking mode genererer udvidede ræsonnementskæder, der hjælper modellen med at arbejde sig igennem komplekse problemer trin for trin.
Kontekst for Arena AI-rangeringer
Arena AI rangerer modeller baseret på head-to-head menneskelige præference-sammenligninger. At 31B Dense scorer 1452 og rangerer som nr. 3 blandt open modeller placerer den over mange modeller med betydeligt flere parametre. Til kontekst:
- Modeller, der rangerer over den, er typisk 70B+ parametermodeller
- At 26B MoE opnår 1441 med kun 3.8B aktive parametre er et gennembrud for effektivitet
- Begge modeller udkonkurrerer den tidligere Gemma 3 27B med en betydelig margin
Multimodale egenskaber
Billedforståelse
Alle fire Gemma 4-modeller behandler billeder nativt. Egenskaberne inkluderer:
- Billedbeskrivelse og analyse — detaljeret forståelse af visuelt indhold
- OCR og dokumentparsing — udtrækning af tekst fra billeder, kvitteringer, screenshots
- Fortolkning af grafer og diagrammer — forståelse af datavisualiseringer
- Visuelt ræsonnement — besvarelse af spørgsmål, der kræver forståelse for rumlige relationer
Video og lyd (kun E2B/E4B)
De mindre E2B og E4B modeller tilføjer nativ video- og lydbehandling:
- Videoforståelse — analyse af videoindhold uden frame-by-frame udtrækning
- Lydtransskribering og forståelse — behandling af tale og omgivelseslyd
- Tværgående modal ræsonnement — besvarelse af spørgsmål, der spænder over tekst, billede, video og lyd
Dette designvalg afspejler Google's fokus på edge-udrulning. Mobile enheder optager video og lyd nativt, så de modeller, der er designet til disse enheder, understøtter disse modaliteter.
Konfigurerbar Thinking Mode
Gemma 4 introducerer en konfigurerbar thinking mode, der genererer 4,000+ tokens af internt ræsonnement, før den producerer et svar. Dette minder om de udvidede tænkeevner set i Claude's modeller og OpenAI's o-serie, men implementeret i en open-weight model.
Hvordan det virker
Når thinking mode er aktiveret, vil modellen:
- Modtage input prompten
- Generere en intern ræsonnementskæde (synlig eller skjult, afhængigt af konfigurationen)
- Bruge ræsonnementskæden til at producere et endeligt svar af højere kvalitet
Denne thinking mode kan slås til og fra per anmodning, hvilket gør det muligt for udviklere at:
- Aktivere tænkning til komplekse matematik-, logik-, kodnings- og analyseopgaver
- Deaktivere tænkning til simple forespørgsler, chat og latensfølsomme applikationer
- Justere tænkedybden baseret på opgavens forventede kompleksitet
Indvirkning på kvalitet
Thinking mode er en primær drivkraft bag Gemma 4's stærke benchmark-resultater. AIME 2026-scoren på 89.2% og BigBench Extra Hard-scoren på 74% opnås begge med thinking mode aktiveret. Uden thinking mode ville disse scores være mærkbart lavere — svarende til det mønster, man ser hos andre modeller med udvidede ræsonnementsevner.
Apache 2.0: Hvorfor licensændringen betyder noget
Tidligere Gemma-generationer blev leveret under Google's speciallicens for Gemma, som indeholdt restriktioner for:
- Brug i visse applikationer
- Vilkår for videredistribution
- Kommercielle begrænsninger for udrulning i stor skala
Gemma 4 skifter til Apache 2.0, den samme licens der bruges af projekter som Kubernetes, TensorFlow og Apache HTTP Server. Dette betyder:
- Ingen brugsbegrænsninger — brug den til hvad som helst, inklusive kommercielle produkter
- Ingen begrænsninger for videredistribution — del modificerede weights frit
- Ingen krav om kreditering ud over licensen — standard Apache 2.0 meddelelse
- Ingen Google-godkendelse nødvendig — udrul i enhver skala uden tilladelse
- Kompatibel med andre open-source licenser — nem at integrere i eksisterende projekter
For virksomheder og startups, der bygger produkter oven på open modeller, fjerner dette de juridiske gennemgangsomkostninger, som Gemma's speciallicens krævede. Det gør også Gemma 4 direkte sammenlignelig med Meta's Llama-modeller (som bruger deres egen speciallicens med visse restriktioner) og positionerer den som den mest permissivt licenserede, højkvalitets open model-familie til rådighed.
Understøttelse af sprog
Gemma 4 understøtter 35+ sprog til inference og blev forudtrænet på 140+ sprog. Dette gør den til en af de mest flersprogede open modeller til rådighed, sammen med Qwen's modeller, som også lægger vægt på bred sprogdækning.
De understøttede sprog inkluderer de største verdenssprog (engelsk, kinesisk, spansk, fransk, tysk, japansk, koreansk, arabisk, hindi, portugisisk, russisk) samt mange sprog med mindre digitale fodaftryk. Forudtræningen på 140+ sprog betyder, at modellen har visse evner i sprog ud over de officielt understøttede 35+, selvom kvaliteten kan variere.
For applikationer rettet mod et globalt publikum eller ikke-engelske markeder reducerer denne brede sprogstøtte behovet for specialiseret fine-tuning eller separate modeller per sprog.
Struktureret Tool Use og Agentic Workflows
Gemma 4 inkluderer nativ understøttelse af struktureret tool use, hvilket muliggør agentic workflows, hvor modellen kan:
- Kalde eksterne API'er med korrekt formaterede anmodninger
- Parse strukturerede svar fra værktøjer og tjenester
- Kæde flere værktøjskald for at fuldføre komplekse opgaver
- Håndtere fejl og gentagne forsøg i eksekvering af værktøjer
Denne egenskab er særligt relevant for Android Studio integration, hvor Gemma 4 driver lokale agentiske kodnings-workflows. Modellen kan forstå kodekontekst, foreslå ændringer, eksekvere værktøjer og iterere — alt sammen kørende lokalt på udviklerens maskine uden at sende kode til eksterne serverer.
For udviklere, der bygger AI-agenter, giver Gemma 4's strukturerede tool use et fuldt ud lokalt og privat fundament. Kombineret med Apache 2.0 licensen muliggør dette opbygning og udrulning af agentiske applikationer uden afhængighed af eksterne modeludbydere.
Hardwarekrav
Lokal udrulning via Ollama
| Model | RAM Påkrævet (4-bit) | RAM Påkrævet (FP16) | GPU Anbefaling |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Enhver moderne GPU / kun CPU |
| E4B | ~5 GB | ~9 GB | Enhver moderne GPU / kun CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
E2B og E4B modellerne er specifikt designet til edge-udrulning. De kører uden problemer på bærbare computere, desktop CPU'er og endda visse smartphones. 26B MoE og 31B Dense modellerne kræver dedikeret GPU-hardware, men forbliver tilgængelige for individuelle udviklere med forbruger-GPU'er.
NVIDIA Optimering
NVIDIA har udgivet optimerede versioner af Gemma 4 til RTX GPU'er, som giver:
- Hurtigere inference gennem GPU-specifikke kernel-optimeringer
- Bedre hukommelsesudnyttelse på RTX 4000 og 5000 serierne
- TensorRT integration til produktionsudrulning
- CUDA graph support for reduceret overhead ved gentagen inference
Hvad er ændret fra Gemma 3
| Funktion | Gemma 3 | Gemma 4 |
|---|---|---|
| Licens | Gemma Licens (begrænset) | Apache 2.0 (ubegrænset) |
| Modelstørrelser | 3 størrelser | 4 størrelser (tilføjet MoE) |
| Context Window | Op til 128K | Op til 256K |
| Modaliteter | Tekst, Billede | Tekst, Billede, Video, Lyd |
| Thinking Mode | Nej | Ja (konfigurerbar) |
| Tool Use | Begrænset | Struktureret tool use |
| Sprog | 30+ | 35+ (forudtrænet på 140+) |
| BigBench Extra Hard | 19% | 74% |
Hver dimension er forbedret. De mest betydningsfulde ændringer for udviklere er Apache 2.0 licensen (fjerner juridisk friktion), thinking mode (forbedrer kvaliteten på svære opgaver) og MoE-arkitekturen (giver flagskibs-kvalitet til en brøkdel af compute-omkostningen).
Praktiske anvendelsesscenarier
Kodning og udvikling
Gemma 4's strukturerede tool use og thinking mode gør den effektiv til:
- Lokal kode-completion og generering
- Kodegennemgang og fejlfinding
- Automatiseret generering af test
- Skrivning af dokumentation
- Agentiske kodnings-workflows i Android Studio
Dokumentbehandling
Med 256K context windows og multimodal understøttelse:
- Behandl hele kodebaser eller lange dokumenter i en enkelt prompt
- Udtræk information fra billeder af dokumenter, kvitteringer og formularer
- Analysér grafer og datavisualiseringer
- Opsummér lange forskningsartikler eller juridiske dokumenter
Opbygning af AI-drevne applikationer
For udviklere, der bygger produkter med AI-egenskaber, leverer Gemma 4 et stærkt on-device eller selv-hosted inference-lag. Modellen håndterer intelligensen — forståelse af forespørgsler, generering af svar, behandling af billeder — mens dit applikations-framework håndterer resten. Værktøjer som ZBuild kan fremskynde opbygningen af selve applikationen (frontend, backend, database, udrulning), så du kan fokusere på AI-integrationslaget, hvor Gemma 4's evner betyder mest.
Edge og mobil udrulning
E2B og E4B modellerne åbner op for anvendelsesscenarier, der før var umulige med open modeller:
- On-device assistenter, der fungerer offline
- Privatlivsbevarende AI-funktioner, der aldrig sender data til eksterne serverer
- Video- og lydbehandling i realtid på mobile enheder
- Indlejret AI i IoT og robotapplikationer
Sådan kommer du i gang
Ollama (Hurtigste vej)
# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Pull og kør Gemma 4
ollama run gemma4:e2b # Mindst, kører overalt
ollama run gemma4:e4b # Lille, bredere kapacitet
ollama run gemma4:26b-moe # MoE, bedste effektivitet
ollama run gemma4:31b # Dense, højeste kvalitet
Hugging Face
Alle Gemma 4-modeller er tilgængelige på Hugging Face med fuld transformers integration:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google giver gratis API-adgang til Gemma 4 gennem AI Studio til eksperimenter og prototyper, mens Vertex AI er tilgængelig til produktionsudrulning.
Gemma 4 i det konkurrenceprægede landskab
For at forstå hvor Gemma 4 placerer sig i det bredere økosystem:
| Model | Parametre | Licens | MMLU Pro | Arena AI | Kontekst |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B aktive) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B aktive) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B aktive) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B aktive) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B opnår den højeste MMLU Pro-score og Arena AI-rangering blandt open modeller — med det færreste antal parametre i alt. Denne parametereffektivitet er et direkte resultat af Gemini 3-teknologien og den konfigurerbare thinking mode.
26B MoE-modellens effektivitetshistorie er endnu mere overbevisende. Den rangerer som nr. 6 på Arena AI, mens den kun aktiverer 3.8B parametre per token. Ingen anden model opnår et sammenligneligt kvalitet-til-compute forhold. For produktionsudrulninger, hvor inference-omkostningerne skalerer med forbruget, oversættes denne effektivitet direkte til omkostningsbesparelser.
Sammenlignet med proprietære modeller er Gemma 4 31B's benchmarks konkurrencedygtige med mid-tier tilbud fra Anthropic og OpenAI. Selvom de førende proprietære modeller stadig fører på de sværeste opgaver, er kløften blevet markant mindre — og Gemma 4 kommer med nul per-token omkostninger og fuld Apache 2.0 frihed.
Konklusion
Gemma 4 sætter en ny standard for open-weight modeller i 2026. Kombinationen af Apache 2.0 licensering, fire veldifferentierede modelstørrelser, nativ multimodal understøttelse, konfigurerbar thinking mode og benchmark-scores, der er konkurrencedygtige med meget større modeller, gør den til den mest praktiske open model-familie, der findes.
31B Dense er det rigtige valg, når du har brug for maksimal kvalitet. 26B MoE er det rigtige valg, når du har brug for stærk kvalitet ved minimale compute-omkostninger. E2B og E4B er de rigtige valg til edge-udrulning og on-device AI. For første gang i Gemma-familien begrænser licensen ikke nogen af disse anvendelsesscenarier.
Kilder
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers