Hvad er Google Gemma 4, og hvornår blev den udgivet?

Google Gemma 4 er Google DeepMinds open-weight model family udgivet den 2. april 2026. Den inkluderer 4 størrelser — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total) og 31B Dense. Alle modeller er udgivet under Apache 2.0, den mest permissive license nogensinde brugt til en Gemma-udgivelse.

Er Gemma 4 virkelig open source?

Ja. Gemma 4 er den første Gemma-generation udgivet under Apache 2.0-licensen, som tillader ubegrænset kommerciel brug, ændring og videredistribution uden krav om tilladelse fra Google. Tidligere Gemma-modeller brugte Googles custom Gemma license, som pålagde brugsbegrænsninger.

Hvilket context window understøtter Gemma 4?

De mindre modeller (E2B og E4B) understøtter 128K token context windows. De større modeller (26B MoE og 31B Dense) understøtter 256K token context windows. Dette er en stor forbedring i forhold til Gemma 3's context-grænser og muliggør behandling af hele codebases eller lange dokumenter i en enkelt prompt.

Kan Gemma 4 behandle billeder, video og lyd?

Ja. Alle fire Gemma 4-modeller er født multimodale og understøtter tekst- og billedinput. E2B- og E4B-modellerne går endnu længere med native video og lydbehandlingskapabiliteter. Dette gør Gemma 4 til den første open-weight model family, hvor de mindste modeller har den bredeste modality support.

Hvordan fungerer Gemma 4's thinking mode?

Gemma 4 inkluderer en konfigurerbar thinking mode, der genererer 4,000+ tokens af intern reasoning, før den producerer et svar. Denne chain-of-thought reasoning kan slås til eller fra per forespørgsel, hvilket lader udviklere vælge mellem hurtigere svar til simple opgaver og dybere reasoning til komplekse problemer som matematik, logik og coding.

Hvilken hardware har jeg brug for til at køre Gemma 4 lokalt?

Gemma 4 E2B og E4B kører på enheder med så lidt som 5GB RAM ved brug af 4-bit quantization, inklusive smartphones og laptops. 26B MoE-modellen kræver ca. 18GB RAM, og 31B Dense kræver ca. 20GB RAM. Alle modeller kører via Ollama med NVIDIA RTX GPU-optimering tilgængelig.

Vigtigste pointer

Google Gemma 4 er den mest kapable open-weight model-familie nogensinde udgivet under en virkelig permissiv licens. 31B Dense-modellen scorer 85.2% på MMLU Pro og rangerer som nr. 3 blandt alle open modeller på Arena AI — mens 26B MoE opnår næsten identisk kvalitet med kun 3.8B aktive parametre. For første gang leveres Gemma under Apache 2.0, hvilket fjerner enhver licensmæssig friktion, der holdt den kommercielle adoption af tidligere generationer tilbage.

Google Gemma 4: Alt hvad du behøver at vide

Oversigt over udgivelsen

Google DeepMind udgav Gemma 4 den April 2, 2026, og introducerede fire modelstørrelser bygget på samme teknologiske fundament som Gemini 3. Denne generation repræsenterer det største spring i Gemma-familien på tværs af alle dimensioner: modelkvalitet, multimodale egenskaber, kontekstlængde og licensvilkår.

De vigtigste ændringer fra Gemma 3:

Apache 2.0 licensering — ingen brugsbegrænsninger, ingen speciallicens, fuld kommerciel frihed
Fire modelstørrelser i stedet for tre, inklusiv en ny MoE-arkitektur
Nativ multimodal understøttelse på tværs af alle størrelser (tekst, billeder, video, lyd)
Konfigurerbar thinking mode med 4,000+ token ræsonnementskæder
256K context windows på de større modeller (op fra Gemma 3's begrænsninger)
35+ understøttede sprog, forudtrænet på 140+ sprog
Struktureret tool use til agentic workflows

De fire modelstørrelser

Gemma 4 leveres i fire forskellige størrelser, der hver især er rettet mod forskellige implementeringsscenarier:

Model	Parametre	Aktive Params	Arkitektur	Kontekst	Modaliteter
E2B	2.3B effektive	2.3B	Dense	128K	Tekst, Billede, Video, Lyd
E4B	4.5B effektive	4.5B	Dense	128K	Tekst, Billede, Video, Lyd
26B MoE	26B total	3.8B	Mixture of Experts	256K	Tekst, Billede
31B Dense	31B	31B	Dense	256K	Tekst, Billede

Kilde: Google AI Blog

E2B og E4B: Edge-modellerne

De mindste Gemma 4-modeller er designet til on-device udrulning. Med henholdsvis 2.3B og 4.5B effektive parametre kører de på smartphones, tablets og bærbare computere med så lidt som 5GB RAM ved brug af 4-bit kvantisering.

Det, der gør disse modeller bemærkelsesværdige, er deres modalitetsbredde. På trods af at de er de mindste i familien, er E2B og E4B de eneste Gemma 4-modeller, der understøtter alle fire input-modaliteter: tekst, billeder, video og lyd. Dette er et bevidst designvalg — edge-enheder med kameraer og mikrofoner har størst gavn af multimodale evner.

Begge modeller understøtter 128K token context windows, hvilket er generøst for deres parameterantal og tilstrækkeligt til de fleste on-device use cases.

26B MoE: Maksimal effektivitet

26B Mixture of Experts-modellen er uden tvivl den mest interessante model i Gemma 4-serien. Den indeholder 26B parametre i alt, men aktiverer kun 3.8B parametre for et givet input — hvilket svarer til omtrent samme compute-omkostning som E4B-modellen, men med adgang til markant mere viden og kapacitet.

På Arena AI rangerer 26B MoE som nr. 6 blandt alle open modeller med en score på 1441, selvom den kun bruger 3.8B aktive parametre. Dette effektivitetsforhold er uden sidestykke — ingen anden model opnår sammenlignelig kvalitet ved denne compute-omkostning.

MoE-arkitekturen router hver token gennem specialiserede ekspert-sub-netværk, hvilket gør det muligt for modellen at opretholde en stor videnskapacitet, mens inference-omkostningerne holdes lave. Til udrulningsscenarier, hvor du har brug for stærkt ræsonnement, men har begrænset GPU-hukommelse, er 26B MoE det optimale valg.

31B Dense: Maksimal kvalitet

31B Dense-modellen er Gemma 4's flagskib. Hver parameter er aktiv for hver token, hvilket giver den de mest konsistente resultater af højeste kvalitet på tværs af alle opgavetyper.

På Arena AI rangerer 31B Dense som nr. 3 blandt alle open modeller med en score på 1452. På MMLU Pro opnår den 85.2% — hvilket er konkurrencedygtigt med modeller, der er flere gange dens størrelse. Scoren på 89.2% på AIME 2026 demonstrerer stærkt matematisk ræsonnement, mens 74% på BigBench Extra Hard (op fra 19% i de foregående generationer) viser en massiv forbedring i komplekse ræsonnementsopgaver.

Benchmarks: De komplette data

Ræsonnement og viden

Benchmark	31B Dense	26B MoE	Noter
MMLU Pro	85.2%	—	Viden på kandidatniveau
AIME 2026	89.2%	—	Konkurrencematematik
BigBench Extra Hard	74%	—	Op fra 19% i forrige gen
Arena AI Score	1452 (3rd)	1441 (6th)	Rangering af open modeller

Kilde: Google DeepMind teknisk rapport

BigBench Extra Hard: Det opsigtsvækkende resultat

Springet fra 19% til 74% på BigBench Extra Hard fortjener særlig opmærksomhed. Denne benchmark tester komplekst ræsonnement i flere trin, logisk deduktion og opgaver, der kræver ægte forståelse snarere end mønstergenkendelse. En forbedring på 55 procentpoint i en enkelt generation antyder fundamentale fremskridt i Gemma 4's ræsonnementsarkitektur, ikke blot skalering.

Denne forbedring er sandsynligvis forbundet med den konfigurerbare thinking mode og den underliggende Gemini 3-teknologi, som Gemma 4 er bygget på. Thinking mode genererer udvidede ræsonnementskæder, der hjælper modellen med at arbejde sig igennem komplekse problemer trin for trin.

Kontekst for Arena AI-rangeringer

Arena AI rangerer modeller baseret på head-to-head menneskelige præference-sammenligninger. At 31B Dense scorer 1452 og rangerer som nr. 3 blandt open modeller placerer den over mange modeller med betydeligt flere parametre. Til kontekst:

Modeller, der rangerer over den, er typisk 70B+ parametermodeller
At 26B MoE opnår 1441 med kun 3.8B aktive parametre er et gennembrud for effektivitet
Begge modeller udkonkurrerer den tidligere Gemma 3 27B med en betydelig margin

Multimodale egenskaber

Billedforståelse

Alle fire Gemma 4-modeller behandler billeder nativt. Egenskaberne inkluderer:

Billedbeskrivelse og analyse — detaljeret forståelse af visuelt indhold
OCR og dokumentparsing — udtrækning af tekst fra billeder, kvitteringer, screenshots
Fortolkning af grafer og diagrammer — forståelse af datavisualiseringer
Visuelt ræsonnement — besvarelse af spørgsmål, der kræver forståelse for rumlige relationer

Video og lyd (kun E2B/E4B)

De mindre E2B og E4B modeller tilføjer nativ video- og lydbehandling:

Videoforståelse — analyse af videoindhold uden frame-by-frame udtrækning
Lydtransskribering og forståelse — behandling af tale og omgivelseslyd
Tværgående modal ræsonnement — besvarelse af spørgsmål, der spænder over tekst, billede, video og lyd

Dette designvalg afspejler Google's fokus på edge-udrulning. Mobile enheder optager video og lyd nativt, så de modeller, der er designet til disse enheder, understøtter disse modaliteter.

Konfigurerbar Thinking Mode

Gemma 4 introducerer en konfigurerbar thinking mode, der genererer 4,000+ tokens af internt ræsonnement, før den producerer et svar. Dette minder om de udvidede tænkeevner set i Claude's modeller og OpenAI's o-serie, men implementeret i en open-weight model.

Hvordan det virker

Når thinking mode er aktiveret, vil modellen:

Modtage input prompten
Generere en intern ræsonnementskæde (synlig eller skjult, afhængigt af konfigurationen)
Bruge ræsonnementskæden til at producere et endeligt svar af højere kvalitet

Denne thinking mode kan slås til og fra per anmodning, hvilket gør det muligt for udviklere at:

Aktivere tænkning til komplekse matematik-, logik-, kodnings- og analyseopgaver
Deaktivere tænkning til simple forespørgsler, chat og latensfølsomme applikationer
Justere tænkedybden baseret på opgavens forventede kompleksitet

Indvirkning på kvalitet

Thinking mode er en primær drivkraft bag Gemma 4's stærke benchmark-resultater. AIME 2026-scoren på 89.2% og BigBench Extra Hard-scoren på 74% opnås begge med thinking mode aktiveret. Uden thinking mode ville disse scores være mærkbart lavere — svarende til det mønster, man ser hos andre modeller med udvidede ræsonnementsevner.

Apache 2.0: Hvorfor licensændringen betyder noget

Tidligere Gemma-generationer blev leveret under Google's speciallicens for Gemma, som indeholdt restriktioner for:

Brug i visse applikationer
Vilkår for videredistribution
Kommercielle begrænsninger for udrulning i stor skala

Gemma 4 skifter til Apache 2.0, den samme licens der bruges af projekter som Kubernetes, TensorFlow og Apache HTTP Server. Dette betyder:

Ingen brugsbegrænsninger — brug den til hvad som helst, inklusive kommercielle produkter
Ingen begrænsninger for videredistribution — del modificerede weights frit
Ingen krav om kreditering ud over licensen — standard Apache 2.0 meddelelse
Ingen Google-godkendelse nødvendig — udrul i enhver skala uden tilladelse
Kompatibel med andre open-source licenser — nem at integrere i eksisterende projekter

For virksomheder og startups, der bygger produkter oven på open modeller, fjerner dette de juridiske gennemgangsomkostninger, som Gemma's speciallicens krævede. Det gør også Gemma 4 direkte sammenlignelig med Meta's Llama-modeller (som bruger deres egen speciallicens med visse restriktioner) og positionerer den som den mest permissivt licenserede, højkvalitets open model-familie til rådighed.

Understøttelse af sprog

Gemma 4 understøtter 35+ sprog til inference og blev forudtrænet på 140+ sprog. Dette gør den til en af de mest flersprogede open modeller til rådighed, sammen med Qwen's modeller, som også lægger vægt på bred sprogdækning.

De understøttede sprog inkluderer de største verdenssprog (engelsk, kinesisk, spansk, fransk, tysk, japansk, koreansk, arabisk, hindi, portugisisk, russisk) samt mange sprog med mindre digitale fodaftryk. Forudtræningen på 140+ sprog betyder, at modellen har visse evner i sprog ud over de officielt understøttede 35+, selvom kvaliteten kan variere.

For applikationer rettet mod et globalt publikum eller ikke-engelske markeder reducerer denne brede sprogstøtte behovet for specialiseret fine-tuning eller separate modeller per sprog.

Struktureret Tool Use og Agentic Workflows

Gemma 4 inkluderer nativ understøttelse af struktureret tool use, hvilket muliggør agentic workflows, hvor modellen kan:

Kalde eksterne API'er med korrekt formaterede anmodninger
Parse strukturerede svar fra værktøjer og tjenester
Kæde flere værktøjskald for at fuldføre komplekse opgaver
Håndtere fejl og gentagne forsøg i eksekvering af værktøjer

Denne egenskab er særligt relevant for Android Studio integration, hvor Gemma 4 driver lokale agentiske kodnings-workflows. Modellen kan forstå kodekontekst, foreslå ændringer, eksekvere værktøjer og iterere — alt sammen kørende lokalt på udviklerens maskine uden at sende kode til eksterne serverer.

For udviklere, der bygger AI-agenter, giver Gemma 4's strukturerede tool use et fuldt ud lokalt og privat fundament. Kombineret med Apache 2.0 licensen muliggør dette opbygning og udrulning af agentiske applikationer uden afhængighed af eksterne modeludbydere.

Hardwarekrav

Lokal udrulning via Ollama

Model	RAM Påkrævet (4-bit)	RAM Påkrævet (FP16)	GPU Anbefaling
E2B	~5 GB	~5 GB	Enhver moderne GPU / kun CPU
E4B	~5 GB	~9 GB	Enhver moderne GPU / kun CPU
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Kilde: Ollama modelbibliotek

E2B og E4B modellerne er specifikt designet til edge-udrulning. De kører uden problemer på bærbare computere, desktop CPU'er og endda visse smartphones. 26B MoE og 31B Dense modellerne kræver dedikeret GPU-hardware, men forbliver tilgængelige for individuelle udviklere med forbruger-GPU'er.

NVIDIA Optimering

NVIDIA har udgivet optimerede versioner af Gemma 4 til RTX GPU'er, som giver:

Hurtigere inference gennem GPU-specifikke kernel-optimeringer
Bedre hukommelsesudnyttelse på RTX 4000 og 5000 serierne
TensorRT integration til produktionsudrulning
CUDA graph support for reduceret overhead ved gentagen inference

Kilde: NVIDIA AI Blog

Hvad er ændret fra Gemma 3

Funktion	Gemma 3	Gemma 4
Licens	Gemma Licens (begrænset)	Apache 2.0 (ubegrænset)
Modelstørrelser	3 størrelser	4 størrelser (tilføjet MoE)
Context Window	Op til 128K	Op til 256K
Modaliteter	Tekst, Billede	Tekst, Billede, Video, Lyd
Thinking Mode	Nej	Ja (konfigurerbar)
Tool Use	Begrænset	Struktureret tool use
Sprog	30+	35+ (forudtrænet på 140+)
BigBench Extra Hard	19%	74%

Hver dimension er forbedret. De mest betydningsfulde ændringer for udviklere er Apache 2.0 licensen (fjerner juridisk friktion), thinking mode (forbedrer kvaliteten på svære opgaver) og MoE-arkitekturen (giver flagskibs-kvalitet til en brøkdel af compute-omkostningen).

Praktiske anvendelsesscenarier

Kodning og udvikling

Gemma 4's strukturerede tool use og thinking mode gør den effektiv til:

Lokal kode-completion og generering
Kodegennemgang og fejlfinding
Automatiseret generering af test
Skrivning af dokumentation
Agentiske kodnings-workflows i Android Studio

Dokumentbehandling

Med 256K context windows og multimodal understøttelse:

Behandl hele kodebaser eller lange dokumenter i en enkelt prompt
Udtræk information fra billeder af dokumenter, kvitteringer og formularer
Analysér grafer og datavisualiseringer
Opsummér lange forskningsartikler eller juridiske dokumenter

Opbygning af AI-drevne applikationer

For udviklere, der bygger produkter med AI-egenskaber, leverer Gemma 4 et stærkt on-device eller selv-hosted inference-lag. Modellen håndterer intelligensen — forståelse af forespørgsler, generering af svar, behandling af billeder — mens dit applikations-framework håndterer resten. Værktøjer som ZBuild kan fremskynde opbygningen af selve applikationen (frontend, backend, database, udrulning), så du kan fokusere på AI-integrationslaget, hvor Gemma 4's evner betyder mest.

Edge og mobil udrulning

E2B og E4B modellerne åbner op for anvendelsesscenarier, der før var umulige med open modeller:

On-device assistenter, der fungerer offline
Privatlivsbevarende AI-funktioner, der aldrig sender data til eksterne serverer
Video- og lydbehandling i realtid på mobile enheder
Indlejret AI i IoT og robotapplikationer

Sådan kommer du i gang

Ollama (Hurtigste vej)

# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Pull og kør Gemma 4
ollama run gemma4:e2b      # Mindst, kører overalt
ollama run gemma4:e4b      # Lille, bredere kapacitet
ollama run gemma4:26b-moe  # MoE, bedste effektivitet
ollama run gemma4:31b      # Dense, højeste kvalitet

Hugging Face

Alle Gemma 4-modeller er tilgængelige på Hugging Face med fuld transformers integration:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google giver gratis API-adgang til Gemma 4 gennem AI Studio til eksperimenter og prototyper, mens Vertex AI er tilgængelig til produktionsudrulning.

Gemma 4 i det konkurrenceprægede landskab

For at forstå hvor Gemma 4 placerer sig i det bredere økosystem:

Model	Parametre	Licens	MMLU Pro	Arena AI	Kontekst
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B aktive)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B aktive)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B aktive)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B aktive)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B opnår den højeste MMLU Pro-score og Arena AI-rangering blandt open modeller — med det færreste antal parametre i alt. Denne parametereffektivitet er et direkte resultat af Gemini 3-teknologien og den konfigurerbare thinking mode.

26B MoE-modellens effektivitetshistorie er endnu mere overbevisende. Den rangerer som nr. 6 på Arena AI, mens den kun aktiverer 3.8B parametre per token. Ingen anden model opnår et sammenligneligt kvalitet-til-compute forhold. For produktionsudrulninger, hvor inference-omkostningerne skalerer med forbruget, oversættes denne effektivitet direkte til omkostningsbesparelser.

Sammenlignet med proprietære modeller er Gemma 4 31B's benchmarks konkurrencedygtige med mid-tier tilbud fra Anthropic og OpenAI. Selvom de førende proprietære modeller stadig fører på de sværeste opgaver, er kløften blevet markant mindre — og Gemma 4 kommer med nul per-token omkostninger og fuld Apache 2.0 frihed.

Konklusion

Gemma 4 sætter en ny standard for open-weight modeller i 2026. Kombinationen af Apache 2.0 licensering, fire veldifferentierede modelstørrelser, nativ multimodal understøttelse, konfigurerbar thinking mode og benchmark-scores, der er konkurrencedygtige med meget større modeller, gør den til den mest praktiske open model-familie, der findes.

31B Dense er det rigtige valg, når du har brug for maksimal kvalitet. 26B MoE er det rigtige valg, når du har brug for stærk kvalitet ved minimale compute-omkostninger. E2B og E4B er de rigtige valg til edge-udrulning og on-device AI. For første gang i Gemma-familien begrænser licensen ikke nogen af disse anvendelsesscenarier.

Google Gemma 4: Komplet guide til specs, benchmarks og hvad der er nyt (2026)