Hva er Google Gemma 4 og når ble den lansert?

Google Gemma 4 er Google DeepMinds open-weight modellfamilie lansert 2. april 2026. Den inkluderer 4 størrelser — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total), og 31B Dense. Alle modeller er lansert under Apache 2.0, den mest permissive lisensen som noen gang er brukt for en Gemma-utgivelse.

Er Gemma 4 virkelig open source?

Ja. Gemma 4 er den første Gemma-generasjonen lansert under Apache 2.0-lisensen, som tillater ubegrenset kommersiell bruk, modifisering og redistribuering uten krav om tillatelse fra Google. Tidligere Gemma-modeller brukte Googles egendefinerte Gemma-lisens som påla bruksrestriksjoner.

Hvilket context window støtter Gemma 4?

De mindre modellene (E2B og E4B) støtter 128K token context windows. De større modellene (26B MoE og 31B Dense) støtter 256K token context windows. Dette er en betydelig forbedring over Gemma 3 sine context-grenser og muliggjør prosessering av hele kodebaser eller lange dokumenter i en enkelt prompt.

Kan Gemma 4 behandle bilder, video og lyd?

Ja. Alle fire Gemma 4-modellene er nativt multimodale og støtter tekst- og bildeinndata. Modellene E2B og E4B går enda lenger med native video- og lydbehandlingsegenskaper. Dette gjør Gemma 4 til den første open-weight modellfamilien der de minste modellene har den bredeste støtten for modaliteter.

Hvordan fungerer Gemma 4 sin thinking mode?

Gemma 4 inkluderer en konfigurerbar thinking mode som genererer 4,000+ tokens med intern resonnering før den produserer et svar. Denne chain-of-thought-resonneringen kan slås på eller av per forespørsel, slik at utviklere kan velge mellom raskere svar for enkle oppgaver og dypere resonnering for komplekse problemer som matematikk, logikk og koding.

Hvilken maskinvare trenger jeg for å kjøre Gemma 4 lokalt?

Gemma 4 E2B og E4B kjører på enheter med så lite som 5GB RAM ved bruk av 4-bit quantization, inkludert smarttelefoner og bærbare datamaskiner. 26B MoE-modellen krever omtrent 18GB RAM og 31B Dense krever omtrent 20GB RAM. Alle modeller kjører via Ollama med NVIDIA RTX GPU-optimalisering tilgjengelig.

Viktig konklusjon

Google Gemma 4 er den mest kapable familien av modeller med åpne vekter som noensinne er utgitt under en genuint tillatende lisens. 31B Dense-modellen skårer 85.2% på MMLU Pro og rangeres som nummer 3 blant alle åpne modeller på Arena AI — mens 26B MoE oppnår nesten identisk kvalitet med bare 3.8B aktive parametere. For første gang leveres Gemma under Apache 2.0, noe som fjerner enhver lisensieringsfriksjon som holdt tilbake kommersiell adopsjon av tidligere generasjoner.

Google Gemma 4: Alt du trenger å vite

Oversikt over utgivelsen

Google DeepMind lanserte Gemma 4 den April 2, 2026, og introduserte fire modellstørrelser bygget på samme teknologiske fundament som Gemini 3. Denne generasjonen representerer det største spranget i Gemma-familien på tvers av alle dimensjoner: modellkvalitet, multimodale evner, kontekstlengde og lisensvilkår.

De viktigste endringene fra Gemma 3:

Apache 2.0 lisensiering — ingen bruksrestriksjoner, ingen tilpasset lisens, full kommersiell frihet
Fire modellstørrelser i stedet for tre, inkludert en ny MoE-arkitektur
Nativ multimodal støtte på tvers av alle størrelser (tekst, bilder, video, lyd)
Konfigurerbar tenkemodus med 4,000+ token resonneringskjeder
256K kontekstvinduer på større modeller (opp fra Gemma 3 sine grenser)
35+ støttede språk, forhåndstrent på 140+ språk
Strukturert verktøybruk for agentiske arbeidsflyter

De fire modellstørrelsene

Gemma 4 leveres i fire distinkte størrelser, hver rettet mot ulike distribusjonsscenarioer:

Modell	Parametere	Aktive parametere	Arkitektur	Kontekst	Modaliteter
E2B	2.3B effektive	2.3B	Dense	128K	Tekst, Bilde, Video, Lyd
E4B	4.5B effektive	4.5B	Dense	128K	Tekst, Bilde, Video, Lyd
26B MoE	26B totalt	3.8B	Mixture of Experts	256K	Tekst, Bilde
31B Dense	31B	31B	Dense	256K	Tekst, Bilde

Kilde: Google AI Blog

E2B og E4B: Edge-modellene

De minste Gemma 4-modellene er designet for distribusjon på enheter (on-device). Med henholdsvis 2.3B og 4.5B effektive parametere, kjører de på smarttelefoner, nettbrett og bærbare datamaskiner med så lite som 5GB RAM ved bruk av 4-bit kvantisering.

Det som gjør disse modellene bemerkelsesverdige er deres bredde i modalitet. Til tross for at de er de minste i familien, er E2B og E4B de eneste Gemma 4-modellene som støtter alle fire inngangsmodaliteter: tekst, bilder, video og lyd. Dette er et bevisst designvalg — edge-enheter med kameraer og mikrofoner drar mest nytte av multimodale evner.

Begge modellene støtter 128K token kontekstvinduer, noe som er sjenerøst for deres parameterantall og tilstrekkelig for de fleste on-device bruksområder.

26B MoE: Maksimal effektivitet

26B Mixture of Experts-modellen er uten tvil den mest interessante modellen i Gemma 4-serien. Den inneholder 26B totale parametere, men aktiverer bare 3.8B parametere for ethvert gitt input — omtrent samme beregningskostnad som E4B-modellen, men med tilgang til dramatisk mer kunnskap og evne.

På Arena AI rangeres 26B MoE som nummer 6 blant alle åpne modeller med en skåre på 1441, til tross for at den bare bruker 3.8B aktive parametere. Dette effektivitetsforholdet er uten sidestykke — ingen annen modell oppnår sammenlignbar kvalitet ved denne beregningskostnaden.

MoE-arkitekturen ruter hvert token gjennom spesialiserte ekspert-subnettverk, noe som gjør at modellen kan opprettholde stor kunnskapskapasitet samtidig som inferenskostnaden holdes lav. For distribusjonsscenarioer der du trenger sterk resonnering, men har begrenset GPU-minne, er 26B MoE det optimale valget.

31B Dense: Maksimal kvalitet

31B Dense-modellen er flaggskipet i Gemma 4. Hver parameter er aktiv for hvert token, noe som gir den de mest konsekvente resultatene med høyest kvalitet på tvers av alle oppgavetyper.

På Arena AI rangeres 31B Dense som nummer 3 blant alle åpne modeller med en skåre på 1452. På MMLU Pro oppnår den 85.2% — konkurransedyktig med modeller som er flere ganger dens størrelse. Skåren på 89.2% på AIME 2026 demonstrerer sterk matematisk resonnering, mens 74% på BigBench Extra Hard (opp fra 19% i tidligere generasjoner) viser en massiv forbedring i komplekse resonneringsoppgaver.

Benchmarks: Fullstendige data

Resonnering og kunnskap

Benchmark	31B Dense	26B MoE	Merknader
MMLU Pro	85.2%	—	Kunnskap på masternivå
AIME 2026	89.2%	—	Konkurransematematikk
BigBench Extra Hard	74%	—	Opp fra 19% i forrige gen
Arena AI Score	1452 (3rd)	1441 (6th)	Rangering av åpne modeller

Kilde: Google DeepMind teknisk rapport

BigBench Extra Hard: Det mest fremtredende resultatet

Hoppet fra 19% til 74% på BigBench Extra Hard fortjener spesiell oppmerksomhet. Denne benchmarken tester kompleks flertrinns resonnering, logisk deduksjon og oppgaver som krever genuin forståelse fremfor mønstergjenkjenning. En forbedring på 55 prosentpoeng i en enkelt generasjon antyder fundamentale fremskritt i Gemma 4 sin resonneringsarkitektur, ikke bare skalering.

Denne forbedringen er sannsynligvis knyttet til den konfigurerbare tenkemodusen og den underliggende Gemini 3-teknologien som Gemma 4 er bygget på. Tenkemodusen genererer utvidede resonneringskjeder som hjelper modellen å jobbe seg gjennom komplekse problemer steg for steg.

Kontekst for Arena AI-rangeringer

Arena AI rangerer modeller basert på menneskelige preferansesammenligninger ansikt til ansikt. At 31B Dense skårer 1452 og rangeres som nummer 3 blant åpne modeller, plasserer den over mange modeller med betydelig flere parametere. For kontekst:

Modeller som rangeres over den er typisk 70B+ parametermodeller
At 26B MoE oppnår 1441 med bare 3.8B aktive parametere er et gjennombrudd for effektivitet
Begge modellene utkonkurrerer den forrige Gemma 3 27B med god margin

Multimodale evner

Bildeforståelse

Alle de fire Gemma 4-modellene prosesserer bilder nativt. Evnene inkluderer:

Bildebeskrivelse og analyse — detaljert forståelse av visuelt innhold
OCR og dokumenttolking — uttrekking av tekst fra bilder, kvitteringer, skjermbilder
Tolking av grafer og diagrammer — forståelse av datavisualiseringer
Visuell resonnering — svare på spørsmål som krever forståelse av romlige forhold

Video og lyd (kun E2B/E4B)

De mindre E2B- og E4B-modellene legger til nativ video- og lydbehandling:

Videoforståelse — analysere videoinnhold uten bilde-for-bilde uttrekking
Lydtranskripsjon og forståelse — prosessering av tale og miljølyd
Tverrmodal resonnering — svare på spørsmål som spenner over tekst, bilde, video og lydinnganger

Dette designvalget gjenspeiler Google sitt fokus på distribusjon på edge-enheter. Mobile enheter fanger opp video og lyd nativt, så modellene designet for disse enhetene støtter disse modalitetene.

Konfigurerbar tenkemodus

Gemma 4 introduserer en konfigurerbar tenkemodus som genererer 4,000+ tokens med intern resonnering før den produserer et svar. Dette ligner på de utvidede tenkeevnene sett i Claude sine modeller og OpenAI sin o-serie, men implementert i en modell med åpne vekter.

Slik fungerer det

Når tenkemodus er aktivert, vil modellen:

Motta input-prompten
Generere en intern resonneringskjede (synlig eller skjult, avhengig av konfigurasjon)
Bruke resonneringskjeden til å produsere et endelig svar med høyere kvalitet

Tenkemodus kan slås av og på per forespørsel, noe som lar utviklere:

Aktivere tenking for komplekse oppgaver innen matematikk, logikk, koding og analyse
Deaktivere tenking for enkle spørsmål, chat og applikasjoner som er følsomme for forsinkelse (latency)
Justere tenkedybden basert på oppgavens forventede kompleksitet

Effekt på kvalitet

Tenkemodusen er en hoveddriver bak Gemma 4 sine sterke benchmark-resultater. AIME 2026-skåren på 89.2% og BigBench Extra Hard-skåren på 74% er begge oppnådd med tenkemodus aktivert. Uten tenkemodus ville disse skårene vært betydelig lavere — i likhet med mønsteret man ser i andre modeller med utvidede resonneringsevner.

Apache 2.0: Hvorfor lisensendringen betyr noe

Tidligere Gemma-generasjoner ble levert under Google sin tilpassede Gemma-lisens, som inkluderte restriksjoner på:

Bruk i visse applikasjoner
Vilkår for videredistribusjon
Begrensninger for kommersiell distribusjon for bruk i stor skala

Gemma 4 bytter til Apache 2.0, den samme lisensen som brukes av prosjekter som Kubernetes, TensorFlow og Apache HTTP Server. Dette betyr:

Ingen bruksrestriksjoner — bruk den til hva som helst, inkludert kommersielle produkter
Ingen begrensninger på videredistribusjon — del modifiserte vekter fritt
Ingen krav til navngivelse utover lisensen — standard Apache 2.0-merknad
Ingen godkjenning fra Google nødvendig — distribuer i hvilken som helst skala uten tillatelse
Kompatibel med andre åpen kildekode-lisenser — enkel å integrere i eksisterende prosjekter

For selskaper og oppstartsvirksomheter som bygger produkter på toppen av åpne modeller, fjerner dette de juridiske vurderingene som Gemma sin tilpassede lisens krevde. Det gjør også Gemma 4 direkte sammenlignbar med Meta sine Llama-modeller (som bruker sin egen tilpassede lisens med visse restriksjoner) og posisjonerer den som den mest tillatende lisensierte åpne modellfamilien av høy kvalitet som er tilgjengelig.

Språkstøtte

Gemma 4 støtter 35+ språk for inferens og ble forhåndstrent på 140+ språk. Dette gjør den til en av de mest flerspråklige åpne modellene som er tilgjengelige, ved siden av Qwen sine modeller som også legger vekt på bred språkdekning.

Støttede språk inkluderer store verdensspråk (engelsk, kinesisk, spansk, fransk, tysk, japansk, koreansk, arabisk, hindi, portugisisk, russisk) samt mange språk med mindre digitale fotavtrykk. Forhåndstreningen på 140+ språk betyr at modellen har en viss evne i språk utover de offisielt støttede 35+, selv om kvaliteten kan variere.

For applikasjoner rettet mot et globalt publikum eller ikke-engelskspråklige markeder, reduserer denne brede språkstøtten behovet for spesialisert finjustering eller separate modeller per språk.

Strukturert verktøybruk og agentiske arbeidsflyter

Gemma 4 inkluderer nativ støtte for strukturert verktøybruk, noe som muliggjør agentiske arbeidsflyter der modellen kan:

Kalle eksterne API-er med korrekt formaterte forespørsler
Tolke strukturerte svar fra verktøy og tjenester
Kjede sammen flere verktøykall for å fullføre komplekse oppgaver
Håndtere feil og forsøke på nytt ved verktøykjøring

Denne evnen er spesielt relevant for Android Studio-integrasjon, der Gemma 4 driver lokale agentiske kodearbeidsflyter. Modellen kan forstå kodekontekst, foreslå endringer, kjøre verktøy og iterere — alt kjørende lokalt på utviklerens maskin uten å sende kode til eksterne servere.

For utviklere som bygger AI-agenter, gir Gemma 4 sin strukturerte verktøybruk et fullstendig lokalt og privat fundament. Kombinert med Apache 2.0-lisensen, muliggjør dette bygging og distribusjon av agentiske applikasjoner uten avhengighet av eksterne modell-leverandører.

Maskinvarekrav

Lokal distribusjon via Ollama

Modell	RAM-krav (4-bit)	RAM-krav (FP16)	GPU-anbefaling
E2B	~5 GB	~5 GB	Enhver moderne GPU / kun CPU
E4B	~5 GB	~9 GB	Enhver moderne GPU / kun CPU
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Kilde: Ollama modellbibliotek

E2B- og E4B-modellene er spesifikt designet for distribusjon på edge-enheter. De kjører komfortabelt på bærbare datamaskiner, stasjonære CPU-er og til og med noen smarttelefoner. 26B MoE- og 31B Dense-modellene krever dedikert GPU-maskinvare, men forblir tilgjengelige for individuelle utviklere med GPU-er for forbrukermarkedet.

NVIDIA-optimalisering

NVIDIA har utgitt optimaliserte versjoner av Gemma 4 for RTX-GPU-er, som gir:

Raskere inferens gjennom GPU-spesifikke kjerne-optimaliseringer
Bedre minneutnyttelse på RTX 4000- og 5000-seriens kort
TensorRT-integrasjon for produksjonsdistribusjon
CUDA-grafstøtte for redusert overhead ved gjentatt inferens

Kilde: NVIDIA AI Blog

Hva er endret fra Gemma 3

Funksjon	Gemma 3	Gemma 4
Lisens	Gemma-lisens (begrenset)	Apache 2.0 (ubegrenset)
Modellstørrelser	3 størrelser	4 størrelser (la til MoE)
Kontekstvindu	Opp til 128K	Opp til 256K
Modaliteter	Tekst, Bilde	Tekst, Bilde, Video, Lyd
Tenkemodus	Nei	Ja (konfigurerbar)
Verktøybruk	Begrenset	Strukturert verktøybruk
Språk	30+	35+ (forhåndstrent på 140+)
BigBench Extra Hard	19%	74%

Hver dimensjon er forbedret. De mest virkningsfulle endringene for utviklere er Apache 2.0-lisensen (fjerner juridisk friksjon), tenkemodusen (forbedrer kvaliteten på vanskelige oppgaver) og MoE-arkitekturen (gir flaggskipkvalitet til en brøkdel av beregningskostnaden).

Praktiske bruksområder

Koding og utvikling

Gemma 4 sin strukturerte verktøybruk og tenkemodus gjør den effektiv for:

Lokal kodefullføring og generering
Kodegjennomgang og feilsøking
Automatisert testgenerering
Skriving av dokumentasjon
Agentiske kodearbeidsflyter i Android Studio

Dokumentbehandling

Med 256K kontekstvinduer og multimodal støtte:

Prosesser hele kodebaser eller lange dokumenter i en enkelt prompt
Trekk ut informasjon fra bilder av dokumenter, kvitteringer og skjemaer
Analyser grafer og datavisualiseringer
Oppsummer lange forskningsartikler eller juridiske dokumenter

Bygge AI-drevne applikasjoner

For utviklere som bygger produkter som inkluderer AI-evner, gir Gemma 4 et sterkt lag for inferens på enhet eller selv-hostet. Modellen håndterer intelligensen — forståelse av spørsmål, generering av svar, behandling av bilder — mens ditt applikasjonsrammeverk håndterer resten. Verktøy som ZBuild kan akselerere byggingen av applikasjonsskallet (frontend, backend, database, distribusjon), slik at du kan fokusere utviklingsinnsatsen på AI-integrasjonslaget der Gemma 4 sine evner betyr mest.

Distribusjon på edge og mobil

E2B- og E4B-modellene åpner opp for bruksområder som tidligere var umulige med åpne modeller:

Assistenter på enheten som fungerer offline
Personvernsbevarende AI-funksjoner som aldri sender data til eksterne servere
Sanntids video- og lydbehandling på mobile enheter
Innebygd AI i IoT- og robotikkapplikasjoner

Hvordan komme i gang

Ollama (Raskeste vei)

# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Pull and run Gemma 4
ollama run gemma4:e2b      # Smallest, runs anywhere
ollama run gemma4:e4b      # Small, broader capability
ollama run gemma4:26b-moe  # MoE, best efficiency
ollama run gemma4:31b      # Dense, highest quality

Hugging Face

Alle Gemma 4-modellene er tilgjengelige på Hugging Face med full transformers-integrasjon:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google tilbyr gratis API-tilgang til Gemma 4 gjennom AI Studio for eksperimentering og prototyping, med Vertex AI tilgjengelig for produksjonsdistribusjon.

Gemma 4 i det konkurransepregede landskapet

For å forstå hvor Gemma 4 befinner seg i det bredere økosystemet:

Modell	Parametere	Lisens	MMLU Pro	Arena AI	Kontekst
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B aktive)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B aktive)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B aktive)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B aktive)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B oppnår den høyeste MMLU Pro-skåren og Arena AI-rangeringen blant åpne modeller — med færrest totale parametere. Denne parametereffektiviteten er et direkte resultat av Gemini 3-teknologifundamentet og den konfigurerbare tenkemodusen.

Historien om 26B MoE-modellens effektivitet er enda mer overbevisende. Den rangeres som nummer 6 på Arena AI mens den bare aktiverer 3.8B parametere per token. Ingen annen modell oppnår et sammenlignbart forhold mellom kvalitet og beregning. For produksjonsdistribusjoner der inferenskostnaden skaleres med bruk, oversettes denne effektiviteten direkte til kostnadsbesparelser.

Sammenlignet med proprietære modeller, er Gemma 4 31B sine benchmarks konkurransedyktige med mellomklasse-tilbud fra Anthropic og OpenAI. Selv om de beste proprietære modellene fortsatt leder på de vanskeligste oppgavene, har gapet blitt dramatisk mindre — og Gemma 4 kommer med null per-token-kostnad og full Apache 2.0-frihet.

Konklusjon

Gemma 4 setter en ny standard for modeller med åpne vekter i 2026. Kombinasjonen av Apache 2.0-lisensiering, fire godt differensierte modellstørrelser, nativ multimodal støtte, konfigurerbar tenkemodus og benchmark-skårer som er konkurransedyktige med mye større modeller, gjør den til den mest praktiske åpne modellfamilien som er tilgjengelig.

31B Dense er det rette valget når du trenger maksimal kvalitet. 26B MoE er det rette valget når du trenger sterk kvalitet til minimum beregningskostnad. E2B og E4B er de rette valgene for edge-distribusjon og AI på enheten. For første gang i Gemma-familien begrenser ikke lisensen noen av disse bruksområdene.

Google Gemma 4: Komplett guide til spesifikasjoner, benchmarks og hva som er nytt (2026)