Viktig konklusjon
Google Gemma 4 er den mest kapable familien av modeller med åpne vekter som noensinne er utgitt under en genuint tillatende lisens. 31B Dense-modellen skårer 85.2% på MMLU Pro og rangeres som nummer 3 blant alle åpne modeller på Arena AI — mens 26B MoE oppnår nesten identisk kvalitet med bare 3.8B aktive parametere. For første gang leveres Gemma under Apache 2.0, noe som fjerner enhver lisensieringsfriksjon som holdt tilbake kommersiell adopsjon av tidligere generasjoner.
Google Gemma 4: Alt du trenger å vite
Oversikt over utgivelsen
Google DeepMind lanserte Gemma 4 den April 2, 2026, og introduserte fire modellstørrelser bygget på samme teknologiske fundament som Gemini 3. Denne generasjonen representerer det største spranget i Gemma-familien på tvers av alle dimensjoner: modellkvalitet, multimodale evner, kontekstlengde og lisensvilkår.
De viktigste endringene fra Gemma 3:
- Apache 2.0 lisensiering — ingen bruksrestriksjoner, ingen tilpasset lisens, full kommersiell frihet
- Fire modellstørrelser i stedet for tre, inkludert en ny MoE-arkitektur
- Nativ multimodal støtte på tvers av alle størrelser (tekst, bilder, video, lyd)
- Konfigurerbar tenkemodus med 4,000+ token resonneringskjeder
- 256K kontekstvinduer på større modeller (opp fra Gemma 3 sine grenser)
- 35+ støttede språk, forhåndstrent på 140+ språk
- Strukturert verktøybruk for agentiske arbeidsflyter
De fire modellstørrelsene
Gemma 4 leveres i fire distinkte størrelser, hver rettet mot ulike distribusjonsscenarioer:
| Modell | Parametere | Aktive parametere | Arkitektur | Kontekst | Modaliteter |
|---|---|---|---|---|---|
| E2B | 2.3B effektive | 2.3B | Dense | 128K | Tekst, Bilde, Video, Lyd |
| E4B | 4.5B effektive | 4.5B | Dense | 128K | Tekst, Bilde, Video, Lyd |
| 26B MoE | 26B totalt | 3.8B | Mixture of Experts | 256K | Tekst, Bilde |
| 31B Dense | 31B | 31B | Dense | 256K | Tekst, Bilde |
E2B og E4B: Edge-modellene
De minste Gemma 4-modellene er designet for distribusjon på enheter (on-device). Med henholdsvis 2.3B og 4.5B effektive parametere, kjører de på smarttelefoner, nettbrett og bærbare datamaskiner med så lite som 5GB RAM ved bruk av 4-bit kvantisering.
Det som gjør disse modellene bemerkelsesverdige er deres bredde i modalitet. Til tross for at de er de minste i familien, er E2B og E4B de eneste Gemma 4-modellene som støtter alle fire inngangsmodaliteter: tekst, bilder, video og lyd. Dette er et bevisst designvalg — edge-enheter med kameraer og mikrofoner drar mest nytte av multimodale evner.
Begge modellene støtter 128K token kontekstvinduer, noe som er sjenerøst for deres parameterantall og tilstrekkelig for de fleste on-device bruksområder.
26B MoE: Maksimal effektivitet
26B Mixture of Experts-modellen er uten tvil den mest interessante modellen i Gemma 4-serien. Den inneholder 26B totale parametere, men aktiverer bare 3.8B parametere for ethvert gitt input — omtrent samme beregningskostnad som E4B-modellen, men med tilgang til dramatisk mer kunnskap og evne.
På Arena AI rangeres 26B MoE som nummer 6 blant alle åpne modeller med en skåre på 1441, til tross for at den bare bruker 3.8B aktive parametere. Dette effektivitetsforholdet er uten sidestykke — ingen annen modell oppnår sammenlignbar kvalitet ved denne beregningskostnaden.
MoE-arkitekturen ruter hvert token gjennom spesialiserte ekspert-subnettverk, noe som gjør at modellen kan opprettholde stor kunnskapskapasitet samtidig som inferenskostnaden holdes lav. For distribusjonsscenarioer der du trenger sterk resonnering, men har begrenset GPU-minne, er 26B MoE det optimale valget.
31B Dense: Maksimal kvalitet
31B Dense-modellen er flaggskipet i Gemma 4. Hver parameter er aktiv for hvert token, noe som gir den de mest konsekvente resultatene med høyest kvalitet på tvers av alle oppgavetyper.
På Arena AI rangeres 31B Dense som nummer 3 blant alle åpne modeller med en skåre på 1452. På MMLU Pro oppnår den 85.2% — konkurransedyktig med modeller som er flere ganger dens størrelse. Skåren på 89.2% på AIME 2026 demonstrerer sterk matematisk resonnering, mens 74% på BigBench Extra Hard (opp fra 19% i tidligere generasjoner) viser en massiv forbedring i komplekse resonneringsoppgaver.
Benchmarks: Fullstendige data
Resonnering og kunnskap
| Benchmark | 31B Dense | 26B MoE | Merknader |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Kunnskap på masternivå |
| AIME 2026 | 89.2% | — | Konkurransematematikk |
| BigBench Extra Hard | 74% | — | Opp fra 19% i forrige gen |
| Arena AI Score | 1452 (3rd) | 1441 (6th) | Rangering av åpne modeller |
Kilde: Google DeepMind teknisk rapport
BigBench Extra Hard: Det mest fremtredende resultatet
Hoppet fra 19% til 74% på BigBench Extra Hard fortjener spesiell oppmerksomhet. Denne benchmarken tester kompleks flertrinns resonnering, logisk deduksjon og oppgaver som krever genuin forståelse fremfor mønstergjenkjenning. En forbedring på 55 prosentpoeng i en enkelt generasjon antyder fundamentale fremskritt i Gemma 4 sin resonneringsarkitektur, ikke bare skalering.
Denne forbedringen er sannsynligvis knyttet til den konfigurerbare tenkemodusen og den underliggende Gemini 3-teknologien som Gemma 4 er bygget på. Tenkemodusen genererer utvidede resonneringskjeder som hjelper modellen å jobbe seg gjennom komplekse problemer steg for steg.
Kontekst for Arena AI-rangeringer
Arena AI rangerer modeller basert på menneskelige preferansesammenligninger ansikt til ansikt. At 31B Dense skårer 1452 og rangeres som nummer 3 blant åpne modeller, plasserer den over mange modeller med betydelig flere parametere. For kontekst:
- Modeller som rangeres over den er typisk 70B+ parametermodeller
- At 26B MoE oppnår 1441 med bare 3.8B aktive parametere er et gjennombrudd for effektivitet
- Begge modellene utkonkurrerer den forrige Gemma 3 27B med god margin
Multimodale evner
Bildeforståelse
Alle de fire Gemma 4-modellene prosesserer bilder nativt. Evnene inkluderer:
- Bildebeskrivelse og analyse — detaljert forståelse av visuelt innhold
- OCR og dokumenttolking — uttrekking av tekst fra bilder, kvitteringer, skjermbilder
- Tolking av grafer og diagrammer — forståelse av datavisualiseringer
- Visuell resonnering — svare på spørsmål som krever forståelse av romlige forhold
Video og lyd (kun E2B/E4B)
De mindre E2B- og E4B-modellene legger til nativ video- og lydbehandling:
- Videoforståelse — analysere videoinnhold uten bilde-for-bilde uttrekking
- Lydtranskripsjon og forståelse — prosessering av tale og miljølyd
- Tverrmodal resonnering — svare på spørsmål som spenner over tekst, bilde, video og lydinnganger
Dette designvalget gjenspeiler Google sitt fokus på distribusjon på edge-enheter. Mobile enheter fanger opp video og lyd nativt, så modellene designet for disse enhetene støtter disse modalitetene.
Konfigurerbar tenkemodus
Gemma 4 introduserer en konfigurerbar tenkemodus som genererer 4,000+ tokens med intern resonnering før den produserer et svar. Dette ligner på de utvidede tenkeevnene sett i Claude sine modeller og OpenAI sin o-serie, men implementert i en modell med åpne vekter.
Slik fungerer det
Når tenkemodus er aktivert, vil modellen:
- Motta input-prompten
- Generere en intern resonneringskjede (synlig eller skjult, avhengig av konfigurasjon)
- Bruke resonneringskjeden til å produsere et endelig svar med høyere kvalitet
Tenkemodus kan slås av og på per forespørsel, noe som lar utviklere:
- Aktivere tenking for komplekse oppgaver innen matematikk, logikk, koding og analyse
- Deaktivere tenking for enkle spørsmål, chat og applikasjoner som er følsomme for forsinkelse (latency)
- Justere tenkedybden basert på oppgavens forventede kompleksitet
Effekt på kvalitet
Tenkemodusen er en hoveddriver bak Gemma 4 sine sterke benchmark-resultater. AIME 2026-skåren på 89.2% og BigBench Extra Hard-skåren på 74% er begge oppnådd med tenkemodus aktivert. Uten tenkemodus ville disse skårene vært betydelig lavere — i likhet med mønsteret man ser i andre modeller med utvidede resonneringsevner.
Apache 2.0: Hvorfor lisensendringen betyr noe
Tidligere Gemma-generasjoner ble levert under Google sin tilpassede Gemma-lisens, som inkluderte restriksjoner på:
- Bruk i visse applikasjoner
- Vilkår for videredistribusjon
- Begrensninger for kommersiell distribusjon for bruk i stor skala
Gemma 4 bytter til Apache 2.0, den samme lisensen som brukes av prosjekter som Kubernetes, TensorFlow og Apache HTTP Server. Dette betyr:
- Ingen bruksrestriksjoner — bruk den til hva som helst, inkludert kommersielle produkter
- Ingen begrensninger på videredistribusjon — del modifiserte vekter fritt
- Ingen krav til navngivelse utover lisensen — standard Apache 2.0-merknad
- Ingen godkjenning fra Google nødvendig — distribuer i hvilken som helst skala uten tillatelse
- Kompatibel med andre åpen kildekode-lisenser — enkel å integrere i eksisterende prosjekter
For selskaper og oppstartsvirksomheter som bygger produkter på toppen av åpne modeller, fjerner dette de juridiske vurderingene som Gemma sin tilpassede lisens krevde. Det gjør også Gemma 4 direkte sammenlignbar med Meta sine Llama-modeller (som bruker sin egen tilpassede lisens med visse restriksjoner) og posisjonerer den som den mest tillatende lisensierte åpne modellfamilien av høy kvalitet som er tilgjengelig.
Språkstøtte
Gemma 4 støtter 35+ språk for inferens og ble forhåndstrent på 140+ språk. Dette gjør den til en av de mest flerspråklige åpne modellene som er tilgjengelige, ved siden av Qwen sine modeller som også legger vekt på bred språkdekning.
Støttede språk inkluderer store verdensspråk (engelsk, kinesisk, spansk, fransk, tysk, japansk, koreansk, arabisk, hindi, portugisisk, russisk) samt mange språk med mindre digitale fotavtrykk. Forhåndstreningen på 140+ språk betyr at modellen har en viss evne i språk utover de offisielt støttede 35+, selv om kvaliteten kan variere.
For applikasjoner rettet mot et globalt publikum eller ikke-engelskspråklige markeder, reduserer denne brede språkstøtten behovet for spesialisert finjustering eller separate modeller per språk.
Strukturert verktøybruk og agentiske arbeidsflyter
Gemma 4 inkluderer nativ støtte for strukturert verktøybruk, noe som muliggjør agentiske arbeidsflyter der modellen kan:
- Kalle eksterne API-er med korrekt formaterte forespørsler
- Tolke strukturerte svar fra verktøy og tjenester
- Kjede sammen flere verktøykall for å fullføre komplekse oppgaver
- Håndtere feil og forsøke på nytt ved verktøykjøring
Denne evnen er spesielt relevant for Android Studio-integrasjon, der Gemma 4 driver lokale agentiske kodearbeidsflyter. Modellen kan forstå kodekontekst, foreslå endringer, kjøre verktøy og iterere — alt kjørende lokalt på utviklerens maskin uten å sende kode til eksterne servere.
For utviklere som bygger AI-agenter, gir Gemma 4 sin strukturerte verktøybruk et fullstendig lokalt og privat fundament. Kombinert med Apache 2.0-lisensen, muliggjør dette bygging og distribusjon av agentiske applikasjoner uten avhengighet av eksterne modell-leverandører.
Maskinvarekrav
Lokal distribusjon via Ollama
| Modell | RAM-krav (4-bit) | RAM-krav (FP16) | GPU-anbefaling |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Enhver moderne GPU / kun CPU |
| E4B | ~5 GB | ~9 GB | Enhver moderne GPU / kun CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
E2B- og E4B-modellene er spesifikt designet for distribusjon på edge-enheter. De kjører komfortabelt på bærbare datamaskiner, stasjonære CPU-er og til og med noen smarttelefoner. 26B MoE- og 31B Dense-modellene krever dedikert GPU-maskinvare, men forblir tilgjengelige for individuelle utviklere med GPU-er for forbrukermarkedet.
NVIDIA-optimalisering
NVIDIA har utgitt optimaliserte versjoner av Gemma 4 for RTX-GPU-er, som gir:
- Raskere inferens gjennom GPU-spesifikke kjerne-optimaliseringer
- Bedre minneutnyttelse på RTX 4000- og 5000-seriens kort
- TensorRT-integrasjon for produksjonsdistribusjon
- CUDA-grafstøtte for redusert overhead ved gjentatt inferens
Hva er endret fra Gemma 3
| Funksjon | Gemma 3 | Gemma 4 |
|---|---|---|
| Lisens | Gemma-lisens (begrenset) | Apache 2.0 (ubegrenset) |
| Modellstørrelser | 3 størrelser | 4 størrelser (la til MoE) |
| Kontekstvindu | Opp til 128K | Opp til 256K |
| Modaliteter | Tekst, Bilde | Tekst, Bilde, Video, Lyd |
| Tenkemodus | Nei | Ja (konfigurerbar) |
| Verktøybruk | Begrenset | Strukturert verktøybruk |
| Språk | 30+ | 35+ (forhåndstrent på 140+) |
| BigBench Extra Hard | 19% | 74% |
Hver dimensjon er forbedret. De mest virkningsfulle endringene for utviklere er Apache 2.0-lisensen (fjerner juridisk friksjon), tenkemodusen (forbedrer kvaliteten på vanskelige oppgaver) og MoE-arkitekturen (gir flaggskipkvalitet til en brøkdel av beregningskostnaden).
Praktiske bruksområder
Koding og utvikling
Gemma 4 sin strukturerte verktøybruk og tenkemodus gjør den effektiv for:
- Lokal kodefullføring og generering
- Kodegjennomgang og feilsøking
- Automatisert testgenerering
- Skriving av dokumentasjon
- Agentiske kodearbeidsflyter i Android Studio
Dokumentbehandling
Med 256K kontekstvinduer og multimodal støtte:
- Prosesser hele kodebaser eller lange dokumenter i en enkelt prompt
- Trekk ut informasjon fra bilder av dokumenter, kvitteringer og skjemaer
- Analyser grafer og datavisualiseringer
- Oppsummer lange forskningsartikler eller juridiske dokumenter
Bygge AI-drevne applikasjoner
For utviklere som bygger produkter som inkluderer AI-evner, gir Gemma 4 et sterkt lag for inferens på enhet eller selv-hostet. Modellen håndterer intelligensen — forståelse av spørsmål, generering av svar, behandling av bilder — mens ditt applikasjonsrammeverk håndterer resten. Verktøy som ZBuild kan akselerere byggingen av applikasjonsskallet (frontend, backend, database, distribusjon), slik at du kan fokusere utviklingsinnsatsen på AI-integrasjonslaget der Gemma 4 sine evner betyr mest.
Distribusjon på edge og mobil
E2B- og E4B-modellene åpner opp for bruksområder som tidligere var umulige med åpne modeller:
- Assistenter på enheten som fungerer offline
- Personvernsbevarende AI-funksjoner som aldri sender data til eksterne servere
- Sanntids video- og lydbehandling på mobile enheter
- Innebygd AI i IoT- og robotikkapplikasjoner
Hvordan komme i gang
Ollama (Raskeste vei)
# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Pull and run Gemma 4
ollama run gemma4:e2b # Smallest, runs anywhere
ollama run gemma4:e4b # Small, broader capability
ollama run gemma4:26b-moe # MoE, best efficiency
ollama run gemma4:31b # Dense, highest quality
Hugging Face
Alle Gemma 4-modellene er tilgjengelige på Hugging Face med full transformers-integrasjon:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google tilbyr gratis API-tilgang til Gemma 4 gjennom AI Studio for eksperimentering og prototyping, med Vertex AI tilgjengelig for produksjonsdistribusjon.
Gemma 4 i det konkurransepregede landskapet
For å forstå hvor Gemma 4 befinner seg i det bredere økosystemet:
| Modell | Parametere | Lisens | MMLU Pro | Arena AI | Kontekst |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B aktive) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B aktive) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B aktive) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B aktive) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B oppnår den høyeste MMLU Pro-skåren og Arena AI-rangeringen blant åpne modeller — med færrest totale parametere. Denne parametereffektiviteten er et direkte resultat av Gemini 3-teknologifundamentet og den konfigurerbare tenkemodusen.
Historien om 26B MoE-modellens effektivitet er enda mer overbevisende. Den rangeres som nummer 6 på Arena AI mens den bare aktiverer 3.8B parametere per token. Ingen annen modell oppnår et sammenlignbart forhold mellom kvalitet og beregning. For produksjonsdistribusjoner der inferenskostnaden skaleres med bruk, oversettes denne effektiviteten direkte til kostnadsbesparelser.
Sammenlignet med proprietære modeller, er Gemma 4 31B sine benchmarks konkurransedyktige med mellomklasse-tilbud fra Anthropic og OpenAI. Selv om de beste proprietære modellene fortsatt leder på de vanskeligste oppgavene, har gapet blitt dramatisk mindre — og Gemma 4 kommer med null per-token-kostnad og full Apache 2.0-frihet.
Konklusjon
Gemma 4 setter en ny standard for modeller med åpne vekter i 2026. Kombinasjonen av Apache 2.0-lisensiering, fire godt differensierte modellstørrelser, nativ multimodal støtte, konfigurerbar tenkemodus og benchmark-skårer som er konkurransedyktige med mye større modeller, gjør den til den mest praktiske åpne modellfamilien som er tilgjengelig.
31B Dense er det rette valget når du trenger maksimal kvalitet. 26B MoE er det rette valget når du trenger sterk kvalitet til minimum beregningskostnad. E2B og E4B er de rette valgene for edge-distribusjon og AI på enheten. For første gang i Gemma-familien begrenser ikke lisensen noen av disse bruksområdene.
Kilder
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers