Viktigste lærdom
Landskapet for åpen kildekode-AI-modeller i 2026 er et tresporsløp mellom Googles Gemma 4, Metas Llama 4 og Alibabas Qwen 3.5. Hver familie dominerer ulike dimensjoner: Gemma 4 vinner på effektivitet og lisensiering, Llama 4 vinner på rå skala og kontekstlengde, og Qwen 3.5 vinner på flerspråklig bredde og modellvariasjon. Den "beste" modellen avhenger helt av dine begrensninger for deployment, målmarkeder og maskinvarebudsjett.
Gemma 4 vs Llama 4 vs Qwen 3.5: Den komplette sammenligningen
Utfordrerne i et overblikk
Før vi går i detalj, her er landskapet:
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Utvikler | Google DeepMind | Meta | Alibaba Cloud |
| Lansert | April 2, 2026 | April 2025 (Scout/Maverick) | Q1 2026 |
| Lisens | Apache 2.0 | Meta Custom License | Apache 2.0 (de fleste modeller) |
| Modellstørrelser | E2B, E4B, 26B MoE, 31B Dense | Scout 109B, Maverick 400B | Flere (0.6B til 397B) |
| Maks kontekst | 256K | 10M (Scout) | 128K |
| Multimodal | Tekst, Bilde, Video, Lyd | Tekst, Bilde | Tekst, Bilde |
| Tenkemodus | Ja (konfigurerbar) | Nei | Ja (hybrid) |
Kilde: Respektive modellkunngjøringer fra Google, Meta og Alibaba
Modellstørrelser og arkitektur
Gemma 4: Fire størrelser, to arkitekturer
Gemma 4 tilbyr det mest differensierte utvalget:
| Modell | Totale parametere | Aktive parametere | Arkitektur |
|---|---|---|---|
| E2B | 2.3B | 2.3B | Dense |
| E4B | 4.5B | 4.5B | Dense |
| 26B MoE | 26B | 3.8B | Mixture of Experts |
| 31B Dense | 31B | 31B | Dense |
26B MoE er høydepunktet — den leverer kvalitet nær flaggskipnivå mens den bare aktiverer 3.8B parametere per token. Dette betyr at den kjører med omtrent samme hastighet og minnekostnad som E4B-modellen, samtidig som den har tilgang til 26B parametere med kunnskap. På Arena AI scorer den 1441 og rangeres som nummer 6 blant åpne modeller til tross for dette minimale fotavtrykket for beregninger.
Llama 4: To massive modeller
Metas Llama 4 tar motsatt tilnærming — færre modeller, men mye større:
| Modell | Totale parametere | Aktive parametere | Arkitektur |
|---|---|---|---|
| Scout | 109B | ~17B | Mixture of Experts (16 eksperter) |
| Maverick | 400B | ~17B | Mixture of Experts (128 eksperter) |
Begge Llama 4-modellene bruker MoE-arkitektur. Scout aktiverer omtrent 17B parametere per token fra en pool på 109B. Maverick aktiverer en lignende mengde fra 400B totale parametere, og bruker 128 eksperter for større kunnskapskapasitet. Den viktigste avveiningen: selv med MoE-effektivitet krever disse modellene betydelig mer minne for å holde hele parametersettet.
Llama 4 Scouts definerende funksjon er dens kontekstvindu på 10 millioner tokens — det lengste av alle store åpne modeller. Dette muliggjør prosessering av hele kodebaser, lange videotranskripsjoner eller massive dokumentsamlinger i en enkelt prompt.
Qwen 3.5: Det bredeste utvalget
Alibabas Qwen 3.5-familie tilbyr flest modellstørrelser:
| Modell | Parametere | Arkitektur |
|---|---|---|
| Qwen 3.5 0.6B | 0.6B | Dense |
| Qwen 3.5 1.7B | 1.7B | Dense |
| Qwen 3.5 4B | 4B | Dense |
| Qwen 3.5 8B | 8B | Dense |
| Qwen 3.5 14B | 14B | Dense |
| Qwen 3.5 32B | 32B | Dense |
| Qwen 3.5 72B | 72B | Dense |
| Qwen 3.5 MoE (A22B) | 397B | Mixture of Experts |
Qwen 3.5 fyller enhver nisje for parametere. 0.6B-modellen kjører på nesten hvilken som helst enhet. 397B MoE matcher Llama 4 Maverick i totalt antall parametere. Denne bredden betyr at det alltid finnes en Qwen-modell som passer dine nøyaktige begrensninger for maskinvare.
Qwen 3.5 tilbyr også hybrid tenkemodus, som lar brukere bytte mellom raske svar og dypere resonnering innenfor samme modell — i likhet med Gemma 4 sin konfigurerbare tenkemodus.
Benchmark-sammenligning
Resonnering og kunnskap
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B | Qwen 3.5 MoE |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 79.6% | 81.4% | 83.1% |
| AIME 2026 | 89.2% | — | 79.8% | 85.6% |
| BigBench Extra Hard | 74% | — | 62% | 68% |
| Arena AI Score | 1452 (3rd) | 1417 | 1438 | 1449 |
Kilder: Arena AI, respektive tekniske rapporter
Gemma 4 31B leder på benchmarks for resonnering, noe som er bemerkelsesverdig gitt at det er den minste flaggskipmodellen i denne sammenligningen (31B vs 400B vs 72B/397B). Tenkemodusen spiller en stor rolle her — Gemma 4 med tenking aktivert utmerker seg på oppgaver som drar nytte av steg-for-steg resonnering.
Effektivitetsjustert ytelse
Rå benchmarks forteller ikke hele historien. Når man tar med aktive parametere i beregningen — kostnaden for beregning per token — endres bildet:
| Modell | Arena AI Score | Aktive parametere | Score per B aktiv |
|---|---|---|---|
| Gemma 4 26B MoE | 1441 | 3.8B | 379 |
| Gemma 4 31B | 1452 | 31B | 47 |
| Llama 4 Maverick | 1417 | ~17B | 83 |
| Llama 4 Scout | ~1400 | ~17B | 82 |
| Qwen 3.5 72B | 1438 | 72B | 20 |
| Qwen 3.5 MoE | 1449 | ~22B | 66 |
Gemma 4 sin 26B MoE dominerer på effektivitet. Den oppnår en Arena AI-score på 1441 mens den bare aktiverer 3.8B parametere — et forhold mellom score og aktive parametere som er 4-5 ganger bedre enn konkurrentene. For scenarier der inferenskostnad betyr noe (noe som gjelder de fleste produksjonsscenarier), oversettes denne effektivitetsfordelen direkte til kostnadsbesparelser.
Kodeytelse
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B |
|---|---|---|---|
| HumanEval+ | 82.3% | 85.1% | 83.7% |
| LiveCodeBench | 46.8% | 51.2% | 49.5% |
| MultiPL-E (Python) | 79.4% | 83.6% | 81.2% |
Llama 4 Maverick ligger knepent foran på benchmarks for koding i absolutt forstand, noe som er forventet gitt fordelen med 400B parametere. Imidlertid gjør Gemma 4 sin evne til strukturert verktøybruk og tenkemodus den mer praktisk for agentbaserte kodearbeidsflyter der modellen trenger å planlegge, utføre og iterere i stedet for bare å generere kode på ett forsøk.
Lisensiering: Den skjulte avgjørende faktoren
For kommersiell distribusjon kan lisensiering være viktigere enn benchmarks:
Gemma 4: Apache 2.0
- Ingen bruksbegrensninger — bruk til ethvert formål
- Ingen brukerterskler — ingen grenser basert på selskapets størrelse
- Full rett til endring — endre og redistribuer fritt
- Standard juridisk vurdering — Apache 2.0 er godt forstått av juridiske team over hele verden
Llama 4: Meta Custom License
- Gratis for det meste av kommersiell bruk — men med vilkår
- 700M MAU-begrensning — selskaper som overstiger 700 millioner månedlige aktive brukere må be om en separat lisens fra Meta
- Retningslinjer for akseptabel bruk — visse bruksområder er forbudt
- Tilpasset lisens — krever juridisk vurdering for å vurdere spesifikke samsvarskrav
Qwen 3.5: Apache 2.0 (De fleste modeller)
- Apache 2.0 for de fleste modellstørrelser — samme frihet som Gemma 4
- Noen større modeller kan ha andre vilkår — verifiser per modell
- Standard juridisk vurdering — Apache 2.0 er godt forstått
For oppstartsselskaper og store bedrifter er lisensforskjellen reell. Apache 2.0 (Gemma 4 og de fleste Qwen 3.5-modeller) krever ingen spesiell juridisk vurdering utover standard overholdelse av åpen kildekode. Metas tilpassede lisens krever spesifikk vurdering for 700M MAU-terskelen og retningslinjer for akseptabel bruk. I praksis påvirker 700M MAU-terskelen bare en håndfull selskaper globalt, men den tilpassede lisensen skaper friksjon uavhengig av selskapets størrelse.
Multimodale egenskaper
| Egenskap | Gemma 4 | Llama 4 | Qwen 3.5 |
|---|---|---|---|
| Tekst | Alle modeller | Alle modeller | Alle modeller |
| Bilder | Alle modeller | Alle modeller | De fleste modeller |
| Video | Kun E2B, E4B | Nei | Nei |
| Lyd | Kun E2B, E4B | Nei | Nei |
| Tenkemodus | Ja (konfigurerbar) | Nei | Ja (hybrid) |
Gemma 4 har den bredeste multimodale støtten. Det faktum at video- og lydegenskaper er tilgjengelige i de minste modellene (E2B og E4B) i stedet for de største, er et bemerkelsesverdig designvalg som muliggjør multimodal AI på enheten.
Llama 4 støtter tekst- og bildebehandling på tvers av begge modeller, men mangler innebygd støtte for video og lyd. Qwen 3.5 tilbyr lignende tekst- og bildeegenskaper uten innebygd video- eller lydbehandling.
Kontekstvinduer
| Modell | Kontekstvindu |
|---|---|
| Llama 4 Scout | 10,000,000 tokens |
| Gemma 4 31B/26B MoE | 256,000 tokens |
| Gemma 4 E2B/E4B | 128,000 tokens |
| Qwen 3.5 (de fleste modeller) | 128,000 tokens |
| Llama 4 Maverick | 1,000,000 tokens |
Llama 4 Scouts kontekstvindu på 10M tokens er i en klasse for seg selv. Dette er omtrent 40 ganger større enn Gemma 4 sin maksimale kapasitet og muliggjør bruksområder som ingen annen åpen modell kan matche:
- Behandling av hele, store kodebaser (millioner av linjer) i en enkelt prompt
- Analysering av mange års samtalshistorikk for kundeserviceapplikasjoner
- Inntak av hele bøker eller samlinger av forskningsartikler
Bruk av et kontekstvindu på 10M krever imidlertid proporsjonal maskinvare. Minnet som kreves for å holde KV cache for 10M tokens er betydelig, noe som gjør denne egenskapen praktisk bare på maskinvare i serverklassen.
For de fleste applikasjoner er Gemma 4 sine 256K og Qwen 3.5 sine 128K kontekstvinduer mer enn tilstrekkelige. Et kontekstvindu på 256K kan holde omtrent 750-1000 sider med tekst eller 50,000+ linjer med kode.
Krav til maskinvare
Kjøre lokalt
| Modell | RAM (4-bit) | RAM (FP16) | Levedyktig for forbrukere? |
|---|---|---|---|
| Gemma 4 E2B | ~5 GB | ~5 GB | Ja (laptop/telefon) |
| Gemma 4 E4B | ~5 GB | ~9 GB | Ja (laptop) |
| Gemma 4 26B MoE | ~18 GB | ~52 GB | Ja (RTX 4090) |
| Gemma 4 31B | ~20 GB | ~62 GB | Ja (RTX 4090) |
| Qwen 3.5 8B | ~6 GB | ~16 GB | Ja (laptop) |
| Qwen 3.5 32B | ~20 GB | ~64 GB | Ja (RTX 4090) |
| Qwen 3.5 72B | ~42 GB | ~144 GB | Nei (server GPU) |
| Llama 4 Scout | ~70 GB | ~218 GB | Nei (multi-GPU server) |
| Llama 4 Maverick | ~250 GB | ~800 GB | Nei (GPU cluster) |
For utviklere som ønsker å kjøre modeller lokalt — på en laptop for personvern, eller på en enkelt GPU for kostnad — er Gemma 4 og de små Qwen 3.5-modellene de eneste praktiske alternativene. Gemma 4 E2B og E4B kjører på nesten hvilken som helst moderne datamaskin. 26B MoE og 31B Dense får plass på en enkelt RTX 4090 eller RTX 5090.
Llama 4-modellene er fundamentalt i serverklassen. Selv med aggressiv kvantisering krever Scout oppsett med flere GPU-er, og Maverick krever et GPU cluster. Dette begrenser Llama 4 til organisasjoner med budsjetter for skybasert databehandling eller dedikert GPU-infrastruktur.
Flerspråklig støtte
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Støttede språk | 35+ | 12 | 29+ |
| Språk i pre-trening | 140+ | — | 100+ |
| CJK-kvalitet | God | Tilstrekkelig | Utmerket |
| Arabisk/Hebraisk | God | Tilstrekkelig | God |
| Ressurssvake språk | Moderat | Begrenset | Moderat |
Qwen 3.5 er det sterkeste valget for applikasjoner rettet mot asiatiske markeder, spesielt kinesisk, japansk og koreansk. Alibabas treningsdata inkluderer omfattende CJK-tekst av høy kvalitet, noe som gir Qwen-modellene en målbart fordel på disse språkene.
Gemma 4 tilbyr den bredeste offisielle språkstøtten med 35+ språk og pre-trening på over 140 språk. Dette gir rimelig kvalitet over et bredt spekter av språk, noe som gjør den til det mest allsidige valget for globale applikasjoner.
Llama 4 sin støtte for 12 språk er den mest begrensede. Selv om den dekker verdens største språk, etterlater den betydelige hull for applikasjoner rettet mot mindre språkmarkeder.
Anbefalinger for bruksområder
Velg Gemma 4 når:
- Du trenger maksimal effektivitet — 26B MoE leverer flaggskipkvalitet med 3.8B aktive parametere
- Lisensiering betyr noe — Apache 2.0 uten begrensninger er den enkleste veien til kommersiell distribusjon
- Du trenger multimodal AI på kanten — E2B/E4B med video og lyd kjører på forbrukerenheter
- Du vil ha konfigurerbar tenking — Bytt mellom rask og dyp resonnering per forespørsel
- Du bygger agentbaserte arbeidsflyter — Strukturert verktøybruk er innebygd
Velg Llama 4 når:
- Du trenger maksimal kontekst — 10M tokens i Scout er uovertruffent
- Rå benchmark-score betyr mest — Mavericks 400B parametere gir den et forsprang på enkelte benchmarks
- Du har maskinvare i serverklassen — Skydistribusjoner der GPU-kostnad er håndterbar
- Du er i Metas økosystem — Integrasjon med Metas AI-infrastruktur
- Du ikke rammes av 700M MAU-terskelen — Som gjelder for 99.99% av selskaper
Velg Qwen 3.5 når:
- Du retter deg mot asiatiske markeder — Beste CJK-språkkvalitet blant åpne modeller
- Du trenger en spesifikk modellstørrelse — 8 størrelser fra 0.6B til 397B fyller enhver nisje
- Du vil ha hybrid tenking — I likhet med Gemma 4 sin konfigurerbare tenkemodus
- Du trenger kodespesifikke modeller — Qwen Code-varianter er optimalisert for programmering
- Du trenger Apache 2.0 med flere størrelsesalternativer — De fleste modeller bruker Apache 2.0
Bygge applikasjoner med åpne modeller
Uavhengig av hvilken modell du velger, krever distribusjon av en åpen modell i produksjon at man bygger applikasjonslaget rundt den — API-endepunkter, brukergrensesnitt, autentisering, databaselagring for samtaler og infrastruktur for distribusjon.
For team som bygger AI-drevne produkter, er modellen bare én del. Plattformer som ZBuild håndterer applikasjonsrammeverket — frontend, backend, database og distribusjon — slik at du kan fokusere ingeniørinnsatsen din på modellintegrasjon, prompt engineering og brukeropplevelsen som differensierer produktet ditt.
Modellsammenligningen betyr mest i integrasjonslaget. En velbygd applikasjon kan bytte mellom Gemma 4, Llama 4 eller Qwen 3.5 avhengig av den spesifikke oppgaven — ved å bruke Gemma 4 MoE for effektivitetsfølsomme forespørsler, Llama 4 Scout for oppgaver med lang kontekst, og Qwen 3.5 for innhold med mye CJK.
Finjustering og tilpasning
Alle de tre modellfamiliene støtter finjustering, men den praktiske opplevelsen er forskjellig:
Gemma 4
- LoRA og QLoRA støttes på tvers av alle størrelser
- Apache 2.0 betyr ingen restriksjoner på distribusjon av finjusterte vekter
- Google Colab-notatbøker tilgjengelig for å komme i gang med finjustering på gratis GPU-er
- Keras-integrasjon via KerasNLP for arbeidsflyter for finjustering på høyt nivå
- E2B og E4B finjusteres på en enkelt forbruker-GPU i løpet av timer
Llama 4
- LoRA og QLoRA støttes via Hugging Face-transformatorer
- Metas tilpassede lisens gjelder for finjusterte derivater — 700M MAU-begrensningen følger med
- Store modellstørrelser betyr at finjustering av Scout (109B) eller Maverick (400B) krever oppsett med flere GPU-er
- Torchtune fra Meta gir offisielle oppskrifter for finjustering
Qwen 3.5
- LoRA, QLoRA og full finjustering støttes med omfattende dokumentasjon
- Apache 2.0 for de fleste modeller betyr ubegrenset distribusjon av finjusterte vekter
- Det brede utvalget av størrelser betyr at du kan finjustere en 4B-modell på en laptop eller en 72B-modell på en server
- Sterke treningsdata for kinesisk/CJK tilgjengelig gjennom Alibabas økosystem
For de fleste scenarier for finjustering tilbyr Gemma 4 E4B eller 26B MoE det beste utgangspunktet. Modellene er små nok til å finjusteres på forbrukermaskinvare, kapable nok til å produsere resultater av høy kvalitet, og lisensiert tilstrekkelig fritt til at den finjusterte modellen kan distribueres hvor som helst.
Konvergensenstrenden
Ser man på dataene helhetlig, er den mest slående observasjonen hvor raskt åpen kildekode-modeller konvergerer i kapasitet med proprietære modeller. Gemma 4 31B sin MMLU Pro på 85.2% er i umiddelbar nærhet av Claude Sonnet 4.6 og GPT-5.4 sine proprietære scorer — til null inferenskostnad utover maskinvare.
Differensieringen mellom åpne modellfamilier skifter fra "hvilken er smartest" til "hvilken passer dine begrensninger for distribusjon." Krav til maskinvare, lisensvilkår, multimodale egenskaper og språkstøtte betyr nå like mye som rå benchmark-score.
For de fleste utviklere og selskaper i 2026 er spørsmålet ikke lenger "bør jeg bruke en åpen modell?", men "hvilken åpen modell passer mine spesifikke behov?" — og det er et tegn på hvor modent dette økosystemet har blitt.
Dommen
Det finnes ikke én enkelt "beste" åpen kildekode-modell i 2026. Det riktige valget avhenger av dine spesifikke krav:
- Best total effektivitet: Gemma 4 26B MoE — 3.8B aktive parametere, Arena AI-rangering 6., Apache 2.0
- Best rå kvalitet (åpen modell): Gemma 4 31B Dense — 85.2% MMLU Pro, Arena AI-rangering 3.
- Best for lange dokumenter: Llama 4 Scout — 10M token kontekstvindu
- Best for asiatiske språk: Qwen 3.5 — overlegen CJK-ytelse
- Best for forbrukermaskinvare: Gemma 4 E2B — 5GB RAM, kjører på telefoner
- Mest tillatende lisens: Gemma 4 og Qwen 3.5 (Apache 2.0)
- Flest alternativer for modellstørrelse: Qwen 3.5 — 8 størrelser fra 0.6B til 397B
Hvis du måtte velge bare én familie og du prioriterer effektivitet, lisensiering og multimodale egenskaper, er Gemma 4 det sterkeste allround-valget i april 2026.
Kilder
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Llama 4 Announcement - Meta AI
- Llama 4 License
- Qwen 3.5 - Alibaba Cloud / Qwen Team
- Qwen 3.5 Technical Report
- Arena AI Open Model Rankings
- Gemma 4 on Ollama
- Open Source LLM Comparison 2026 - Artificial Analysis
- Gemma 4 vs Llama 4 Analysis - The Decoder
- Open Model Benchmark Aggregator - Hugging Face