Vigtigste konklusion
Landskabet for open-source AI-modeller i 2026 er et trevejsløb mellem Googles Gemma 4, Metas Llama 4 og Alibabas Qwen 3.5. Hver familie dominerer forskellige dimensioner: Gemma 4 vinder på effektivitet og licensering, Llama 4 vinder på rå skala og kontekstlængde, og Qwen 3.5 vinder på flersproget bredde og modelvariation. Den "bedste" model afhænger helt af dine implementeringsbegrænsninger, målmarkeder og hardwarebudget.
Gemma 4 vs Llama 4 vs Qwen 3.5: Den komplette sammenligning
Overblik over deltagerne
Før vi dykker ned i detaljerne, er her landskabet:
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Udvikler | Google DeepMind | Meta | Alibaba Cloud |
| Udgivet | April 2, 2026 | April 2025 (Scout/Maverick) | Q1 2026 |
| Licens | Apache 2.0 | Meta Custom License | Apache 2.0 (de fleste modeller) |
| Modelstørrelser | E2B, E4B, 26B MoE, 31B Dense | Scout 109B, Maverick 400B | Flere (0.6B til 397B) |
| Maks. kontekst | 256K | 10M (Scout) | 128K |
| Multimodal | Tekst, billede, video, lyd | Tekst, billede | Tekst, billede |
| Tænketilstand | Ja (konfigurerbar) | Nej | Ja (hybrid) |
Kilde: Respektive modelannonceringer fra Google, Meta og Alibaba
Modelstørrelser og arkitektur
Gemma 4: Fire størrelser, to arkitekturer
Gemma 4 tilbyder det mest differentierede udvalg:
| Model | Total Params | Active Params | Arkitektur |
|---|---|---|---|
| E2B | 2.3B | 2.3B | Dense |
| E4B | 4.5B | 4.5B | Dense |
| 26B MoE | 26B | 3.8B | Mixture of Experts |
| 31B Dense | 31B | 31B | Dense |
26B MoE er den mest bemærkelsesværdige — den leverer kvalitet tæt på flagskibsmodeller, mens den kun aktiverer 3.8B tokens per token. Dette betyder, at den kører med omtrent samme hastighed og hukommelsesomkostning som E4B-modellen, mens den har adgang til viden fra 26B parametre. På Arena AI scorer den 1441 og rangerer som nummer 6 blandt open-source modeller på trods af dette minimale compute-aftryk.
Llama 4: To massive modeller
Metas Llama 4 tager den modsatte tilgang — færre modeller, men meget større:
| Model | Total Params | Active Params | Arkitektur |
|---|---|---|---|
| Scout | 109B | ~17B | Mixture of Experts (16 experts) |
| Maverick | 400B | ~17B | Mixture of Experts (128 experts) |
Begge Llama 4-modeller bruger MoE-arkitektur. Scout aktiverer cirka 17B parametre per token fra en pulje på 109B. Maverick aktiverer en lignende mængde fra 400B totale parametre ved at bruge 128 experts for større videnskapacitet. Den vigtigste afvejning: selv med MoE-effektivitet kræver disse modeller betydeligt mere hukommelse for at rumme det fulde parametersæt.
Llama 4 Scouts definerende funktion er dens 10 millioner token kontekstvindue — det længste for nogen større open-source model. Dette gør det muligt at behandle hele kodebaser, lange videotransskriptioner eller massive dokumentsamlinger i en enkelt prompt.
Qwen 3.5: Det bredeste udvalg
Alibabas Qwen 3.5-familie tilbyder flest modelstørrelser:
| Model | Parametre | Arkitektur |
|---|---|---|
| Qwen 3.5 0.6B | 0.6B | Dense |
| Qwen 3.5 1.7B | 1.7B | Dense |
| Qwen 3.5 4B | 4B | Dense |
| Qwen 3.5 8B | 8B | Dense |
| Qwen 3.5 14B | 14B | Dense |
| Qwen 3.5 32B | 32B | Dense |
| Qwen 3.5 72B | 72B | Dense |
| Qwen 3.5 MoE (A22B) | 397B | Mixture of Experts |
Qwen 3.5 udfylder enhver parameterniche. 0.6B-modellen kan køre på stort set enhver enhed. 397B MoE matcher Llama 4 Maverick i det samlede antal parametre. Denne bredde betyder, at der altid er en Qwen-model, der passer til dine præcise hardwarebegrænsninger.
Qwen 3.5 tilbyder også hybrid tænketilstand, som lader brugere skifte mellem hurtige svar og dybere ræsonnement i den samme model — svarende til Gemma 4's konfigurerbare tænketilstand.
Sammenligning af benchmarks
Ræsonnement og viden
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B | Qwen 3.5 MoE |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 79.6% | 81.4% | 83.1% |
| AIME 2026 | 89.2% | — | 79.8% | 85.6% |
| BigBench Extra Hard | 74% | — | 62% | 68% |
| Arena AI Score | 1452 (3.) | 1417 | 1438 | 1449 |
Kilder: Arena AI, respektive tekniske rapporter
Gemma 4 31B fører på ræsonnements-benchmarks, hvilket er bemærkelsesværdigt i betragtning af, at det er den mindste flagskibsmodel i denne sammenligning (31B vs 400B vs 72B/397B). Tænketilstanden spiller en stor rolle her — Gemma 4 med tænkning aktiveret brillerer i opgaver, der nyder godt af trin-for-trin ræsonnement.
Effektivitetsjusteret ydeevne
Rå benchmarks fortæller ikke hele historien. Når man indregner aktive parametre — compute-omkostningen per token — ændrer billedet sig:
| Model | Arena AI Score | Active Params | Score per B Active |
|---|---|---|---|
| Gemma 4 26B MoE | 1441 | 3.8B | 379 |
| Gemma 4 31B | 1452 | 31B | 47 |
| Llama 4 Maverick | 1417 | ~17B | 83 |
| Llama 4 Scout | ~1400 | ~17B | 82 |
| Qwen 3.5 72B | 1438 | 72B | 20 |
| Qwen 3.5 MoE | 1449 | ~22B | 66 |
Gemma 4's 26B MoE dominerer på effektivitet. Den opnår en Arena AI-score på 1441, mens den kun aktiverer 3.8B parametre — et forhold mellem score og aktive parametre, der er 4-5 gange bedre end konkurrenterne. For implementeringsscenarier, hvor inferensomkostninger betyder noget (hvilket er de fleste produktionsscenarier), oversættes denne effektivitetsfordel direkte til omkostningsbesparelser.
Kodningsydeevne
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B |
|---|---|---|---|
| HumanEval+ | 82.3% | 85.1% | 83.7% |
| LiveCodeBench | 46.8% | 51.2% | 49.5% |
| MultiPL-E (Python) | 79.4% | 83.6% | 81.2% |
Llama 4 Maverick fører en smule på kodnings-benchmarks i absolutte tal, hvilket er forventet givet dens fordel på 400B parametre. Gemma 4's evne til struktureret brug af værktøjer og dens tænketilstand gør den dog mere praktisk til agent-baserede kodnings-workflows, hvor modellen skal planlægge, udføre og iterere frem for blot at generere kode på én gang.
Licensering: Den skjulte afgørende faktor
Ved kommerciel implementering kan licensering være vigtigere end benchmarks:
Gemma 4: Apache 2.0
- Ingen brugsbegrænsninger — brug til ethvert formål
- Ingen brugergrænser — ingen begrænsninger baseret på virksomhedsstørrelse
- Fuld ændringsret — skift og redistribuer frit
- Standard juridisk gennemgang — Apache 2.0 er velkendt af juridiske teams over hele verden
Llama 4: Meta Custom License
- Gratis til de fleste kommercielle formål — men med betingelser
- 700M MAU begrænsning — virksomheder, der overstiger 700 millioner månedlige aktive brugere, skal anmode om en separat licens fra Meta
- Politik for acceptabel brug — visse anvendelsesscenarier er forbudt
- Brugerdefineret licens — kræver juridisk gennemgang for at vurdere specifikke compliance-krav
Qwen 3.5: Apache 2.0 (de fleste modeller)
- Apache 2.0 for de fleste modelstørrelser — samme frihed som Gemma 4
- Nogle større modeller kan have andre vilkår — tjek per model
- Standard juridisk gennemgang — Apache 2.0 er velkendt
For startups og virksomheder er licensforskellen reel. Apache 2.0 (Gemma 4 og de fleste Qwen 3.5-modeller) kræver ingen speciel juridisk gennemgang ud over standard open-source compliance. Metas brugerdefinerede licens kræver specifik gennemgang for tærsklen på 700M MAU og politikken for acceptabel brug. I praksis påvirker tærsklen på 700M MAU kun en håndfuld virksomheder globalt, men den brugerdefinerede licens skaber friktion uanset virksomhedsstørrelse.
Multimodale egenskaber
| Egenskab | Gemma 4 | Llama 4 | Qwen 3.5 |
|---|---|---|---|
| Tekst | Alle modeller | Alle modeller | Alle modeller |
| Billeder | Alle modeller | Alle modeller | De fleste modeller |
| Video | Kun E2B, E4B | Nej | Nej |
| Lyd | Kun E2B, E4B | Nej | Nej |
| Tænketilstand | Ja (konfigurerbar) | Nej | Ja (hybrid) |
Gemma 4 har den bredeste multimodale understøttelse. Det faktum, at video- og lydfunktioner er tilgængelige i de mindste modeller (E2B og E4B) frem for de største, er et bemærkelsesværdigt designvalg, der muliggør multimodal AI direkte på enheden.
Llama 4 understøtter tekst- og billedbehandling på tværs af begge modeller, men mangler indfødt video- og lydstøtte. Qwen 3.5 tilbyder lignende tekst- og billedfunktioner uden indfødt video- eller lydbehandling.
Kontekstvinduer
| Model | Kontekstvindue |
|---|---|
| Llama 4 Scout | 10,000,000 tokens |
| Gemma 4 31B/26B MoE | 256,000 tokens |
| Gemma 4 E2B/E4B | 128,000 tokens |
| Qwen 3.5 (de fleste modeller) | 128,000 tokens |
| Llama 4 Maverick | 1,000,000 tokens |
Llama 4 Scouts 10M token kontekstvindue er i en klasse for sig selv. Det er cirka 40 gange større end Gemma 4's maksimum og muliggør anvendelsesscenarier, som ingen anden open-source model kan matche:
- Behandling af hele store kodebaser (millioner af linjer) i en enkelt prompt
- Analyse af års samtalehistorik til kundeserviceapplikationer
- Indlæsning af hele bøger eller samlinger af forskningsartikler
Brug af et 10M kontekstvindue kræver dog tilsvarende hardware. Den hukommelse, der kræves for at holde KV cache til 10M tokens, er betydelig, hvilket gør denne funktion praktisk kun på server-grade hardware.
For de fleste applikationer er Gemma 4's 256K og Qwen 3.5's 128K kontekstvinduer mere end tilstrækkelige. Et 256K kontekstvindue kan rumme cirka 750-1000 sider tekst eller 50,000+ linjer kode.
Hardwarekrav
Kørsel lokalt
| Model | RAM (4-bit) | RAM (FP16) | Muligt for forbrugere? |
|---|---|---|---|
| Gemma 4 E2B | ~5 GB | ~5 GB | Ja (bærbar/telefon) |
| Gemma 4 E4B | ~5 GB | ~9 GB | Ja (bærbar) |
| Gemma 4 26B MoE | ~18 GB | ~52 GB | Ja (RTX 4090) |
| Gemma 4 31B | ~20 GB | ~62 GB | Ja (RTX 4090) |
| Qwen 3.5 8B | ~6 GB | ~16 GB | Ja (bærbar) |
| Qwen 3.5 32B | ~20 GB | ~64 GB | Ja (RTX 4090) |
| Qwen 3.5 72B | ~42 GB | ~144 GB | Nej (server GPU) |
| Llama 4 Scout | ~70 GB | ~218 GB | Nej (multi-GPU server) |
| Llama 4 Maverick | ~250 GB | ~800 GB | Nej (GPU cluster) |
For udviklere, der ønsker at køre modeller lokalt — på en bærbar for privatlivets fred eller på en enkelt GPU for at spare omkostninger — er Gemma 4 og de små Qwen 3.5-modeller de eneste praktiske muligheder. Gemma 4 E2B og E4B kører på stort set enhver moderne computer. 26B MoE og 31B Dense passer på en enkelt RTX 4090 eller RTX 5090.
Llama 4-modeller er fundamentalt server-grade. Selv med aggressiv quantization kræver Scout setups med flere GPU'er, og Maverick kræver et GPU cluster. Dette begrænser Llama 4 til organisationer med budgetter til cloud compute eller dedikeret GPU-infrastruktur.
Flersproget support
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Understøttede sprog | 35+ | 12 | 29+ |
| Pre-training sprog | 140+ | — | 100+ |
| CJK-kvalitet | God | Tilstrækkelig | Fremragende |
| Arabisk/Hebraisk | God | Tilstrækkelig | God |
| Sprog med få ressourcer | Moderat | Begrænset | Moderat |
Qwen 3.5 er det stærkeste valg til applikationer rettet mod asiatiske markeder, især kinesisk, japansk og koreansk. Alibabas træningsdata inkluderer omfattende CJK-tekst af høj kvalitet, hvilket giver Qwen-modellerne en målbar fordel på disse sprog.
Gemma 4 tilbyder den bredeste officielle sprogunderstøttelse med 35+ sprog og pre-training på 140+. Dette giver rimelig kvalitet på tværs af en lang række sprog, hvilket gør den til det mest alsidige valg til globale applikationer.
Llama 4's understøttelse af 12 sprog er den mest begrænsede. Selvom den dækker de mest udbredte verdenssprog, efterlader den betydelige huller for applikationer, der er rettet mod mindre sprogmarkeder.
Anbefalede anvendelsesscenarier
Vælg Gemma 4 når:
- Du har brug for maksimal effektivitet — 26B MoE leverer flagskibskvalitet med 3.8B aktive parametre
- Licensering betyder noget — Apache 2.0 uden restriktioner er den enkleste vej til kommerciel implementering
- Du har brug for multimodal edge AI — E2B/E4B med video og lyd kører på forbrugerenheder
- Du vil have konfigurerbar tænkning — Skift mellem hurtigt og dybt ræsonnement per anmodning
- Du bygger agent-baserede workflows — Struktureret brug af værktøjer er indbygget
Vælg Llama 4 når:
- Du har brug for maksimal kontekst — 10M tokens i Scout er uovertruffen
- Rå benchmark-scorer betyder mest — Mavericks 400B parametre giver den en fordel i visse benchmarks
- Du har hardware i serverklassen — Cloud-implementeringer, hvor GPU-omkostninger er overkommelige
- Du er i Metas økosystem — Integration med Metas AI-infrastruktur
- Du rammer ikke tærsklen på 700M MAU — Hvilket gælder for 99.99% af alle virksomheder
Vælg Qwen 3.5 når:
- Du målretter asiatiske markeder — Bedste CJK-sprogkvalitet blandt open-source modeller
- Du har brug for en specifik modelstørrelse — 8 størrelser fra 0.6B til 397B udfylder enhver niche
- Du vil have hybrid tænkning — Svarende til Gemma 4's konfigurerbare tænketilstand
- Du har brug for kodespecifikke modeller — Qwen Code-varianter er optimeret til programmering
- Du har brug for Apache 2.0 med flere størrelsesmuligheder — De fleste modeller bruger Apache 2.0
Opbygning af applikationer med open-source modeller
Uanset hvilken model du vælger, kræver implementering af en open-source model i produktion, at man bygger applikationslaget omkring den — API endpoints, brugergrænseflader, autentificering, databaseopbevaring til samtaler og implementeringsinfrastruktur.
For teams, der bygger AI-drevne produkter, er modellen kun én brik. Platforme som ZBuild håndterer applikationsstilladset — frontend, backend, database og implementering — så du kan fokusere din ingeniørmæssige indsats på modelintegration, prompt engineering og den brugeroplevelse, der differentierer dit produkt.
Modelsammenligningen betyder mest i integrationslaget. En velbygget applikation kan skifte mellem Gemma 4, Llama 4 eller Qwen 3.5 afhængigt af den specifikke opgave — ved at bruge Gemma 4 MoE til effektivitetsfølsomme anmodninger, Llama 4 Scout til opgaver med lang kontekst og Qwen 3.5 til CJK-tungt indhold.
Finjustering og tilpasning
Alle tre modelfamilier understøtter finjustering, men den praktiske oplevelse varierer:
Gemma 4
- LoRA og QLoRA understøttes på tværs af alle størrelser
- Apache 2.0 betyder ingen restriktioner på distribution af finjusterede weights
- Google Colab notebooks er tilgængelige for at komme i gang med finjustering på gratis GPU'er
- Keras integration via KerasNLP til high-level finjusterings-workflows
- E2B og E4B kan finjusteres på en enkelt forbruger-GPU på få timer
Llama 4
- LoRA og QLoRA understøttes via Hugging Face transformers
- Metas brugerdefinerede licens gælder for finjusterede derivater — 700M MAU-restriktionen følger med
- Store modelstørrelser betyder, at finjustering af Scout (109B) eller Maverick (400B) kræver multi-GPU setups
- Torchtune fra Meta tilbyder officielle opskrifter til finjustering
Qwen 3.5
- LoRA, QLoRA og fuld finjustering understøttes med omfattende dokumentation
- Apache 2.0 for de fleste modeller betyder ubegrænset distribution af finjusterede weights
- Det brede udvalg af størrelser betyder, at du kan finjustere en 4B-model på en bærbar eller en 72B-model på en server
- Stærke kinesiske/CJK finjusteringsdata er tilgængelige via Alibabas økosystem
For de fleste finjusteringsscenarier tilbyder Gemma 4 E4B eller 26B MoE det bedste udgangspunkt. Modellerne er små nok til at blive finjusteret på forbrugerhardware, kapable nok til at producere resultater af høj kvalitet og licenseret tilladeligt nok til at kunne implementere den finjusterede model hvor som helst.
Konvergenstendensen
Ser man holistisk på dataene, er den mest slående observation, hvor hurtigt open-source modeller nærmer sig de proprietære modellers formåen. Gemma 4 31B's MMLU Pro på 85.2% er tæt på Claude Sonnet 4.6 og GPT-5.4's proprietære scorer — til nul inferensomkostninger ud over hardwaren.
Differentieringen mellem open-source modelfamilier skifter fra "hvilken en er klogest" til "hvilken en passer til dine implementeringsbegrænsninger." Hardwarekrav, licensvilkår, multimodale evner og sprogunderstøttelse betyder nu lige så meget som rå benchmark-scorer.
For de fleste udviklere og virksomheder i 2026 er spørgsmålet ikke længere "skal jeg bruge en open-source model?", men "hvilken open-source model passer til mine specifikke behov?" — og det er et tegn på, hvor modent dette økosystem er blevet.
Dom
Der findes ikke én enkelt "bedste" open-source model i 2026. Det rigtige valg afhænger af dine specifikke krav:
- Bedste samlede effektivitet: Gemma 4 26B MoE — 3.8B aktive parametre, Arena AI rangering 6., Apache 2.0
- Bedste rå kvalitet (open-source): Gemma 4 31B Dense — 85.2% MMLU Pro, Arena AI rangering 3.
- Bedst til lange dokumenter: Llama 4 Scout — 10M token kontekstvindue
- Bedst til asiatiske sprog: Qwen 3.5 — overlegen CJK-ydeevne
- Bedst til forbrugerhardware: Gemma 4 E2B — 5GB RAM, kører på telefoner
- Mest tilladelige licens: Gemma 4 og Qwen 3.5 (Apache 2.0)
- Flest muligheder for modelstørrelse: Qwen 3.5 — 8 størrelser fra 0.6B til 397B
Hvis du kun kunne vælge én familie og prioriterer effektivitet, licensering og multimodale evner, er Gemma 4 det stærkeste all-around valg i april 2026.
Kilder
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Llama 4 Announcement - Meta AI
- Llama 4 License
- Qwen 3.5 - Alibaba Cloud / Qwen Team
- Qwen 3.5 Technical Report
- Arena AI Open Model Rankings
- Gemma 4 on Ollama
- Open Source LLM Comparison 2026 - Artificial Analysis
- Gemma 4 vs Llama 4 Analysis - The Decoder
- Open Model Benchmark Aggregator - Hugging Face