Hvilken open-source model er bedst generelt i 2026?

Det afhænger af dine begrænsninger. Gemma 4 31B tilbyder det bedste kvalitet-til-størrelse-forhold med 85.2% MMLU Pro ved kun 31B parameters, under Apache 2.0 licens. Llama 4 Maverick (400B) har de højeste rå benchmark scores, men kræver massiv hardware. Qwen 3.5 udmærker sig ved multilingual opgaver og tilbyder det bredeste udvalg af størrelser. For de fleste udviklere tilbyder Gemma 4 26B MoE den bedste balance mellem kvalitet, effektivitet og licensfrihed.

Kan jeg bruge disse open-source modeller kommercielt?

Gemma 4 bruger Apache 2.0, den mest tilladelige valgmulighed uden restriktioner. Llama 4 bruger Metas brugerdefinerede licens, som er gratis til de fleste kommercielle formål, men inkluderer restriktioner for virksomheder med 700M+ monthly active users. Qwen 3.5 bruger Apache 2.0 til de fleste størrelser. Alle tre familier er kommercielt levedygtige for startups og mellemstore virksomheder.

Hvilken model kører bedst på consumer hardware?

Gemma 4 E2B kører på helt ned til 5GB RAM (4-bit quantization), hvilket gør den til den mest tilgængelige. Qwen 3.5's mindste modeller kører også på consumer hardware. Llama 4 Scout (109B) kræver mindst 70GB RAM selv ved quantized, hvilket gør den upraktisk til consumer GPUs. Til lokal udvikling på en bærbar eller stationær computer er Gemma 4 E2B/E4B og små Qwen 3.5 modeller de klare vindere.

Hvilken open-source model er bedst til coding?

Gemma 4 31B med thinking mode aktiveret giver stærk coding performance med struktureret tool use til agentic workflows. Qwen 3.5 Code varianter er specifikt optimeret til kodegenerering og forståelse. Llama 4 Maverick scorer højest på coding benchmarks i absolutte termer, men kræver 400B parameters for at opnå det. Til coding på consumer hardware tilbyder Gemma 4 26B MoE det bedste capability-to-compute-forhold.

Hvordan sammenlignes deres context windows?

Llama 4 Scout fører markant med et 10M token context window. Gemma 4 tilbyder 128K (små modeller) til 256K (store modeller). Qwen 3.5 understøtter op til 128K tokens for de fleste modeller. Hvis du har brug for at behandle ekstremt lange dokumenter eller hele repositories, er Llama 4 Scouts 10M context uovertruffen — men kræver hardware, der matcher.

Hvilken model har den bedste multilingual support?

Qwen 3.5 fører med den bredeste effektive multilingual performance, især for kinesiske, japanske, koreanske og sydøstasiatiske sprog. Gemma 4 understøtter 35+ sprog og blev pre-trained på 140+. Llama 4 understøtter 12 hovedsprog. Til globale applikationer er Qwen 3.5 og Gemma 4 betydeligt foran Llama 4.

Vigtigste konklusion

Landskabet for open-source AI-modeller i 2026 er et trevejsløb mellem Googles Gemma 4, Metas Llama 4 og Alibabas Qwen 3.5. Hver familie dominerer forskellige dimensioner: Gemma 4 vinder på effektivitet og licensering, Llama 4 vinder på rå skala og kontekstlængde, og Qwen 3.5 vinder på flersproget bredde og modelvariation. Den "bedste" model afhænger helt af dine implementeringsbegrænsninger, målmarkeder og hardwarebudget.

Gemma 4 vs Llama 4 vs Qwen 3.5: Den komplette sammenligning

Overblik over deltagerne

Før vi dykker ned i detaljerne, er her landskabet:

	Gemma 4	Llama 4	Qwen 3.5
Udvikler	Google DeepMind	Meta	Alibaba Cloud
Udgivet	April 2, 2026	April 2025 (Scout/Maverick)	Q1 2026
Licens	Apache 2.0	Meta Custom License	Apache 2.0 (de fleste modeller)
Modelstørrelser	E2B, E4B, 26B MoE, 31B Dense	Scout 109B, Maverick 400B	Flere (0.6B til 397B)
Maks. kontekst	256K	10M (Scout)	128K
Multimodal	Tekst, billede, video, lyd	Tekst, billede	Tekst, billede
Tænketilstand	Ja (konfigurerbar)	Nej	Ja (hybrid)

Kilde: Respektive modelannonceringer fra Google, Meta og Alibaba

Modelstørrelser og arkitektur

Gemma 4: Fire størrelser, to arkitekturer

Gemma 4 tilbyder det mest differentierede udvalg:

Model	Total Params	Active Params	Arkitektur
E2B	2.3B	2.3B	Dense
E4B	4.5B	4.5B	Dense
26B MoE	26B	3.8B	Mixture of Experts
31B Dense	31B	31B	Dense

26B MoE er den mest bemærkelsesværdige — den leverer kvalitet tæt på flagskibsmodeller, mens den kun aktiverer 3.8B tokens per token. Dette betyder, at den kører med omtrent samme hastighed og hukommelsesomkostning som E4B-modellen, mens den har adgang til viden fra 26B parametre. På Arena AI scorer den 1441 og rangerer som nummer 6 blandt open-source modeller på trods af dette minimale compute-aftryk.

Llama 4: To massive modeller

Metas Llama 4 tager den modsatte tilgang — færre modeller, men meget større:

Model	Total Params	Active Params	Arkitektur
Scout	109B	~17B	Mixture of Experts (16 experts)
Maverick	400B	~17B	Mixture of Experts (128 experts)

Kilde: Meta AI Blog

Begge Llama 4-modeller bruger MoE-arkitektur. Scout aktiverer cirka 17B parametre per token fra en pulje på 109B. Maverick aktiverer en lignende mængde fra 400B totale parametre ved at bruge 128 experts for større videnskapacitet. Den vigtigste afvejning: selv med MoE-effektivitet kræver disse modeller betydeligt mere hukommelse for at rumme det fulde parametersæt.

Llama 4 Scouts definerende funktion er dens 10 millioner token kontekstvindue — det længste for nogen større open-source model. Dette gør det muligt at behandle hele kodebaser, lange videotransskriptioner eller massive dokumentsamlinger i en enkelt prompt.

Qwen 3.5: Det bredeste udvalg

Alibabas Qwen 3.5-familie tilbyder flest modelstørrelser:

Model	Parametre	Arkitektur
Qwen 3.5 0.6B	0.6B	Dense
Qwen 3.5 1.7B	1.7B	Dense
Qwen 3.5 4B	4B	Dense
Qwen 3.5 8B	8B	Dense
Qwen 3.5 14B	14B	Dense
Qwen 3.5 32B	32B	Dense
Qwen 3.5 72B	72B	Dense
Qwen 3.5 MoE (A22B)	397B	Mixture of Experts

Kilde: Qwen GitHub

Qwen 3.5 udfylder enhver parameterniche. 0.6B-modellen kan køre på stort set enhver enhed. 397B MoE matcher Llama 4 Maverick i det samlede antal parametre. Denne bredde betyder, at der altid er en Qwen-model, der passer til dine præcise hardwarebegrænsninger.

Qwen 3.5 tilbyder også hybrid tænketilstand, som lader brugere skifte mellem hurtige svar og dybere ræsonnement i den samme model — svarende til Gemma 4's konfigurerbare tænketilstand.

Sammenligning af benchmarks

Ræsonnement og viden

Benchmark	Gemma 4 31B	Llama 4 Maverick	Qwen 3.5 72B	Qwen 3.5 MoE
MMLU Pro	85.2%	79.6%	81.4%	83.1%
AIME 2026	89.2%	—	79.8%	85.6%
BigBench Extra Hard	74%	—	62%	68%
Arena AI Score	1452 (3.)	1417	1438	1449

Kilder: Arena AI, respektive tekniske rapporter

Gemma 4 31B fører på ræsonnements-benchmarks, hvilket er bemærkelsesværdigt i betragtning af, at det er den mindste flagskibsmodel i denne sammenligning (31B vs 400B vs 72B/397B). Tænketilstanden spiller en stor rolle her — Gemma 4 med tænkning aktiveret brillerer i opgaver, der nyder godt af trin-for-trin ræsonnement.

Effektivitetsjusteret ydeevne

Rå benchmarks fortæller ikke hele historien. Når man indregner aktive parametre — compute-omkostningen per token — ændrer billedet sig:

Model	Arena AI Score	Active Params	Score per B Active
Gemma 4 26B MoE	1441	3.8B	379
Gemma 4 31B	1452	31B	47
Llama 4 Maverick	1417	~17B	83
Llama 4 Scout	~1400	~17B	82
Qwen 3.5 72B	1438	72B	20
Qwen 3.5 MoE	1449	~22B	66

Gemma 4's 26B MoE dominerer på effektivitet. Den opnår en Arena AI-score på 1441, mens den kun aktiverer 3.8B parametre — et forhold mellem score og aktive parametre, der er 4-5 gange bedre end konkurrenterne. For implementeringsscenarier, hvor inferensomkostninger betyder noget (hvilket er de fleste produktionsscenarier), oversættes denne effektivitetsfordel direkte til omkostningsbesparelser.

Kodningsydeevne

Benchmark	Gemma 4 31B	Llama 4 Maverick	Qwen 3.5 72B
HumanEval+	82.3%	85.1%	83.7%
LiveCodeBench	46.8%	51.2%	49.5%
MultiPL-E (Python)	79.4%	83.6%	81.2%

Llama 4 Maverick fører en smule på kodnings-benchmarks i absolutte tal, hvilket er forventet givet dens fordel på 400B parametre. Gemma 4's evne til struktureret brug af værktøjer og dens tænketilstand gør den dog mere praktisk til agent-baserede kodnings-workflows, hvor modellen skal planlægge, udføre og iterere frem for blot at generere kode på én gang.

Licensering: Den skjulte afgørende faktor

Ved kommerciel implementering kan licensering være vigtigere end benchmarks:

Gemma 4: Apache 2.0

Ingen brugsbegrænsninger — brug til ethvert formål
Ingen brugergrænser — ingen begrænsninger baseret på virksomhedsstørrelse
Fuld ændringsret — skift og redistribuer frit
Standard juridisk gennemgang — Apache 2.0 er velkendt af juridiske teams over hele verden

Llama 4: Meta Custom License

Gratis til de fleste kommercielle formål — men med betingelser
700M MAU begrænsning — virksomheder, der overstiger 700 millioner månedlige aktive brugere, skal anmode om en separat licens fra Meta
Politik for acceptabel brug — visse anvendelsesscenarier er forbudt
Brugerdefineret licens — kræver juridisk gennemgang for at vurdere specifikke compliance-krav

Kilde: Meta Llama License

Qwen 3.5: Apache 2.0 (de fleste modeller)

Apache 2.0 for de fleste modelstørrelser — samme frihed som Gemma 4
Nogle større modeller kan have andre vilkår — tjek per model
Standard juridisk gennemgang — Apache 2.0 er velkendt

For startups og virksomheder er licensforskellen reel. Apache 2.0 (Gemma 4 og de fleste Qwen 3.5-modeller) kræver ingen speciel juridisk gennemgang ud over standard open-source compliance. Metas brugerdefinerede licens kræver specifik gennemgang for tærsklen på 700M MAU og politikken for acceptabel brug. I praksis påvirker tærsklen på 700M MAU kun en håndfuld virksomheder globalt, men den brugerdefinerede licens skaber friktion uanset virksomhedsstørrelse.

Multimodale egenskaber

Egenskab	Gemma 4	Llama 4	Qwen 3.5
Tekst	Alle modeller	Alle modeller	Alle modeller
Billeder	Alle modeller	Alle modeller	De fleste modeller
Video	Kun E2B, E4B	Nej	Nej
Lyd	Kun E2B, E4B	Nej	Nej
Tænketilstand	Ja (konfigurerbar)	Nej	Ja (hybrid)

Gemma 4 har den bredeste multimodale understøttelse. Det faktum, at video- og lydfunktioner er tilgængelige i de mindste modeller (E2B og E4B) frem for de største, er et bemærkelsesværdigt designvalg, der muliggør multimodal AI direkte på enheden.

Llama 4 understøtter tekst- og billedbehandling på tværs af begge modeller, men mangler indfødt video- og lydstøtte. Qwen 3.5 tilbyder lignende tekst- og billedfunktioner uden indfødt video- eller lydbehandling.

Kontekstvinduer

Model	Kontekstvindue
Llama 4 Scout	10,000,000 tokens
Gemma 4 31B/26B MoE	256,000 tokens
Gemma 4 E2B/E4B	128,000 tokens
Qwen 3.5 (de fleste modeller)	128,000 tokens
Llama 4 Maverick	1,000,000 tokens

Llama 4 Scouts 10M token kontekstvindue er i en klasse for sig selv. Det er cirka 40 gange større end Gemma 4's maksimum og muliggør anvendelsesscenarier, som ingen anden open-source model kan matche:

Behandling af hele store kodebaser (millioner af linjer) i en enkelt prompt
Analyse af års samtalehistorik til kundeserviceapplikationer
Indlæsning af hele bøger eller samlinger af forskningsartikler

Brug af et 10M kontekstvindue kræver dog tilsvarende hardware. Den hukommelse, der kræves for at holde KV cache til 10M tokens, er betydelig, hvilket gør denne funktion praktisk kun på server-grade hardware.

For de fleste applikationer er Gemma 4's 256K og Qwen 3.5's 128K kontekstvinduer mere end tilstrækkelige. Et 256K kontekstvindue kan rumme cirka 750-1000 sider tekst eller 50,000+ linjer kode.

Hardwarekrav

Kørsel lokalt

Model	RAM (4-bit)	RAM (FP16)	Muligt for forbrugere?
Gemma 4 E2B	~5 GB	~5 GB	Ja (bærbar/telefon)
Gemma 4 E4B	~5 GB	~9 GB	Ja (bærbar)
Gemma 4 26B MoE	~18 GB	~52 GB	Ja (RTX 4090)
Gemma 4 31B	~20 GB	~62 GB	Ja (RTX 4090)
Qwen 3.5 8B	~6 GB	~16 GB	Ja (bærbar)
Qwen 3.5 32B	~20 GB	~64 GB	Ja (RTX 4090)
Qwen 3.5 72B	~42 GB	~144 GB	Nej (server GPU)
Llama 4 Scout	~70 GB	~218 GB	Nej (multi-GPU server)
Llama 4 Maverick	~250 GB	~800 GB	Nej (GPU cluster)

For udviklere, der ønsker at køre modeller lokalt — på en bærbar for privatlivets fred eller på en enkelt GPU for at spare omkostninger — er Gemma 4 og de små Qwen 3.5-modeller de eneste praktiske muligheder. Gemma 4 E2B og E4B kører på stort set enhver moderne computer. 26B MoE og 31B Dense passer på en enkelt RTX 4090 eller RTX 5090.

Llama 4-modeller er fundamentalt server-grade. Selv med aggressiv quantization kræver Scout setups med flere GPU'er, og Maverick kræver et GPU cluster. Dette begrænser Llama 4 til organisationer med budgetter til cloud compute eller dedikeret GPU-infrastruktur.

Flersproget support

	Gemma 4	Llama 4	Qwen 3.5
Understøttede sprog	35+	12	29+
Pre-training sprog	140+	—	100+
CJK-kvalitet	God	Tilstrækkelig	Fremragende
Arabisk/Hebraisk	God	Tilstrækkelig	God
Sprog med få ressourcer	Moderat	Begrænset	Moderat

Qwen 3.5 er det stærkeste valg til applikationer rettet mod asiatiske markeder, især kinesisk, japansk og koreansk. Alibabas træningsdata inkluderer omfattende CJK-tekst af høj kvalitet, hvilket giver Qwen-modellerne en målbar fordel på disse sprog.

Gemma 4 tilbyder den bredeste officielle sprogunderstøttelse med 35+ sprog og pre-training på 140+. Dette giver rimelig kvalitet på tværs af en lang række sprog, hvilket gør den til det mest alsidige valg til globale applikationer.

Llama 4's understøttelse af 12 sprog er den mest begrænsede. Selvom den dækker de mest udbredte verdenssprog, efterlader den betydelige huller for applikationer, der er rettet mod mindre sprogmarkeder.

Anbefalede anvendelsesscenarier

Vælg Gemma 4 når:

Du har brug for maksimal effektivitet — 26B MoE leverer flagskibskvalitet med 3.8B aktive parametre
Licensering betyder noget — Apache 2.0 uden restriktioner er den enkleste vej til kommerciel implementering
Du har brug for multimodal edge AI — E2B/E4B med video og lyd kører på forbrugerenheder
Du vil have konfigurerbar tænkning — Skift mellem hurtigt og dybt ræsonnement per anmodning
Du bygger agent-baserede workflows — Struktureret brug af værktøjer er indbygget

Vælg Llama 4 når:

Du har brug for maksimal kontekst — 10M tokens i Scout er uovertruffen
Rå benchmark-scorer betyder mest — Mavericks 400B parametre giver den en fordel i visse benchmarks
Du har hardware i serverklassen — Cloud-implementeringer, hvor GPU-omkostninger er overkommelige
Du er i Metas økosystem — Integration med Metas AI-infrastruktur
Du rammer ikke tærsklen på 700M MAU — Hvilket gælder for 99.99% af alle virksomheder

Vælg Qwen 3.5 når:

Du målretter asiatiske markeder — Bedste CJK-sprogkvalitet blandt open-source modeller
Du har brug for en specifik modelstørrelse — 8 størrelser fra 0.6B til 397B udfylder enhver niche
Du vil have hybrid tænkning — Svarende til Gemma 4's konfigurerbare tænketilstand
Du har brug for kodespecifikke modeller — Qwen Code-varianter er optimeret til programmering
Du har brug for Apache 2.0 med flere størrelsesmuligheder — De fleste modeller bruger Apache 2.0

Opbygning af applikationer med open-source modeller

Uanset hvilken model du vælger, kræver implementering af en open-source model i produktion, at man bygger applikationslaget omkring den — API endpoints, brugergrænseflader, autentificering, databaseopbevaring til samtaler og implementeringsinfrastruktur.

For teams, der bygger AI-drevne produkter, er modellen kun én brik. Platforme som ZBuild håndterer applikationsstilladset — frontend, backend, database og implementering — så du kan fokusere din ingeniørmæssige indsats på modelintegration, prompt engineering og den brugeroplevelse, der differentierer dit produkt.

Modelsammenligningen betyder mest i integrationslaget. En velbygget applikation kan skifte mellem Gemma 4, Llama 4 eller Qwen 3.5 afhængigt af den specifikke opgave — ved at bruge Gemma 4 MoE til effektivitetsfølsomme anmodninger, Llama 4 Scout til opgaver med lang kontekst og Qwen 3.5 til CJK-tungt indhold.

Finjustering og tilpasning

Alle tre modelfamilier understøtter finjustering, men den praktiske oplevelse varierer:

Gemma 4

LoRA og QLoRA understøttes på tværs af alle størrelser
Apache 2.0 betyder ingen restriktioner på distribution af finjusterede weights
Google Colab notebooks er tilgængelige for at komme i gang med finjustering på gratis GPU'er
Keras integration via KerasNLP til high-level finjusterings-workflows
E2B og E4B kan finjusteres på en enkelt forbruger-GPU på få timer

Llama 4

LoRA og QLoRA understøttes via Hugging Face transformers
Metas brugerdefinerede licens gælder for finjusterede derivater — 700M MAU-restriktionen følger med
Store modelstørrelser betyder, at finjustering af Scout (109B) eller Maverick (400B) kræver multi-GPU setups
Torchtune fra Meta tilbyder officielle opskrifter til finjustering

Qwen 3.5

LoRA, QLoRA og fuld finjustering understøttes med omfattende dokumentation
Apache 2.0 for de fleste modeller betyder ubegrænset distribution af finjusterede weights
Det brede udvalg af størrelser betyder, at du kan finjustere en 4B-model på en bærbar eller en 72B-model på en server
Stærke kinesiske/CJK finjusteringsdata er tilgængelige via Alibabas økosystem

For de fleste finjusteringsscenarier tilbyder Gemma 4 E4B eller 26B MoE det bedste udgangspunkt. Modellerne er små nok til at blive finjusteret på forbrugerhardware, kapable nok til at producere resultater af høj kvalitet og licenseret tilladeligt nok til at kunne implementere den finjusterede model hvor som helst.

Konvergenstendensen

Ser man holistisk på dataene, er den mest slående observation, hvor hurtigt open-source modeller nærmer sig de proprietære modellers formåen. Gemma 4 31B's MMLU Pro på 85.2% er tæt på Claude Sonnet 4.6 og GPT-5.4's proprietære scorer — til nul inferensomkostninger ud over hardwaren.

Differentieringen mellem open-source modelfamilier skifter fra "hvilken en er klogest" til "hvilken en passer til dine implementeringsbegrænsninger." Hardwarekrav, licensvilkår, multimodale evner og sprogunderstøttelse betyder nu lige så meget som rå benchmark-scorer.

For de fleste udviklere og virksomheder i 2026 er spørgsmålet ikke længere "skal jeg bruge en open-source model?", men "hvilken open-source model passer til mine specifikke behov?" — og det er et tegn på, hvor modent dette økosystem er blevet.

Dom

Der findes ikke én enkelt "bedste" open-source model i 2026. Det rigtige valg afhænger af dine specifikke krav:

Bedste samlede effektivitet: Gemma 4 26B MoE — 3.8B aktive parametre, Arena AI rangering 6., Apache 2.0
Bedste rå kvalitet (open-source): Gemma 4 31B Dense — 85.2% MMLU Pro, Arena AI rangering 3.
Bedst til lange dokumenter: Llama 4 Scout — 10M token kontekstvindue
Bedst til asiatiske sprog: Qwen 3.5 — overlegen CJK-ydeevne
Bedst til forbrugerhardware: Gemma 4 E2B — 5GB RAM, kører på telefoner
Mest tilladelige licens: Gemma 4 og Qwen 3.5 (Apache 2.0)
Flest muligheder for modelstørrelse: Qwen 3.5 — 8 størrelser fra 0.6B til 397B

Hvis du kun kunne vælge én familie og prioriterer effektivitet, licensering og multimodale evner, er Gemma 4 det stærkeste all-around valg i april 2026.

Gemma 4 vs Llama 4 vs Qwen 3.5: Hvilken Open-Source model vinder i 2026?