Vigtigste pointer
- 1 trillion parametre, 37B aktive: DeepSeek V4 bruger en Mixture-of-Experts arkitektur, der kun aktiverer ~37B parametre per token — hvilket holder inference-omkostninger på niveau med V3 på trods af 50% flere totale parametre.
- 81% SWE-Bench Verified: V4 indtager tronen for kodnings-benchmarks — og slår Claude Opus 4.5's tidligere rekord på 80.9%.
- Engram memory er det arkitektoniske gennembrud: Et nyt betinget hukommelsessystem, der giver O(1) vidensopslag og opnår 97% nøjagtighed på Needle-in-a-Haystack ved en skala på en million tokens.
- 10x billigere end vestlige konkurrenter: Til $0.30/M input tokens underbyder V4 GPT-5.4 ($2.50) og Claude ($3-15) med en størrelsesorden.
- Open-source under Apache 2.0: Fulde model-vægte er tilgængelige for lokal udrulning, fine-tuning og kommerciel brug — den eneste model i frontier-klassen med dette niveau af åbenhed.
DeepSeek V4: Den open-source model, der omskriver økonomien i AI
DeepSeek har gjort det igen. Efter at V3 beviste, at et kinesisk laboratorie kunne bygge modeller i frontier-klassen til en brøkdel af vestlige omkostninger, hæver V4 indsatsen til et niveau, der kræver opmærksomhed fra enhver udvikler, startup og virksomhed, der træffer beslutninger om AI-infrastruktur.
En trillion parametre. Million-token kontekst. Native multimodal. 81% SWE-Bench Verified. Og det hele er open-source under Apache 2.0 til 10-40x lavere inference-omkostninger end vestlige konkurrenter.
Om disse påstande holder fuldt ud under uafhængig granskning, er stadig ved at blive afgjort. Men de arkitektoniske innovationer — især Engram memory — repræsenterer ægte fremskridt, der vil påvirke modeldesign på tværs af branchen uanset hvad.
Her er alt, hvad vi ved per marts 2026.
Tidslinje for udgivelse
DeepSeek V4's vej mod udgivelse var ujævn med flere forsinkelser:
| Dato | Begivenhed |
|---|---|
| Januar 2026 | Engram-artikel udgivet — betinget hukommelsesarkitektur |
| Februar 2026 (tidlig) | Oprindeligt mål for udgivelse — overskredet |
| Februar 2026 (midt) | Andet udgivelsesvindue — også overskredet |
| Tidlig marts 2026 | Fulde V4 model lanceret |
| 9. marts 2026 | "V4 Lite" dukkede op på DeepSeek's hjemmeside |
| Marts 2026 (igangværende) | Uafhængig benchmarking og validering fra fællesskabet |
Den forsinkede tidslinje øgede faktisk forventningerne. Da V4 blev lanceret, var Engram-artiklen allerede blevet diskuteret vidt og bredt, og forventningerne var tårnhøje.
Dybdegående gennemgang af arkitekturen
Mixture-of-Experts i trillion-skala
DeepSeek V4 fortsætter med MoE-arkitekturen, der gjorde V3 så effektiv, men skalerer den dramatisk:
| Metrik | DeepSeek V3 | DeepSeek V4 |
|---|---|---|
| Totale parametre | 671B | ~1T |
| Aktive parametre | ~37B | ~37B |
| Kontekst-vindue | 128K | 1M |
| Arkitektur | MoE | MoE + Engram |
| Multimodal | Kun tekst | Tekst + Billede + Video |
| Licens | Apache 2.0 | Apache 2.0 |
Den centrale indsigt: De totale parametre steg med 50%, men de aktive parametre per token forblev konstante på ~37B. Dette betyder, at V4 har adgang til langt mere viden og formåen uden proportionalt at øge inference-omkostningerne.
Engram: Hukommelsesrevolutionen
Engram er den mest arkitektonisk betydningsfulde innovation i V4. Detaljeret i DeepSeek's artikel fra januar 2026 ("Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"), adresserer det en grundlæggende begrænsning ved Transformers.
Problemet: Traditionelle Transformers behandler al viden på samme måde — gennem beregning. Uanset om modellen skal huske, at "Paris er Frankrigs hovedstad" (en statisk kendsgerning) eller ræsonnere over en kompleks kode-refaktorering (dynamisk beregning), bruger den samme attention-mekanisme. Dette er spild af ressourcer.
Engram's løsning: Tilføj et separat hukommelsessystem til statisk, deterministisk viden. I stedet for at beregne svaret på "Hvad er hovedstaden i Frankrig?" gennem flere attention-lag, leverer Engram O(1) deterministisk opslag — i bund og grund en indlært hash-tabel til faktuel viden.
Hovedkonklusionen — Sparsity Allocation Law: DeepSeek's forskning afslørede, at under et fastlagt budget for sparsomme parametre er den optimale fordeling cirka 20-25% hukommelse (Engram) og 75-80% beregning (MoE). Dette forhold maksimerer både nøjagtigheden af genkaldelse og evnen til ræsonnement.
Præstationsmæssig betydning: Engram opnår 97% Needle-in-a-Haystack nøjagtighed ved en skala på en million tokens, hvilket løser problemet med forringet genfinding, der plager standard Transformer-arkitekturer. Ved 1M tokens falder de fleste modellers genfindingsnøjagtighed til under 80%. V4 med Engram opretholder 97%.
DeepSeek Sparse Attention (DSA)
Udover Engram introducerer V4 DeepSeek Sparse Attention — en attention-mekanisme, der dynamisk tildeler beregningskraft baseret på inputtets kompleksitet. Simple passager får letvægts-attention; passager med komplekse ræsonnementer får fuld attention-dybde.
Dette er det, der gør kontekst-vinduet på en million tokens praktisk muligt. Uden DSA ville processering af 1M tokens være uoverkommeligt dyrt, selv med DeepSeek's lave omkostninger. Med det bliver det meste af kontekst-vinduet behandlet effektivt, mens den fulde beregningskraft reserveres til de dele, der har brug for det.
Manifold-Constrained Hyper-Connections
Den tredje arkitektoniske innovation er Manifold-Constrained Hyper-Connections — en teknik, der forbedrer gradient-flowet under træning. Det praktiske resultat er mere stabil træning ved en skala på en trillion parametre, hvilket delvist forklarer, hvordan DeepSeek trænede V4 til en brøkdel af de vestlige omkostninger.
Benchmark-analyse
Tallene
| Benchmark | DeepSeek V4 | Claude Opus 4.5 | GPT-5.4 | Noter |
|---|---|---|---|---|
| SWE-Bench Verified | 81% | 80.9% | ~82% | V4 slår tidligere rekord |
| HumanEval | 90% | ~88% | ~90% | Kodegenerering |
| Kontekst (NIAH) | 97% @ 1M | 95% @ 200K | 96% @ 1M | Engram fordel |
| Multimodal | Native | N/A | Native | Tekst + Billede + Video |
Forbehold: Uafhængig verifikation
Det er vigtigt at bemærke, at per slutningen af marts 2026 stammer mange af disse tal fra interne benchmarks. Indtil tredjeparts-evalueringer fra organisationer som Artificial Analysis, LMSYS eller uafhængige forskere fuldt ud bekræfter påstandene, bør man betragte de nøjagtige procenter som mål fremfor endegyldige fakta.
Når det er sagt, blev V3's benchmarks i høj grad bekræftet af uafhængige tests, hvilket giver DeepSeek troværdighed i forhold til, at disse V4-tal ligger i det rigtige område.
Prissætning: Omkostningsrevolutionen fortsætter
DeepSeek V4's prissætning er dens mest disruptive egenskab:
| Model | Input-pris (per M tokens) | Output-pris (per M tokens) | Cache Hit-pris |
|---|---|---|---|
| DeepSeek V4 | $0.30 | $0.50 | $0.03 |
| GPT-5.4 | $2.50 | $15.00 | N/A |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 |
| Claude Opus 4.6 | $15.00 | $75.00 | $1.50 |
Prissætningen for cache hits er særligt imponerende: Hvis dine prompts deler et fælles præfiks (hvilket de næsten altid gør i produktionsapplikationer), koster cachede input-tokens kun $0.03 per million — en 90% rabat.
Hvad dette betyder i praksis
For en typisk app-udvikler, der behandler 100M tokens om måneden:
| Udbyder | Månedlig omkostning |
|---|---|
| DeepSeek V4 | ~$40-80 |
| GPT-5.4 | ~$500-1,500 |
| Claude Sonnet 4.6 | ~$600-1,800 |
| Claude Opus 4.6 | ~$3,000-9,000 |
Denne 10-40x omkostningsfordel er grunden til, at DeepSeek er vigtig for det bredere AI-økosystem. Det gør frontier-class AI tilgængelig for indie-udviklere, små startups og omkostningsbevidste virksomhedsteams.
Platforme som ZBuild kan integrere DeepSeek V4 som en backend-modelmulighed og give disse dramatiske omkostningsbesparelser direkte videre til brugere, der bygger AI-drevne applikationer.
Native Multimodal: Tekst, Billede og Video
I modsætning til V3 (kun tekst) er V4 native multimodal. Som rapporteret af Financial Times, integrerer V4 tekst-, billede- og videogenerering under præ-træningen i stedet for at tilføje vision som et separat modul.
Dette har betydning fordi:
- Ræsonnement på tværs af modaliteter er mere sammenhængende — modellen forstår sammenhænge mellem tekstbeskrivelser og visuelt indhold naturligt.
- Forståelse af billeder og video — V4 kan analysere screenshots, diagrammer og videoframes sammen med tekst.
- Genereringsevner — tidlige rapporter tyder på tekst-til-billede og tekst-til-video generering, selvom kvalitetsvurderinger stadig er undervejs.
For udviklere, der bygger applikationer, som behandler visuelt indhold — dokumentanalyse, UI-design, video-opsummering — eliminerer native multimodal understøttelse behovet for separate vision-API'er.
Praktiske multimodale use cases
Den native multimodale integration åbner op for flere praktiske arbejdsgange:
- Kode fra screenshots: Indsend et screenshot af et UI-design, og V4 genererer den tilsvarende kode — HTML/CSS, React-komponenter eller SwiftUI-views.
- Forståelse af diagrammer: Indlæs arkitekturdiagrammer, flowcharts eller databaseskemaer, og V4 forklarer designet, identificerer problemer eller genererer implementeringskode.
- Dokumentbehandling: Udtræk strukturerede data fra scannede dokumenter, fakturaer og formularer uden en separat OCR-pipeline.
- Video-opsummering: Behandl videoframes for at generere resuméer, transskriptioner eller fremhæve nøgleøjeblikke.
For app-byggere som ZBuild betyder native multimodal, at brugere kan uploade mockups og screenshots direkte som en del af app-oprettelsesflowet — AI'en forstår den visuelle kontekst uden behov for yderligere værktøjer.
Betydningen af Open-Source
DeepSeek V4's Apache 2.0 licens er muligvis mere betydningsfuld end dens benchmark-resultater. Her er, hvad den muliggør:
Self-Hosting
Organisationer med krav om datasuverænitet kan køre V4 på deres egen infrastruktur. Ingen API-kald, ingen data der forlader bygningen, ingen afhængighed af leverandører. De ~37B aktive parametre per token gør den egnet til at køre på high-end enterprise GPU-klynger.
Fine-Tuning
De åbne vægte tillader domænespecifik fine-tuning — medicinsk, juridisk, finansiel eller enhver specialiseret branche. Dette er umuligt med proprietære modeller fra OpenAI eller Anthropic.
Forskning
De fulde arkitekturdetaljer og træningsmetodologi gør det muligt for forskningsverdenen at bygge videre på DeepSeek's innovationer. Engram memory, DSA og Manifold-Constrained Hyper-Connections er alle tilgængelige for undersøgelse og forbedring.
Omkostningsstyring
Selv udover DeepSeek's allerede lave API-priser kan self-hosting i stor skala reducere omkostningerne per token yderligere. For applikationer med høj volumen, der behandler milliarder af tokens månedligt, kan self-hosting af V4 være 100x billigere end proprietær API-prissætning.
DeepSeek V4 vs. V3: Skal du opgradere?
For eksisterende DeepSeek V3-brugere er her overvejelserne for en opgradering:
| Funktion | V3 | V4 | Opgraderingsbetydning |
|---|---|---|---|
| Kontekst-vindue | 128K | 1M | Høj — muliggør analyse af hele kodebaser |
| SWE-Bench | 69% | 81% | Høj — 12-points forbedring |
| Multimodal | Kun tekst | Tekst + Billede + Video | Medium — afhænger af use case |
| Engram Memory | Nej | Ja | Høj — dramatisk bedre genfinding |
| API-pris | $0.27/M input | $0.30/M input | Lav — minimal prisstigning |
| Arkitektur | MoE | MoE + Engram + DSA | Høj — fundamentalt bedre |
Dom: Opgrader. Prisstigningen er forsvindende lille, og forbedringerne i formåen — især Engram memory og kontekst-vinduet på en million tokens — er betydelige. Den eneste grund til at blive på V3 er, hvis du har produktionsmiljøer, der kræver den præcise adfærdsmæssige konsistens fra din nuværende model.
Hvordan DeepSeek V4 passer ind i udvikler-økosystemet
For indie-udviklere og startups
V4's prissætning gør AI i frontier-klassen tilgængelig på et startup-budget. Kombineret med Apache 2.0 licensen kan du bygge og udrulle produktionsapplikationer uden at bekymre dig om skalering af API-omkostninger. Værktøjer som ZBuild, der integrerer flere modeludbydere, lader dig udnytte DeepSeek V4's omkostningsfordel, mens du bevarer muligheden for at sende specifikke opgaver til andre modeller, når det er nødvendigt.
For virksomhedsteams
Muligheden for self-hosting adresserer datasuverænitet, overholdelse af regler og omkostningsbekymringer på samme tid. Fine-tuning evnen betyder, at du kan bygge domænespecifikke modeller, der overgår generelle alternativer i din specifikke branche.
For forskere
Den åbne arkitektur er en guldmine. Engram memory alene åbner op for flere forskningsretninger — betingede hukommelsesarkitekturer, optimering af sparsity-tildeling og hybride systemer til genfinding og beregning.
For AI-branchen
V4 lægger pres på alle udbydere af frontier-modeller for at retfærdiggøre deres priser. Når en open-source model matcher eller overgår proprietære benchmarks til en 10x lavere pris, skifter værditilbuddet for lukkede modeller fra "bedre præstation" til "bedre integration, support og pålidelighed."
Risici og usikkerheder
Verificering af benchmarks
Påstanden om 81% på SWE-Bench kræver uafhængig bekræftelse. DeepSeek har været troværdige med V3-benchmarks, men modeller med en trillion parametre er sværere at evaluere konsekvent. Vent på resultater fra Artificial Analysis og LMSYS, før du træffer beslutninger om infrastruktur baseret på de præcise tal.
Geopolitisk risiko
DeepSeek er en kinesisk virksomhed, og spændingerne mellem USA og Kina på teknologiområdet fortsætter. Eksportkontrol, restriktioner på API-adgang eller politisk pres kan påvirke tilgængeligheden for vestlige udviklere. Self-hosting med åbne vægte mindsker, men eliminerer ikke denne risiko.
Multimodal kvalitet
De multimodale evner er det mindst testede aspekt af V4. Kvaliteten af billed- og videoforståelse kræver validering i den virkelige verden udover interne benchmarks.
Support og pålidelighed
Open-source betyder fællesskabsbaseret support, ikke enterprise-SLAs. Hvis din produktionsapplikation afhænger af V4, er du selv ansvarlig for oppetid, skalering og debugging. DeepSeek's API-tjeneste har været pålidelig, men den tilbyder ikke den samme infrastruktur for virksomhedssupport som OpenAI eller Anthropic.
Konklusion
DeepSeek V4 er den vigtigste open-source AI-model, der er udgivet i 2026 indtil videre. Dens kombination af en skala på en trillion parametre, Engram memory innovation, million-token kontekst, native multimodale evner og aggressivt lave priser under en Apache 2.0 licens gør den til et reelt alternativ til proprietære frontier-modeller.
Forbeholdene er reelle — verificering af benchmarks pågår, geopolitiske risici eksisterer, og virksomhedssupporten er begrænset. Men for udviklere og organisationer, der er villige til at navigere i disse usikkerheder, tilbyder V4 evner i frontier-klassen til en brøkdel af prisen.
Uanset om du tilgår den via DeepSeek's API, selv hoster den på din infrastruktur eller bruger den gennem platforme som ZBuild, der integrerer flere modeludbydere, fortjener DeepSeek V4 en plads i din AI-værktøjskasse.
Ofte stillede spørgsmål
Kan jeg selv hoste DeepSeek V4 på almindelig hardware?
Ikke i praksis. Selvom modellen kun aktiverer ~37B parametre per token, kræver hosting af den fulde 1T parameter MoE-model betydelig GPU-hukommelse til expert-routing-tabellerne. Du skal bruge GPU-klynger i enterprise-klassen (flere A100'ere eller H100'ere). For de fleste udviklere er DeepSeek's API til $0.30/M input tokens langt mere omkostningseffektiv end self-hosting, medmindre man behandler milliarder af tokens månedligt.
Hvordan adskiller V4 Lite sig fra den fulde V4 model?
DeepSeek V4 Lite dukkede op på DeepSeek's hjemmeside den 9. marts 2026, men der er ikke udgivet officielle specifikationer. Baseret på DeepSeek's navngivningsmønstre med V3 refererer "Lite" sandsynligvis til en destilleret eller mindre variant, der er optimeret til hastighed og pris på bekostning af visse evner. Forvent, at den er hurtigere og billigere, men med reduceret præstation på komplekse ræsonnementsopgaver.
Er DeepSeek V4 censureret for visse emner?
Som alle kinesiske AI-modeller har DeepSeek V4 indholdsfiltrering for politisk følsomme emner, især dem relateret til kinesisk politik og regeringsførelse. Til generel udvikling, kodning og tekniske use cases har filtreringen minimal indflydelse. For applikationer, der involverer følsomt politisk indhold eller ubegrænset generering, er dette en legitim overvejelse.
Hvilke programmeringssprog håndterer V4 bedst?
Baseret på SWE-Bench resultater (som primært tester Python, JavaScript og Java), excellerer V4 i mainstream-sprog. Rapporter fra fællesskabet tyder på stærk præstation i Python, JavaScript/TypeScript, Java, Go, Rust og C++. Mindre udbredte sprog som Haskell, Elixir eller Zig har sandsynligvis svagere understøttelse på grund af fordelingen af træningsdata.
Hvordan er DeepSeek V4 sammenlignet med Llama 4 i forhold til self-hosting?
Begge er open-source og tilgængelige under permissive licenser. DeepSeek V4's MoE-arkitektur med ~37B aktive parametre per token tilbyder bedre præstation-per-beregning end dense modeller. Llama 4's fordel er Meta's større økosystem og support fra fællesskabet. For ren formåen per krone vinder V4 sandsynligvis. For fællesskabsværktøjer og fine-tuning økosystem kan Llama være mere tilgængelig.
Kilder
- DeepSeek V4: Engram Architecture Revealed
- DeepSeek V4: What's Next — Architecture, DSA, Engram & More
- Introl: DeepSeek V4's 1-Trillion Parameter Architecture
- ByteIota: DeepSeek V4 Targets 80.9% SWE-Bench Record
- CyberNews: DeepSeek V4 Review
- Evolink: DeepSeek V4 Release Date
- PromptZone: DeepSeek V4 Status Report March 2026
- VERTU: DeepSeek V4 Engram Architecture
- Kili Technology: DeepSeek V4 Guide
- Evermx: DeepSeek V4 Multimodal Launch
- RecodeChina: DeepSeek's Next Move
- DeepSeek V4 Status and Leaks