Viktigste lærdommer
- 1 trillion parameters, 37B active: DeepSeek V4 bruker en Mixture-of-Experts architecture som aktiverer bare ~37B parametere per token — noe som holder inferenskostnader på et nivå sammenlignbart med V3 til tross for 50% flere totalparametere.
- 81% SWE-Bench Verified: V4 gjør krav på tronen for koding-benchmarks — og slår Claude Opus 4.5s tidligere rekord på 80.9%.
- Engram-minne er det arkitektoniske gjennombruddet: Et nytt betinget minnesystem som gir O(1) kunnskapsoppslag, og oppnår 97% nøyaktighet på Needle-in-a-Haystack i million-token-skala.
- 10x billigere enn vestlige konkurrenter: Med $0.30/M input tokens, underbyr V4 GPT-5.4 ($2.50) og Claude ($3-15) med en størrelsesorden.
- Åpen kildekode under Apache 2.0: Fullstendige modellvekter er tilgjengelige for lokal distribusjon, finjustering og kommersiell bruk — den eneste modellen i toppklassen med dette nivået av åpenhet.
DeepSeek V4: Den åpne kildekodemodellen som skriver om økonomien i AI
DeepSeek har gjort det igjen. Etter at V3 beviste at et kinesisk laboratorium kunne bygge modeller i toppklassen til en brøkdel av vestlige kostnader, høyner V4 innsatsen til et nivå som krever oppmerksomhet fra alle utviklere, oppstartsbedrifter og bedrifter som tar beslutninger om AI-infrastruktur.
En trillion parametere. Million-token kontekst. Innebygd multimodal. 81% SWE-Bench Verified. Og alt dette er åpen kildekode under Apache 2.0 med 10-40x lavere inferenskostnader enn vestlige konkurrenter.
Hvorvidt disse påstandene holder vann under uavhengig gransking, gjenstår å se. Men de arkitektoniske innovasjonene — spesielt Engram-minne — representerer reelle fremskritt som uansett vil påvirke modelldesign i hele bransjen.
Her er alt vi vet per mars 2026.
Tidslinje for lansering
DeepSeek V4s vei mot lansering var humpete, med flere utsatte vinduer:
| Dato | Hendelse |
|---|---|
| Januar 2026 | Engram-artikkel publisert — betinget minnearkitektur |
| Februar 2026 (tidlig) | Opprinnelig lanseringsmål — ikke nådd |
| Februar 2026 (midten) | Andre lanseringsvindu — også ikke nådd |
| Tidlig mars 2026 | Fullstendig V4-modell lansert |
| 9. mars 2026 | "V4 Lite" dukket opp på DeepSeeks nettside |
| Mars 2026 (pågående) | Uavhengig benchmarking og fellesskapsvalidering |
Den utsatte tidslinjen økte faktisk forventningene. Da V4 ble lansert, hadde Engram-artikkelen allerede blitt mye diskutert, og forventningene var skyhøye.
Dypdykk i arkitekturen
Mixture-of-Experts i trillion-skala
DeepSeek V4 fortsetter med MoE-arkitekturen som gjorde V3 så effektiv, men skalerer den dramatisk:
| Metrikk | DeepSeek V3 | DeepSeek V4 |
|---|---|---|
| Totale parametere | 671B | ~1T |
| Aktive parametere | ~37B | ~37B |
| Kontekstvindu | 128K | 1M |
| Arkitektur | MoE | MoE + Engram |
| Multimodal | Kun tekst | Tekst + Bilde + Video |
| Lisens | Apache 2.0 | Apache 2.0 |
Nøkkelinnsikten: Totalt antall parametere økte med 50%, men aktive parametere per token holdt seg konstant på ~37B. Dette betyr at V4 har tilgang til langt mer kunnskap og kapasitet uten å øke inferenskostnadene proporsjonalt.
Engram: Minnerevolusjonen
Engram er den mest arkitektonisk betydningsfulle innovasjonen i V4. Detaljert i DeepSeeks artikkel fra januar 2026 ("Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"), tar det for seg en grunnleggende begrensning i Transformers.
Problemet: Tradisjonelle Transformers behandler hver bit med kunnskap på samme måte — gjennom beregning. Enten modellen trenger å huske at "Paris er hovedstaden i Frankrike" (et statisk faktum) eller resonnere rundt en kompleks kode-refaktorering (dynamisk beregning), bruker den den samme attention-mekanismen. Dette er lite effektivt.
Engrams løsning: Legge til et separat minnesystem for statisk, deterministisk kunnskap. I stedet for å beregne svaret på "Hva er hovedstaden i Frankrike?" gjennom flere attention-lag, gir Engram O(1) deterministisk oppslag — i praksis en lært hashtabell for faktakunnskap.
Hovedfunnet — Sparsity Allocation Law: DeepSeeks forskning avslørte at under et fast budsjett for sparsommelige parametere, er den optimale fordelingen omtrent 20-25% minne (Engram) og 75-80% beregning (MoE). Dette forholdet maksimerer både nøyaktighet i gjenfinning og resonneringsevne.
Effekt på ytelse: Engram oppnår 97% Needle-in-a-Haystack-nøyaktighet ved en kontekstskala på en million tokens, noe som løser problemet med degradering av gjenfinning som plager standard Transformer-arkitekturer. Ved 1M tokens faller de fleste modellers nøyaktighet under 80%. V4 med Engram opprettholder 97%.
DeepSeek Sparse Attention (DSA)
Utover Engram introduserer V4 DeepSeek Sparse Attention — en attention-mekanisme som dynamisk tildeler beregningskraft basert på inngangskompleksitet. Enkle passasjer får lettvektig attention; komplekse resonneringspassasjer får full attention-dybde.
Dette er det som gjør kontekstvinduet på en million tokens praktisk. Uten DSA ville prosessering av 1M tokens vært uoverkommelig dyrt, selv med DeepSeeks lave kostnader. Med det blir mesteparten av kontekstvinduet behandlet effektivt, mens full beregningskraft reserveres for delene som trenger det.
Manifold-Constrained Hyper-Connections
Den tredje arkitektoniske innovasjonen er Manifold-Constrained Hyper-Connections — en teknikk som forbedrer gradientflyten under trening. Det praktiske resultatet er mer stabil trening i trillion-parameter-skala, noe som delvis forklarer hvordan DeepSeek trente V4 til en brøkdel av vestlige kostnader.
Benchmark-analyse
Tallene
| Benchmark | DeepSeek V4 | Claude Opus 4.5 | GPT-5.4 | Notater |
|---|---|---|---|---|
| SWE-Bench Verified | 81% | 80.9% | ~82% | V4 slår tidligere rekord |
| HumanEval | 90% | ~88% | ~90% | Kodegenerering |
| Kontekst (NIAH) | 97% @ 1M | 95% @ 200K | 96% @ 1M | Engram-fordel |
| Multimodal | Innebygd | N/A | Innebygd | Tekst + Bilde + Video |
Forbehold: Uavhengig verifisering
Det er viktig å merke seg at per slutten av mars 2026, stammer mange av disse tallene fra interne benchmarks. Inntil tredjepartsvurderinger fra organisasjoner som Artificial Analysis, LMSYS eller uavhengige forskere fullt ut bekrefter påstandene, bør de nøyaktige prosentene behandles som ambisiøse heller enn definitive.
Når det er sagt, ble V3s benchmarks i stor grad bekreftet av uavhengig testing, noe som gir DeepSeek troverdighet for at disse V4-tallene er i riktig størrelsesorden.
Prissetting: Kostnadsrevolusjonen fortsetter
DeepSeek V4s prissetting er dens mest forstyrrende egenskap:
| Modell | Input-pris (per M tokens) | Output-pris (per M tokens) | Pris for cache-treff |
|---|---|---|---|
| DeepSeek V4 | $0.30 | $0.50 | $0.03 |
| GPT-5.4 | $2.50 | $15.00 | N/A |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 |
| Claude Opus 4.6 | $15.00 | $75.00 | $1.50 |
Prisen for cache-treff er spesielt overbevisende: Hvis promptene dine deler et felles prefiks (noe de nesten alltid gjør i produksjonsapplikasjoner), koster cachede input-tokens bare $0.03 per million — en 90% rabatt.
Hva dette betyr i praksis
For en typisk app-utvikler som prosesserer 100M tokens per måned:
| Leverandør | Månedlig kostnad |
|---|---|
| DeepSeek V4 | ~$40-80 |
| GPT-5.4 | ~$500-1,500 |
| Claude Sonnet 4.6 | ~$600-1,800 |
| Claude Opus 4.6 | ~$3,000-9,000 |
Denne 10-40x kostnadsfordelen er grunnen til at DeepSeek betyr noe for det bredere AI-økosystemet. Det gjør AI i toppklassen tilgjengelig for selvstendige utviklere, små oppstartsbedrifter og kostnadssensitive bedriftsteam.
Plattformer som ZBuild kan integrere DeepSeek V4 som et alternativ for backend-modell, og sende disse dramatiske kostnadsbesparelsene direkte videre til brukere som bygger AI-drevne applikasjoner.
Innebygd multimodal: Tekst, bilde og video
I motsetning til V3 (kun tekst), er V4 innebygd multimodal. Som rapportert av Financial Times, integrerer V4 generering av tekst, bilde og video under forhåndstrening i stedet for å legge til syn som en separat modul i etterkant.
Dette betyr noe fordi:
- Kryssmodal resonnering er mer sammenhengende — modellen forstår forholdet mellom tekstbeskrivelser og visuelt innhold naturlig.
- Forståelse av bilde og video — V4 kan analysere skjermbilder, diagrammer og videorammer sammen med tekst.
- Genereringsegenskaper — tidlige rapporter antyder tekst-til-bilde og tekst-til-video-generering, selv om kvalitetsvurderinger fortsatt er underveis.
For utviklere som bygger applikasjoner som behandler visuelt innhold — dokumentanalyse, UI-design, videosammendrag — eliminerer innebygd multimodal støtte behovet for separate syns-API-er.
Praktiske multimodale bruksområder
Den innebygde multimodale integrasjonen åpner for flere praktiske arbeidsflyter:
- Kode fra skjermbilder: Gi et skjermbilde av et UI-design, og V4 genererer den tilsvarende koden — HTML/CSS, React-komponenter eller SwiftUI-visninger.
- Forståelse av diagrammer: Mat inn arkitekturdiagrammer, flytskjemaer eller databaseskjemaer, og V4 forklarer designet, identifiserer problemer eller genererer implementeringskode.
- Dokumentbehandling: Trekk ut strukturerte data fra skannede dokumenter, fakturaer og skjemaer uten en separat OCR-pipeline.
- Videosammendrag: Prosesser videorammer for å generere sammendrag, transkripsjoner eller fremheve viktige øyeblikk.
For app-byggere som ZBuild, betyr innebygd multimodal at brukere kan laste opp skisser og skjermbilder direkte som en del av arbeidsflyten for å lage apper — AI-en forstår visuell kontekst uten ytterligere verktøy.
Effekten av åpen kildekode
DeepSeek V4s Apache 2.0-lisens er uten tvil mer betydningsfull enn dens benchmark-resultater. Her er hva den muliggjør:
Selv-hosting
Organisasjoner med krav til datasuverenitet kan kjøre V4 på sin egen infrastruktur. Ingen API-kall, ingen data som forlater bygget, ingen leverandøravhengighet. De ~37B aktive parameterne per token gjør den kjørbar på avanserte GPU-klynger i bedriftsklassen.
Finjustering
De åpne vektene tillater domenespesifikk finjustering — medisinsk, juridisk, finansiell eller hvilken som helst spesialisert vertikal. Dette er umulig med proprietære modeller fra OpenAI eller Anthropic.
Forskning
De fullstendige arkitekturdetaljene og treningsmetodikken gjør det mulig for forskningsmiljøet å bygge videre på DeepSeeks innovasjoner. Engram-minne, DSA og Manifold-Constrained Hyper-Connections er alle tilgjengelige for studier og forbedring.
Kostnadskontroll
Selv utover DeepSeeks allerede lave API-priser, kan selv-hosting i stor skala redusere kostnadene per token ytterligere. For applikasjoner med høyt volum som prosesserer milliarder av tokens månedlig, kan selv-hosting av V4 være 100x billigere enn proprietær API-prissetting.
DeepSeek V4 vs. V3: Bør du oppgradere?
For eksisterende DeepSeek V3-brukere, her er beregningen for oppgradering:
| Funksjon | V3 | V4 | Oppgraderingseffekt |
|---|---|---|---|
| Kontekstvindu | 128K | 1M | Høy — muliggjør analyse av hele kodebaser |
| SWE-Bench | 69% | 81% | Høy — 12-poengs forbedring |
| Multimodal | Kun tekst | Tekst + Bilde + Video | Middels — avhenger av bruksområde |
| Engram-minne | Nei | Ja | Høy — dramatisk bedre gjenfinning |
| API-pris | $0.27/M input | $0.30/M input | Lav — minimal kostnadsøkning |
| Arkitektur | MoE | MoE + Engram + DSA | Høy — fundamentalt bedre |
Dom: Oppgrader. Kostnadsøkningen er ubetydelig, og forbedringene i kapasitet — spesielt Engram-minne og kontekstvinduet på en million tokens — er betydelige. Den eneste grunnen til å bli på V3 er hvis du har produksjonsarbeidsbelastninger som krever den nøyaktige atferdsmessige konsistensen til din nåværende modell.
Hvordan DeepSeek V4 passer inn i utvikler-økosystemet
For selvstendige utviklere og oppstartsbedrifter
V4s prissetting gjør AI i toppklassen tilgjengelig med oppstartsbudsjetter. Kombinert med Apache 2.0-lisensiering, kan du bygge og distribuere produksjonsapplikasjoner uten å bekymre deg for skalering av API-kostnader. Verktøy som ZBuild som integrerer flere modell-leverandører lar deg utnytte DeepSeek V4s kostnadsfordel mens du beholder muligheten til å rute spesifikke oppgaver til andre modeller ved behov.
For bedriftsteam
Muligheten for selv-hosting løser bekymringer rundt datasuverenitet, samsvar og kostnader samtidig. Finjusteringsevnen betyr at du kan bygge domenespesifikke modeller som utkonkurrerer generelle alternativer i din spesifikke vertikal.
For forskere
Den åpne arkitekturen er en gullgruve. Engram-minne alene åpner for flere forskningsretninger — betingede minnearkitekturer, optimalisering av sparsommelighet og hybride systemer for gjenfinning og beregning.
For AI-bransjen
V4 legger press på alle leverandører av toppmodeller for å rettferdiggjøre prissettingen sin. Når en åpen kildekodemodell matcher eller overgår proprietære benchmarks til 10x lavere kostnad, skifter verdiforslaget for lukkede modeller fra "bedre ytelse" til "bedre integrasjon, støtte og pålitelighet."
Risikoer og usikkerhetsmomenter
Verifisering av benchmarks
Påstanden om 81% på SWE-Bench trenger uavhengig bekreftelse. DeepSeek har vært til å stole på med V3-benchmarks, men modeller med en trillion parametere er vanskeligere å evaluere konsekvent. Vent på resultater fra Artificial Analysis og LMSYS før du tar beslutninger om infrastruktur basert på nøyaktige tall.
Geopolitisk risiko
DeepSeek er et kinesisk selskap, og de teknologiske spenningene mellom USA og Kina pågår. Eksportkontroll, restriksjoner på API-tilgang eller politisk press kan påvirke tilgjengeligheten for vestlige utviklere. Selv-hosting med åpne vekter begrenser, men eliminerer ikke denne risikoen.
Multimodal kvalitet
De multimodale egenskapene er den minst testede delen av V4. Kvaliteten på bilde- og videoforståelse trenger validering i den virkelige verden utover interne benchmarks.
Støtte og pålitelighet
Åpen kildekode betyr fellesskapsstøtte, ikke SLAs for bedrifter. Hvis din produksjonsapplikasjon avhenger av V4, er du selv ansvarlig for oppetid, skalering og feilsøking. DeepSeeks API-tjeneste har vært pålitelig, men den tilbyr ikke den infrastrukturen for bedriftsstøtte som OpenAI eller Anthropic gjør.
Konklusjon
DeepSeek V4 er den viktigste åpne kildekodemodellen for AI som er lansert i 2026 så langt. Kombinasjonen av en trillion-parameter-skala, innovasjon med Engram-minne, million-token kontekst, innebygde multimodale evner og aggressivt lav prissetting under en Apache 2.0-lisens gjør den til et reelt alternativ til proprietære toppmodeller.
Forbeholdene er reelle — verifisering av benchmarks pågår, geopolitiske risikoer eksisterer og bedriftsstøtte er begrenset. Men for utviklere og organisasjoner som er villige til å navigere i disse usikkerhetene, tilbyr V4 kapasiteter i toppklassen til en brøkdel av prisen.
Enten du får tilgang til den gjennom DeepSeeks API, selv-hoster den på din infrastruktur, eller bruker den gjennom plattformer som ZBuild som integrerer flere modell-leverandører, fortjener DeepSeek V4 en plass i din AI-verktøykasse.
Ofte stilte spørsmål
Kan jeg selv-hoste DeepSeek V4 på forbruker-maskinvare?
Ikke i praksis. Selv om modellen bare aktiverer ~37B parametere per token, krever hosting av den fullstendige MoE-modellen på 1T parametere betydelig GPU-minne for routing-tabellene til ekspertene. Du vil trenge GPU-klynger i bedriftsklassen (flere A100-er eller H100-er). For de fleste utviklere er DeepSeeks API til $0.30/M input tokens langt mer kostnadseffektivt enn selv-hosting, med mindre du prosesserer milliarder av tokens månedlig.
Hvordan skiller V4 Lite seg fra den fullstendige V4-modellen?
DeepSeek V4 Lite dukket opp på DeepSeeks nettside 9. mars 2026, men ingen offisielle spesifikasjoner er publisert. Basert på DeepSeeks navnemønster med V3, refererer "Lite" sannsynligvis til en destillert eller mindre variant optimalisert for hastighet og kostnad på bekostning av noe kapasitet. Forvent at den er raskere og billigere, men med redusert ytelse på komplekse resonneringsoppgaver.
Er DeepSeek V4 sensurert for visse emner?
Som alle kinesiske AI-modeller, har DeepSeek V4 innholdsfiltrering for politisk sensitive emner, spesielt de som er relatert til kinesisk politikk og styresett. For generell utvikling, koding og tekniske bruksområder har filtreringen minimal innvirkning. For applikasjoner som involverer sensitivt politisk innhold eller ubegrenset generering, er dette en legitim vurdering.
Hvilke programmeringsspråk håndterer V4 best?
Basert på SWE-Bench-resultater (som primært tester Python, JavaScript og Java), utmerker V4 seg på populære språk. Fellesskapsrapporter antyder sterk ytelse på tvers av Python, JavaScript/TypeScript, Java, Go, Rust og C++. Mindre vanlige språk som Haskell, Elixir eller Zig har sannsynligvis svakere støtte på grunn av fordelingen av treningsdata.
Hvordan er DeepSeek V4 sammenlignet med Llama 4 for selv-hosting?
Begge er åpen kildekode og tilgjengelige under tillatende lisenser. DeepSeek V4s MoE-arkitektur med ~37B aktive parametere per token tilbyr bedre ytelse per beregning enn tette modeller. Llama 4s fordel er Metas større økosystem og fellesskapsstøtte. For ren kapasitet per krone vinner sannsynligvis V4. For fellesskapsverktøy og økosystem for finjustering kan Llama være mer tilgjengelig.
Kilder
- DeepSeek V4: Engram Architecture Revealed
- DeepSeek V4: What's Next — Architecture, DSA, Engram & More
- Introl: DeepSeek V4's 1-Trillion Parameter Architecture
- ByteIota: DeepSeek V4 Targets 80.9% SWE-Bench Record
- CyberNews: DeepSeek V4 Review
- Evolink: DeepSeek V4 Release Date
- PromptZone: DeepSeek V4 Status Report March 2026
- VERTU: DeepSeek V4 Engram Architecture
- Kili Technology: DeepSeek V4 Guide
- Evermx: DeepSeek V4 Multimodal Launch
- RecodeChina: DeepSeek's Next Move
- DeepSeek V4 Status and Leaks