Viktiga slutsatser
- 1 trillion parametrar, 37B aktiva: DeepSeek V4 använder en Mixture-of-Experts-arkitektur som aktiverar endast ~37B parametrar per token — vilket håller inference-kostnaderna jämförbara med V3 trots 50% fler totala parametrar.
- 81% SWE-Bench Verifierad: V4 gör anspråk på tronen för kodnings-benchmarks — och slår Claude Opus 4.5:s tidigare rekord på 80.9%.
- Engram-minne är det arkitektoniska genombrottet: Ett nytt system för villkorligt minne som ger O(1) kunskapsuppslagning, vilket uppnår 97% noggrannhet på Needle-in-a-Haystack vid en skala på en miljon tokens.
- 10x billigare än västerländska konkurrenter: Vid $0.30/M input-tokens, underskrider V4 GPT-5.4 ($2.50) och Claude ($3-15) med en storleksordning.
- Open-source under Apache 2.0: Fullständiga modellvikter är tillgängliga för lokal distribution, fine-tuning och kommersiell användning — den enda modellen i frontier-klassen med denna nivå av öppenhet.
DeepSeek V4: Open-source-modellen som skriver om AI-ekonomin
DeepSeek har gjort det igen. Efter att V3 bevisat att ett kinesiskt labb kunde bygga modeller i frontier-klassen till en bråkdel av västerländska kostnader, höjer V4 insatserna till en nivå som kräver uppmärksamhet från varje utvecklare, startup och företag som fattar beslut om AI-infrastruktur.
1 trillion parametrar. Miljon-token kontext. Inbyggd multimodalitet. 81% SWE-Bench Verifierad. Och allt detta är open-source under Apache 2.0 till 10-40x lägre inference-kostnader än västerländska konkurrenter.
Huruvida dessa påståenden håller fullt ut vid oberoende granskning håller fortfarande på att fastställas. Men arkitekturinnovationerna — särskilt Engram-minnet — representerar genuina framsteg som kommer att påverka modelldesign i hela branschen oavsett vilket.
Här är allt vi vet per March 2026.
Tidslinje för lansering
Vägen till lanseringen av DeepSeek V4 var ojämn, med flera försenade tidsfönster:
| Datum | Händelse |
|---|---|
| January 2026 | Engram-artikeln publicerad — arkitektur för villkorligt minne |
| February 2026 (tidig) | Ursprungligt lanseringsmål — missat |
| February 2026 (mitten) | Andra lanseringsfönstret — även detta missat |
| Tidig March 2026 | Den fullständiga V4-modellen lanserad |
| March 9, 2026 | "V4 Lite" dök upp på DeepSeek:s webbplats |
| March 2026 (pågående) | Oberoende benchmarking och validering från communityn |
Den försenade tidslinjen ökade faktiskt förväntningarna. När V4 väl lanserades hade Engram-artikeln redan diskuterats flitigt och förväntningarna var skyhöga.
Djupdykning i arkitekturen
Mixture-of-Experts på 1 trillion-skala
DeepSeek V4 fortsätter med MoE-arkitekturen som gjorde V3 så effektiv, men skalar upp den dramatiskt:
| Metrik | DeepSeek V3 | DeepSeek V4 |
|---|---|---|
| Totalt antal parametrar | 671B | ~1T |
| Aktiva parametrar | ~37B | ~37B |
| Kontextfönster | 128K | 1M |
| Arkitektur | MoE | MoE + Engram |
| Multimodal | Endast text | Text + Bild + Video |
| Licens | Apache 2.0 | Apache 2.0 |
Den viktigaste insikten: de totala parametrarna ökade med 50%, men de aktiva parametrarna per token förblev konstanta på ~37B. Detta innebär att V4 har tillgång till betydligt mer kunskap och förmåga utan att proportionellt öka inference-kostnaderna.
Engram: Minnesrevolutionen
Engram är den arkitektoniskt mest betydelsefulla innovationen i V4. Den beskrivs i detalj i DeepSeek:s January 2026-artikel ("Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models") och adresserar en grundläggande begränsning hos Transformers.
Problemet: Traditionella Transformers behandlar varje del av kunskap på samma sätt — genom beräkning. Oavsett om modellen behöver komma ihåg att "Paris är Frankrikes huvudstad" (ett statiskt faktum) eller resonera kring en komplex kod-refaktorering (dynamisk beräkning), används samma attention-mekanism. Detta är slösaktigt.
Engram:s lösning: Lägg till ett separat minnessystem för statisk, deterministisk kunskap. Istället för att beräkna svaret på "Vad är Frankrikes huvudstad?" genom flera attention-lager, erbjuder Engram O(1) deterministisk uppslagning — i princip en inlärd hash-tabell för faktakunskap.
Det viktigaste fyndet — Sparsity Allocation-lagen: DeepSeek:s forskning visade att under en fast sparse-parameterbudget är den optimala uppdelningen ungefär 20-25% minne (Engram) och 75-80% beräkning (MoE). Detta förhållande maximerar både träffsäkerheten vid återkallning och förmågan till resonemang.
Effekt på prestanda: Engram uppnår 97% Needle-in-a-Haystack-noggrannhet vid en kontextskala på en miljon tokens, vilket löser problemet med försämrad hämtning som plågar standard-Transformer-arkitekturer. Vid 1M tokens sjunker de flesta modellers hämtningsnoggrannhet under 80%. V4 med Engram bibehåller 97%.
DeepSeek Sparse Attention (DSA)
Utöver Engram introducerar V4 DeepSeek Sparse Attention — en attention-mekanism som dynamiskt tilldelar beräkningskraft baserat på inputens komplexitet. Enkla stycken får lättviktig attention; stycken med komplexa resonemang får fullt attention-djup.
Detta är vad som gör kontextfönstret på en miljon tokens praktiskt användbart. Utan DSA skulle bearbetning av 1M tokens vara oöverkomligt dyrt även med DeepSeek:s låga kostnader. Med det bearbetas det mesta av kontextfönstret effektivt, medan full beräkningskraft reserveras för de delar som behöver det.
Manifold-Constrained Hyper-Connections
Den tredje arkitektoniska innovationen är Manifold-Constrained Hyper-Connections — en teknik som förbättrar gradientflödet under träning. Det praktiska resultatet är en stabilare träning vid en skala på 1 trillion parametrar, vilket delvis förklarar hur DeepSeek tränade V4 till en bråkdel av västerländska kostnader.
Analys av benchmarks
Siffrorna
| Benchmark | DeepSeek V4 | Claude Opus 4.5 | GPT-5.4 | Noteringar |
|---|---|---|---|---|
| SWE-Bench Verifierad | 81% | 80.9% | ~82% | V4 slår tidigare rekord |
| HumanEval | 90% | ~88% | ~90% | Kodgenerering |
| Kontext (NIAH) | 97% @ 1M | 95% @ 200K | 96% @ 1M | Engram-fördel |
| Multimodal | Inbyggd | N/A | Inbyggd | Text + Bild + Video |
Förbehåll: Oberoende verifiering
Det är viktigt att notera att per slutet av March 2026 kommer många av dessa siffror från interna benchmarks. Innan utvärderingar från tredje part, såsom Artificial Analysis, LMSYS eller oberoende forskare, helt har bekräftat påståendena, bör de exakta procentsatserna betraktas som ambitiösa snarare än definitiva.
Med det sagt blev V3:s benchmarks i stor utsträckning bekräftade av oberoende tester, vilket ger DeepSeek trovärdighet för att dessa V4-siffror ligger i rätt härad.
Prissättning: Kostnadsrevolutionen fortsätter
Prissättningen för DeepSeek V4 är dess mest banbrytande egenskap:
| Modell | Inpris (per M tokens) | Utpris (per M tokens) | Pris för Cache Hit |
|---|---|---|---|
| DeepSeek V4 | $0.30 | $0.50 | $0.03 |
| GPT-5.4 | $2.50 | $15.00 | N/A |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 |
| Claude Opus 4.6 | $15.00 | $75.00 | $1.50 |
Prissättningen för cache hits är särskilt lockande: om dina prompts delar ett gemensamt prefix (vilket de nästan alltid gör i produktionsapplikationer), kostar cachade input-tokens endast $0.03 per miljon — en 90% rabatt.
Vad detta innebär i praktiken
För en typisk app-utvecklare som bearbetar 100M tokens per månad:
| Leverantör | Månadskostnad |
|---|---|
| DeepSeek V4 | ~$40-80 |
| GPT-5.4 | ~$500-1,500 |
| Claude Sonnet 4.6 | ~$600-1,800 |
| Claude Opus 4.6 | ~$3,000-9,000 |
Denna 10-40x kostnadsfördel är anledningen till att DeepSeek är viktig för det bredare AI-ekosystemet. Det gör AI i frontier-klassen tillgänglig för indie-utvecklare, små startups och kostnadskänsliga företagsteam.
Plattformar som ZBuild kan integrera DeepSeek V4 som ett backend-modellalternativ och föra över dessa dramatiska kostnadsbesparingar direkt till användare som bygger AI-drivna applikationer.
Inbyggd multimodalitet: Text, bild och video
Till skillnad från V3 (endast text) är V4 inbyggt multimodal. Som rapporterats av Financial Times, integrerar V4 generering av text, bild och video redan under pre-training, snarare än att lägga till vision som en separat modul i efterhand.
Detta är viktigt eftersom:
- Resonemang över olika modaliteter blir mer sammanhängande — modellen förstår relationer mellan textbeskrivningar och visuellt innehåll på ett naturligt sätt.
- Förståelse av bild och video — V4 kan analysera skärmdumpar, diagram och videoframer tillsammans med text.
- Genereringsförmåga — tidiga rapporter tyder på text-till-bild och text-till-video-generering, även om kvalitetsbedömningar fortfarande pågår.
För utvecklare som bygger applikationer som bearbetar visuellt innehåll — dokumentanalys, UI-design, videosammanfattning — eliminerar inbyggt multimodalt stöd behovet av separata vision-API:er.
Praktiska multimodala användningsområden
Den inbyggda multimodala integrationen möjliggör flera praktiska arbetsflöden:
- Kod från skärmdumpar: Skicka med en skärmdump av en UI-design så genererar V4 motsvarande kod — HTML/CSS, React-komponenter eller SwiftUI-vyer.
- Förståelse av diagram: Mata in arkitekturdiagram, flödesscheman eller databasscheman så förklarar V4 designen, identifierar problem eller genererar implementeringskod.
- Dokumentbearbetning: Extrahera strukturerad data från skannade dokument, fakturor och formulär utan en separat OCR-pipeline.
- Videosammanfattning: Bearbeta videoframer för att generera sammanfattningar, transkriptioner eller lyfta fram viktiga ögonblick.
För app-byggare som ZBuild innebär inbyggd multimodalitet att användare kan ladda upp mockups och skärmdumpar direkt som en del av arbetsflödet för att skapa appar — AI:n förstår den visuella kontexten utan ytterligare verktyg.
Effekten av open-source
DeepSeek V4:s Apache 2.0-licens är utan tvekan mer betydelsefull än dess benchmark-poäng. Här är vad den möjliggör:
Self-hosting
Organisationer med krav på datasuveränitet kan köra V4 på sin egen infrastruktur. Inga API-anrop, ingen data som lämnar huset, inget beroende av en enskild leverantör. De ~37B aktiva parametrarna per token gör den körbar på avancerade GPU-kluster för företag.
Fine-tuning
De öppna vikterna tillåter domänspecifik fine-tuning — medicinsk, juridisk, finansiell eller någon annan specialiserad vertikal. Detta är omöjligt med proprietära modeller från OpenAI eller Anthropic.
Forskning
De fullständiga arkitekturdetaljerna och träningsmetodiken gör det möjligt för forskarvärlden att bygga vidare på DeepSeek:s innovationer. Engram-minne, DSA och Manifold-Constrained Hyper-Connections är alla tillgängliga för studier och förbättringar.
Kostnadskontroll
Utöver DeepSeek:s redan låga API-priser kan self-hosting i stor skala minska kostnaderna per token ytterligare. För applikationer med hög volym som bearbetar miljarder tokens varje månad kan self-hosting av V4 bli 100x billigare än proprietär API-prissättning.
DeepSeek V4 vs. V3: Bör du uppgradera?
För befintliga användare av DeepSeek V3 ser kalkylen för uppgradering ut så här:
| Funktion | V3 | V4 | Effekt vid uppgradering |
|---|---|---|---|
| Kontextfönster | 128K | 1M | Hög — möjliggör analys av hela kodbaser |
| SWE-Bench | 69% | 81% | Hög — 12-punkters förbättring |
| Multimodal | Endast text | Text + Bild + Video | Medium — beror på användningsområde |
| Engram-minne | Nej | Ja | Hög — dramatiskt bättre hämtning |
| API-pris | $0.27/M input | $0.30/M input | Låg — minimal kostnadsökning |
| Arkitektur | MoE | MoE + Engram + DSA | Hög — fundamentalt bättre |
Utlåtande: Uppgradera. Kostnadsökningen är försumbar och förbättringarna i förmåga — särskilt Engram-minnet och kontextfönstret på en miljon tokens — är betydande. Den enda anledningen att stanna kvar på V3 är om du har produktionsarbetslaster som kräver exakt beteendemässig konsistens med din nuvarande modell.
Hur DeepSeek V4 passar in i utvecklarnas ekosystem
För indie-utvecklare och startups
Prissättningen för V4 gör AI i frontier-klassen tillgänglig även med en startups budget. Kombinerat med Apache 2.0-licensiering kan du bygga och driftsätta produktionsapplikationer utan att oroa dig för hur API-kostnaderna skalar. Verktyg som ZBuild, som integrerar flera modell-leverantörer, låter dig dra nytta av DeepSeek V4:s kostnadsfördel samtidigt som du behåller möjligheten att styra specifika uppgifter till andra modeller vid behov.
För företagsteam
Möjligheten till self-hosting adresserar frågor om datasuveränitet, regelefterlevnad och kostnader samtidigt. Möjligheten till fine-tuning innebär att du kan bygga domänspecifika modeller som presterar bättre än generella alternativ inom din specifika vertikal.
För forskare
Den öppna arkitekturen är en guldgruva. Bara Engram-minnet öppnar upp flera forskningsriktningar — arkitekturer för villkorligt minne, optimering av sparsity-allokering och hybrid-system för hämtning och beräkning.
För AI-branschen
V4 sätter press på varje leverantör av frontier-modeller att motivera sin prissättning. När en open-source-modell matchar eller överträffar proprietära benchmarks till en 10x lägre kostnad, skiftar värdeerbjudandet för stängda modeller från "bättre prestanda" till "bättre integration, support och tillförlitlighet".
Risker och osäkerheter
Verifiering av benchmarks
Påståendet om 81% på SWE-Bench behöver oberoende bekräftelse. DeepSeek har varit pålitliga med benchmarks för V3, men modeller med 1 trillion parametrar är svårare att utvärdera konsekvent. Vänta på resultat från Artificial Analysis och LMSYS innan du fattar beslut om infrastruktur baserat på exakta siffror.
Geopolitisk risk
DeepSeek är ett kinesiskt företag och de tekniska spänningarna mellan USA och Kina pågår ständigt. Exportkontroller, begränsningar i API-åtkomst eller politiska påtryckningar kan påverka tillgängligheten för västerländska utvecklare. Self-hosting med öppna vikter mildrar, men eliminerar inte, denna risk.
Multimodal kvalitet
De multimodala förmågorna är den minst testade aspekten av V4. Kvaliteten på bild- och videoförståelse behöver valideras i verkliga scenarier utöver interna benchmarks.
Support och tillförlitlighet
Open-source innebär support från communityn, inte företags-SLA:er. Om din produktionsapplikation beror på V4 ansvarar du själv för drifttid, skalning och felsökning. DeepSeek:s API-tjänst har varit pålitlig, men de erbjuder inte samma infrastruktur för företagssupport som OpenAI eller Anthropic.
Slutsatsen
DeepSeek V4 är den viktigaste open-source AI-modellen som släppts under 2026 hittills. Dess kombination av en skala på 1 trillion parametrar, innovationen med Engram-minne, miljon-token kontext, inbyggda multimodala förmågor och aggressivt låga priser under en Apache 2.0-licens gör den till ett genuint alternativ till proprietära frontier-modeller.
Förbehållen är verkliga — verifiering av benchmarks pågår, geopolitiska risker finns och företagssupporten är begränsad. Men för utvecklare och organisationer som är villiga att navigera i dessa osäkerheter erbjuder V4 förmågor i frontier-klassen till en bråkdel av kostnaden.
Oavsett om du använder den via DeepSeek:s API, använder self-hosting på din egen infrastruktur eller använder den via plattformar som ZBuild som integrerar flera modell-leverantörer, förtjänar DeepSeek V4 en plats i din AI-verktygslåda.
Vanliga frågor och svar
Kan jag använda self-hosting för DeepSeek V4 på konsumenthårdvara?
Inte praktiskt taget. Även om modellen endast aktiverar ~37B parametrar per token, kräver hosting av hela MoE-modellen på 1T parametrar betydande GPU-minne för routing-tabellerna för experterna. Du behöver GPU-kluster av företagsklass (flera A100s eller H100s). För de flesta utvecklare är DeepSeek:s API för $0.30/M input-tokens betydligt mer kostnadseffektivt än self-hosting, såvida du inte bearbetar miljarder tokens varje månad.
Hur skiljer sig V4 Lite från den fullständiga V4-modellen?
DeepSeek V4 Lite dök upp på DeepSeek:s webbplats den March 9, 2026, men inga officiella specifikationer har publicerats. Baserat på DeepSeek:s namngivningsmönster från V3, syftar "Lite" troligen på en destillerad eller mindre variant optimerad för hastighet och kostnad på bekostnad av viss förmåga. Förvänta dig att den är snabbare och billigare men med reducerad prestanda i komplexa resonemangsuppgifter.
Är DeepSeek V4 censurerad för vissa ämnen?
Som alla kinesiska AI-modeller har DeepSeek V4 innehållsfiltrering för politiskt känsliga ämnen, särskilt de som rör kinesisk politik och styrning. För allmän utveckling, kodning och tekniska användningsområden har filtreringen minimal inverkan. För applikationer som involverar känsligt politiskt innehåll eller obegränsad generering är detta en legitim faktor att överväga.
Vilka programmeringsspråk hanterar V4 bäst?
Baserat på SWE-Bench-resultat (som främst testar Python, JavaScript och Java), briljerar V4 i vanliga språk. Rapporter från communityn tyder på stark prestanda i Python, JavaScript/TypeScript, Java, Go, Rust och C++. Mindre vanliga språk som Haskell, Elixir eller Zig har troligen sämre stöd på grund av fördelningen av träningsdata.
Hur står sig DeepSeek V4 mot Llama 4 för self-hosting?
Båda är open-source och tillgängliga under tillåtande licenser. DeepSeek V4:s MoE-arkitektur med ~37B aktiva parametrar per token erbjuder bättre prestanda per beräkningsenhet än densa modeller. Llama 4:s fördel är Metas större ekosystem och stöd från communityn. För ren förmåga per krona vinner troligen V4. För verktyg i communityn och ekosystem för fine-tuning kan Llama vara mer tillgänglig.
Källor
- DeepSeek V4: Engram Architecture Revealed
- DeepSeek V4: What's Next — Architecture, DSA, Engram & More
- Introl: DeepSeek V4's 1-Trillion Parameter Architecture
- ByteIota: DeepSeek V4 Targets 80.9% SWE-Bench Record
- CyberNews: DeepSeek V4 Review
- Evolink: DeepSeek V4 Release Date
- PromptZone: DeepSeek V4 Status Report March 2026
- VERTU: DeepSeek V4 Engram Architecture
- Kili Technology: DeepSeek V4 Guide
- Evermx: DeepSeek V4 Multimodal Launch
- RecodeChina: DeepSeek's Next Move
- DeepSeek V4 Status and Leaks