Is DeepSeek V4 al uitgebracht?

DeepSeek V4 is begin maart 2026 gelanceerd, met een 'V4 Lite'-variant die op 9 maart verscheen. Het volledige model scoort 81% op SWE-Bench Verified en kost $0.30 per miljoen input tokens — ongeveer 10x goedkoper dan concurrerende frontier models. Weights zijn beschikbaar onder Apache 2.0.

Hoeveel parameters heeft DeepSeek V4?

DeepSeek V4 heeft ongeveer 1 biljoen totale parameters met gebruik van een Mixture-of-Experts (MoE) architecture, maar activeert slechts ~37 miljard per token. Dit is ongeveer 50% meer totale parameters dan de 671 miljard van V3, terwijl de inference costs vergelijkbaar blijven.

Wat is het Engram memory systeem van DeepSeek?

Engram is een conditional memory architecture geïntroduceerd in de paper van DeepSeek van januari 2026. Het biedt O(1) deterministische knowledge lookup voor statische patronen zoals entity names, en behaalt 97% Needle-in-a-Haystack nauwkeurigheid op een million-token schaal. De optimale parameter split is 20-25% Engram memory en 75-80% MoE computation.

Hoe verhoudt DeepSeek V4 zich tot GPT-5.4 en Claude Opus 4.6?

DeepSeek V4 scoort 81% op SWE-Bench Verified (tegenover het record van 80.9% van Claude Opus 4.5), ondersteunt 1M token context en is native multimodal. Het belangrijkste voordeel is de prijs: $0.30/M input tokens versus $2.50 voor GPT-5.4 en $15.00 voor Opus 4.6. Het is open-source onder Apache 2.0, terwijl concurrenten proprietary zijn.

Is DeepSeek V4 open source?

Ja. DeepSeek V4 model weights zijn vrijgegeven onder de Apache 2.0-licentie, waardoor het gratis beschikbaar is voor lokale deployment, fine-tuning en commercieel gebruik zonder beperkingen. Dit zet de open-source traditie van DeepSeek voort van V3.

Key Takeaways

1 biljoen parameters, 37B actief: DeepSeek V4 gebruikt een Mixture-of-Experts architecture die slechts ~37B parameters per token activeert — waardoor de inference-kosten vergelijkbaar blijven met V3 ondanks 50% meer totale parameters.
81% SWE-Bench Verified: V4 eist de kroon op voor coding benchmarks — en verslaat daarmee het vorige record van Claude Opus 4.5 van 80.9%.
Engram-geheugen is de architecturale doorbraak: Een nieuw conditional memory system dat O(1) knowledge lookup biedt, waarmee een accuracy van 97% op Needle-in-a-Haystack wordt behaald op een schaal van een miljoen tokens.
10x goedkoper dan westerse concurrenten: Met $0.30/M input tokens, onderbiedt V4 GPT-5.4 ($2.50) en Claude ($3-15) met een orde van grootte.
Open-source onder Apache 2.0: Volledige modelgewichten beschikbaar voor lokale deployment, fine-tuning en commercieel gebruik — het enige model in de frontier-klasse met dit niveau van openheid.

DeepSeek V4: Het open-source model dat de economie van AI herschrijft

DeepSeek heeft het weer gedaan. Nadat V3 bewees dat een Chinees lab frontier-klasse modellen kon bouwen tegen een fractie van de westerse kosten, verhoogt V4 de inzet naar een niveau dat de aandacht vereist van elke ontwikkelaar, startup en onderneming die beslissingen neemt over AI-infrastructuur.

Eén biljoen parameters. Context van een miljoen tokens. Native multimodal. 81% SWE-Bench Verified. En dit alles open-source onder Apache 2.0 tegen 10-40x lagere inference-kosten dan westerse concurrenten.

Of deze claims volledig standhouden onder onafhankelijk onderzoek moet nog worden vastgesteld. Maar de architecturale innovaties — met name Engram-geheugen — vertegenwoordigen echte vooruitgang die de ontwerpstijl van modellen in de hele sector zal beïnvloeden, ongeacht de uitkomst.

Dit is alles wat we weten per March 2026.

Release Timeline

Het pad naar de release van DeepSeek V4 verliep hobbelig, met meerdere uitgestelde periodes:

Date	Event
January 2026	Engram paper gepubliceerd — conditional memory architecture
February 2026 (early)	Oorspronkelijke release-doelstelling — missed
February 2026 (mid)	Tweede release-periode — ook missed
Early March 2026	Volledig V4-model gelanceerd
March 9, 2026	"V4 Lite" verscheen op de website van DeepSeek
March 2026 (ongoing)	Onafhankelijke benchmarking en community-validatie

De vertraagde tijdslijn verhoogde de anticipatie juist. Tegen de tijd dat V4 lanceerde, was de Engram-paper al breed besproken en waren de verwachtingen torenhoog.

Architecture Deep Dive

Mixture-of-Experts op biljoen-schaal

DeepSeek V4 zet de MoE architectuur voort die V3 zo efficiënt maakte, maar schaalt deze drastisch op:

Metric	DeepSeek V3	DeepSeek V4
Totaal aantal parameters	671B	~1T
Actieve parameters	~37B	~37B
Context Window	128K	1M
Architectuur	MoE	MoE + Engram
Multimodal	Alleen tekst	Tekst + Image + Video
Licentie	Apache 2.0	Apache 2.0

Het belangrijkste inzicht: de totale parameters zijn met 50% toegenomen, maar de actieve parameters per token bleven constant op ~37B. Dit betekent dat V4 toegang heeft tot veel meer kennis en capaciteit zonder de inference-kosten proportioneel te verhogen.

Engram: De geheugenrevolutie

Engram is de meest architecturaal significante innovatie in V4. Gedetailleerd in de paper van DeepSeek van January 2026 ("Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"), pakt het een fundamentele beperking van Transformers aan.

Het probleem: Traditionele Transformers behandelen elk stukje kennis op dezelfde manier — via berekening. Of het model nu moet onthouden dat "Parijs de hoofdstad van Frankrijk is" (een statisch feit) of moet redeneren over een complexe code-refactor (dynamische berekening), het gebruikt hetzelfde attention-mechanisme. Dit is verspillend.

De oplossing van Engram: Voeg een apart geheugensysteem toe voor statische, deterministische kennis. In plaats van het antwoord op "Wat is de hoofdstad van Frankrijk?" te berekenen via meerdere attention-lagen, biedt Engram O(1) deterministische lookup — in wezen een getrainde hash table voor feitelijke kennis.

De belangrijkste bevinding — Sparsity Allocation Law: Onderzoek van DeepSeek onthulde dat onder een vast budget voor sparse parameters, de optimale verdeling ongeveer 20-25% geheugen (Engram) and 75-80% berekening (MoE) is. Deze ratio maximaliseert zowel de recall accuracy als het redeneervermogen.

Impact op prestaties: Engram behaalt 97% Needle-in-a-Haystack accuracy op een context-schaal van een miljoen tokens, en lost daarmee het probleem van retrieval-degradatie op dat standaard Transformer architecturen teistert. Bij 1M tokens zakt de retrieval accuracy van de meeste modellen onder de 80%. V4 met Engram behoudt 97%.

DeepSeek Sparse Attention (DSA)

Naast Engram introduceert V4 DeepSeek Sparse Attention — een attention-mechanisme dat rekenkracht dynamisch toewijst op basis van de complexiteit van de input. Eenvoudige passages krijgen lichte attention; complexe redeneerpassages krijgen de volledige attention-diepte.

Dit is wat het context window van een miljoen tokens praktisch maakt. Zonder DSA zou het verwerken van 1M tokens onbetaalbaar duur zijn, zelfs met de lage kosten van DeepSeek. Hiermee wordt het grootste deel van het context window efficiënt verwerkt, waarbij de volledige rekenkracht gereserveerd blijft voor de delen die dat nodig hebben.

Manifold-Constrained Hyper-Connections

De derde architecturale innovatie is Manifold-Constrained Hyper-Connections — een techniek die de gradient flow verbetert tijdens de training. Het praktische resultaat is een stabielere training op een schaal van biljoenen parameters, wat gedeeltelijk verklaart hoe DeepSeek V4 heeft getraind tegen een fractie van de westerse kosten.

Benchmark Analysis

De cijfers

Benchmark	DeepSeek V4	Claude Opus 4.5	GPT-5.4	Opmerkingen
SWE-Bench Verified	81%	80.9%	~82%	V4 verbreekt vorig record
HumanEval	90%	~88%	~90%	Codegeneratie
Context (NIAH)	97% @ 1M	95% @ 200K	96% @ 1M	Voordeel door Engram
Multimodal	Native	N/A	Native	Tekst + Image + Video

Caveat: Onafhankelijke verificatie

Het is belangrijk op te merken dat per eind March 2026, veel van deze cijfers afkomstig zijn van interne benchmarks. Totdat evaluaties van derden door organisaties zoals Artificial Analysis, LMSYS of onafhankelijke onderzoekers de claims volledig bevestigen, moeten de exacte percentages als ambitieus in plaats van definitief worden beschouwd.

Dat gezegd hebbende, werden de benchmarks van V3 grotendeels bevestigd door onafhankelijke tests, wat DeepSeek de geloofwaardigheid geeft dat deze V4-cijfers in de juiste buurt zitten.

Pricing: De kostenrevolutie gaat door

De prijsstelling van DeepSeek V4 is het meest ontwrichtende kenmerk:

Model	Input-prijs (per M tokens)	Output-prijs (per M tokens)	Cache Hit prijs
DeepSeek V4	$0.30	$0.50	$0.03
GPT-5.4	$2.50	$15.00	N/A
Claude Sonnet 4.6	$3.00	$15.00	$0.30
Claude Opus 4.6	$15.00	$75.00	$1.50

De prijs voor cache hits is bijzonder aantrekkelijk: als je prompts een gemeenschappelijk voorvoegsel delen (wat bijna altijd het geval is in productie-applicaties), kosten gecachte input-tokens slechts $0.03 per miljoen — een korting van 90%.

Wat dit in de praktijk betekent

Voor een typische app-bouwer die 100M tokens per maand verwerkt:

Provider	Maandelijkse kosten
DeepSeek V4	~$40-80
GPT-5.4	~$500-1,500
Claude Sonnet 4.6	~$600-1,800
Claude Opus 4.6	~$3,000-9,000

Dit kostenvoordeel van 10-40x is de reden waarom DeepSeek belangrijk is voor het bredere AI-ecosysteem. Het maakt frontier-klasse AI toegankelijk voor indie-ontwikkelaars, kleine startups en kostengevoelige ondernemingsteams.

Platforms zoals ZBuild kunnen DeepSeek V4 integreren als backend-modeloptie, waardoor deze enorme kostenbesparingen direct worden doorgegeven aan gebruikers die AI-gestuurde applicaties bouwen.

Native Multimodal: Tekst, afbeelding en video

In tegenstelling tot V3 (alleen tekst), is V4 native multimodal. Zoals gerapporteerd door de Financial Times, integreert V4 het genereren van tekst, afbeeldingen en video's tijdens de pre-training, in plaats van vision als een aparte module toe te voegen.

Dit is belangrijk omdat:

Cross-modale redenering is consistenter — het model begrijpt relaties tussen tekstbeschrijvingen en visuele inhoud op een natuurlijke manier
Begrip van afbeeldingen en video — V4 kan screenshots, diagrammen en videoframes analyseren naast tekst
Generatiemogelijkheden — vroege rapporten suggereren tekst-naar-afbeelding en tekst-naar-video generatie, hoewel kwaliteitsbeoordelingen nog in ontwikkeling zijn

Voor ontwikkelaars die applicaties bouwen die visuele inhoud verwerken — documentanalyse, UI-ontwerp, videosamenvatting — elimineert native multimodal-ondersteuning de noodzaak voor aparte vision API's.

Praktische Multimodal Use Cases

De native multimodal-integratie opent verschillende praktische workflows:

Code van screenshots: Geef een screenshot van een UI-ontwerp en V4 genereert de bijbehorende code — HTML/CSS, React-componenten of SwiftUI-views
Begrip van diagrammen: Voer architectuurdiagrammen, stroomschema's of databaseschema's in en V4 legt het ontwerp uit, identificeert problemen of genereert implementatiecode
Documentverwerking: Extraheer gestructureerde gegevens uit gescande documenten, facturen en formulieren zonder een aparte OCR-pipeline
Videosamenvatting: Verwerk videoframes om samenvattingen, transcripties te genereren of belangrijke momenten te markeren

Voor app-bouwers zoals ZBuild betekent native multimodal dat gebruikers mockups en screenshots direct kunnen uploaden als onderdeel van de workflow voor het maken van apps — de AI begrijpt de visuele context zonder extra tools.

Open-Source Impact

De Apache 2.0-licentie van DeepSeek V4 is waarschijnlijk significanter dan de benchmarkscores. Dit is wat het mogelijk maakt:

Self-Hosting

Organisaties met eisen op het gebied van datasoevereiniteit kunnen V4 op hun eigen infrastructuur draaien. Geen API-calls, geen data die het pand verlaat, geen afhankelijkheid van leveranciers. Door de ~37B actieve parameters per token is het draaibaar op high-end GPU-clusters van ondernemingen.

Fine-Tuning

De open gewichten maken domeinspecifieke fine-tuning mogelijk — medisch, juridisch, financieel of elke gespecialiseerde verticale markt. Dit is onmogelijk met eigen modellen van OpenAI of Anthropic.

Research

De volledige architectuurdetails en trainingsmethodologie stellen de onderzoeksgemeenschap in staat voort te bouwen op de innovaties van DeepSeek. Engram-geheugen, DSA en Manifold-Constrained Hyper-Connections zijn allemaal beschikbaar voor studie en verbetering.

Kostenbeheersing

Zelfs buiten de reeds lage API-prijzen van DeepSeek, kan self-hosting op schaal de kosten per token verder verlagen. Voor applicaties met een hoog volume die maandelijks miljarden tokens verwerken, kan het zelf hosten van V4 100x goedkoper zijn dan de prijzen van propriëtaire API's.

DeepSeek V4 vs. V3: Moet je upgraden?

Voor bestaande gebruikers van DeepSeek V3 is dit de afweging voor een upgrade:

Kenmerk	V3	V4	Impact van upgrade
Context Window	128K	1M	Hoog — maakt analyse op codebase-schaal mogelijk
SWE-Bench	69%	81%	Hoog — verbetering van 12 punten
Multimodal	Alleen tekst	Tekst + Image + Video	Gemiddeld — afhankelijk van use case
Engram-geheugen	Nee	Ja	Hoog — drastisch betere retrieval
API-prijs	$0.27/M input	$0.30/M input	Laag — minimale kostenstijging
Architectuur	MoE	MoE + Engram + DSA	Hoog — fundamenteel beter

Verdict: Upgraden. De kostenstijging is verwaarloosbaar en de verbeteringen in capaciteit — vooral het Engram-geheugen en het context window van een miljoen tokens — zijn aanzienlijk. De enige reden om bij V3 te blijven is als je productie-workloads hebt die de exacte gedragsconsistentie van je huidige model vereisen.

Hoe DeepSeek V4 past in het ecosysteem voor ontwikkelaars.

Voor indie-ontwikkelaars en startups

De prijsstelling van V4 maakt frontier-klasse AI toegankelijk voor startup-budgetten. In combinatie met de Apache 2.0-licentie kun je productie-applicaties bouwen en implementeren zonder je zorgen te maken over de schaalbaarheid van API-kosten. Tools zoals ZBuild die meerdere modelproviders integreren, laten je profiteren van het kostenvoordeel van DeepSeek V4, terwijl je de optie behoudt om specifieke taken naar andere modellen te sturen wanneer dat nodig is.

Voor ondernemingsteams

De optie voor self-hosting lost zorgen over datasoevereiniteit, compliance en kosten gelijktijdig op. De mogelijkheid tot fine-tuning betekent dat je domeinspecifieke modellen kunt bouwen die beter presteren dan algemene alternatieven in jouw specifieke sector.

Voor onderzoekers

De open architectuur is een goudmijn. Engram-geheugen alleen al opent meerdere onderzoeksrichtingen — conditional memory architectures, optimalisatie van sparsity-toewijzing en hybride systemen voor retrieval en berekening.

Voor de AI-sector

V4 zet elke aanbieder van frontier-modellen onder druk om hun prijsstelling te rechtvaardigen. Wanneer een open-source model de benchmarks van propriëtaire modellen evenaart of overtreft tegen 10x lagere kosten, verschuift de waardepropositie van gesloten modellen van "betere prestaties" naar "betere integratie, ondersteuning en betrouwbaarheid."

Risico's en onzekerheden

Benchmark-verificatie

De claim van 81% op SWE-Bench behoeft onafhankelijke bevestiging. DeepSeek was betrouwbaar met de V3-benchmarks, maar modellen met een biljoen parameters zijn moeilijker consistent te evalueren. Wacht op de resultaten van Artificial Analysis en LMSYS voordat je beslissingen over de infrastructuur neemt op basis van exacte cijfers.

Geopolitiek risico

DeepSeek is een Chinees bedrijf en de technologische spanningen tussen de VS en China houden aan. Exportcontroles, beperkingen op API-toegang of politieke druk kunnen de beschikbaarheid voor westerse ontwikkelaars beïnvloeden. Self-hosting met open gewichten verzacht dit risico, maar neemt het niet volledig weg.

Multimodale kwaliteit

De multimodale mogelijkheden zijn het minst geteste aspect van V4. De kwaliteit van het begrip van afbeeldingen en video's heeft validatie in de praktijk nodig, buiten de interne benchmarks.

Ondersteuning en betrouwbaarheid

Open-source betekent community-ondersteuning, geen enterprise-SLA's. Als je productie-applicatie afhankelijk is van V4, ben je zelf verantwoordelijk voor uptime, schaling en debugging. De API-service van DeepSeek was betrouwbaar, maar biedt niet de zakelijke ondersteuningsinfrastructuur van OpenAI of Anthropic.

De kern van de zaak

DeepSeek V4 is het belangrijkste open-source AI-model dat tot nu toe in 2026 is uitgebracht. De combinatie van een schaal van biljoenen parameters, innovatie in Engram-geheugen, een context window van een miljoen tokens, native multimodal-mogelijkheden en agressief lage prijzen onder een Apache 2.0-licentie maakt het een echt alternatief voor propriëtaire frontier-modellen.

De kanttekeningen zijn reëel — de verificatie van benchmarks is gaande, er zijn geopolitieke risico's en de zakelijke ondersteuning is beperkt. Maar voor ontwikkelaars en organisaties die bereid zijn door die onzekerheden te navigeren, biedt V4 frontier-klasse mogelijkheden tegen een fractie van de kosten.

Of je er nu toegang toe hebt via de API van DeepSeek, het zelf host op je infrastructuur of het gebruikt via platforms zoals ZBuild die meerdere modelproviders integreren, DeepSeek V4 verdient een plaats in je AI-toolkit.

Veelgestelde vragen

Kan ik DeepSeek V4 zelf hosten op consumentenhardware?

Niet in de praktijk. Hoewel het model slechts ~37B parameters per token activeert, vereist het hosten van het volledige 1T parameter MoE-model aanzienlijk GPU-geheugen voor de expert routing tables. Je hebt GPU-clusters van ondernemingsklasse nodig (meerdere A100's of H100's). Voor de meeste ontwikkelaars is de API van DeepSeek tegen $0.30/M input-tokens veel kosteneffectiever dan self-hosting, tenzij je miljarden tokens per maand verwerkt.

Waarin verschilt V4 Lite van het volledige V4-model?

DeepSeek V4 Lite verscheen op de website van DeepSeek op March 9, 2026, maar er zijn nog geen officiële specificaties gepubliceerd. Gebaseerd op de naamgevingspatronen van DeepSeek bij V3, verwijst "Lite" waarschijnlijk naar een gedistilleerde of kleinere variant die is geoptimaliseerd voor snelheid en kosten, ten koste van enige capaciteit. Verwacht dat het sneller en goedkoper is, maar met verminderde prestaties bij complexe redeneertaken.

Is DeepSeek V4 gecensureerd voor bepaalde onderwerpen?

Zoals alle Chinese AI-modellen heeft DeepSeek V4 content-filtering voor politiek gevoelige onderwerpen, met name die gerelateerd aan de Chinese politiek en overheid. Voor algemene ontwikkeling, codering en technische use cases heeft de filtering minimale impact. Voor applicaties met gevoelige politieke inhoud of onbeperkte generatie is dit een terechte overweging.

Welke programmeertalen beheerst V4 het best?

Gebaseerd op SWE-Bench-resultaten (die voornamelijk testen op Python, JavaScript en Java), blinkt V4 uit in mainstream talen. Community-rapporten suggereren sterke prestaties in Python, JavaScript/TypeScript, Java, Go, Rust en C++. Minder voorkomende talen zoals Haskell, Elixir of Zig hebben waarschijnlijk zwakkere ondersteuning vanwege de distributie van trainingsdata.

Hoe verhoudt DeepSeek V4 zich tot Llama 4 voor self-hosting?

Beide zijn open-source en beschikbaar onder permissieve licenties. De MoE architectuur van DeepSeek V4 met ~37B actieve parameters per token biedt betere prestaties-per-berekening dan dense modellen. Het voordeel van Llama 4 is het grotere ecosysteem en de community-ondersteuning van Meta. Voor pure capaciteit per dollar wint V4 waarschijnlijk. Voor community-tooling en het ecosysteem voor fine-tuning is Llama wellicht toegankelijker.

DeepSeek V4 Release: Specs, Benchmarks & Alles wat we weten over het 1T Open-Source Model (2026)