DeepSeek V4 a-t-il été publié ?

DeepSeek V4 a été lancé début mars 2026, avec une variante « V4 Lite » apparue le 9 mars. Le modèle complet obtient un score de 81 % sur SWE-Bench Verified et coûte 0,30 $ par million de tokens d'entrée — environ 10 fois moins cher que les modèles concurrents de pointe. Les poids sont disponibles sous licence Apache 2.0.

Combien de paramètres DeepSeek V4 possède-t-il ?

DeepSeek V4 possède environ 1 trillion de paramètres au total utilisant une architecture Mixture-of-Experts (MoE), mais n'en active que ~37 milliards par token. Cela représente environ 50 % de paramètres totaux en plus que les 671 milliards de V3, tout en maintenant des coûts d'inférence comparables.

Qu'est-ce que le système de mémoire Engram de DeepSeek ?

Engram est une architecture de mémoire conditionnelle introduite dans l'article de DeepSeek de janvier 2026. Elle permet une recherche de connaissances déterministe en O(1) pour les motifs statiques comme les noms d'entités, atteignant une précision de 97 % au test Needle-in-a-Haystack à l'échelle d'un million de tokens. La répartition optimale des paramètres est de 20-25 % pour la mémoire Engram et 75-80 % pour le calcul MoE.

Comment DeepSeek V4 se compare-t-il à GPT-5.4 et Claude Opus 4.6 ?

DeepSeek V4 obtient 81 % sur SWE-Bench Verified (contre le record de 80,9 % de Claude Opus 4.5), supporte un contexte de 1M de tokens et est nativement multimodal. Son avantage clé est le coût : 0,30 $/M de tokens d'entrée contre 2,50 $ pour GPT-5.4 et 15,00 $ pour Opus 4.6. Il est Open-Source sous licence Apache 2.0 alors que ses concurrents sont propriétaires.

DeepSeek V4 est-il Open-Source ?

Oui. Les poids du modèle DeepSeek V4 sont publiés sous licence Apache 2.0, ce qui le rend disponible gratuitement pour un déploiement local, le fine-tuning et une utilisation commerciale sans restriction. Cela perpétue la tradition Open-Source de DeepSeek initiée avec V3.

Points clés à retenir

1 trillion de paramètres, 37B actifs : DeepSeek V4 utilise une architecture Mixture-of-Experts qui n'active que ~37B paramètres par token — maintenant des coûts d'inférence comparables à V3 malgré 50% de paramètres totaux en plus.
81% SWE-bench Verified : V4 revendique la couronne des benchmarks de codage — battant le précédent record de 80.9% de Claude Opus 4.5.
La mémoire Engram est la percée architecturale : Un nouveau système de mémoire conditionnelle qui permet une recherche de connaissances en O(1), atteignant 97% de précision sur Needle-in-a-Haystack à une échelle d'un million de tokens.
10x moins cher que les concurrents occidentaux : À $0.30/M input tokens, V4 casse les prix de GPT-5.4 ($2.50) et Claude ($3-15) d'un ordre de grandeur.
Open-source sous Apache 2.0 : Poids complets du modèle disponibles pour le déploiement local, le fine-tuning et l'utilisation commerciale — le seul modèle de classe frontière avec ce niveau d'ouverture.

DeepSeek V4 : Le modèle open-source qui réécrit l'économie de l'IA

DeepSeek a encore frappé. Après que V3 a prouvé qu'un laboratoire chinois pouvait construire des modèles de classe frontière à une fraction des coûts occidentaux, V4 place la barre à un niveau qui exige l'attention de chaque développeur, startup et entreprise prenant des décisions d'infrastructure IA.

Un trillion de paramètres. Contexte d'un million de tokens. Multimodal natif. 81% SWE-bench Verified. Et tout cela en open-source sous Apache 2.0 avec des coûts d'inférence 10 à 40x inférieurs à ceux des concurrents occidentaux.

Reste à déterminer si ces affirmations tiendront pleinement sous un examen indépendant. Mais les innovations architecturales — particulièrement la mémoire Engram — représentent de véritables avancées qui influenceront la conception des modèles dans toute l'industrie, quoi qu'il en soit.

Voici tout ce que nous savons en date de March 2026.

Calendrier de sortie

Le chemin vers la sortie de DeepSeek V4 a été mouvementé, avec plusieurs reports :

Date	Événement
January 2026	Publication de l'article Engram — architecture de mémoire conditionnelle
February 2026 (début)	Objectif de sortie initial — manqué
February 2026 (mi)	Deuxième fenêtre de sortie — également manquée
Early March 2026	Lancement du modèle V4 complet
March 9, 2026	"V4 Lite" est apparu sur le site web de DeepSeek
March 2026 (en cours)	Benchmarking indépendant et validation par la communauté

Le calendrier retardé a en fait accru l'anticipation. Au moment du lancement de V4, l'article Engram avait déjà été largement discuté et les attentes étaient extrêmement élevées.

Plongée au cœur de l'architecture

Mixture-of-Experts à l'échelle du trillion

DeepSeek V4 continue l'architecture MoE qui a rendu V3 si efficace, mais l'augmente considérablement :

Métrique	DeepSeek V3	DeepSeek V4
Paramètres totaux	671B	~1T
Paramètres actifs	~37B	~37B
Fenêtre de contexte	128K	1M
Architecture	MoE	MoE + Engram
Multimodal	Texte uniquement	Texte + Image + Vidéo
Licence	Apache 2.0	Apache 2.0

L'idée clé : les paramètres totaux ont augmenté de 50%, mais les paramètres actifs par token sont restés constants à ~37B. Cela signifie que V4 a accès à beaucoup plus de connaissances et de capacités sans augmenter proportionnellement les coûts d'inférence.

Engram : La révolution de la mémoire

Engram est l'innovation architecturale la plus significative de V4. Détaillée dans l'article de DeepSeek de January 2026 ("Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"), elle répond à une limitation fondamentale des Transformers.

Le Problème : Les Transformers traditionnels traitent chaque information de la même manière — par le calcul. Que le modèle doive se rappeler que "Paris est la capitale de la France" (un fait statique) ou raisonner sur un refactoring de code complexe (calcul dynamique), il utilise le même mécanisme d'attention. C'est inefficace.

La Solution d'Engram : Ajouter un système de mémoire séparé pour les connaissances statiques et déterministes. Au lieu de calculer la réponse à "Quelle est la capitale de la France ?" via plusieurs couches d'attention, Engram fournit une recherche déterministe en O(1) — essentiellement une table de hachage apprise pour les connaissances factuelles.

La découverte clé — Loi d'allocation de la sparsité : Les recherches de DeepSeek ont révélé que sous un budget de paramètres sparses fixe, la répartition optimale est d'environ 20-25% de mémoire (Engram) et 75-80% de calcul (MoE). Ce ratio maximise à la fois la précision du rappel et la capacité de raisonnement.

Impact sur la performance : Engram atteint 97% de précision sur Needle-in-a-Haystack à une échelle de contexte d'un million de tokens, résolvant le problème de dégradation de la récupération qui afflige les architectures Transformer standard. À 1M tokens, la précision de récupération de la plupart des modèles tombe en dessous de 80%. V4 avec Engram se maintient à 97%.

DeepSeek Sparse Attention (DSA)

Au-delà d'Engram, V4 introduit DeepSeek Sparse Attention — un mécanisme d'attention qui alloue dynamiquement le calcul en fonction de la complexité de l'entrée. Les passages simples reçoivent une attention légère ; les passages de raisonnement complexe reçoivent une profondeur d'attention complète.

C'est ce qui rend la fenêtre de contexte d'un million de tokens pratique. Sans DSA, le traitement de 1M tokens serait prohibitif, même avec les coûts bas de DeepSeek. Grâce à elle, la majeure partie de la fenêtre de contexte est traitée efficacement, le calcul complet étant réservé aux parties qui en ont besoin.

Manifold-Constrained Hyper-Connections

La troisième innovation architecturale est Manifold-Constrained Hyper-Connections — une technique qui améliore le flux de gradient pendant l'entraînement. Le résultat pratique est un entraînement plus stable à l'échelle du trillion de paramètres, ce qui explique en partie comment DeepSeek a entraîné V4 à une fraction des coûts occidentaux.

Analyse des benchmarks

Les chiffres

Benchmark	DeepSeek V4	Claude Opus 4.5	GPT-5.4	Notes
SWE-bench Verified	81%	80.9%	~82%	V4 bat le record précédent
HumanEval	90%	~88%	~90%	Génération de code
Contexte (NIAH)	97% @ 1M	95% @ 200K	96% @ 1M	Avantage Engram
Multimodal	Natif	N/A	Natif	Texte + Image + Vidéo

Avertissement : Vérification indépendante

Il est important de noter qu'en cette fin de March 2026, beaucoup de ces chiffres proviennent de benchmarks internes. Jusqu'à ce que des évaluations tierces d'organisations comme Artificial Analysis, LMSYS ou des chercheurs indépendants confirment pleinement ces affirmations, considérez les pourcentages exacts comme ambitieux plutôt que définitifs.

Cela dit, les benchmarks de V3 ont été largement confirmés par des tests indépendants, donnant à DeepSeek la crédibilité nécessaire pour que ces chiffres de V4 soient dans la bonne fourchette.

Tarification : La révolution des coûts continue

Le prix de DeepSeek V4 est sa caractéristique la plus disruptive :

Modèle	Prix d'entrée (par M tokens)	Prix de sortie (par M tokens)	Prix Cache Hit
DeepSeek V4	$0.30	$0.50	$0.03
GPT-5.4	$2.50	$15.00	N/A
Claude Sonnet 4.6	$3.00	$15.00	$0.30
Claude Opus 4.6	$15.00	$75.00	$1.50

La tarification du cache hit est particulièrement attrayante : si vos prompts partagent un préfixe commun (ce qui est presque toujours le cas dans les applications en production), les tokens d'entrée mis en cache ne coûtent que $0.03 par million — une réduction de 90%.

Ce que cela signifie en pratique

Pour un créateur d'application typique traitent 100M tokens par mois :

Fournisseur	Coût mensuel
DeepSeek V4	~$40-80
GPT-5.4	~$500-1,500
Claude Sonnet 4.6	~$600-1,800
Claude Opus 4.6	~$3,000-9,000

Cet avantage de coût de 10 à 40x est la raison pour laquelle DeepSeek est important pour l'écosystème global de l'IA. Il rend l'IA de classe frontière accessible aux développeurs indépendants, aux petites startups et aux équipes en entreprise sensibles aux coûts.

Des plateformes comme ZBuild peuvent intégrer DeepSeek V4 comme option de modèle backend, répercutant ces économies spectaculaires directement aux utilisateurs qui construisent des applications alimentées par l'IA.

Multimodal natif : Texte, Image et Vidéo

Contrairement à V3 (texte uniquement), V4 est nativement multimodal. Comme rapporté par le Financial Times, V4 intègre la génération de texte, d'image et de vidéo pendant le pré-entraînement plutôt que de greffer la vision comme un module séparé.

C'est important car :

Le raisonnement cross-modal est plus cohérent — le modèle comprend nativement les relations entre les descriptions textuelles et le contenu visuel
Compréhension de l'image et de la vidéo — V4 peut analyser des captures d'écran, des diagrammes et des images de vidéo parallèlement au texte
Capacités de génération — les premiers rapports suggèrent une génération texte-vers-image et texte-vers-vidéo, bien que les évaluations de qualité émergent encore

Pour les développeurs construisant des applications qui traitent du contenu visuel — analyse de documents, design d'UI, résumé de vidéo — le support multimodal natif élimine le besoin d'API de vision séparées.

Cas d'utilisation multimodaux pratiques

L'intégration multimodale native ouvre plusieurs flux de travail pratiques :

Code à partir de captures d'écran : Fournissez une capture d'écran d'un design d'UI et V4 génère le code correspondant — HTML/CSS, composants React ou vues SwiftUI
Compréhension de diagrammes : Soumettez des diagrammes d'architecture, des organigrammes ou des schémas de base de données et V4 explique le design, identifie les problèmes ou génère le code d'implémentation
Traitement de documents : Extrayez des données structurées de documents scannés, de factures et de formulaires sans pipeline OCR séparé
Résumé de vidéo : Traitez des images de vidéo pour générer des résumés, des transcriptions ou mettre en évidence des moments clés

Pour les créateurs d'applications comme ZBuild, le multimodal natif signifie que les utilisateurs peuvent télécharger des maquettes et des captures d'écran directement dans le flux de création d'application — l'IA comprend le contexte visuel sans outils supplémentaires.

Impact de l'Open-Source

La licence Apache 2.0 de DeepSeek V4 est sans doute plus significative que ses scores aux benchmarks. Voici ce qu'elle permet :

Auto-hébergement

Les organisations ayant des exigences de souveraineté des données peuvent faire tourner V4 sur leur propre infrastructure. Pas d'appels API, pas de données quittant le bâtiment, pas de dépendance vis-à-vis d'un fournisseur. Les ~37B paramètres actifs par token permettent de le faire fonctionner sur des clusters GPU d'entreprise haut de gamme.

Fine-tuning

Les poids ouverts permettent un fine-tuning spécifique au domaine — médical, juridique, financier ou tout secteur spécialisé. C'est impossible avec les modèles propriétaires d'OpenAI ou d'Anthropic.

Recherche

Les détails complets de l'architecture et la méthodologie d'entraînement permettent à la communauté de chercheurs de s'appuyer sur les innovations de DeepSeek. La mémoire Engram, DSA et les Manifold-Constrained Hyper-Connections sont tous disponibles pour étude et amélioration.

Contrôle des coûts

Même au-delà des prix API déjà bas de DeepSeek, l'auto-hébergement à grande échelle peut réduire encore davantage les coûts par token. Pour les applications à haut volume traitant des milliards de tokens mensuellement, l'auto-hébergement de V4 peut être 100x moins cher que la tarification des API propriétaires.

DeepSeek V4 vs V3 : Devriez-vous mettre à jour ?

Pour les utilisateurs actuels de DeepSeek V3, voici le calcul de la mise à jour :

Caractéristique	V3	V4	Impact de la mise à jour
Fenêtre de contexte	128K	1M	Élevé — permet l'analyse à l'échelle de la base de code
SWE-bench	69%	81%	Élevé — amélioration de 12 points
Multimodal	Texte uniquement	Texte + Image + Vidéo	Moyen — dépend du cas d'utilisation
Mémoire Engram	Non	Oui	Élevé — récupération nettement meilleure
Prix API	$0.27/M input	$0.30/M input	Faible — augmentation de coût minimale
Architecture	MoE	MoE + Engram + DSA	Élevé — fondamentalement meilleur

Verdict : Mettez à jour. L'augmentation du coût est négligeable, et les améliorations de capacités — particulièrement la mémoire Engram et le contexte d'un million de tokens — sont substantielles. La seule raison de rester sur V3 est si vous avez des charges de travail en production qui nécessitent la cohérence comportementale exacte de votre modèle actuel.

Comment DeepSeek V4 s'intègre à l'écosystème des développeurs

Pour les développeurs indépendants et les startups

Le prix de V4 rend l'IA de classe frontière accessible aux budgets de startups. Combiné à la licence Apache 2.0, vous pouvez construire et déployer des applications en production sans vous soucier de l'escalade des coûts API. Des outils comme ZBuild qui intègrent plusieurs fournisseurs de modèles vous permettent de tirer parti de l'avantage de coût de DeepSeek V4 tout en conservant l'option de router des tâches spécifiques vers d'autres modèles en cas de besoin.

Pour les équipes d'entreprise

L'option d'auto-hébergement répond simultanément aux préoccupations de souveraineté des données, de conformité et de coût. La capacité de fine-tuning signifie que vous pouvez construire des modèles spécifiques à votre domaine qui surpassent les alternatives généralistes dans votre secteur vertical spécifique.

Pour les chercheurs

L'architecture ouverte est une mine d'or. La mémoire Engram seule ouvre de multiples directions de recherche — architectures de mémoire conditionnelle, optimisation de l'allocation de la sparsité et systèmes hybrides de récupération-calcul.

Pour l'industrie de l'IA

V4 met la pression sur chaque fournisseur de modèles de pointe pour justifier sa tarification. Lorsqu'un modèle open-source égale ou dépasse les benchmarks propriétaires à un coût 10x inférieur, la proposition de valeur des modèles fermés passe de "meilleure performance" à "meilleure intégration, support et fiabilité."

Risques et incertitudes

Vérification des benchmarks

L'affirmation des 81% au SWE-bench nécessite une confirmation indépendante. DeepSeek a été digne de confiance avec les benchmarks de V3, mais les modèles d'un trillion de paramètres sont plus difficiles à évaluer de manière cohérente. Attendez les résultats d'Artificial Analysis et de LMSYS avant de prendre des décisions d'infrastructure basées sur des chiffres exacts.

Risque géopolitique

DeepSeek est une entreprise chinoise, et les tensions technologiques entre les États-Unis et la Chine se poursuivent. Les contrôles à l'exportation, les restrictions d'accès aux API ou les pressions politiques pourraient affecter la disponibilité pour les développeurs occidentaux. L'auto-hébergement avec des poids ouverts atténue mais n'élimine pas ce risque.

Qualité multimodale

Les capacités multimodales sont l'aspect le moins testé de V4. La qualité de la compréhension de l'image et de la vidéo nécessite une validation en conditions réelles au-delà des benchmarks internes.

Support et fiabilité

L'open-source signifie un support communautaire, pas des SLA d'entreprise. Si votre application en production dépend de V4, vous êtes responsable de la disponibilité, de la mise à l'échelle et du débogage. Le service API de DeepSeek a été fiable, mais il n'offre pas l'infrastructure de support d'entreprise de OpenAI ou Anthropic.

Le mot de la fin

DeepSeek V4 est le modèle d'IA open-source le plus important publié en 2026 à ce jour. Sa combinaison d'échelle à un trillion de paramètres, l'innovation de la mémoire Engram, un contexte d'un million de tokens, des capacités multimodales natives et une tarification agressivement basse sous licence Apache 2.0 en font une véritable alternative aux modèles propriétaires de pointe.

Les bémols sont réels — la vérification des benchmarks est en cours, des risques géopolitiques existent et le support d'entreprise est limité. Mais pour les développeurs et les organisations prêts à naviguer dans ces incertitudes, V4 offre des capacités de classe frontière à une fraction du coût.

Que vous y accédiez via l'API de DeepSeek, que vous l'auto-hébergiez sur votre infrastructure ou que vous l'utilisiez via des plateformes comme ZBuild qui intègrent plusieurs fournisseurs de modèles, DeepSeek V4 mérite une place dans votre boîte à outils IA.

Questions fréquemment posées

Puis-je auto-héberger DeepSeek V4 sur du matériel grand public ?

Pas de manière pratique. Bien que le modèle n'active que ~37B paramètres par token, l'hébergement du modèle MoE complet de 1T paramètres nécessite une mémoire GPU considérable pour les tables de routage des experts. Vous aurez besoin de clusters GPU de classe entreprise (plusieurs A100 ou H100). Pour la plupart des développeurs, l'API de DeepSeek à $0.30/M input tokens est bien plus rentable que l'auto-hébergement, à moins de traiter des milliards de tokens par mois.

En quoi V4 Lite diffère-t-il du modèle V4 complet ?

DeepSeek V4 Lite est apparu sur le site web de DeepSeek le March 9, 2026, mais aucune spécification officielle n'a été publiée. Basé sur les schémas de dénomination de DeepSeek avec V3, "Lite" fait probablement référence à une variante distillée ou plus petite optimisée pour la vitesse et le coût au détriment de certaines capacités. Attendez-vous à ce qu'il soit plus rapide et moins cher, mais avec des performances réduites sur les tâches de raisonnement complexes.

DeepSeek V4 est-il censuré sur certains sujets ?

Comme tous les modèles d'IA chinois, DeepSeek V4 dispose de filtres de contenu pour les sujets politiquement sensibles, particulièrement ceux liés à la politique et à la gouvernance chinoises. Pour le développement général, le codage et les cas d'utilisation techniques, le filtrage a un impact minimal. Pour les applications impliquant du contenu politique sensible ou une génération sans restriction, c'est une considération légitime.

Quels langages de programmation V4 gère-t-il le mieux ?

D'après les résultats du SWE-bench (qui testent principalement Python, JavaScript et Java), V4 excelle dans les langages courants. Les rapports de la communauté suggèrent de fortes performances sur Python, JavaScript/TypeScript, Java, Go, Rust et C++. Les langages moins communs comme Haskell, Elixir ou Zig ont probablement un support plus faible en raison de la distribution des données d'entraînement.

Comment DeepSeek V4 se compare-t-il à Llama 4 pour l'auto-hébergement ?

Les deux sont open-source et disponibles sous des licences permissives. L'architecture MoE de DeepSeek V4 avec ~37B paramètres actifs par token offre de meilleures performances par calcul que les modèles denses. L'avantage de Llama 4 réside dans l'écosystème plus large et le support communautaire de Meta. Pour la pure capacité par dollar, V4 gagne probablement. Pour l'outillage communautaire et l'écosystème de fine-tuning, Llama pourrait être plus accessible.

Sortie de DeepSeek V4 : Spécifications, Benchmarks et tout ce que nous savons sur le modèle Open-Source de 1T (2026)