Punti chiave
- 1 trillion di parametri, 37B attivi: DeepSeek V4 utilizza un' architettura Mixture-of-Experts che attiva solo ~37B di parametri per token — mantenendo i costi di inferenza paragonabili a V3 nonostante il 50% in più di parametri totali.
- 81% SWE-Bench Verified: V4 rivendica la corona dei benchmark di programmazione — superando il precedente record di Claude Opus 4.5 dell'80.9%.
- La memoria Engram è la svolta architettonica: Un nuovo sistema di memoria condizionale che fornisce una ricerca della conoscenza O(1), raggiungendo un'accuratezza del 97% nel test Needle-in-a-Haystack su una scala di un milione di tokens.
- 10 volte più economico dei concorrenti occidentali: A $0.30/M input tokens, V4 riduce drasticamente i prezzi rispetto a GPT-5.4 ($2.50) e Claude ($3-15) di un ordine di grandezza.
- Open-source sotto Apache 2.0: Pesi del modello completi disponibili per il deployment locale, il fine-tuning e l'uso commerciale — l'unico modello di classe frontier con questo livello di apertura.
DeepSeek V4: Il modello Open-source che sta riscrivendo l'economia dell'AI
DeepSeek lo ha fatto di nuovo. Dopo che V3 ha dimostrato che un laboratorio cinese poteva costruire modelli di classe frontier a una frazione dei costi occidentali, V4 alza la posta a un livello che richiede attenzione da parte di ogni sviluppatore, startup e impresa che debba prendere decisioni sull'infrastruttura AI.
Un trilione di parametri. Context window da un milione di tokens. Multimodale nativo. 81% SWE-Bench Verified. E tutto questo open-source sotto Apache 2.0 con costi di inferenza 10-40 volte inferiori rispetto ai concorrenti occidentali.
Se queste affermazioni reggeranno pienamente a un esame indipendente è ancora da determinare. Ma le innovazioni architettoniche — in particolare la memoria Engram — rappresentano progressi genuini che influenzeranno il design dei modelli in tutto il settore, a prescindere dai risultati.
Ecco tutto ciò che sappiamo a marzo 2026.
Tabella di marcia del rilascio
Il percorso verso il rilascio di DeepSeek V4 è stato accidentato, con diverse finestre temporali posticipate:
| Data | Evento |
|---|---|
| Gennaio 2026 | Pubblicazione del paper Engram — architettura di memoria condizionale |
| Febbraio 2026 (inizio) | Obiettivo di rilascio originale — mancato |
| Febbraio 2026 (metà) | Seconda finestra di rilascio — anch'essa mancata |
| Inizio marzo 2026 | Lancio del modello V4 completo |
| 9 marzo 2026 | "V4 Lite" è apparso sul sito web di DeepSeek |
| Marzo 2026 (in corso) | Benchmarking indipendente e validazione della community |
Il ritardo nella tabella di marcia ha effettivamente aumentato l'attesa. Quando V4 è stato lanciato, il paper Engram era già stato ampiamente discusso e le aspettative erano altissime.
Approfondimento sull'architettura
Mixture-of-Experts su scala di trilioni
DeepSeek V4 continua l'architettura MoE che ha reso V3 così efficiente, ma la scala drasticamente:
| Metrica | DeepSeek V3 | DeepSeek V4 |
|---|---|---|
| Parametri totali | 671B | ~1T |
| Parametri attivi | ~37B | ~37B |
| Context Window | 128K | 1M |
| Architettura | MoE | MoE + Engram |
| Multimodale | Solo testo | Testo + Immagini + Video |
| Licenza | Apache 2.0 | Apache 2.0 |
L'intuizione chiave: i parametri totali sono aumentati del 50%, ma i parametri attivi per token sono rimasti costanti a ~37B. Ciò significa che V4 ha accesso a molta più conoscenza e capacità senza aumentare proporzionalmente i costi di inferenza.
Engram: La rivoluzione della memoria
Engram è l'innovazione architettonica più significativa in V4. Dettagliata nel paper di gennaio 2026 di DeepSeek ("Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"), affronta un limite fondamentale dei Transformer.
Il problema: I Transformer tradizionali trattano ogni informazione allo stesso modo — attraverso il calcolo. Sia che il modello debba ricordare che "Parigi è la capitale della Francia" (un fatto statico) o ragionare su un complesso refactoring del codice (calcolo dinamico), utilizza lo stesso meccanismo di attention. Questo è inefficiente.
La soluzione di Engram: Aggiunge un sistema di memoria separato per la conoscenza statica e deterministica. Invece di calcolare la risposta a "Qual è la capitale della Francia?" attraverso molteplici strati di attention, Engram fornisce una ricerca deterministica O(1) — essenzialmente una hash table appresa per la conoscenza fattuale.
La scoperta chiave — Legge di allocazione della sparsità: La ricerca di DeepSeek ha rivelato che, con un budget fisso di parametri sparsi, la suddivisione ottimale è di circa il 20-25% memoria (Engram) e 75-80% calcolo (MoE). Questo rapporto massimizza sia l'accuratezza del richiamo che la capacità di ragionamento.
Impatto sulle prestazioni: Engram raggiunge un' accuratezza del 97% nel Needle-in-a-Haystack con una context window di un milione di tokens, risolvendo il problema del degrado del recupero che affligge le architetture Transformer standard. A 1M di tokens, l'accuratezza di recupero della maggior parte dei modelli scende sotto l'80%. V4 con Engram mantiene il 97%.
DeepSeek Sparse Attention (DSA)
Oltre a Engram, V4 introduce la DeepSeek Sparse Attention — un meccanismo di attention che alloca dinamicamente il calcolo in base alla complessità dell'input. I passaggi semplici ricevono un'attention leggera; i passaggi di ragionamento complesso ricevono la piena profondità di attention.
Questo è ciò che rende pratica la context window da un milione di tokens. Senza DSA, elaborare 1M di tokens sarebbe proibitivamente costoso anche con i bassi costi di DeepSeek. Con essa, la maggior parte della context window viene elaborata in modo efficiente, riservando il pieno calcolo alle parti che ne hanno bisogno.
Manifold-Constrained Hyper-Connections
La terza innovazione architettonica è rappresentata dalle Manifold-Constrained Hyper-Connections — una tecnica che migliora il flusso del gradiente durante il training. Il risultato pratico è un training più stabile su scala di trilioni di parametri, il che spiega in parte come DeepSeek abbia addestrato V4 a una frazione dei costi occidentali.
Analisi dei benchmark
I numeri
| Benchmark | DeepSeek V4 | Claude Opus 4.5 | GPT-5.4 | Note |
|---|---|---|---|---|
| SWE-Bench Verified | 81% | 80.9% | ~82% | V4 batte il record precedente |
| HumanEval | 90% | ~88% | ~90% | Generazione di codice |
| Context (NIAH) | 97% @ 1M | 95% @ 200K | 96% @ 1M | Vantaggio Engram |
| Multimodale | Nativo | N/A | Nativo | Testo + Immagine + Video |
Avvertenza: Verifica indipendente
È importante notare che alla fine di marzo 2026, molti di questi numeri provengono da benchmark interni. Finché le valutazioni di terze parti di organizzazioni come Artificial Analysis, LMSYS o ricercatori indipendenti non confermeranno pienamente le affermazioni, trattate le percentuali esatte come aspirazionali piuttosto che definitive.
Detto questo, i benchmark di V3 sono stati ampiamente confermati da test indipendenti, dando a DeepSeek la credibilità necessaria affinché questi numeri di V4 siano considerati verosimili.
Prezzi: La rivoluzione dei costi continua
Il prezzo di DeepSeek V4 è la sua caratteristica più dirompente:
| Modello | Prezzo Input (per M tokens) | Prezzo Output (per M tokens) | Prezzo Cache Hit |
|---|---|---|---|
| DeepSeek V4 | $0.30 | $0.50 | $0.03 |
| GPT-5.4 | $2.50 | $15.00 | N/A |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 |
| Claude Opus 4.6 | $15.00 | $75.00 | $1.50 |
Il prezzo per il cache hit è particolarmente interessante: se i tuoi prompt condividono un prefisso comune (cosa che accade quasi sempre nelle applicazioni di produzione), i tokens di input memorizzati nella cache costano solo $0.03 per milione — uno sconto del 90%.
Cosa significa in pratica
Per un tipico sviluppatore di app che elabora 100M di tokens al mese:
| Provider | Costo mensile |
|---|---|
| DeepSeek V4 | ~$40-80 |
| GPT-5.4 | ~$500-1,500 |
| Claude Sonnet 4.6 | ~$600-1,800 |
| Claude Opus 4.6 | ~$3,000-9,000 |
Questo vantaggio di costo di 10-40 volte è il motivo per cui DeepSeek è importante per il più ampio ecosistema AI. Rende l'AI di classe frontier accessibile a sviluppatori indipendenti, piccole startup e team aziendali attenti ai costi.
Piattaforme come ZBuild possono integrare DeepSeek V4 come opzione di modello backend, trasferendo questi drastici risparmi sui costi direttamente agli utenti che costruiscono applicazioni basate sull'AI.
Multimodale nativo: Testo, Immagini e Video
A differenza di V3 (solo testo), V4 è nativamente multimodale. Come riportato dal Financial Times, V4 integra la generazione di testo, immagini e video durante il pre-training piuttosto che aggiungere la visione come modulo separato.
Questo è importante perché:
- Il ragionamento cross-modale è più coerente — il modello comprende le relazioni tra le descrizioni testuali e il contenuto visivo in modo nativo
- Comprensione di immagini e video — V4 può analizzare screenshot, diagrammi e fotogrammi video insieme al testo
- Capacità di generazione — i primi report suggeriscono la generazione di testo-immagine e testo-video, sebbene le valutazioni sulla qualità siano ancora in fase di definizione
Per gli sviluppatori che creano applicazioni che elaborano contenuti visivi — analisi di documenti, design UI, riassunto di video — il supporto multimodale nativo elimina la necessità di API di visione separate.
Casi d'uso multimodali pratici
L'integrazione multimodale nativa apre diversi flussi di lavoro pratici:
- Codice da screenshot: Fornisci uno screenshot di un design UI e V4 genera il codice corrispondente — HTML/CSS, componenti React o viste SwiftUI
- Comprensione di diagrammi: Inserisci diagrammi di architettura, flowchart o schemi di database e V4 spiega il design, identifica problemi o genera codice di implementazione
- Elaborazione di documenti: Estrai dati strutturati da documenti scansionati, fatture e moduli senza una pipeline OCR separata
- Riassunto di video: Elabora i fotogrammi video per generare riassunti, trascrizioni o evidenziare momenti chiave
Per i costruttori di app come ZBuild, il multimodale nativo significa che gli utenti possono caricare mockup e screenshot direttamente come parte del flusso di lavoro di creazione dell'app — l'AI comprende il contesto visivo senza strumenti aggiuntivi.
Impatto dell'Open-Source
La licenza Apache 2.0 di DeepSeek V4 è probabilmente più significativa dei suoi punteggi nei benchmark. Ecco cosa abilita:
Self-Hosting
Le organizzazioni con requisiti di sovranità dei dati possono eseguire V4 sulla propria infrastruttura. Nessuna chiamata API, nessun dato che esce dall'edificio, nessuna dipendenza dal fornitore. I ~37B di parametri attivi per token lo rendono eseguibile su cluster GPU aziendali di fascia alta.
Fine-Tuning
I pesi aperti consentono il fine-tuning specifico per il dominio — medico, legale, finanziario o qualsiasi settore specializzato. Questo è impossibile con i modelli proprietari di OpenAI o Anthropic.
Ricerca
I dettagli completi dell'architettura e la metodologia di training consentono alla comunità di ricerca di costruire sulle innovazioni di DeepSeek. La memoria Engram, la DSA e le Manifold-Constrained Hyper-Connections sono tutte disponibili per lo studio e il miglioramento.
Controllo dei costi
Oltre ai prezzi già bassi delle API di DeepSeek, il self-hosting su larga scala può ridurre ulteriormente i costi per token. Per applicazioni ad alto volume che elaborano miliardi di tokens mensilmente, il self-hosting di V4 può essere 100 volte più economico dei prezzi delle API proprietarie.
DeepSeek V4 vs. V3: Dovresti fare l'upgrade?
Per gli attuali utenti di DeepSeek V3, ecco il calcolo per l'upgrade:
| Caratteristica | V3 | V4 | Impatto dell'upgrade |
|---|---|---|---|
| Context Window | 128K | 1M | Alto — consente l'analisi di interi codebase |
| SWE-Bench | 69% | 81% | Alto — miglioramento di 12 punti |
| Multimodale | Solo testo | Testo + Immagine + Video | Medio — dipende dal caso d'uso |
| Memoria Engram | No | Sì | Alto — recupero drasticamente migliore |
| Prezzo API | $0.27/M input | $0.30/M input | Basso — aumento minimo dei costi |
| Architettura | MoE | MoE + Engram + DSA | Alto — fondamentalmente migliore |
Verdetto: Effettua l'upgrade. L'aumento dei costi è trascurabile e i miglioramenti delle capacità — specialmente la memoria Engram e la context window da un milione di tokens — sono sostanziali. L'unico motivo per rimanere su V3 è se si hanno carichi di lavoro in produzione che richiedono l'esatta coerenza comportamentale del modello attuale.
Come DeepSeek V4 si inserisce nell'ecosistema degli sviluppatori
Per sviluppatori indipendenti e startup
Il prezzo di V4 rende l'AI di classe frontier accessibile ai budget delle startup. Combinato con la licenza Apache 2.0, è possibile costruire e distribuire applicazioni di produzione senza preoccuparsi della scalabilità dei costi delle API. Strumenti come ZBuild che integrano più fornitori di modelli permettono di sfruttare il vantaggio di costo di DeepSeek V4 mantenendo l'opzione di indirizzare compiti specifici ad altri modelli quando necessario.
Per i team aziendali
L'opzione di self-hosting affronta contemporaneamente le preoccupazioni relative alla sovranità dei dati, alla compliance e ai costi. La capacità di fine-tuning significa che è possibile costruire modelli specifici per il dominio che superano le alternative generaliste nel proprio settore verticale.
Per i ricercatori
L'architettura aperta è una miniera d'oro. La sola memoria Engram apre molteplici direzioni di ricerca — architetture di memoria condizionale, ottimizzazione dell'allocazione della sparsità e sistemi ibridi di recupero-calcolo.
Per l'industria dell'AI
V4 mette pressione su ogni fornitore di modelli frontier affinché giustifichi i propri prezzi. Quando un modello open-source eguaglia o supera i benchmark proprietari a un costo 10 volte inferiore, la proposta di valore dei modelli chiusi si sposta da "migliori prestazioni" a "migliore integrazione, supporto e affidabilità".
Rischi e incertezze
Verifica dei benchmark
La rivendicazione dell'81% su SWE-Bench necessita di conferma indipendente. DeepSeek è stata affidabile con i benchmark di V3, ma i modelli da un trilione di parametri sono più difficili da valutare in modo coerente. Aspettate i risultati di Artificial Analysis e LMSYS prima di prendere decisioni infrastrutturali basate su numeri esatti.
Rischio geopolitico
DeepSeek è un'azienda cinese e le tensioni tecnologiche tra USA e Cina sono in corso. Controlli sulle esportazioni, restrizioni all'accesso alle API o pressioni politiche potrebbero influenzare la disponibilità per gli sviluppatori occidentali. Il self-hosting con i pesi aperti mitiga ma non elimina questo rischio.
Qualità multimodale
Le capacità multimodali sono l'aspetto meno testato di V4. La qualità della comprensione di immagini e video necessita di una validazione nel mondo reale al di là dei benchmark interni.
Supporto e affidabilità
Open-source significa supporto della community, non SLA aziendali. Se la tua applicazione di produzione dipende da V4, sei responsabile dell'uptime, dello scaling e del debugging. Il servizio API di DeepSeek è stato affidabile, ma non offre l'infrastruttura di supporto aziendale di OpenAI o Anthropic.
Il punto fondamentale
DeepSeek V4 è il modello AI open-source più importante rilasciato finora nel 2026. La sua combinazione di scala da un trilione di parametri, innovazione della memoria Engram, context window da un milione di tokens, capacità multimodali native e prezzi aggressivamente bassi sotto licenza Apache 2.0 lo rende una genuina alternativa ai modelli frontier proprietari.
Le avvertenze sono reali — la verifica dei benchmark è in corso, esistono rischi geopolitici e il supporto aziendale è limitato. Ma per gli sviluppatori e le organizzazioni disposti a navigare tra queste incertezze, V4 offre capacità di classe frontier a una frazione del costo.
Sia che vi accediate tramite l'API di DeepSeek, che lo ospitiate sulla vostra infrastruttura o lo utilizziate attraverso piattaforme come ZBuild che integrano più fornitori di modelli, DeepSeek V4 merita un posto nel vostro toolkit AI.
Domande frequenti
Posso ospitare DeepSeek V4 su hardware consumer?
Praticamente no. Sebbene il modello attivi solo ~37B di parametri per token, l'hosting del modello MoE completo da 1T di parametri richiede una memoria GPU significativa per le tabelle di routing degli esperti. Avrai bisogno di cluster GPU di livello aziendale (molteplici A100 o H100). Per la maggior parte degli sviluppatori, l'API di DeepSeek a $0.30/M input tokens è molto più conveniente del self-hosting, a meno che non si elaborino miliardi di tokens mensilmente.
In cosa differisce V4 Lite dal modello V4 completo?
DeepSeek V4 Lite è apparso sul sito web di DeepSeek il 9 marzo 2026, ma non sono state pubblicate specifiche ufficiali. Basandosi sui pattern di denominazione di DeepSeek con V3, "Lite" si riferisce probabilmente a una variante distillata o più piccola, ottimizzata per velocità e costo a scapito di alcune capacità. Aspettatevi che sia più veloce ed economico, ma con prestazioni ridotte su compiti di ragionamento complesso.
DeepSeek V4 è censurato su determinati argomenti?
Come tutti i modelli AI cinesi, DeepSeek V4 ha filtri per i contenuti relativi ad argomenti politicamente sensibili, in particolare quelli legati alla politica e alla governance cinese. Per lo sviluppo generale, il coding e i casi d'uso tecnici, il filtraggio ha un impatto minimo. Per applicazioni che coinvolgono contenuti politici sensibili o generazione senza restrizioni, questa è una considerazione legittima.
Quali linguaggi di programmazione gestisce meglio V4?
Sulla base dei risultati SWE-Bench (che testano principalmente Python, JavaScript e Java), V4 eccelle nei linguaggi principali. I report della community suggeriscono forti prestazioni in Python, JavaScript/TypeScript, Java, Go, Rust e C++. Linguaggi meno comuni come Haskell, Elixir o Zig hanno probabilmente un supporto più debole a causa della distribuzione dei dati di training.
Come si confronta DeepSeek V4 con Llama 4 per il self-hosting?
Entrambi sono open-source e disponibili sotto licenze permissive. L'architettura MoE di DeepSeek V4 con ~37B di parametri attivi per token offre migliori prestazioni per calcolo rispetto ai modelli densi. Il vantaggio di Llama 4 è il più grande ecosistema di Meta e il supporto della community. Per pura capacità per dollaro, V4 probabilmente vince. Per il tooling della community e l'ecosistema di fine-tuning, Llama potrebbe essere più accessibile.
Fonti
- DeepSeek V4: Engram Architecture Revealed
- DeepSeek V4: What's Next — Architecture, DSA, Engram & More
- Introl: DeepSeek V4's 1-Trillion Parameter Architecture
- ByteIota: DeepSeek V4 Targets 80.9% SWE-Bench Record
- CyberNews: DeepSeek V4 Review
- Evolink: DeepSeek V4 Release Date
- PromptZone: DeepSeek V4 Status Report March 2026
- VERTU: DeepSeek V4 Engram Architecture
- Kili Technology: DeepSeek V4 Guide
- Evermx: DeepSeek V4 Multimodal Launch
- RecodeChina: DeepSeek's Next Move
- DeepSeek V4 Status and Leaks