DeepSeek V4 è stato rilasciato?

DeepSeek V4 è stato lanciato all'inizio di marzo 2026, con una variante 'V4 Lite' apparsa il 9 marzo. Il modello completo ottiene un punteggio dell'81% su SWE-Bench Verified e costa $0.30 per million input tokens — circa 10 volte più economico dei frontier models concorrenti. I weights sono disponibili sotto Apache 2.0.

Quanti parametri ha DeepSeek V4?

DeepSeek V4 ha circa 1 trillion di parametri totali utilizzando un'architettura Mixture-of-Experts (MoE), ma ne attiva solo ~37 billion per token. Si tratta di circa il 50% di parametri totali in più rispetto ai 671 billion di V3, mantenendo costi di inference paragonabili.

Cos'è il sistema Engram memory di DeepSeek?

Engram è un'architettura di memoria condizionale introdotta nel paper di DeepSeek di gennaio 2026. Fornisce un lookup deterministico della conoscenza O(1) per pattern statici come i nomi di entità, raggiungendo un'accuratezza del 97% in Needle-in-a-Haystack su scala million-token. La suddivisione ottimale dei parametri è 20-25% Engram memory e 75-80% MoE computation.

Come si confronta DeepSeek V4 con GPT-5.4 e Claude Opus 4.6?

DeepSeek V4 ottiene l'81% su SWE-Bench Verified (rispetto al record dell'80.9% di Claude Opus 4.5), supporta 1M token context ed è nativamente multimodal. Il suo vantaggio chiave è il costo: $0.30/M input tokens contro i $2.50 di GPT-5.4 e i $15.00 di Opus 4.6. È open-source sotto Apache 2.0, mentre i concorrenti sono proprietari.

DeepSeek V4 è open source?

Sì. I model weights di DeepSeek V4 sono rilasciati sotto licenza Apache 2.0, rendendolo liberamente disponibile per local deployment, fine-tuning e uso commerciale senza restrizioni. Questo continua la tradizione open-source di DeepSeek iniziata con V3.

Punti chiave

1 trillion di parametri, 37B attivi: DeepSeek V4 utilizza un' architettura Mixture-of-Experts che attiva solo ~37B di parametri per token — mantenendo i costi di inferenza paragonabili a V3 nonostante il 50% in più di parametri totali.
81% SWE-Bench Verified: V4 rivendica la corona dei benchmark di programmazione — superando il precedente record di Claude Opus 4.5 dell'80.9%.
La memoria Engram è la svolta architettonica: Un nuovo sistema di memoria condizionale che fornisce una ricerca della conoscenza O(1), raggiungendo un'accuratezza del 97% nel test Needle-in-a-Haystack su una scala di un milione di tokens.
10 volte più economico dei concorrenti occidentali: A $0.30/M input tokens, V4 riduce drasticamente i prezzi rispetto a GPT-5.4 ($2.50) e Claude ($3-15) di un ordine di grandezza.
Open-source sotto Apache 2.0: Pesi del modello completi disponibili per il deployment locale, il fine-tuning e l'uso commerciale — l'unico modello di classe frontier con questo livello di apertura.

DeepSeek V4: Il modello Open-source che sta riscrivendo l'economia dell'AI

DeepSeek lo ha fatto di nuovo. Dopo che V3 ha dimostrato che un laboratorio cinese poteva costruire modelli di classe frontier a una frazione dei costi occidentali, V4 alza la posta a un livello che richiede attenzione da parte di ogni sviluppatore, startup e impresa che debba prendere decisioni sull'infrastruttura AI.

Un trilione di parametri. Context window da un milione di tokens. Multimodale nativo. 81% SWE-Bench Verified. E tutto questo open-source sotto Apache 2.0 con costi di inferenza 10-40 volte inferiori rispetto ai concorrenti occidentali.

Se queste affermazioni reggeranno pienamente a un esame indipendente è ancora da determinare. Ma le innovazioni architettoniche — in particolare la memoria Engram — rappresentano progressi genuini che influenzeranno il design dei modelli in tutto il settore, a prescindere dai risultati.

Ecco tutto ciò che sappiamo a marzo 2026.

Tabella di marcia del rilascio

Il percorso verso il rilascio di DeepSeek V4 è stato accidentato, con diverse finestre temporali posticipate:

Data	Evento
Gennaio 2026	Pubblicazione del paper Engram — architettura di memoria condizionale
Febbraio 2026 (inizio)	Obiettivo di rilascio originale — mancato
Febbraio 2026 (metà)	Seconda finestra di rilascio — anch'essa mancata
Inizio marzo 2026	Lancio del modello V4 completo
9 marzo 2026	"V4 Lite" è apparso sul sito web di DeepSeek
Marzo 2026 (in corso)	Benchmarking indipendente e validazione della community

Il ritardo nella tabella di marcia ha effettivamente aumentato l'attesa. Quando V4 è stato lanciato, il paper Engram era già stato ampiamente discusso e le aspettative erano altissime.

Approfondimento sull'architettura

Mixture-of-Experts su scala di trilioni

DeepSeek V4 continua l'architettura MoE che ha reso V3 così efficiente, ma la scala drasticamente:

Metrica	DeepSeek V3	DeepSeek V4
Parametri totali	671B	~1T
Parametri attivi	~37B	~37B
Context Window	128K	1M
Architettura	MoE	MoE + Engram
Multimodale	Solo testo	Testo + Immagini + Video
Licenza	Apache 2.0	Apache 2.0

L'intuizione chiave: i parametri totali sono aumentati del 50%, ma i parametri attivi per token sono rimasti costanti a ~37B. Ciò significa che V4 ha accesso a molta più conoscenza e capacità senza aumentare proporzionalmente i costi di inferenza.

Engram: La rivoluzione della memoria

Engram è l'innovazione architettonica più significativa in V4. Dettagliata nel paper di gennaio 2026 di DeepSeek ("Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"), affronta un limite fondamentale dei Transformer.

Il problema: I Transformer tradizionali trattano ogni informazione allo stesso modo — attraverso il calcolo. Sia che il modello debba ricordare che "Parigi è la capitale della Francia" (un fatto statico) o ragionare su un complesso refactoring del codice (calcolo dinamico), utilizza lo stesso meccanismo di attention. Questo è inefficiente.

La soluzione di Engram: Aggiunge un sistema di memoria separato per la conoscenza statica e deterministica. Invece di calcolare la risposta a "Qual è la capitale della Francia?" attraverso molteplici strati di attention, Engram fornisce una ricerca deterministica O(1) — essenzialmente una hash table appresa per la conoscenza fattuale.

La scoperta chiave — Legge di allocazione della sparsità: La ricerca di DeepSeek ha rivelato che, con un budget fisso di parametri sparsi, la suddivisione ottimale è di circa il 20-25% memoria (Engram) e 75-80% calcolo (MoE). Questo rapporto massimizza sia l'accuratezza del richiamo che la capacità di ragionamento.

Impatto sulle prestazioni: Engram raggiunge un' accuratezza del 97% nel Needle-in-a-Haystack con una context window di un milione di tokens, risolvendo il problema del degrado del recupero che affligge le architetture Transformer standard. A 1M di tokens, l'accuratezza di recupero della maggior parte dei modelli scende sotto l'80%. V4 con Engram mantiene il 97%.

DeepSeek Sparse Attention (DSA)

Oltre a Engram, V4 introduce la DeepSeek Sparse Attention — un meccanismo di attention che alloca dinamicamente il calcolo in base alla complessità dell'input. I passaggi semplici ricevono un'attention leggera; i passaggi di ragionamento complesso ricevono la piena profondità di attention.

Questo è ciò che rende pratica la context window da un milione di tokens. Senza DSA, elaborare 1M di tokens sarebbe proibitivamente costoso anche con i bassi costi di DeepSeek. Con essa, la maggior parte della context window viene elaborata in modo efficiente, riservando il pieno calcolo alle parti che ne hanno bisogno.

Manifold-Constrained Hyper-Connections

La terza innovazione architettonica è rappresentata dalle Manifold-Constrained Hyper-Connections — una tecnica che migliora il flusso del gradiente durante il training. Il risultato pratico è un training più stabile su scala di trilioni di parametri, il che spiega in parte come DeepSeek abbia addestrato V4 a una frazione dei costi occidentali.

Analisi dei benchmark

I numeri

Benchmark	DeepSeek V4	Claude Opus 4.5	GPT-5.4	Note
SWE-Bench Verified	81%	80.9%	~82%	V4 batte il record precedente
HumanEval	90%	~88%	~90%	Generazione di codice
Context (NIAH)	97% @ 1M	95% @ 200K	96% @ 1M	Vantaggio Engram
Multimodale	Nativo	N/A	Nativo	Testo + Immagine + Video

Avvertenza: Verifica indipendente

È importante notare che alla fine di marzo 2026, molti di questi numeri provengono da benchmark interni. Finché le valutazioni di terze parti di organizzazioni come Artificial Analysis, LMSYS o ricercatori indipendenti non confermeranno pienamente le affermazioni, trattate le percentuali esatte come aspirazionali piuttosto che definitive.

Detto questo, i benchmark di V3 sono stati ampiamente confermati da test indipendenti, dando a DeepSeek la credibilità necessaria affinché questi numeri di V4 siano considerati verosimili.

Prezzi: La rivoluzione dei costi continua

Il prezzo di DeepSeek V4 è la sua caratteristica più dirompente:

Modello	Prezzo Input (per M tokens)	Prezzo Output (per M tokens)	Prezzo Cache Hit
DeepSeek V4	$0.30	$0.50	$0.03
GPT-5.4	$2.50	$15.00	N/A
Claude Sonnet 4.6	$3.00	$15.00	$0.30
Claude Opus 4.6	$15.00	$75.00	$1.50

Il prezzo per il cache hit è particolarmente interessante: se i tuoi prompt condividono un prefisso comune (cosa che accade quasi sempre nelle applicazioni di produzione), i tokens di input memorizzati nella cache costano solo $0.03 per milione — uno sconto del 90%.

Cosa significa in pratica

Per un tipico sviluppatore di app che elabora 100M di tokens al mese:

Provider	Costo mensile
DeepSeek V4	~$40-80
GPT-5.4	~$500-1,500
Claude Sonnet 4.6	~$600-1,800
Claude Opus 4.6	~$3,000-9,000

Questo vantaggio di costo di 10-40 volte è il motivo per cui DeepSeek è importante per il più ampio ecosistema AI. Rende l'AI di classe frontier accessibile a sviluppatori indipendenti, piccole startup e team aziendali attenti ai costi.

Piattaforme come ZBuild possono integrare DeepSeek V4 come opzione di modello backend, trasferendo questi drastici risparmi sui costi direttamente agli utenti che costruiscono applicazioni basate sull'AI.

Multimodale nativo: Testo, Immagini e Video

A differenza di V3 (solo testo), V4 è nativamente multimodale. Come riportato dal Financial Times, V4 integra la generazione di testo, immagini e video durante il pre-training piuttosto che aggiungere la visione come modulo separato.

Questo è importante perché:

Il ragionamento cross-modale è più coerente — il modello comprende le relazioni tra le descrizioni testuali e il contenuto visivo in modo nativo
Comprensione di immagini e video — V4 può analizzare screenshot, diagrammi e fotogrammi video insieme al testo
Capacità di generazione — i primi report suggeriscono la generazione di testo-immagine e testo-video, sebbene le valutazioni sulla qualità siano ancora in fase di definizione

Per gli sviluppatori che creano applicazioni che elaborano contenuti visivi — analisi di documenti, design UI, riassunto di video — il supporto multimodale nativo elimina la necessità di API di visione separate.

Casi d'uso multimodali pratici

L'integrazione multimodale nativa apre diversi flussi di lavoro pratici:

Codice da screenshot: Fornisci uno screenshot di un design UI e V4 genera il codice corrispondente — HTML/CSS, componenti React o viste SwiftUI
Comprensione di diagrammi: Inserisci diagrammi di architettura, flowchart o schemi di database e V4 spiega il design, identifica problemi o genera codice di implementazione
Elaborazione di documenti: Estrai dati strutturati da documenti scansionati, fatture e moduli senza una pipeline OCR separata
Riassunto di video: Elabora i fotogrammi video per generare riassunti, trascrizioni o evidenziare momenti chiave

Per i costruttori di app come ZBuild, il multimodale nativo significa che gli utenti possono caricare mockup e screenshot direttamente come parte del flusso di lavoro di creazione dell'app — l'AI comprende il contesto visivo senza strumenti aggiuntivi.

Impatto dell'Open-Source

La licenza Apache 2.0 di DeepSeek V4 è probabilmente più significativa dei suoi punteggi nei benchmark. Ecco cosa abilita:

Self-Hosting

Le organizzazioni con requisiti di sovranità dei dati possono eseguire V4 sulla propria infrastruttura. Nessuna chiamata API, nessun dato che esce dall'edificio, nessuna dipendenza dal fornitore. I ~37B di parametri attivi per token lo rendono eseguibile su cluster GPU aziendali di fascia alta.

Fine-Tuning

I pesi aperti consentono il fine-tuning specifico per il dominio — medico, legale, finanziario o qualsiasi settore specializzato. Questo è impossibile con i modelli proprietari di OpenAI o Anthropic.

Ricerca

I dettagli completi dell'architettura e la metodologia di training consentono alla comunità di ricerca di costruire sulle innovazioni di DeepSeek. La memoria Engram, la DSA e le Manifold-Constrained Hyper-Connections sono tutte disponibili per lo studio e il miglioramento.

Controllo dei costi

Oltre ai prezzi già bassi delle API di DeepSeek, il self-hosting su larga scala può ridurre ulteriormente i costi per token. Per applicazioni ad alto volume che elaborano miliardi di tokens mensilmente, il self-hosting di V4 può essere 100 volte più economico dei prezzi delle API proprietarie.

DeepSeek V4 vs. V3: Dovresti fare l'upgrade?

Per gli attuali utenti di DeepSeek V3, ecco il calcolo per l'upgrade:

Caratteristica	V3	V4	Impatto dell'upgrade
Context Window	128K	1M	Alto — consente l'analisi di interi codebase
SWE-Bench	69%	81%	Alto — miglioramento di 12 punti
Multimodale	Solo testo	Testo + Immagine + Video	Medio — dipende dal caso d'uso
Memoria Engram	No	Sì	Alto — recupero drasticamente migliore
Prezzo API	$0.27/M input	$0.30/M input	Basso — aumento minimo dei costi
Architettura	MoE	MoE + Engram + DSA	Alto — fondamentalmente migliore

Verdetto: Effettua l'upgrade. L'aumento dei costi è trascurabile e i miglioramenti delle capacità — specialmente la memoria Engram e la context window da un milione di tokens — sono sostanziali. L'unico motivo per rimanere su V3 è se si hanno carichi di lavoro in produzione che richiedono l'esatta coerenza comportamentale del modello attuale.

Come DeepSeek V4 si inserisce nell'ecosistema degli sviluppatori

Per sviluppatori indipendenti e startup

Il prezzo di V4 rende l'AI di classe frontier accessibile ai budget delle startup. Combinato con la licenza Apache 2.0, è possibile costruire e distribuire applicazioni di produzione senza preoccuparsi della scalabilità dei costi delle API. Strumenti come ZBuild che integrano più fornitori di modelli permettono di sfruttare il vantaggio di costo di DeepSeek V4 mantenendo l'opzione di indirizzare compiti specifici ad altri modelli quando necessario.

Per i team aziendali

L'opzione di self-hosting affronta contemporaneamente le preoccupazioni relative alla sovranità dei dati, alla compliance e ai costi. La capacità di fine-tuning significa che è possibile costruire modelli specifici per il dominio che superano le alternative generaliste nel proprio settore verticale.

Per i ricercatori

L'architettura aperta è una miniera d'oro. La sola memoria Engram apre molteplici direzioni di ricerca — architetture di memoria condizionale, ottimizzazione dell'allocazione della sparsità e sistemi ibridi di recupero-calcolo.

Per l'industria dell'AI

V4 mette pressione su ogni fornitore di modelli frontier affinché giustifichi i propri prezzi. Quando un modello open-source eguaglia o supera i benchmark proprietari a un costo 10 volte inferiore, la proposta di valore dei modelli chiusi si sposta da "migliori prestazioni" a "migliore integrazione, supporto e affidabilità".

Rischi e incertezze

Verifica dei benchmark

La rivendicazione dell'81% su SWE-Bench necessita di conferma indipendente. DeepSeek è stata affidabile con i benchmark di V3, ma i modelli da un trilione di parametri sono più difficili da valutare in modo coerente. Aspettate i risultati di Artificial Analysis e LMSYS prima di prendere decisioni infrastrutturali basate su numeri esatti.

Rischio geopolitico

DeepSeek è un'azienda cinese e le tensioni tecnologiche tra USA e Cina sono in corso. Controlli sulle esportazioni, restrizioni all'accesso alle API o pressioni politiche potrebbero influenzare la disponibilità per gli sviluppatori occidentali. Il self-hosting con i pesi aperti mitiga ma non elimina questo rischio.

Qualità multimodale

Le capacità multimodali sono l'aspetto meno testato di V4. La qualità della comprensione di immagini e video necessita di una validazione nel mondo reale al di là dei benchmark interni.

Supporto e affidabilità

Open-source significa supporto della community, non SLA aziendali. Se la tua applicazione di produzione dipende da V4, sei responsabile dell'uptime, dello scaling e del debugging. Il servizio API di DeepSeek è stato affidabile, ma non offre l'infrastruttura di supporto aziendale di OpenAI o Anthropic.

Il punto fondamentale

DeepSeek V4 è il modello AI open-source più importante rilasciato finora nel 2026. La sua combinazione di scala da un trilione di parametri, innovazione della memoria Engram, context window da un milione di tokens, capacità multimodali native e prezzi aggressivamente bassi sotto licenza Apache 2.0 lo rende una genuina alternativa ai modelli frontier proprietari.

Le avvertenze sono reali — la verifica dei benchmark è in corso, esistono rischi geopolitici e il supporto aziendale è limitato. Ma per gli sviluppatori e le organizzazioni disposti a navigare tra queste incertezze, V4 offre capacità di classe frontier a una frazione del costo.

Sia che vi accediate tramite l'API di DeepSeek, che lo ospitiate sulla vostra infrastruttura o lo utilizziate attraverso piattaforme come ZBuild che integrano più fornitori di modelli, DeepSeek V4 merita un posto nel vostro toolkit AI.

Domande frequenti

Posso ospitare DeepSeek V4 su hardware consumer?

Praticamente no. Sebbene il modello attivi solo ~37B di parametri per token, l'hosting del modello MoE completo da 1T di parametri richiede una memoria GPU significativa per le tabelle di routing degli esperti. Avrai bisogno di cluster GPU di livello aziendale (molteplici A100 o H100). Per la maggior parte degli sviluppatori, l'API di DeepSeek a $0.30/M input tokens è molto più conveniente del self-hosting, a meno che non si elaborino miliardi di tokens mensilmente.

In cosa differisce V4 Lite dal modello V4 completo?

DeepSeek V4 Lite è apparso sul sito web di DeepSeek il 9 marzo 2026, ma non sono state pubblicate specifiche ufficiali. Basandosi sui pattern di denominazione di DeepSeek con V3, "Lite" si riferisce probabilmente a una variante distillata o più piccola, ottimizzata per velocità e costo a scapito di alcune capacità. Aspettatevi che sia più veloce ed economico, ma con prestazioni ridotte su compiti di ragionamento complesso.

DeepSeek V4 è censurato su determinati argomenti?

Come tutti i modelli AI cinesi, DeepSeek V4 ha filtri per i contenuti relativi ad argomenti politicamente sensibili, in particolare quelli legati alla politica e alla governance cinese. Per lo sviluppo generale, il coding e i casi d'uso tecnici, il filtraggio ha un impatto minimo. Per applicazioni che coinvolgono contenuti politici sensibili o generazione senza restrizioni, questa è una considerazione legittima.

Quali linguaggi di programmazione gestisce meglio V4?

Sulla base dei risultati SWE-Bench (che testano principalmente Python, JavaScript e Java), V4 eccelle nei linguaggi principali. I report della community suggeriscono forti prestazioni in Python, JavaScript/TypeScript, Java, Go, Rust e C++. Linguaggi meno comuni come Haskell, Elixir o Zig hanno probabilmente un supporto più debole a causa della distribuzione dei dati di training.

Come si confronta DeepSeek V4 con Llama 4 per il self-hosting?

Entrambi sono open-source e disponibili sotto licenze permissive. L'architettura MoE di DeepSeek V4 con ~37B di parametri attivi per token offre migliori prestazioni per calcolo rispetto ai modelli densi. Il vantaggio di Llama 4 è il più grande ecosistema di Meta e il supporto della community. Per pura capacità per dollaro, V4 probabilmente vince. Per il tooling della community e l'ecosistema di fine-tuning, Llama potrebbe essere più accessibile.

Rilascio di DeepSeek V4: Specs, Benchmarks e tutto ciò che sappiamo sul modello Open-Source da 1T (2026)