A fost lansat DeepSeek V4?

DeepSeek V4 a fost lansat la începutul lunii martie 2026, cu o variantă 'V4 Lite' apărută pe 9 martie. Modelul complet obține un scor de 81% pe SWE-Bench Verified și costă $0.30 per milion de token-uri de intrare — de aproximativ 10 ori mai ieftin decât modelele frontier concurente. Greutățile (weights) sunt disponibile sub licența Apache 2.0.

Câți parametri are DeepSeek V4?

DeepSeek V4 are aproximativ 1 trilion de parametri în total folosind o arhitectură Mixture-of-Experts (MoE), dar activează doar ~37 de miliarde per token. Aceasta reprezintă cu aproximativ 50% mai mulți parametri totali decât cei 671 de miliarde ai V3, menținând în același timp costuri de inferență comparabile.

Ce este sistemul de memorie Engram al DeepSeek?

Engram este o arhitectură de memorie condiționată introdusă în lucrarea DeepSeek din ianuarie 2026. Aceasta oferă o căutare deterministă a cunoștințelor O(1) pentru modele statice, cum ar fi numele entităților, obținând o precizie de 97% la Needle-in-a-Haystack la o scară de un milion de token-uri. Împărțirea optimă a parametrilor este de 20-25% memorie Engram și 75-80% calcul MoE.

Cum se compară DeepSeek V4 cu GPT-5.4 și Claude Opus 4.6?

DeepSeek V4 obține 81% pe SWE-Bench Verified (față de recordul de 80.9% al Claude Opus 4.5), suportă un context de 1M token-uri și este nativ multimodal. Avantajul său cheie este costul: $0.30/M token-uri de intrare față de $2.50 pentru GPT-5.4 și $15.00 pentru Opus 4.6. Este open-source sub Apache 2.0, în timp ce concurenții sunt proprietari.

Este DeepSeek V4 open source?

Da. Greutățile modelului DeepSeek V4 sunt lansate sub licența Apache 2.0, făcându-l disponibil gratuit pentru implementare locală, fine-tuning și utilizare comercială fără restricții. Acest lucru continuă tradiția open-source a DeepSeek începută cu V3.

Concluzii Cheie

1 trilion de parametri, 37B activi: DeepSeek V4 utilizează o arhitectură Mixture-of-Experts care activează doar ~37B parametri per token — menținând costurile de inference comparabile cu V3, în ciuda unui număr total de parametri cu 50% mai mare.
81% SWE-Bench Verified: V4 revendică coroana benchmark-urilor de programare — depășind recordul anterior al Claude Opus 4.5 de 80.9%.
Memoria Engram este progresul arhitectural major: Un nou sistem de memorie condiționată care oferă căutare de cunoștințe O(1), obținând o acuratețe de 97% la testul Needle-in-a-Haystack la o scară de un milion de tokens.
De 10 ori mai ieftin decât competitorii occidentali: La $0.30/M tokens de input, V4 reduce prețul față de GPT-5.4 ($2.50) și Claude ($3-15) cu un ordin de mărime.
Open-source sub licența Apache 2.0: Ponderile complete ale modelului sunt disponibile pentru implementare locală, fine-tuning și utilizare comercială — singurul model frontier-class cu acest nivel de deschidere.

DeepSeek V4: Modelul Open-Source care rescrie economia AI

DeepSeek a reușit din nou. După ce V3 a demonstrat că un laborator chinez poate construi modele frontier-class la o fracțiune din costurile occidentale, V4 ridică miza la un nivel care cere atenția fiecărui dezvoltator, startup și întreprindere care ia decizii privind infrastructura AI.

Un trilion de parametri. Context de un milion de tokens. Multimodal nativ. 81% SWE-Bench Verified. Și totul este open-source sub Apache 2.0, cu costuri de inference de 10-40 de ori mai mici decât ale competitorilor occidentali.

Rămâne de stabilit dacă aceste afirmații se vor confirma pe deplin sub o examinare independentă. Dar inovațiile arhitecturale — în special memoria Engram — reprezintă progrese autentice care vor influența designul modelelor în întreaga industrie, indiferent de rezultat.

Iată tot ce știm până în martie 2026.

Calendarul lansării

Drumul DeepSeek V4 către lansare a fost anevoios, cu mai multe ferestre de timp amânate:

Dată	Eveniment
Ianuarie 2026	Lucrarea Engram publicată — arhitectura de memorie condiționată
Februarie 2026 (început)	Obiectivul inițial de lansare — ratat
Februarie 2026 (mijloc)	A doua fereastră de lansare — de asemenea ratată
Începutul lunii martie 2026	Lansarea modelului complet V4
9 martie 2026	„V4 Lite” a apărut pe site-ul DeepSeek
Martie 2026 (în desfășurare)	Benchmarking independent și validarea comunității

Calendarul întârziat a crescut, de fapt, anticiparea. Până la lansarea V4, lucrarea Engram fusese deja discutată pe scară largă, iar așteptările erau extrem de mari.

Analiză aprofundată a arhitecturii

Mixture-of-Experts la scara de trilioane

DeepSeek V4 continuă arhitectura MoE care a făcut V3 atât de eficient, dar o scalează dramatic:

Metrică	DeepSeek V3	DeepSeek V4
Parametri totali	671B	~1T
Parametri activi	~37B	~37B
Fereastra de context	128K	1M
Arhitectură	MoE	MoE + Engram
Multimodal	Doar text	Text + Imagine + Video
Licență	Apache 2.0	Apache 2.0

Ideea cheie: totalul parametrilor a crescut cu 50%, dar parametrii activi per token au rămas constanți la ~37B. Acest lucru înseamnă că V4 are acces la mult mai multe cunoștințe și capacități fără a crește proporțional costurile de inference.

Engram: Revoluția memoriei

Engram este cea mai semnificativă inovație arhitecturală din V4. Detaliată în lucrarea DeepSeek din ianuarie 2026 („Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”), aceasta abordează o limitare fundamentală a modelelor Transformers.

Problema: Modelele Transformers tradiționale tratează fiecare informație în același mod — prin calcul. Indiferent dacă modelul trebuie să-și amintească faptul că „Parisul este capitala Franței” (un fapt static) sau să raționeze despre un refactor de cod complex (calcul dinamic), acesta folosește același mecanism de attention. Acest lucru este ineficient.

Soluția Engram: Adăugarea unui sistem de memorie separat pentru cunoștințe statice, deterministe. În loc să calculeze răspunsul la „Care este capitala Franței?” prin multiple straturi de attention, Engram oferă căutare deterministă O(1) — în esență, un hash table învățat pentru cunoștințe factuale.

Descoperirea cheie — Legea Alocării Sparsity: Cercetările DeepSeek au dezvăluit că, sub un buget fix de parametri sparși, împărțirea optimă este de aproximativ 20-25% memorie (Engram) și 75-80% calcul (MoE). Acest raport maximizează atât acuratețea reamintirii, cât și capacitatea de raționament.

Impactul asupra performanței: Engram obține o acuratețe de 97% la testul Needle-in-a-Haystack la o scară a contextului de un milion de tokens, rezolvând problema degradării recuperării care afectează arhitecturile Transformer standard. La 1M tokens, acuratețea recuperării majorității modelelor scade sub 80%. V4 cu Engram menține 97%.

DeepSeek Sparse Attention (DSA)

Dincolo de Engram, V4 introduce DeepSeek Sparse Attention — un mecanism de attention care alocă dinamic puterea de calcul pe baza complexității input-ului. Pasajele simple primesc un attention ușor; pasajele cu raționament complex primesc întreaga profunzime de attention.

Acest lucru face ca fereastra de context de un milion de tokens să fie practică. Fără DSA, procesarea a 1M tokens ar fi prohibitiv de scumpă, chiar și la costurile scăzute ale DeepSeek. Cu DSA, cea mai mare parte a ferestrei de context este procesată eficient, calculul complet fiind rezervat părților care au nevoie de el.

Manifold-Constrained Hyper-Connections

A treia inovație arhitecturală este reprezentată de Manifold-Constrained Hyper-Connections — o tehnică ce îmbunătățește fluxul de gradient în timpul antrenării. Rezultatul practic este o antrenare mai stabilă la scara de trilioane de parametri, ceea ce explică parțial modul în care DeepSeek a antrenat V4 la o fracțiune din costurile occidentale.

Analiza benchmark-urilor

Cifrele

Benchmark	DeepSeek V4	Claude Opus 4.5	GPT-5.4	Note
SWE-Bench Verified	81%	80.9%	~82%	V4 depășește recordul anterior
HumanEval	90%	~88%	~90%	Generare de cod
Context (NIAH)	97% @ 1M	95% @ 200K	96% @ 1M	Avantajul Engram
Multimodal	Nativ	N/A	Nativ	Text + Imagine + Video

Notă: Verificarea independentă

Este important de menționat că, la sfârșitul lunii martie 2026, multe dintre aceste cifre provin din benchmark-uri interne. Până când evaluările de la terți din partea unor organizații precum Artificial Analysis, LMSYS sau cercetători independenți confirmă pe deplin afirmațiile, tratați procentele exacte ca fiind aspiraționale, mai degrabă decât definitive.

Acestea fiind spuse, benchmark-urile V3 au fost confirmate în mare parte prin teste independente, oferind DeepSeek credibilitatea că aceste cifre pentru V4 sunt în zona corectă.

Prețuri: Revoluția costurilor continuă

Prețurile DeepSeek V4 reprezintă caracteristica sa cea mai perturbatoare:

Model	Preț Input (per M tokens)	Preț Output (per M tokens)	Preț Cache Hit
DeepSeek V4	$0.30	$0.50	$0.03
GPT-5.4	$2.50	$15.00	N/A
Claude Sonnet 4.6	$3.00	$15.00	$0.30
Claude Opus 4.6	$15.00	$75.00	$1.50

Prețul pentru cache hit este deosebit de atractiv: dacă prompt-urile tale partajează un prefix comun (ceea ce se întâmplă aproape întotdeauna în aplicațiile de producție), tokens de input stocați în cache costă doar $0.03 per milion — o reducere de 90%.

Ce înseamnă acest lucru în practică

Pentru un dezvoltator tipic de aplicații care procesează 100M tokens pe lună:

Furnizor	Cost lunar
DeepSeek V4	~$40-80
GPT-5.4	~$500-1,500
Claude Sonnet 4.6	~$600-1,800
Claude Opus 4.6	~$3,000-9,000

Acest avantaj de cost de 10-40 de ori este motivul pentru care DeepSeek contează pentru ecosistemul AI extins. Face ca AI-ul frontier-class să fie accesibil pentru dezvoltatorii independenți, startup-urile mici și echipele de întreprindere sensibile la costuri.

Platforme precum ZBuild pot integra DeepSeek V4 ca opțiune de model backend, oferind aceste economii dramatice direct utilizatorilor care construiesc aplicații bazate pe AI.

Multimodal nativ: Text, Imagine și Video

Spre deosebire de V3 (doar text), V4 este multimodal nativ. După cum a raportat Financial Times, V4 integrează generarea de text, imagine și video în timpul pre-antrenării, în loc să adauge viziunea ca un modul separat.

Acest lucru este important deoarece:

Raționamentul cross-modal este mai coerent — modelul înțelege relațiile dintre descrierile textuale și conținutul vizual în mod nativ
Înțelegerea imaginilor și a clipurilor video — V4 poate analiza capturi de ecran, diagrame și cadre video alături de text
Capacități de generare — primele rapoarte sugerează generarea text-to-image și text-to-video, deși evaluările calitative sunt încă la început

Pentru dezvoltatorii care construiesc aplicații ce procesează conținut vizual — analiză de documente, design UI, rezumat video — suportul multimodal nativ elimină necesitatea unor API-uri de viziune separate.

Cazuri de utilizare practică multimodală

Integrarea multimodală nativă deschide mai multe fluxuri de lucru practice:

Cod din capturi de ecran: Oferă o captură de ecran a unui design UI, iar V4 generează codul corespunzător — HTML/CSS, componente React sau vizualizări SwiftUI
Înțelegerea diagramelor: Introdu diagrame de arhitectură, flowcharts sau scheme de baze de date, iar V4 explică designul, identifică problemele sau generează cod de implementare
Procesarea documentelor: Extrage date structurate din documente scanate, facturi și formulare fără un pipeline OCR separat
Rezumat video: Procesează cadre video pentru a genera rezumate, transcrieri sau pentru a evidenția momentele cheie

Pentru constructorii de aplicații precum ZBuild, multimodalul nativ înseamnă că utilizatorii pot încărca machete și capturi de ecran direct ca parte a fluxului de creare a aplicației — AI-ul înțelege contextul vizual fără instrumente suplimentare.

Impactul Open-Source

Licența Apache 2.0 a DeepSeek V4 este, probabil, mai semnificativă decât scorurile sale de benchmark. Iată ce permite aceasta:

Găzduire proprie (Self-Hosting)

Organizațiile cu cerințe de suveranitate a datelor pot rula V4 pe propria infrastructură. Fără apeluri API, fără date care părăsesc clădirea, fără dependență de furnizor. Cei ~37B parametri activi per token îl fac rulabil pe clustere GPU enterprise high-end.

Fine-Tuning

Ponderile deschise permit fine-tuning specific domeniului — medical, juridic, financiar sau orice verticală specializată. Acest lucru este imposibil cu modelele proprietare de la OpenAI sau Anthropic.

Cercetare

Detaliile complete ale arhitecturii și metodologia de antrenare permit comunității de cercetare să construiască pe baza inovațiilor DeepSeek. Memoria Engram, DSA și Manifold-Constrained Hyper-Connections sunt toate disponibile pentru studiu și îmbunătățire.

Controlul costurilor

Chiar și dincolo de prețurile API deja scăzute ale DeepSeek, găzduirea proprie la scară mare poate reduce și mai mult costurile per token. Pentru aplicațiile cu volum mare care procesează miliarde de tokens lunar, găzduirea proprie a V4 poate fi de 100 de ori mai ieftină decât prețurile API proprietare.

DeepSeek V4 vs. V3: Ar trebui să faci upgrade?

Pentru utilizatorii actuali de DeepSeek V3, iată calculul pentru upgrade:

Caracteristică	V3	V4	Impactul Upgrade-ului
Fereastra de context	128K	1M	Ridicat — permite analiza codului la nivel de întreg proiect
SWE-Bench	69%	81%	Ridicat — îmbunătățire de 12 puncte
Multimodal	Doar text	Text + Imagine + Video	Mediu — depinde de cazul de utilizare
Memorie Engram	Nu	Da	Ridicat — recuperare dramatic mai bună
Preț API	$0.27/M input	$0.30/M input	Scăzut — creștere minimă a costurilor
Arhitectură	MoE	MoE + Engram + DSA	Ridicat — fundamental mai bun

Verdict: Upgrade. Creșterea costului este neglijabilă, iar îmbunătățirile capacităților — în special memoria Engram și fereastra de context de un milion de tokens — sunt substanțiale. Singurul motiv pentru a rămâne pe V3 este dacă ai sarcini de lucru în producție care necesită consistența comportamentală exactă a modelului tău actual.

Cum se integrează DeepSeek V4 în ecosistemul dezvoltatorilor

Pentru dezvoltatorii independenți și startup-uri

Prețurile V4 fac AI-ul frontier-class accesibil chiar și pentru bugetele de startup. Combinat cu licențierea Apache 2.0, poți construi și implementa aplicații de producție fără să îți faci griji cu privire la scalarea costurilor API. Instrumente precum ZBuild, care integrează mai mulți furnizori de modele, îți permit să profiți de avantajul de cost al DeepSeek V4 menținând în același timp opțiunea de a direcționa sarcini specifice către alte modele atunci când este necesar.

Pentru echipele de întreprindere

Opțiunea de găzduire proprie abordează simultan preocupările legate de suveranitatea datelor, conformitate și costuri. Capacitatea de fine-tuning înseamnă că poți construi modele specifice domeniului care depășesc alternativele de uz general în verticala ta specifică.

Pentru cercetători

Arhitectura deschisă este o mină de aur. Numai memoria Engram deschide multiple direcții de cercetare — arhitecturi de memorie condiționată, optimizarea alocării sparsity și sisteme hibride de recuperare-calcul.

Pentru industria AI

V4 pune presiune pe fiecare furnizor de modele frontier pentru a-și justifica prețurile. Atunci când un model open-source egalează sau depășește benchmark-urile proprietare la un cost de 10 ori mai mic, propunerea de valoare a modelelor închise se mută de la „performanță mai bună” la „integrare, suport și fiabilitate mai bune.”

Riscuri și incertitudini

Verificarea benchmark-urilor

Afirmația de 81% pe SWE-Bench are nevoie de confirmare independentă. DeepSeek a fost de încredere în privința benchmark-urilor V3, dar modelele de un trilion de parametri sunt mai greu de evaluat constant. Așteptați rezultatele de la Artificial Analysis și LMSYS înainte de a lua decizii de infrastructură bazate pe cifre exacte.

Risc geopolitic

DeepSeek este o companie chineză, iar tensiunile tehnologice SUA-China sunt în desfășurare. Controalele la export, restricțiile de acces la API sau presiunea politică ar putea afecta disponibilitatea pentru dezvoltatorii occidentali. Găzduirea proprie cu ponderi deschise atenuează, dar nu elimină acest risc.

Calitatea multimodală

Capacitățile multimodale sunt aspectul cel mai puțin testat al V4. Calitatea înțelegerii imaginilor și a videoclipurilor are nevoie de validare în lumea reală, dincolo de benchmark-urile interne.

Suport și fiabilitate

Open-source înseamnă suport din partea comunității, nu SLA-uri de tip enterprise. Dacă aplicația ta de producție depinde de V4, ești responsabil pentru uptime, scalare și depanare. Serviciul API al DeepSeek a fost fiabil, dar nu oferă infrastructura de suport enterprise a OpenAI sau Anthropic.

Concluzia

DeepSeek V4 este cel mai important model AI open-source lansat în 2026 până acum. Combinația sa de scară de un trilion de parametri, inovația memoriei Engram, fereastra de context de un milion de tokens, capacitățile multimodale native și prețurile agresiv de mici sub o licență Apache 2.0 îl fac o alternativă autentică la modelele frontier proprietare.

Avertismentele sunt reale — verificarea benchmark-urilor este în curs, există riscuri geopolitice, iar suportul enterprise este limitat. Dar pentru dezvoltatorii și organizațiile dispuse să navigheze printre aceste incertitudini, V4 oferă capacități frontier-class la o fracțiune din cost.

Fie că îl accesezi prin API-ul DeepSeek, îl găzduiești pe propria infrastructură sau îl folosești prin platforme precum ZBuild care integrează mai mulți furnizori de modele, DeepSeek V4 merită un loc în trusa ta de instrumente AI.

Întrebări frecvente

Pot găzdui DeepSeek V4 pe hardware de larg consum?

Nu în mod practic. Deși modelul activează doar ~37B parametri per token, găzduirea modelului MoE complet de 1T parametri necesită o memorie GPU semnificativă pentru tabelele de rutare ale experților. Vei avea nevoie de clustere GPU de nivel enterprise (mai multe A100 sau H100). Pentru majoritatea dezvoltatorilor, API-ul DeepSeek la $0.30/M tokens de input este mult mai rentabil decât găzduirea proprie, cu excepția cazului în care procesezi miliarde de tokens lunar.

Cum diferă V4 Lite de modelul V4 complet?

DeepSeek V4 Lite a apărut pe site-ul DeepSeek pe 9 martie 2026, dar nu au fost publicate specificații oficiale. Pe baza modelelor de denumire ale DeepSeek pentru V3, „Lite” se referă probabil la o variantă distilată sau mai mică, optimizată pentru viteză și cost, în detrimentul unor capacități. Așteaptă-te să fie mai rapid și mai ieftin, dar cu performanțe reduse în sarcinile de raționament complex.

Este DeepSeek V4 cenzurat pentru anumite subiecte?

Ca toate modelele AI chinezești, DeepSeek V4 are filtrare de conținut pentru subiecte sensibile politic, în special cele legate de politica și guvernanța chineză. Pentru dezvoltarea generală, programare și cazuri de utilizare tehnică, filtrarea are un impact minim. Pentru aplicațiile care implică conținut politic sensibil sau generare nerestricționată, aceasta este o considerație legitimă.

Ce limbaje de programare gestionează V4 cel mai bine?

Pe baza rezultatelor SWE-Bench (care testează în principal Python, JavaScript și Java), V4 excelează în limbajele principale. Rapoartele comunității sugerează performanțe solide în Python, JavaScript/TypeScript, Java, Go, Rust și C++. Limbajele mai puțin comune, cum ar fi Haskell, Elixir sau Zig, au probabil un suport mai slab din cauza distribuției datelor de antrenare.

Cum se compară DeepSeek V4 cu Llama 4 pentru găzduirea proprie?

Ambele sunt open-source și disponibile sub licențe permisive. Arhitectura MoE a DeepSeek V4 cu ~37B parametri activi per token oferă o performanță mai bună per calcul decât modelele dense. Avantajul Llama 4 este ecosistemul mai mare al Meta și suportul comunității. Pentru capacitate pură per dolar, V4 probabil câștigă. Pentru instrumentele comunității și ecosistemul de fine-tuning, Llama ar putea fi mai accesibil.

Lansarea DeepSeek V4: Specificații, Benchmark-uri și tot ce știm despre modelul open-source de 1T (2026)