Ključne ugotovitve
- 1 bilijon parametrov, 37B aktivnih: DeepSeek V4 uporablja Mixture-of-Experts architecture, ki aktivira le ~37B parametrov na token — s čimer ohranja stroške inference primerljive z V3 kljub 50% večjemu skupnemu številu parametrov.
- 81% SWE-Bench Verified: V4 osvaja krono benchmarkov za kodiranje — premagal je prejšnji rekord modela Claude Opus 4.5, ki je znašal 80.9%.
- Engram pomnilnik je arhitekturni preboj: nov sistem pogojnega pomnilnika, ki omogoča O(1) iskanje znanja, s čimer dosega 97% natančnost pri Needle-in-a-Haystack na lestvici milijon žetonov.
- 10x cenejši od zahodnih konkurentov: Pri ceni $0.30/M input tokens V4 močno spodkopava GPT-5.4 ($2.50) in Claude ($3-15) za cel red velikosti.
- Odprtokoden pod Apache 2.0: Celotne teže modela so na voljo za lokalno namestitev, fine-tuning in komercialno uporabo — edini model vrhunskega razreda s to stopnjo odprtosti.
DeepSeek V4: Odprtokodni model, ki na novo piše ekonomijo AI
DeepSeek je ponovno uspel. Potem ko je V3 dokazal, da lahko kitajski laboratorij zgradi modele vrhunskega razreda za delček stroškov zahodnih podjetij, V4 dviguje letvico na raven, ki zahteva pozornost vsakega razvijalca, startup podjetja in podjetja, ki sprejema odločitve o AI infrastrukturi.
En bilijon parametrov. Kontekst z milijonom žetonov. Izvorno multimodalen. 81% SWE-Bench Verified. In vse to odprtokodno pod licenco Apache 2.0 ob 10-40x nižjih stroških inference kot pri zahodnih konkurentih.
Ali te trditve v celoti vzdržijo neodvisen pregled, se še ugotavlja. Vendar arhitekturne inovacije — zlasti Engram pomnilnik — predstavljajo pristen napredek, ki bo vplival na načrtovanje modelov v celotni industriji, ne glede na vse.
Tukaj je vse, kar vemo do marca 2026.
Časovnica izdaje
Pot do izdaje DeepSeek V4 je bila razgibana, z več zamujenimi termini:
| Datum | Dogodek |
|---|---|
| Januar 2026 | Objavljen znanstveni članek o Engram — arhitektura pogojnega pomnilnika |
| Februar 2026 (začetek) | Prvotni cilj izdaje — zamujen |
| Februar 2026 (sredina) | Drugi termin izdaje — prav tako zamujen |
| Začetek marca 2026 | Lansiran celoten model V4 |
| 9. marec 2026 | "V4 Lite" se je pojavil na spletni strani DeepSeek |
| Marec 2026 (v teku) | Neodvisni benchmarki in potrditev skupnosti |
Zakasnitev je dejansko povečala pričakovanja. Do trenutka, ko je bil V4 lansiran, se je o članku o Engram že široko razpravljalo, pričakovanja pa so bila izjemno visoka.
Poglobljen pregled arhitekture
Mixture-of-Experts na ravni bilijona parametrov
DeepSeek V4 nadaljuje z arhitekturo MoE, zaradi katere je bil V3 tako učinkovit, vendar jo drastično povečuje:
| Metrika | DeepSeek V3 | DeepSeek V4 |
|---|---|---|
| Skupno število parametrov | 671B | ~1T |
| Aktivni parametri | ~37B | ~37B |
| Kontekstno okno | 128K | 1M |
| Arhitektura | MoE | MoE + Engram |
| Multimodalen | Samo besedilo | Besedilo + slika + video |
| Licenca | Apache 2.0 | Apache 2.0 |
Ključno spoznanje: skupno število parametrov se je povečalo za 50%, vendar so aktivni parametri na token ostali konstantni pri ~37B. To pomeni, da ima V4 dostop do veliko večjega znanja in zmogljivosti brez sorazmernega povečanja stroškov inference.
Engram: Revolucija pomnilnika
Engram je arhitekturno najpomembnejša inovacija v V4. Podrobno opisana v DeepSeek-ovem znanstvenem članku iz januarja 2026 ("Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"), rešuje temeljno omejitev arhitekture Transformers.
Problem: Tradicionalni Transformers obravnavajo vsak košček znanja na enak način — prek računanja. Ne glede na to, ali se mora model spomniti, da je "Pariz glavno mesto Francije" (statično dejstvo), ali razmišljati o zapletenem refaktoriranju kode (dinamično računanje), uporablja enak mehanizem pozornosti. To je potratno.
Rešitev Engram: Dodaja ločen sistem pomnilnika za statično, deterministično znanje. Namesto da bi odgovor na vprašanje "Kaj je glavno mesto Francije?" izračunal prek več plasti pozornosti, Engram omogoča O(1) deterministično iskanje — v bistvu naučeno hash tabelo za dejansko znanje.
Ključna ugotovitev — Sparsity Allocation Law: Raziskava DeepSeek je razkrila, da je pri določenem proračunu redkih parametrov optimalna delitev približno 20-25% pomnilnika (Engram) in 75-80% računanja (MoE). To razmerje maksimizira tako natančnost priklica kot sposobnost sklepanja.
Vpliv na zmogljivost: Engram dosega 97% natančnost pri Needle-in-a-Haystack na ravni milijona žetonov, s čimer rešuje problem degradacije priklica, ki pesti standardne arhitekture Transformer. Pri 1M žetonih natančnost priklica pri večini modelov pade pod 80%. V4 z Engram ohranja 97%.
DeepSeek Sparse Attention (DSA)
Poleg Engram V4 uvaja DeepSeek Sparse Attention — mehanizem pozornosti, ki dinamično dodeljuje izračune glede na kompleksnost vhoda. Preprosti odstavki dobijo lahko pozornost; zapleteni odstavki s sklepanjem dobijo polno globino pozornosti.
To je tisto, kar naredi kontekstno okno z milijonom žetonov praktično uporabno. Brez DSA bi bila obdelava 1M žetonov pretirano draga celo pri nizkih stroških DeepSeek. Z njim se večina kontekstnega okna obdela učinkovito, polna računska moč pa se prihrani za dele, ki jo potrebujejo.
Manifold-Constrained Hyper-Connections
Tretja arhitekturna inovacija je Manifold-Constrained Hyper-Connections — tehnika, ki izboljšuje pretok gradienta med treningom. Praktični rezultat je stabilnejši trening na ravni bilijona parametrov, kar delno pojasnjuje, kako je DeepSeek treniral V4 za delček stroškov zahodnih podjetij.
Analiza benchmarkov
Številke
| Benchmark | DeepSeek V4 | Claude Opus 4.5 | GPT-5.4 | Opombe |
|---|---|---|---|---|
| SWE-Bench Verified | 81% | 80.9% | ~82% | V4 premaga prejšnji rekord |
| HumanEval | 90% | ~88% | ~90% | Generiranje kode |
| Kontekst (NIAH) | 97% @ 1M | 95% @ 200K | 96% @ 1M | Prednost Engram |
| Multimodalen | Izvoren | N/A | Izvoren | Besedilo + slika + video |
Opozorilo: Neodvisno preverjanje
Pomembno je opozoriti, da do konca marca 2026 mnoge od teh številk prihajajo iz notranjih benchmarkov. Dokler neodvisne ocene organizacij, kot so Artificial Analysis, LMSYS ali neodvisni raziskovalci, v celoti ne potrdijo trditev, obravnavajte točne odstotke kot ambiciozne in ne dokončne.
Kljub temu so bili benchmarki za V3 v veliki meri potrjeni z neodvisnim testiranjem, kar daje DeepSeek verodostojnost, da so te številke za V4 v pravem območju.
Cene: Revolucija stroškov se nadaljuje
Cene za DeepSeek V4 so njegova najbolj disruptivna lastnost:
| Model | Cena vhoda (na M žetonov) | Cena izhoda (na M žetonov) | Cena Cache Hit |
|---|---|---|---|
| DeepSeek V4 | $0.30 | $0.50 | $0.03 |
| GPT-5.4 | $2.50 | $15.00 | N/A |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 |
| Claude Opus 4.6 | $15.00 | $75.00 | $1.50 |
Cena za Cache Hit je še posebej prepričljiva: če vaši prompti delijo skupno predpono (kar se v produkcijskih aplikacijah skoraj vedno zgodi), stanejo predpomnjeni vhodni žetoni le $0.03 na milijon — kar je 90% popust.
Kaj to pomeni v praksi
Za tipičnega razvijalca aplikacij, ki obdela 100M žetonov na mesec:
| Ponudnik | Mesečni strošek |
|---|---|
| DeepSeek V4 | ~$40-80 |
| GPT-5.4 | ~$500-1,500 |
| Claude Sonnet 4.6 | ~$600-1,800 |
| Claude Opus 4.6 | ~$3,000-9,000 |
Ta 10-40x prednost v stroških je razlog, zakaj je DeepSeek pomemben za širši AI ekosistem. Omogoča dostop do AI vrhunskega razreda neodvisnim razvijalcem, majhnim startupom in podjetniškim ekipam, ki so občutljive na stroške.
Platforme, kot je ZBuild, lahko integrirajo DeepSeek V4 kot možnost zalednega modela in te drastične prihranke neposredno prenesejo na uporabnike, ki gradijo aplikacije na pogon AI.
Izvorni multimodalen model: Besedilo, slika in video
Za razliko od V3 (samo besedilo) je V4 izvorno multimodalen. Kot je poročal Financial Times, V4 integrira generiranje besedila, slik in videa že med pred-treningom, namesto da bi vid dodali kot ločen modul.
To je pomembno, ker:
- Medmodalno sklepanje je bolj koherentno — model izvorno razume odnose med besedilnimi opisi in vizualno vsebino.
- Razumevanje slik in videa — V4 lahko analizira posnetke zaslona, diagrame in video sličice vzporedno z besedilom.
- Zmogljivosti generiranja — zgodnja poročila nakazujejo generiranje besedila v sliko in besedila v video, čeprav se ocene kakovosti še pojavljajo.
Za razvijalce, ki gradijo aplikacije za obdelavo vizualne vsebine — analizo dokumentov, oblikovanje UI, povzemanje videov — izvorna multimodna podpora odpravlja potrebo po ločenih API za vid.
Praktični primeri multimodalne uporabe
Izvorna multimodna integracija odpira več praktičnih delovnih tokov:
- Koda iz posnetkov zaslona: Predložite posnetek zaslona UI dizajna in V4 generira ustrezno kodo — HTML/CSS, React komponente ali SwiftUI poglede.
- Razumevanje diagramov: Vstavite diagrame arhitekture, diagrame poteka ali sheme baz podatkov in V4 pojasni dizajn, prepozna težave ali generira implementacijsko kodo.
- Obdelava dokumentov: Ekstrakcija strukturiranih podatkov iz skeniranih dokumentov, računov in obrazcev brez ločenega OCR cevovoda.
- Povzemanje videov: Obdelava video sličic za generiranje povzetkov, transkriptov ali poudarjanje ključnih trenutkov.
Za graditelje aplikacij, kot je ZBuild, izvorni multimodni model pomeni, da lahko uporabniki naložijo načrte in posnetke zaslona neposredno kot del delovnega toka ustvarjanja aplikacij — AI razume vizualni kontekst brez dodatnih orodij.
Vpliv odprte kode
Licenca Apache 2.0 za DeepSeek V4 je verjetno pomembnejša od njegovih rezultatov na benchmarkih. Tukaj je tisto, kar omogoča:
Samostojno gostovanje
Organizacije z zahtevami po suverenosti podatkov lahko poganjajo V4 na lastni infrastrukturi. Brez klicev API, brez odhajanja podatkov iz podjetja, brez odvisnosti od prodajalca. ~37B aktivnih parametrov na žeton omogoča poganjanje na visoko zmogljivih podjetniških GPU grozdih.
Fine-Tuning
Odprte teže omogočajo fino prilagajanje za specifične domene — medicino, pravo, finance ali katero koli specializirano vertikalo. To je nemogoče pri lastniških modelih podjetij OpenAI ali Anthropic.
Raziskave
Popolne podrobnosti o arhitekturi in metodologija treninga omogočajo raziskovalni skupnosti, da gradi na inovacijah DeepSeek. Engram pomnilnik, DSA in Manifold-Constrained Hyper-Connections so vsi na voljo za preučevanje in izboljšave.
Nadzor stroškov
Poleg že tako nizkih cen API podjetja DeepSeek lahko samostojno gostovanje v velikem obsegu še dodatno zniža stroške na žeton. Za aplikacije z velikim obsegom, ki mesečno obdelajo milijarde žetonov, je lahko samostojno gostovanje V4 100x cenejše od lastniških API cen.
DeepSeek V4 proti V3: Ali naj nadgradite?
Za obstoječe uporabnike DeepSeek V3 je tukaj izračun za nadgradnjo:
| Funkcija | V3 | V4 | Vpliv nadgradnje |
|---|---|---|---|
| Kontekstno okno | 128K | 1M | Visok — omogoča analizo celotne kode |
| SWE-Bench | 69% | 81% | Visok — izboljšanje za 12 točk |
| Multimodalen | Samo besedilo | Besedilo + slika + video | Srednji — odvisno od primera uporabe |
| Engram pomnilnik | Ne | Da | Visok — drastično boljši priklic |
| API cena | $0.27/M vhoda | $0.30/M vhoda | Nizek — minimalno povečanje stroškov |
| Arhitektura | MoE | MoE + Engram + DSA | Visok — temeljne izboljšave |
Razsodba: Nadgradite. Povečanje stroškov je zanemarljivo, izboljšave zmogljivosti — zlasti Engram pomnilnik in kontekst z milijonom žetonov — pa so precejšnje. Edini razlog za ostanek na V3 je, če imate produkcijske delovne obremenitve, ki zahtevajo natančno vedenjsko konsistenco vašega trenutnega modela.
Kako se DeepSeek V4 vklaplja v razvijalski ekosistem
Za neodvisne razvijalce in startupe
Cene V4 omogočajo dostop do AI vrhunskega razreda znotraj proračunov startupov. V kombinaciji z licenco Apache 2.0 lahko gradite in uvajate produkcijske aplikacije brez skrbi glede skaliranja stroškov API. Orodja, kot je ZBuild, ki integrirajo več ponudnikov modelov, vam omogočajo, da izkoristite stroškovno prednost DeepSeek V4, hkrati pa ohranite možnost preusmerjanja določenih nalog na druge modele, ko je to potrebno.
Za podjetniške ekipe
Možnost samostojnega gostovanja hkrati rešuje vprašanja suverenosti podatkov, skladnosti in stroškov. Zmožnost fine-tuninga pomeni, da lahko zgradite domensko specifične modele, ki prekašajo splošne alternative v vaši specifični vertikali.
Za raziskovalce
Odprta arhitektura je zakladnica. Samo Engram pomnilnik odpira več raziskovalnih smeri — arhitekture pogojnega pomnilnika, optimizacijo dodeljevanja redkosti in hibridne sisteme za priklic in računanje.
Za AI industrijo
V4 izvaja pritisk na vsakega ponudnika vrhunskih modelov, da upraviči svoje cene. Ko odprtokodni model doseže ali preseže lastniške benchmarke ob 10x nižjih stroških, se vrednost zaprtih modelov premakne z "boljše zmogljivosti" na "boljšo integracijo, podporo in zanesljivost."
Tveganja in negotovosti
Potrditev benchmarkov
Trditev o 81% na SWE-Bench potrebuje neodvisno potrditev. DeepSeek je bil zaupanja vreden pri benchmarkih za V3, vendar je modele z bilijonom parametrov težje dosledno oceniti. Počakajte na rezultate Artificial Analysis in LMSYS, preden sprejmete infrastrukturne odločitve na podlagi točnih številk.
Geopolitično tveganje
DeepSeek je kitajsko podjetje, tehnološke napetosti med ZDA in Kitajsko pa se nadaljujejo. Nadzor izvoza, omejitve dostopa do API ali politični pritiski bi lahko vplivali na razpoložljivost za zahodne razvijalce. Samostojno gostovanje z odprtimi težami to tveganje ublaži, vendar ga ne odpravi.
Kakovost multimodnega delovanja
Multimodne zmogljivosti so najmanj preizkušen vidik V4. Kakovost razumevanja slik in videa potrebuje potrditev v resničnem svetu onkraj notranjih benchmarkov.
Podpora in zanesljivost
Odprta koda pomeni podporo skupnosti, ne podjetniških SLA. Če je vaša produkcijska aplikacija odvisna od V4, ste sami odgovorni za čas delovanja, skaliranje in odpravljanje napak. Storitev API podjetja DeepSeek je bila zanesljiva, vendar ne ponuja podjetniške podporne infrastrukture, kot sta OpenAI ali Anthropic.
Bistvo
DeepSeek V4 je najpomembnejši odprtokodni AI model, izdan v letu 2026 do zdaj. Njegova kombinacija bilijona parametrov, inovacije Engram pomnilnika, konteksta z milijonom žetonov, izvornih multimodnih zmogljivosti in agresivno nizkih cen pod licenco Apache 2.0 ga postavlja kot resnično alternativo lastniškim vrhunskim modelom.
Opozorila so resnična — preverjanje benchmarkov še poteka, geopolitična tveganja obstajajo in podjetniška podpora je omejena. Toda za razvijalce in organizacije, ki so pripravljeni krmariti med temi negotovostmi, V4 ponuja zmogljivosti vrhunskega razreda za delček cene.
Ne glede na to, ali do njega dostopate prek DeepSeek API, ga gostite sami na svoji infrastrukturi ali ga uporabljate prek platform, kot je ZBuild, ki integrirajo več ponudnikov modelov, si DeepSeek V4 zasluži mesto v vašem AI naboru orodij.
Pogosta vprašanja
Ali lahko DeepSeek V4 gostim sam na potrošniški strojni opremi?
V praksi ne. Čeprav model aktivira le ~37B parametrov na žeton, gostovanje celotnega 1T parametrov MoE modela zahteva precejšen GPU pomnilnik za tabele usmerjanja ekspertov. Potrebovali boste podjetniške GPU grozde (več A100 ali H100). Za večino razvijalcev je DeepSeek API pri ceni $0.30/M vhodnih žetonov veliko bolj stroškovno učinkovit kot samostojno gostovanje, razen če mesečno obdelujete milijarde žetonov.
Kako se V4 Lite razlikuje od celotnega modela V4?
DeepSeek V4 Lite se je pojavil na spletni strani DeepSeek 9. marca 2026, vendar uradne specifikacije še niso bile objavljene. Glede na vzorce poimenovanja DeepSeek pri V3 se "Lite" verjetno nanaša na destilirano ali manjšo različico, optimizirano za hitrost in stroške na račun določenih zmogljivosti. Pričakujte, da bo hitrejši in cenejši, vendar z zmanjšano zmogljivostjo pri zapletenih nalogah sklepanja.
Ali je DeepSeek V4 cenzuriran za določene teme?
Kot vsi kitajski AI modeli ima tudi DeepSeek V4 filtriranje vsebine za politično občutljive teme, zlasti tiste, povezane s kitajsko politiko in upravljanjem. Za splošni razvoj, kodiranje in tehnične primere uporabe ima filtriranje minimalen vpliv. Za aplikacije, ki vključujejo občutljivo politično vsebino ali neomejeno generiranje, je to upravičen premislek.
Katere programski jezike V4 najbolje obvladuje?
Glede na rezultate SWE-Bench (ki primarno testirajo Python, JavaScript in Java), V4 blesti v mainstream jezikih. Poročila skupnosti nakazujejo močno zmogljivost v jezikih Python, JavaScript/TypeScript, Java, Go, Rust in C++. Manj pogosti jeziki, kot so Haskell, Elixir ali Zig, imajo verjetno šibkejšo podporo zaradi porazdelitve podatkov za trening.
Kako se DeepSeek V4 primerja z Llama 4 za samostojno gostovanje?
Oba sta odprtokodna in na voljo pod permisivnimi licencami. DeepSeek V4 s svojo MoE arhitekturo s ~37B aktivnimi parametri na žeton ponuja boljšo zmogljivost na enoto izračuna kot gosti (dense) modeli. Prednost Llama 4 je večji ekosistem Meta in podpora skupnosti. Za čisto zmogljivost na dolar verjetno zmaga V4. Za orodja skupnosti in ekosistem fine-tuninga pa je Llama morda bolj dostopna.
Viri
- DeepSeek V4: Engram Architecture Revealed
- DeepSeek V4: What's Next — Architecture, DSA, Engram & More
- Introl: DeepSeek V4's 1-Trillion Parameter Architecture
- ByteIota: DeepSeek V4 Targets 80.9% SWE-Bench Record
- CyberNews: DeepSeek V4 Review
- Evolink: DeepSeek V4 Release Date
- PromptZone: DeepSeek V4 Status Report March 2026
- VERTU: DeepSeek V4 Engram Architecture
- Kili Technology: DeepSeek V4 Guide
- Evermx: DeepSeek V4 Multimodal Launch
- RecodeChina: DeepSeek's Next Move
- DeepSeek V4 Status and Leaks