Poin Penting
- 1 triliun parameter, 37B aktif: DeepSeek V4 menggunakan arsitektur Mixture-of-Experts yang mengaktifkan hanya ~37B parameter per token — menjaga biaya inference tetap sebanding dengan V3 meskipun memiliki total parameter 50% lebih banyak.
- 81% SWE-Bench Verified: V4 mengklaim mahkota benchmark coding — mengalahkan rekor sebelumnya dari Claude Opus 4.5 sebesar 80.9%.
- Memori Engram adalah terobosan arsitektur: Sebuah sistem memori kondisional baru yang menyediakan lookup pengetahuan O(1), mencapai akurasi 97% pada Needle-in-a-Haystack pada skala jutaan token.
- 10x lebih murah dibandingkan pesaing Barat: Pada $0.30/M input tokens, V4 memotong harga GPT-5.4 ($2.50) dan Claude ($3-15) dengan selisih satu urutan besaran.
- Open-source di bawah Apache 2.0: Bobot model lengkap tersedia untuk deployment lokal, fine-tuning, dan penggunaan komersial — satu-satunya model kelas frontier dengan tingkat keterbukaan seperti ini.
DeepSeek V4: Model Open-Source yang Menulis Ulang Ekonomi AI
DeepSeek telah melakukannya lagi. Setelah V3 membuktikan bahwa lab asal Tiongkok dapat membangun model kelas frontier dengan sebagian kecil dari biaya Barat, V4 menaikkan taruhan ke level yang menuntut perhatian dari setiap developer, startup, dan enterprise yang membuat keputusan infrastruktur AI.
Satu triliun parameter. Konteks jutaan token. Multimodal native. 81% SWE-Bench Verified. Dan semuanya bersifat open-source di bawah Apache 2.0 dengan biaya inference 10-40x lebih rendah dibandingkan pesaing Barat.
Apakah klaim ini sepenuhnya terbukti di bawah pengawasan independen masih terus ditentukan. Namun inovasi arsitekturnya — terutama memori Engram — mewakili kemajuan nyata yang akan memengaruhi desain model di seluruh industri.
Inilah semua yang kita ketahui hingga Maret 2026.
Lini Masa Rilis
Jalan DeepSeek V4 menuju perilisan cukup bergelombang, dengan beberapa jendela waktu yang tertunda:
| Tanggal | Peristiwa |
|---|---|
| Januari 2026 | Makalah Engram diterbitkan — arsitektur memori kondisional |
| Awal Februari 2026 | Target rilis asli — terlewati |
| Pertengahan Februari 2026 | Jendela rilis kedua — juga terlewati |
| Awal Maret 2026 | Model V4 lengkap diluncurkan |
| 9 Maret 2026 | "V4 Lite" muncul di situs web DeepSeek |
| Maret 2026 (berlangsung) | Benchmarking independen dan validasi komunitas |
Lini masa yang tertunda ini sebenarnya meningkatkan antisipasi. Pada saat V4 diluncurkan, makalah Engram sudah dibahas secara luas, dan ekspektasi sangat tinggi.
Analisis Mendalam Arsitektur
Mixture-of-Experts pada Skala Triliun
DeepSeek V4 melanjutkan arsitektur MoE yang membuat V3 sangat efisien, namun menskalakannya secara dramatis:
| Metrik | DeepSeek V3 | DeepSeek V4 |
|---|---|---|
| Total Parameter | 671B | ~1T |
| Parameter Aktif | ~37B | ~37B |
| Context Window | 128K | 1M |
| Arsitektur | MoE | MoE + Engram |
| Multimodal | Hanya teks | Teks + Gambar + Video |
| Lisensi | Apache 2.0 | Apache 2.0 |
Wawasan utama: total parameter meningkat sebesar 50%, tetapi parameter aktif per token tetap konstan di angka ~37B. Ini berarti V4 memiliki akses ke jauh lebih banyak pengetahuan dan kapabilitas tanpa meningkatkan biaya inference secara proporsional.
Engram: Revolusi Memori
Engram adalah inovasi arsitektur paling signifikan di V4. Dirinci dalam makalah Januari 2026 milik DeepSeek ("Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"), ini mengatasi batasan mendasar dari Transformers.
Masalahnya: Transformers tradisional memperlakukan setiap bagian pengetahuan dengan cara yang sama — melalui komputasi. Apakah model perlu mengingat bahwa "Paris adalah ibu kota Prancis" (fakta statis) atau menalar tentang refactor kode yang kompleks (komputasi dinamis), ia menggunakan mekanisme attention yang sama. Ini tidak efisien.
Solusi Engram: Menambahkan sistem memori terpisah untuk pengetahuan statis dan deterministik. Alih-alih menghitung jawaban untuk "Apa ibu kota Prancis?" melalui beberapa lapisan attention, Engram menyediakan lookup deterministik O(1) — pada dasarnya sebuah hash table yang dipelajari untuk pengetahuan faktual.
Temuan Utama — Sparsity Allocation Law: Riset DeepSeek mengungkapkan bahwa di bawah anggaran parameter sparse yang tetap, pembagian optimal adalah sekitar 20-25% memori (Engram) dan 75-80% komputasi (MoE). Rasio ini memaksimalkan akurasi recall dan kapabilitas penalaran.
Dampak Performa: Engram mencapai akurasi Needle-in-a-Haystack 97% pada skala konteks jutaan token, menyelesaikan masalah degradasi retrieval yang menghantui arsitektur Transformer standar. Pada 1M tokens, akurasi retrieval sebagian besar model turun di bawah 80%. V4 dengan Engram mempertahankan 97%.
DeepSeek Sparse Attention (DSA)
Selain Engram, V4 memperkenalkan DeepSeek Sparse Attention — sebuah mekanisme attention yang secara dinamis mengalokasikan komputasi berdasarkan kompleksitas input. Bagian teks yang sederhana mendapatkan attention yang ringan; bagian penalaran yang kompleks mendapatkan kedalaman attention penuh.
Inilah yang membuat context window jutaan token menjadi praktis. Tanpa DSA, memproses 1M tokens akan sangat mahal bahkan dengan biaya rendah DeepSeek. Dengan DSA, sebagian besar context window diproses secara efisien, dengan komputasi penuh dicadangkan untuk bagian yang membutuhkannya.
Manifold-Constrained Hyper-Connections
Inovasi arsitektur ketiga adalah Manifold-Constrained Hyper-Connections — sebuah teknik yang meningkatkan aliran gradien selama training. Hasil praktisnya adalah training yang lebih stabil pada skala triliun parameter, yang sebagian menjelaskan bagaimana DeepSeek melatih V4 dengan biaya yang jauh lebih rendah daripada perusahaan Barat.
Analisis Benchmark
Angka-angka
| Benchmark | DeepSeek V4 | Claude Opus 4.5 | GPT-5.4 | Catatan |
|---|---|---|---|---|
| SWE-Bench Verified | 81% | 80.9% | ~82% | V4 mengalahkan rekor sebelumnya |
| HumanEval | 90% | ~88% | ~90% | Generasi kode |
| Context (NIAH) | 97% @ 1M | 95% @ 200K | 96% @ 1M | Keunggulan Engram |
| Multimodal | Native | N/A | Native | Teks + Gambar + Video |
Catatan: Verifikasi Independen
Penting untuk dicatat bahwa hingga akhir Maret 2026, banyak dari angka ini berasal dari benchmark internal. Sampai evaluasi pihak ketiga dari organisasi seperti Artificial Analysis, LMSYS, atau peneliti independen mengonfirmasi klaim tersebut sepenuhnya, anggaplah persentase pastinya sebagai aspirasi dan bukan definitif.
Meskipun demikian, benchmark V3 sebagian besar dikonfirmasi oleh pengujian independen, memberikan kredibilitas bagi DeepSeek bahwa angka V4 ini berada di kisaran yang tepat.
Harga: Revolusi Biaya Berlanjut
Harga DeepSeek V4 adalah fitur yang paling disruptif:
| Model | Harga Input (per M tokens) | Harga Output (per M tokens) | Harga Cache Hit |
|---|---|---|---|
| DeepSeek V4 | $0.30 | $0.50 | $0.03 |
| GPT-5.4 | $2.50 | $15.00 | N/A |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 |
| Claude Opus 4.6 | $15.00 | $75.00 | $1.50 |
Harga cache hit sangat menarik: jika prompt Anda berbagi prefix yang sama (yang hampir selalu terjadi dalam aplikasi produksi), input tokens yang di-cache hanya seharga $0.03 per juta — diskon 90%.
Apa Artinya dalam Praktik
Untuk pembuat aplikasi tipikal yang memproses 100M tokens per bulan:
| Penyedia | Biaya Bulanan |
|---|---|
| DeepSeek V4 | ~$40-80 |
| GPT-5.4 | ~$500-1,500 |
| Claude Sonnet 4.6 | ~$600-1,800 |
| Claude Opus 4.6 | ~$3,000-9,000 |
Keunggulan biaya 10-40x inilah alasan mengapa DeepSeek penting bagi ekosistem AI yang lebih luas. Hal ini membuat AI kelas frontier dapat diakses oleh developer independen, startup kecil, dan tim enterprise yang sensitif terhadap biaya.
Platform seperti ZBuild dapat mengintegrasikan DeepSeek V4 sebagai opsi model backend, meneruskan penghematan biaya yang dramatis ini langsung kepada pengguna yang membangun aplikasi berbasis AI.
Multimodal Native: Teks, Gambar, dan Video
Berbeda dengan V3 (hanya teks), V4 bersifat multimodal native. Seperti yang dilaporkan oleh Financial Times, V4 mengintegrasikan teks, gambar, dan video selama pre-training daripada menambahkan modul visi secara terpisah.
Ini penting karena:
- Penalaran lintas-modal lebih koheren — model memahami hubungan antara deskripsi teks dan konten visual secara native.
- Pemahaman gambar dan video — V4 dapat menganalisis screenshot, diagram, dan frame video bersama dengan teks.
- Kapabilitas generasi — laporan awal menunjukkan generasi text-to-image dan text-to-video, meskipun penilaian kualitas masih terus bermunculan.
Bagi developer yang membangun aplikasi yang memproses konten visual — analisis dokumen, desain UI, ringkasan video — dukungan multimodal native menghilangkan kebutuhan akan API visi terpisah.
Kasus Penggunaan Multimodal Praktis
Integrasi multimodal native membuka beberapa alur kerja praktis:
- Kode dari Screenshot: Berikan screenshot desain UI dan V4 akan menghasilkan kode yang sesuai — HTML/CSS, komponen React, atau view SwiftUI.
- Pemahaman Diagram: Masukkan diagram arsitektur, flowchart, atau skema database dan V4 akan menjelaskan desain tersebut, mengidentifikasi masalah, atau menghasilkan kode implementasi.
- Pemrosesan Dokumen: Mengekstrak data terstruktur dari dokumen yang dipindai, faktur, dan formulir tanpa pipeline OCR terpisah.
- Ringkasan Video: Memproses frame video untuk menghasilkan ringkasan, transkrip, atau menyoroti momen-momen penting.
Untuk pembuat aplikasi seperti ZBuild, multimodal native berarti pengguna dapat mengunggah mockup dan screenshot secara langsung sebagai bagian dari alur kerja pembuatan aplikasi — AI memahami konteks visual tanpa alat tambahan.
Dampak Open-Source
Lisensi Apache 2.0 milik DeepSeek V4 bisa dibilang lebih signifikan daripada skor benchmark-nya. Inilah yang dimungkinkannya:
Self-Hosting
Organisasi dengan persyaratan kedaulatan data dapat menjalankan V4 di infrastruktur mereka sendiri. Tidak ada panggilan API, tidak ada data yang keluar dari gedung, tidak ada ketergantungan pada vendor. Parameter aktif ~37B per token membuatnya dapat dijalankan pada cluster GPU enterprise kelas atas.
Fine-Tuning
Bobot terbuka memungkinkan fine-tuning khusus domain — medis, hukum, keuangan, atau vertikal khusus lainnya. Ini mustahil dilakukan dengan model eksklusif dari OpenAI atau Anthropic.
Riset
Detail arsitektur lengkap dan metodologi training memungkinkan komunitas riset untuk membangun di atas inovasi DeepSeek. Memori Engram, DSA, dan Manifold-Constrained Hyper-Connections semuanya tersedia untuk dipelajari dan ditingkatkan.
Kontrol Biaya
Bahkan melampaui harga API DeepSeek yang sudah rendah, self-hosting pada skala besar dapat mengurangi biaya per token lebih jauh. Untuk aplikasi bervolume tinggi yang memproses miliaran token setiap bulan, melakukan self-hosting V4 bisa 100x lebih murah daripada harga API eksklusif.
DeepSeek V4 vs. V3: Haruskah Anda Melakukan Upgrade?
Bagi pengguna DeepSeek V3 yang sudah ada, inilah kalkulasi upgrade-nya:
| Fitur | V3 | V4 | Dampak Upgrade |
|---|---|---|---|
| Context Window | 128K | 1M | Tinggi — memungkinkan analisis skala codebase |
| SWE-Bench | 69% | 81% | Tinggi — peningkatan 12 poin |
| Multimodal | Hanya teks | Teks + Gambar + Video | Sedang — tergantung kasus penggunaan |
| Memori Engram | Tidak | Ya | Tinggi — retrieval yang jauh lebih baik |
| Harga API | $0.27/M input | $0.30/M input | Rendah — kenaikan biaya minimal |
| Arsitektur | MoE | MoE + Engram + DSA | Tinggi — secara fundamental lebih baik |
Putusan: Lakukan upgrade. Kenaikan biayanya sangat kecil, dan peningkatan kapabilitasnya — terutama memori Engram dan konteks jutaan token — sangat substansial. Satu-satunya alasan untuk tetap menggunakan V3 adalah jika Anda memiliki beban kerja produksi yang memerlukan konsistensi perilaku yang tepat dari model Anda saat ini.
Bagaimana DeepSeek V4 Cocok dalam Ekosistem Pengembang
Untuk Developer Independen dan Startup
Harga V4 membuat AI kelas frontier dapat diakses dengan anggaran startup. Dikombinasikan dengan lisensi Apache 2.0, Anda dapat membangun dan menerapkan aplikasi produksi tanpa mengkhawatirkan penskalaan biaya API. Alat seperti ZBuild yang mengintegrasikan beberapa penyedia model memungkinkan Anda memanfaatkan keunggulan biaya DeepSeek V4 sambil tetap memiliki opsi untuk merutekan tugas tertentu ke model lain saat dibutuhkan.
Untuk Tim Enterprise
Opsi self-hosting menjawab masalah kedaulatan data, kepatuhan, dan biaya secara bersamaan. Kapabilitas fine-tuning berarti Anda dapat membangun model khusus domain yang mengungguli alternatif tujuan umum dalam vertikal spesifik Anda.
Untuk Peneliti
Arsitektur terbuka ini adalah tambang emas. Memori Engram saja membuka beberapa arah riset — arsitektur memori kondisional, optimasi alokasi sparsity, dan sistem hibrida retrieval-computation.
Untuk Industri AI
V4 memberikan tekanan pada setiap penyedia model frontier untuk membenarkan harga mereka. Ketika sebuah model open-source menyamai atau melampaui benchmark eksklusif dengan biaya 10x lebih rendah, proposisi nilai model tertutup bergeser dari "performa lebih baik" menjadi "integrasi, dukungan, dan keandalan yang lebih baik."
Risiko dan Ketidakpastian
Verifikasi Benchmark
Klaim 81% SWE-Bench memerlukan konfirmasi independen. DeepSeek telah dipercaya dengan benchmark V3, tetapi model triliun parameter lebih sulit dievaluasi secara konsisten. Tunggu hasil dari Artificial Analysis dan LMSYS sebelum membuat keputusan infrastruktur berdasarkan angka pastinya.
Risiko Geopolitik
DeepSeek adalah perusahaan Tiongkok, dan ketegangan teknologi AS-Tiongkok terus berlanjut. Kontrol ekspor, pembatasan akses API, atau tekanan politik dapat memengaruhi ketersediaan bagi developer Barat. Self-hosting dengan bobot terbuka memitigasi tetapi tidak menghilangkan risiko ini.
Kualitas Multimodal
Kapabilitas multimodal adalah aspek yang paling sedikit diuji dari V4. Kualitas pemahaman gambar dan video memerlukan validasi dunia nyata di luar benchmark internal.
Dukungan dan Keandalan
Open-source berarti dukungan komunitas, bukan SLA enterprise. Jika aplikasi produksi Anda bergantung pada V4, Anda bertanggung jawab atas uptime, penskalaan, dan debugging. Layanan API DeepSeek telah terbukti andal, tetapi ia tidak menawarkan infrastruktur dukungan enterprise seperti OpenAI atau Anthropic.
Intinya
DeepSeek V4 adalah model AI open-source paling penting yang dirilis pada tahun 2026 sejauh ini. Kombinasi skala triliun parameter, inovasi memori Engram, konteks jutaan token, kapabilitas multimodal native, dan harga yang sangat rendah di bawah lisensi Apache 2.0 menjadikannya alternatif nyata bagi model frontier eksklusif.
Peringatannya nyata — verifikasi benchmark sedang berlangsung, risiko geopolitik ada, dan dukungan enterprise terbatas. Namun bagi developer dan organisasi yang bersedia menavigasi ketidakpastian tersebut, V4 menawarkan kapabilitas kelas frontier dengan sebagian kecil dari biaya.
Apakah Anda mengaksesnya melalui API DeepSeek, melakukan self-hosting di infrastruktur Anda, atau menggunakannya melalui platform seperti ZBuild yang mengintegrasikan beberapa penyedia model, DeepSeek V4 layak mendapatkan tempat dalam toolkit AI Anda.
Pertanyaan yang Sering Diajukan
Bisakah saya melakukan self-hosting DeepSeek V4 pada hardware konsumen?
Secara praktis tidak. Meskipun model ini hanya mengaktifkan ~37B parameter per token, meng-host model MoE 1T parameter secara penuh membutuhkan memori GPU yang signifikan untuk tabel routing expert. Anda akan membutuhkan cluster GPU kelas enterprise (beberapa A100 atau H100). Bagi sebagian besar developer, API DeepSeek seharga $0.30/M input tokens jauh lebih hemat biaya daripada self-hosting kecuali Anda memproses miliaran token setiap bulan.
Apa perbedaan V4 Lite dengan model V4 lengkap?
DeepSeek V4 Lite muncul di situs web DeepSeek pada 9 Maret 2026, tetapi belum ada spesifikasi resmi yang dipublikasikan. Berdasarkan pola penamaan DeepSeek dengan V3, "Lite" kemungkinan merujuk pada varian yang didistilasi atau lebih kecil yang dioptimalkan untuk kecepatan dan biaya dengan mengorbankan beberapa kapabilitas. Harapkan model ini lebih cepat dan lebih murah tetapi dengan performa yang berkurang pada tugas penalaran yang kompleks.
Apakah DeepSeek V4 disensor untuk topik tertentu?
Seperti semua model AI asal Tiongkok, DeepSeek V4 memiliki penyaringan konten untuk topik yang sensitif secara politik, terutama yang terkait dengan politik dan pemerintahan Tiongkok. Untuk pengembangan umum, coding, dan kasus penggunaan teknis, penyaringan tersebut memiliki dampak minimal. Untuk aplikasi yang melibatkan konten politik sensitif atau generasi tanpa batas, ini adalah pertimbangan yang sah.
Bahasa pemrograman apa yang paling baik ditangani oleh V4?
Berdasarkan hasil SWE-Bench (yang terutama menguji Python, JavaScript, dan Java), V4 unggul dalam bahasa-bahasa arus utama. Laporan komunitas menunjukkan performa yang kuat di Python, JavaScript/TypeScript, Java, Go, Rust, dan C++. Bahasa yang kurang umum seperti Haskell, Elixir, atau Zig kemungkinan memiliki dukungan yang lebih lemah karena distribusi data training.
Bagaimana perbandingan DeepSeek V4 dengan Llama 4 untuk self-hosting?
Keduanya bersifat open-source dan tersedia di bawah lisensi yang permisif. Arsitektur MoE DeepSeek V4 dengan ~37B parameter aktif per token menawarkan performa-per-komputasi yang lebih baik daripada model dense. Keunggulan Llama 4 adalah ekosistem Meta yang lebih besar dan dukungan komunitas. Untuk kapabilitas murni per dolar, V4 kemungkinan menang. Untuk tooling komunitas dan ekosistem fine-tuning, Llama mungkin lebih mudah diakses.
Sumber
- DeepSeek V4: Engram Architecture Revealed
- DeepSeek V4: What's Next — Architecture, DSA, Engram & More
- Introl: DeepSeek V4's 1-Trillion Parameter Architecture
- ByteIota: DeepSeek V4 Targets 80.9% SWE-Bench Record
- CyberNews: DeepSeek V4 Review
- Evolink: DeepSeek V4 Release Date
- PromptZone: DeepSeek V4 Status Report March 2026
- VERTU: DeepSeek V4 Engram Architecture
- Kili Technology: DeepSeek V4 Guide
- Evermx: DeepSeek V4 Multimodal Launch
- RecodeChina: DeepSeek's Next Move
- DeepSeek V4 Status and Leaks