¿Se ha lanzado DeepSeek V4?

DeepSeek V4 se lanzó a principios de marzo de 2026, con una variante 'V4 Lite' que apareció el 9 de marzo. El modelo completo obtiene un 81% en SWE-Bench Verified y cuesta $0.30 por million input tokens — aproximadamente 10 veces más barato que los frontier models de la competencia. Los weights están disponibles bajo Apache 2.0.

¿Cuántos parámetros tiene DeepSeek V4?

DeepSeek V4 tiene aproximadamente 1 trillion de parámetros totales utilizando una arquitectura Mixture-of-Experts (MoE), pero solo activa ~37 billion por token. Esto es aproximadamente un 50% más de parámetros totales que los 671 billion de la V3, manteniendo los costes de inference comparables.

¿Qué es el sistema Engram memory de DeepSeek?

Engram es una arquitectura de conditional memory introducida en el paper de DeepSeek de enero de 2026. Proporciona una búsqueda de conocimiento determinista O(1) para patrones estáticos como nombres de entidades, logrando una precisión del 97% en Needle-in-a-Haystack a una escala de million-token. La división óptima de parámetros es 20-25% Engram memory y 75-80% MoE computation.

¿Cómo se compara DeepSeek V4 con GPT-5.4 y Claude Opus 4.6?

DeepSeek V4 obtiene un 81% en SWE-Bench Verified (frente al récord de 80.9% de Claude Opus 4.5), admite un contexto de 1M tokens y es nativamente multimodal. Su ventaja clave es el coste: $0.30/M input tokens frente a los $2.50 de GPT-5.4 y los $15.00 de Opus 4.6. Es Open-Source bajo Apache 2.0 mientras que sus competidores son propietarios.

¿Es DeepSeek V4 Open-Source?

Sí. Los model weights de DeepSeek V4 se publican bajo la licencia Apache 2.0, lo que permite su uso gratuito para local deployment, fine-tuning y uso comercial sin restricciones. Esto continúa la tradición Open-Source de DeepSeek desde la V3.

Puntos clave

1 trillion de parámetros, 37B activos: DeepSeek V4 utiliza una arquitectura Mixture-of-Experts que activa solo ~37B de parámetros por cada token — manteniendo los costos de inferencia comparables a V3 a pesar de tener un 50% más de parámetros totales.
81% SWE-Bench Verified: V4 reclama la corona de los benchmarks de programación — superando el récord anterior de Claude Opus 4.5 de 80.9%.
La memoria Engram es el avance arquitectónico: Un nuevo sistema de memoria condicional que proporciona búsqueda de conocimiento O(1), logrando un 97% de precisión en Needle-in-a-Haystack a una escala de un millón de tokens.
10x más barato que los competidores occidentales: A $0.30/M de tokens de entrada, V4 reduce el precio de GPT-5.4 ($2.50) y Claude ($3-15) por un orden de magnitud.
Código abierto bajo Apache 2.0: Pesos del modelo completos disponibles para despliegue local, Fine-Tuning y uso comercial — el único modelo de clase frontera con este nivel de apertura.

DeepSeek V4: El modelo de código abierto que está reescribiendo la economía de la IA

DeepSeek lo ha hecho de nuevo. Después de que V3 demostrara que un laboratorio chino podía construir modelos de clase frontera a una fracción de los costos occidentales, V4 eleva la apuesta a un nivel que exige la atención de cada desarrollador, startup y empresa que tome decisiones sobre infraestructura de IA.

1 trillion de parámetros. Ventana de contexto de un millón de tokens. Multimodal nativo. 81% SWE-Bench Verified. Y todo ello en código abierto bajo Apache 2.0 con costos de inferencia entre 10 y 40 veces menores que los competidores occidentales.

Si estas afirmaciones se mantienen totalmente bajo un escrutinio independiente es algo que aún se está determinando. Pero las innovaciones en la arquitectura — particularmente la memoria Engram — representan avances genuinos que influirán en el diseño de modelos en toda la industria independientemente del resultado.

Aquí está todo lo que sabemos hasta March 2026.

Cronología de lanzamiento

El camino de DeepSeek V4 hacia su lanzamiento fue accidentado, con múltiples ventanas retrasadas:

Fecha	Evento
January 2026	Publicación del artículo de Engram — arquitectura de memoria condicional
February 2026 (early)	Objetivo de lanzamiento original — incumplido
February 2026 (mid)	Segunda ventana de lanzamiento — también incumplida
Early March 2026	Lanzamiento del modelo V4 completo
March 9, 2026	"V4 Lite" apareció en el sitio web de DeepSeek
March 2026 (ongoing)	Benchmarking independiente y validación de la comunidad

El retraso en el cronograma en realidad aumentó la anticipación. Para cuando se lanzó V4, el artículo de Engram ya había sido ampliamente discutido y las expectativas estaban por las nubes.

Análisis profundo de la arquitectura

Mixture-of-Experts a escala de trillones

DeepSeek V4 continúa con la arquitectura MoE que hizo a V3 tan eficiente, pero la escala dramáticamente:

Métrica	DeepSeek V3	DeepSeek V4
Parámetros totales	671B	~1T
Parámetros activos	~37B	~37B
Ventana de contexto	128K	1M
Arquitectura	MoE	MoE + Engram
Multimodal	Solo texto	Texto + Imagen + Video
Licencia	Apache 2.0	Apache 2.0

La clave: los parámetros totales aumentaron en un 50%, pero los parámetros activos por token se mantuvieron constantes en ~37B. Esto significa que V4 tiene acceso a mucho más conocimiento y capacidad sin aumentar proporcionalmente los costos de inferencia.

Engram: La revolución de la memoria

Engram es la innovación arquitectónica más significativa en V4. Detallada en el artículo de DeepSeek de January 2026 ("Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"), aborda una limitación fundamental de los Transformers.

El problema: Los Transformers tradicionales tratan cada pieza de conocimiento de la misma manera — a través del cómputo. Ya sea que el modelo necesite recordar que "París es la capital de Francia" (un hecho estático) o razonar sobre una refactorización de código compleja (cómputo dinámico), utiliza el mismo mecanismo de atención. Esto es ineficiente.

La solución de Engram: Añadir un sistema de memoria separado para el conocimiento estático y determinista. En lugar de calcular la respuesta a "¿Cuál es la capital de Francia?" a través de múltiples capas de atención, Engram proporciona una búsqueda determinista O(1) — esencialmente una tabla hash aprendida para conocimiento fáctico.

El hallazgo clave — Sparsity Allocation Law: La investigación de DeepSeek reveló que bajo un presupuesto fijo de parámetros dispersos, la división óptima es aproximadamente 20-25% memoria (Engram) y 75-80% cómputo (MoE). Esta proporción maximiza tanto la precisión de recuperación como la capacidad de razonamiento.

Impacto en el rendimiento: Engram logra una precisión del 97% en Needle-in-a-Haystack a una escala de contexto de un millón de tokens, resolviendo el problema de la degradación de recuperación que afecta a las arquitecturas Transformer estándar. A 1M de tokens, la precisión de recuperación de la mayoría de los modelos cae por debajo del 80%. V4 con Engram mantiene el 97%.

DeepSeek Sparse Attention (DSA)

Más allá de Engram, V4 introduce DeepSeek Sparse Attention — un mecanismo de atención que asigna cómputo dinámicamente basado en la complejidad de la entrada. Los pasajes simples reciben una atención ligera; los pasajes de razonamiento complejo reciben la profundidad total de la atención.

Esto es lo que hace que la ventana de contexto de un millón de tokens sea práctica. Sin DSA, procesar 1M de tokens sería prohibitivamente caro incluso con los bajos costos de DeepSeek. Con él, la mayor parte de la ventana de contexto se procesa de manera eficiente, reservando el cómputo total para las partes que lo necesitan.

Manifold-Constrained Hyper-Connections

La tercera innovación arquitectónica es Manifold-Constrained Hyper-Connections — una técnica que mejora el flujo de gradientes durante el entrenamiento. El resultado práctico es un entrenamiento más estable a una escala de un trillón de parámetros, lo que explica en parte cómo DeepSeek entrenó V4 a una fracción de los costos occidentales.

Análisis de benchmarks

Los números

Benchmark	DeepSeek V4	Claude Opus 4.5	GPT-5.4	Notas
SWE-Bench Verified	81%	80.9%	~82%	V4 supera el récord anterior
HumanEval	90%	~88%	~90%	Generación de código
Context (NIAH)	97% @ 1M	95% @ 200K	96% @ 1M	Ventaja de Engram
Multimodal	Nativo	N/A	Nativo	Texto + Imagen + Video

Advertencia: Verificación independiente

Es importante notar que a finales de March 2026, muchos de estos números provienen de benchmarks internos. Hasta que las evaluaciones de terceros de organizaciones como Artificial Analysis, LMSYS o investigadores independientes confirmen plenamente las afirmaciones, trate los porcentajes exactos como aspiracionales en lugar de definitivos.

Dicho esto, los benchmarks de V3 fueron confirmados en gran medida por pruebas independientes, lo que le da a DeepSeek credibilidad de que estos números de V4 están en el rango correcto.

Precios: La revolución de costos continúa

El precio de DeepSeek V4 es su característica más disruptiva:

Modelo	Precio de entrada (por M tokens)	Precio de salida (por M tokens)	Precio de Cache Hit
DeepSeek V4	$0.30	$0.50	$0.03
GPT-5.4	$2.50	$15.00	N/A
Claude Sonnet 4.6	$3.00	$15.00	$0.30
Claude Opus 4.6	$15.00	$75.00	$1.50

El precio por acierto de caché es particularmente atractivo: si sus prompts comparten un prefijo común (lo cual casi siempre ocurre en aplicaciones de producción), los tokens de entrada en caché cuestan solo $0.03 por millón — un descuento del 90%.

Qué significa esto en la práctica

Para un desarrollador de aplicaciones típico que procesa 100M de tokens por mes:

Proveedor	Costo mensual
DeepSeek V4	~$40-80
GPT-5.4	~$500-1,500
Claude Sonnet 4.6	~$600-1,800
Claude Opus 4.6	~$3,000-9,000

Esta ventaja de costo de entre 10 y 40 veces es la razón por la que DeepSeek es importante para el ecosistema de IA en general. Hace que la IA de clase frontera sea accesible para desarrolladores independientes, pequeñas startups y equipos empresariales sensibles a los costos.

Plataformas como ZBuild pueden integrar DeepSeek V4 como una opción de modelo backend, trasladando estos drásticos ahorros de costos directamente a los usuarios que construyen aplicaciones potenciadas por IA.

Multimodal nativo: Texto, Imagen y Video

A diferencia de V3 (solo texto), V4 es nativamente multimodal. Según informó el Financial Times, V4 integra la generación de texto, imagen y video durante el pre-entrenamiento en lugar de añadir la visión como un módulo separado.

Esto es importante porque:

El razonamiento entre modalidades es más coherente — el modelo comprende las relaciones entre las descripciones de texto y el contenido visual de forma nativa.
Comprensión de imagen y video — V4 puede analizar capturas de pantalla, diagramas y fotogramas de video junto con el texto.
Capacidades de generación — los primeros informes sugieren generación de texto a imagen y texto a video, aunque las evaluaciones de calidad aún están emergiendo.

Para los desarrolladores que construyen aplicaciones que procesan contenido visual — análisis de documentos, diseño de UI, resumen de video — el soporte multimodal nativo elimina la necesidad de usar APIs de visión separadas.

Casos de uso prácticos de Multimodal

La integración multimodal nativa abre varios flujos de trabajo prácticos:

Código a partir de capturas de pantalla: Proporcione una captura de pantalla de un diseño de UI y V4 generará el código correspondiente — HTML/CSS, componentes de React o vistas de SwiftUI.
Comprensión de diagramas: Alimente diagramas de arquitectura, diagramas de flujo o esquemas de bases de datos y V4 explicará el diseño, identificará problemas o generará el código de implementación.
Procesamiento de documentos: Extraiga datos estructurados de documentos escaneados, facturas y formularios sin necesidad de un pipeline de OCR separado.
Resumen de video: Procese fotogramas de video para generar resúmenes, transcripciones o resaltar momentos clave.

Para constructores de aplicaciones como ZBuild, lo multimodal nativo significa que los usuarios pueden subir mockups y capturas de pantalla directamente como parte del flujo de creación de la aplicación — la IA entiende el contexto visual sin herramientas adicionales.

Impacto del código abierto

La licencia Apache 2.0 de DeepSeek V4 es posiblemente más significativa que sus puntuaciones en los benchmarks. Esto es lo que permite:

Self-Hosting

Las organizaciones con requisitos de soberanía de datos pueden ejecutar V4 en su propia infraestructura. Sin llamadas a la API, sin que los datos salgan del edificio, sin dependencia de proveedores. Los ~37B de parámetros activos por token lo hacen ejecutable en clústeres de GPU empresariales de alta gama.

Fine-Tuning

Los pesos abiertos permiten el Fine-Tuning específico de un dominio — médico, legal, financiero o cualquier vertical especializada. Esto es imposible con los modelos propietarios de OpenAI o Anthropic.

Investigación

Los detalles completos de la arquitectura y la metodología de entrenamiento permiten a la comunidad de investigación construir sobre las innovaciones de DeepSeek. La memoria Engram, DSA y Manifold-Constrained Hyper-Connections están disponibles para su estudio y mejora.

Control de costos

Incluso más allá de los ya bajos precios de la API de DeepSeek, el Self-Hosting a escala puede reducir aún más los costos por token. Para aplicaciones de alto volumen que procesan miles de millones de tokens mensualmente, el Self-Hosting de V4 puede ser 100 veces más barato que los precios de APIs propietarias.

DeepSeek V4 vs. V3: ¿Deberías actualizar?

Para los usuarios actuales de DeepSeek V3, este es el cálculo de actualización:

Característica	V3	V4	Impacto de la actualización
Ventana de contexto	128K	1M	Alto — permite análisis a escala de base de código
SWE-Bench	69%	81%	Alto — mejora de 12 puntos
Multimodal	Solo texto	Texto + Imagen + Video	Medio — depende del caso de uso
Memoria Engram	No	Sí	Alto — recuperación dramáticamente mejor
Precio de API	$0.27/M entrada	$0.30/M entrada	Bajo — aumento de costo mínimo
Arquitectura	MoE	MoE + Engram + DSA	Alto — fundamentalmente mejor

Veredicto: Actualice. El aumento de costo es insignificante y las mejoras en las capacidades — especialmente la memoria Engram y la ventana de contexto de un millón de tokens — son sustanciales. La única razón para quedarse en V3 es si tiene cargas de trabajo en producción que requieren la consistencia de comportamiento exacta de su modelo actual.

Cómo encaja DeepSeek V4 en el ecosistema de desarrolladores

Para desarrolladores independientes y startups

El precio de V4 hace que la IA de clase frontera sea accesible para presupuestos de startups. Combinado con la licencia Apache 2.0, puede construir y desplegar aplicaciones de producción sin preocuparse por el escalado de costos de la API. Herramientas como ZBuild que integran múltiples proveedores de modelos le permiten aprovechar la ventaja de costo de DeepSeek V4 mientras mantienen la opción de enrutar tareas específicas a otros modelos cuando sea necesario.

Para equipos empresariales

La opción de Self-Hosting aborda simultáneamente las preocupaciones de soberanía de datos, cumplimiento y costo. La capacidad de Fine-Tuning significa que puede construir modelos específicos de dominio que superen a las alternativas de propósito general en su vertical específica.

Para investigadores

La arquitectura abierta es una mina de oro. Solo la memoria Engram abre múltiples direcciones de investigación — arquitecturas de memoria condicional, optimización de la asignación de dispersión y sistemas híbridos de recuperación-cómputo.

Para la industria de la IA

V4 presiona a cada proveedor de modelos de frontera para que justifique sus precios. Cuando un modelo de código abierto iguala o supera los benchmarks propietarios a un costo 10 veces menor, la propuesta de valor de los modelos cerrados cambia de "mejor rendimiento" a "mejor integración, soporte y fiabilidad".

Riesgos e incertidumbres

Verificación de benchmarks

La afirmación del 81% en SWE-Bench necesita confirmación independiente. DeepSeek ha sido confiable con los benchmarks de V3, pero los modelos de un trillón de parámetros son más difíciles de evaluar de manera consistente. Espere a los resultados de Artificial Analysis y LMSYS antes de tomar decisiones de infraestructura basadas en números exactos.

Riesgo geopolítico

DeepSeek es una empresa china, y las tensiones tecnológicas entre EE. UU. y China continúan. Los controles de exportación, las restricciones de acceso a la API o la presión política podrían afectar la disponibilidad para los desarrolladores occidentales. El Self-Hosting con pesos abiertos mitiga pero no elimina este riesgo.

Calidad multimodal

Las capacidades multimodales son el aspecto menos probado de V4. La calidad de la comprensión de imagen y video necesita una validación en el mundo real más allá de los benchmarks internos.

Soporte y fiabilidad

Código abierto significa soporte comunitario, no acuerdos de nivel de servicio (SLAs) empresariales. Si su aplicación de producción depende de V4, usted es responsable del tiempo de actividad, el escalado y la depuración. El servicio de API de DeepSeek ha sido confiable, pero no ofrece la infraestructura de soporte empresarial de OpenAI o Anthropic.

La conclusión

DeepSeek V4 es el modelo de IA de código abierto más importante lanzado en 2026 hasta ahora. Su combinación de escala de un trillón de parámetros, innovación en memoria Engram, contexto de un millón de tokens, capacidades multimodales nativas y precios agresivamente bajos bajo una licencia Apache 2.0 lo convierte en una alternativa genuina a los modelos de frontera propietarios.

Las advertencias son reales — la verificación de benchmarks está en curso, existen riesgos geopolíticos y el soporte empresarial es limitado. Pero para los desarrolladores y organizaciones dispuestos a navegar por esas incertidumbres, V4 ofrece capacidades de clase frontera a una fracción del costo.

Ya sea que acceda a él a través de la API de DeepSeek, lo aloje usted mismo en su infraestructura o lo utilice a través de plataformas como ZBuild que integran múltiples proveedores de modelos, DeepSeek V4 merece un lugar en su conjunto de herramientas de IA.

Preguntas frecuentes

¿Puedo auto-alojar DeepSeek V4 en hardware de consumo?

No de forma práctica. Aunque el modelo activa solo ~37B de parámetros por token, alojar el modelo MoE completo de 1T de parámetros requiere una memoria GPU significativa para las tablas de enrutamiento de expertos. Necesitará clústeres de GPU de grado empresarial (múltiples A100s o H100s). Para la mayoría de los desarrolladores, la API de DeepSeek a $0.30/M de tokens de entrada es mucho más rentable que el Self-Hosting, a menos que esté procesando miles de millones de tokens mensualmente.

¿En qué se diferencia V4 Lite del modelo V4 completo?

DeepSeek V4 Lite apareció en el sitio web de DeepSeek el March 9, 2026, pero no se han publicado especificaciones oficiales. Basándose en los patrones de nomenclatura de DeepSeek con V3, "Lite" probablemente se refiere a una variante destilada o más pequeña optimizada para velocidad y costo a expensas de algo de capacidad. Espere que sea más rápido y barato pero con un rendimiento reducido en tareas de razonamiento complejo.

¿Está DeepSeek V4 censurado para ciertos temas?

Como todos los modelos de IA chinos, DeepSeek V4 tiene filtrado de contenido para temas políticamente sensibles, particularmente aquellos relacionados con la política y el gobierno de China. Para casos de uso general de desarrollo, programación y técnicos, el filtrado tiene un impacto mínimo. Para aplicaciones que involucren contenido político sensible o generación sin restricciones, esta es una consideración legítima.

¿Qué lenguajes de programación maneja mejor V4?

Basándose en los resultados de SWE-Bench (que prueban principalmente Python, JavaScript y Java), V4 destaca en lenguajes populares. Los informes de la comunidad sugieren un sólido rendimiento en Python, JavaScript/TypeScript, Java, Go, Rust y C++. Los lenguajes menos comunes como Haskell, Elixir o Zig probablemente tengan un soporte más débil debido a la distribución de los datos de entrenamiento.

¿Cómo se compara DeepSeek V4 con Llama 4 para Self-Hosting?

Ambos son de código abierto y están disponibles bajo licencias permisivas. La arquitectura MoE de DeepSeek V4 con ~37B de parámetros activos por token ofrece un mejor rendimiento por cómputo que los modelos densos. La ventaja de Llama 4 es el ecosistema más grande y el soporte comunitario de Meta. Por capacidad pura por dólar, V4 probablemente gane. Por herramientas comunitarias y ecosistema de Fine-Tuning, Llama puede ser más accesible.

Lanzamiento de DeepSeek V4: Specs, Benchmarks y todo lo que sabemos sobre el modelo Open-Source de 1T (2026)