O DeepSeek V4 já foi lançado?

O DeepSeek V4 foi lançado no início de março de 2026, com uma variante 'V4 Lite' surgindo em 9 de março. O modelo completo atinge 81% no SWE-Bench Verified e custa $0.30 por milhão de input tokens — cerca de 10x mais barato do que os modelos de fronteira concorrentes. Os pesos estão disponíveis sob a licença Apache 2.0.

Quantos parâmetros o DeepSeek V4 possui?

O DeepSeek V4 possui aproximadamente 1 trilhão de parâmetros totais usando uma arquitetura Mixture-of-Experts (MoE), mas ativa apenas cerca de 37 bilhões por token. Isso representa aproximadamente 50% mais parâmetros totais do que os 671 bilhões do V3, mantendo os custos de inferência comparáveis.

O que é o sistema de memória Engram do DeepSeek?

Engram é uma arquitetura de memória condicional introduzida no artigo do DeepSeek de janeiro de 2026. Ele fornece busca de conhecimento determinística O(1) para padrões estáticos, como nomes de entidades, alcançando 97% de precisão no Needle-in-a-Haystack em uma escala de um milhão de tokens. A divisão ideal de parâmetros é de 20-25% de memória Engram e 75-80% de computação MoE.

Como o DeepSeek V4 se compara ao GPT-5.4 e ao Claude Opus 4.6?

O DeepSeek V4 atinge 81% no SWE-Bench Verified (contra o recorde de 80.9% do Claude Opus 4.5), suporta contexto de 1M de tokens e é nativamente multimodal. Sua principal vantagem é o custo: $0.30/M input tokens contra $2.50 para o GPT-5.4 e $15.00 para o Opus 4.6. É open-source sob a Apache 2.0, enquanto os concorrentes são proprietários.

O DeepSeek V4 é open source?

Sim. Os pesos do modelo DeepSeek V4 foram lançados sob a licença Apache 2.0, tornando-o disponível gratuitamente para implementação local, ajuste fino (fine-tuning) e uso comercial sem restrições. Isso dá continuidade à tradição open-source do DeepSeek desde o V3.

Principais Conclusões

1 trilhão de parâmetros, 37B ativos: DeepSeek V4 utiliza uma arquitetura Mixture-of-Experts que ativa apenas ~37B parâmetros por token — mantendo os custos de inference comparáveis ao V3, apesar de 50% mais parâmetros totais.
81% SWE-Bench Verified: V4 reivindica a coroa dos benchmarks de codificação — superando o recorde anterior de 80.9% do Claude Opus 4.5.
A memória Engram é o avanço arquitetural: Um novo sistema de memória condicional que fornece busca de conhecimento O(1), alcançando 97% de precisão no Needle-in-a-Haystack em escala de milhões de tokens.
10x mais barato que os concorrentes ocidentais: A $0.30/M input tokens, V4 supera o GPT-5.4 ($2.50) e Claude ($3-15) por uma ordem de magnitude.
Open-source sob Apache 2.0: Pesos completos do modelo disponíveis para implantação local, fine-tuning e uso comercial — o único modelo de classe de fronteira com este nível de abertura.

DeepSeek V4: O Modelo Open-Source Que Está Reescrevendo a Economia da AI

DeepSeek fez de novo. Após o V3 provar que um laboratório chinês poderia construir modelos de classe de fronteira a uma fração dos custos ocidentais, o V4 eleva as apostas para um nível que exige a atenção de cada desenvolvedor, startup e empresa que toma decisões de infraestrutura de AI.

Um trilhão de parâmetros. Contexto de milhões de tokens. Multimodal nativo. 81% SWE-Bench Verified. E tudo isso open-source sob Apache 2.0 com custos de inference 10-40x menores que os concorrentes ocidentais.

Se essas alegações se sustentarão totalmente sob escrutínio independente ainda está sendo determinado. Mas as inovações de arquitetura — particularmente a memória Engram — representam avanços genuínos que influenciarão o design de modelos em toda a indústria, independentemente disso.

Aqui está tudo o que sabemos até March 2026.

Cronograma de Lançamento

O caminho para o lançamento do DeepSeek V4 foi acidentado, com múltiplas janelas de atraso:

Data	Evento
January 2026	Artigo sobre Engram publicado — arquitetura de memória condicional
February 2026 (início)	Meta de lançamento original — perdida
February 2026 (meio)	Segunda janela de lançamento — também perdida
Early March 2026	Modelo V4 completo lançado
March 9, 2026	"V4 Lite" apareceu no site da DeepSeek
March 2026 (em andamento)	Benchmarking independente e validação da comunidade

O cronograma atrasado na verdade aumentou a antecipação. Quando o V4 foi lançado, o artigo sobre Engram já havia sido amplamente discutido e as expectativas estavam altíssimas.

Mergulho Profundo na Arquitetura

Mixture-of-Experts em Escala de Trilhões

DeepSeek V4 continua a arquitetura MoE que tornou o V3 tão eficiente, mas escala-a dramaticamente:

Métrica	DeepSeek V3	DeepSeek V4
Parâmetros Totais	671B	~1T
Parâmetros Ativos	~37B	~37B
Context Window	128K	1M
Arquitetura	MoE	MoE + Engram
Multimodal	Apenas texto	Texto + Imagem + Vídeo
Licença	Apache 2.0	Apache 2.0

A percepção principal: os parâmetros totais aumentaram em 50%, mas os parâmetros ativos por token permaneceram constantes em ~37B. Isso significa que o V4 tem acesso a muito mais conhecimento e capacidade sem aumentar proporcionalmente os custos de inference.

Engram: A Revolução da Memória

Engram é a inovação arquitetural mais significativa no V4. Detalhada no artigo de January 2026 da DeepSeek ("Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"), ela aborda uma limitação fundamental dos Transformers.

O Problema: Transformers tradicionais tratam cada parte do conhecimento da mesma forma — através de computação. Se o modelo precisa lembrar que "Paris é a capital da França" (um fato estático) ou raciocinar sobre uma refatoração de código complexa (computação dinâmica), ele usa o mesmo mecanismo de atenção. Isso é um desperdício.

A Solução da Engram: Adicionar um sistema de memória separado para conhecimento estático e determinístico. Em vez de calcular a resposta para "Qual é a capital da França?" através de múltiplas camadas de atenção, a Engram fornece uma busca determinística O(1) — essencialmente uma tabela hash aprendida para conhecimento factual.

A Descoberta Principal — Lei de Alocação de Esparsidade: A pesquisa da DeepSeek revelou que, sob um orçamento fixo de parâmetros esparsos, a divisão ideal é de aproximadamente 20-25% de memória (Engram) e 75-80% de computação (MoE). Esta proporção maximiza tanto a precisão de recall quanto a capacidade de raciocínio.

Impacto no Desempenho: Engram alcança 97% de precisão no Needle-in-a-Haystack em escala de contexto de milhões de tokens, resolvendo o problema de degradação de recuperação que assombra as arquiteturas Transformer padrão. Em 1M de tokens, a precisão de recuperação da maioria dos modelos cai abaixo de 80%. O V4 com Engram mantém 97%.

DeepSeek Sparse Attention (DSA)

Além da Engram, o V4 introduz a DeepSeek Sparse Attention — um mecanismo de atenção que aloca dinamicamente a computação com base na complexidade da entrada. Passagens simples recebem uma atenção leve; passagens de raciocínio complexo recebem profundidade total de atenção.

Isso é o que torna a context window de um milhão de tokens prática. Sem DSA, processar 1M de tokens seria proibitivamente caro, mesmo com os baixos custos da DeepSeek. Com ela, a maior parte da context window é processada de forma eficiente, com a computação total reservada para as partes que precisam dela.

Manifold-Constrained Hyper-Connections

A terceira inovação arquitetural são as Manifold-Constrained Hyper-Connections — uma técnica que melhora o fluxo de gradiente durante o treinamento. O resultado prático é um treinamento mais estável em escala de trilhões de parâmetros, o que explica em parte como a DeepSeek treinou o V4 a uma fração dos custos ocidentais.

Análise de Benchmark

Os Números

Benchmark	DeepSeek V4	Claude Opus 4.5	GPT-5.4	Notas
SWE-Bench Verified	81%	80.9%	~82%	V4 supera o recorde anterior
HumanEval	90%	~88%	~90%	Geração de código
Context (NIAH)	97% @ 1M	95% @ 200K	96% @ 1M	Vantagem da Engram
Multimodal	Nativo	N/A	Nativo	Texto + Imagem + Vídeo

Ressalva: Verificação Independente

É importante notar que, até o final de March 2026, muitos desses números vêm de benchmarks internos. Até que avaliações de terceiros de organizações como Artificial Analysis, LMSYS ou pesquisadores independentes confirmem totalmente as alegações, trate as porcentagens exatas como aspiracionais em vez de definitivas.

Dito isto, os benchmarks do V3 foram amplamente confirmados por testes independentes, dando à DeepSeek credibilidade de que esses números do V4 estão na faixa correta.

Preços: A Revolução de Custos Continua

O preço do DeepSeek V4 é sua característica mais disruptiva:

Modelo	Preço de Entrada (por M tokens)	Preço de Saída (por M tokens)	Preço de Cache Hit
DeepSeek V4	$0.30	$0.50	$0.03
GPT-5.4	$2.50	$15.00	N/A
Claude Sonnet 4.6	$3.00	$15.00	$0.30
Claude Opus 4.6	$15.00	$75.00	$1.50

O preço de cache hit é particularmente atraente: se seus prompts compartilham um prefixo comum (o que quase sempre acontece em aplicações de produção), os tokens de entrada em cache custam apenas $0.03 por milhão — um desconto de 90%.

O Que Isso Significa na Prática

Para um desenvolvedor de aplicativos típico que processa 100M de tokens por mês:

Provedor	Custo Mensal
DeepSeek V4	~$40-80
GPT-5.4	~$500-1,500
Claude Sonnet 4.6	~$600-1,800
Claude Opus 4.6	~$3,000-9,000

Esta vantagem de custo de 10-40x é o motivo pelo qual o DeepSeek é importante para o ecossistema de AI mais amplo. Ele torna a AI de classe de fronteira acessível a desenvolvedores independentes, pequenas startups e equipes empresariais sensíveis a custos.

Plataformas como ZBuild podem integrar o DeepSeek V4 como uma opção de modelo de backend, repassando essas economias dramáticas de custo diretamente aos usuários que constroem aplicações baseadas em AI.

Multimodal Nativo: Texto, Imagem e Vídeo

Ao contrário do V3 (apenas texto), o V4 é nativamente multimodal. Conforme relatado pelo Financial Times, o V4 integra a geração de texto, imagem e vídeo durante o pré-treinamento, em vez de adicionar a visão como um módulo separado.

Isso importa porque:

O raciocínio cross-modal é mais coerente — o modelo entende as relações entre descrições de texto e conteúdo visual nativamente.
Compreensão de imagem e vídeo — o V4 pode analisar capturas de tela, diagramas e quadros de vídeo juntamente com o texto.
Capacidades de geração — relatórios iniciais sugerem geração de texto para imagem e texto para vídeo, embora as avaliações de qualidade ainda estejam surgindo.

Para desenvolvedores que constroem aplicações que processam conteúdo visual — análise de documentos, design de UI, resumo de vídeo — o suporte multimodal nativo elimina a necessidade de APIs de visão separadas.

Casos de Uso Multimodais Práticos

A integração multimodal nativa abre vários fluxos de trabalho práticos:

Código a partir de Capturas de Tela: Forneça uma captura de tela de um design de UI e o V4 gera o código correspondente — HTML/CSS, componentes React ou views SwiftUI.
Compreensão de Diagramas: Alimente diagramas de arquitetura, fluxogramas ou esquemas de banco de dados e o V4 explica o design, identifica problemas ou gera código de implementação.
Processamento de Documentos: Extraia dados estruturados de documentos digitalizados, faturas e formulários sem um pipeline de OCR separado.
Resumo de Vídeo: Processe quadros de vídeo para gerar resumos, transcrições ou destacar momentos importantes.

Para criadores de aplicativos como ZBuild, o multimodal nativo significa que os usuários podem enviar mockups e capturas de tela diretamente como parte do fluxo de trabalho de criação de aplicativos — a AI entende o contexto visual sem ferramentas adicionais.

Impacto do Open-Source

A licença Apache 2.0 do DeepSeek V4 é indiscutivelmente mais significativa do que suas pontuações de benchmark. Aqui está o que ela permite:

Auto-hospedagem

Organizações com requisitos de soberania de dados podem executar o V4 em sua própria infraestrutura. Sem chamadas de API, sem dados saindo do local, sem dependência de fornecedor. Os ~37B parâmetros ativos por token tornam o modelo executável em clusters de GPU empresariais de ponta.

Fine-Tuning

Os pesos abertos permitem fine-tuning específico do domínio — médico, jurídico, financeiro ou qualquer vertical especializada. Isso é impossível com modelos proprietários da OpenAI ou Anthropic.

Pesquisa

Os detalhes completos da arquitetura e a metodologia de treinamento permitem que a comunidade de pesquisa construa sobre as inovações da DeepSeek. Memória Engram, DSA e Manifold-Constrained Hyper-Connections estão todos disponíveis para estudo e aprimoramento.

Controle de Custos

Mesmo além dos preços de API já baixos da DeepSeek, a auto-hospedagem em escala pode reduzir ainda mais os custos por token. Para aplicações de alto volume que processam bilhões de tokens mensalmente, auto-hospedar o V4 pode ser 100x mais barato do que os preços de APIs proprietárias.

DeepSeek V4 vs. V3: Você Deve Atualizar?

Para os usuários atuais do DeepSeek V3, aqui está o cálculo da atualização:

Recurso	V3	V4	Impacto da Atualização
Context Window	128K	1M	Alto — permite análise de bases de código completas
SWE-Bench	69%	81%	Alto — melhoria de 12 pontos
Multimodal	Apenas texto	Texto + Imagem + Vídeo	Médio — depende do caso de uso
Memória Engram	Não	Sim	Alto — recuperação dramaticamente melhor
Preço da API	$0.27/M input	$0.30/M input	Baixo — aumento mínimo de custo
Arquitetura	MoE	MoE + Engram + DSA	Alto — fundamentalmente melhor

Veredito: Atualize. O aumento de custo é insignificante e as melhorias de capacidade — especialmente a memória Engram e a context window de um milhão de tokens — são substanciais. O único motivo para permanecer no V3 é se você tiver cargas de trabalho de produção que exigem a consistência comportamental exata do seu modelo atual.

Como o DeepSeek V4 se Encaixa no Ecossistema de Desenvolvedores

Para Desenvolvedores Independentes e Startups

O preço do V4 torna a AI de classe de fronteira acessível com orçamentos de startup. Combinado com a licença Apache 2.0, você pode construir e implantar aplicações de produção sem se preocupar com a escalabilidade dos custos de API. Ferramentas como ZBuild que integram múltiplos provedores de modelos permitem que você aproveite a vantagem de custo do DeepSeek V4, mantendo a opção de rotear tarefas específicas para outros modelos quando necessário.

Para Equipes Empresariais

A opção de auto-hospedagem aborda simultaneamente preocupações de soberania de dados, conformidade e custo. A capacidade de fine-tuning significa que você pode construir modelos específicos de domínio que superam as alternativas de propósito geral em sua vertical específica.

Para Pesquisadores

A arquitetura aberta é uma mina de ouro. A memória Engram por si só abre múltiplas direções de pesquisa — arquiteturas de memória condicional, otimização de alocação de esparsidade e sistemas híbridos de recuperação-computação.

Para a Indústria de AI

O V4 pressiona cada provedor de modelos de fronteira a justificar seus preços. Quando um modelo open-source iguala ou excede os benchmarks proprietários a um custo 10x menor, a proposta de valor dos modelos fechados muda de "melhor desempenho" para "melhor integração, suporte e confiabilidade".

Riscos e Incertezas

Verificação de Benchmarks

A alegação de 81% no SWE-Bench precisa de confirmação independente. A DeepSeek tem sido confiável com os benchmarks do V3, mas modelos de trilhões de parâmetros são mais difíceis de avaliar de forma consistente. Aguarde os resultados da Artificial Analysis e LMSYS antes de tomar decisões de infraestrutura baseadas em números exatos.

Risco Geopolítico

DeepSeek é uma empresa chinesa, e as tensões tecnológicas entre EUA e China continuam. Controles de exportação, restrições de acesso a APIs ou pressão política podem afetar a disponibilidade para desenvolvedores ocidentais. A auto-hospedagem com pesos abertos mitiga, mas não elimina este risco.

Qualidade Multimodal

As capacidades multimodais são o aspecto menos testado do V4. A qualidade da compreensão de imagem e vídeo precisa de validação no mundo real além dos benchmarks internos.

Suporte e Confiabilidade

Open-source significa suporte da comunidade, não SLAs empresariais. Se sua aplicação de produção depende do V4, você é responsável pelo uptime, escalabilidade e depuração. O serviço de API da DeepSeek tem sido confiável, mas não oferece a infraestrutura de suporte empresarial da OpenAI ou Anthropic.

A Linha de Fundo

DeepSeek V4 é o modelo de AI open-source mais importante lançado em 2026 até agora. Sua combinação de escala de trilhão de parâmetros, inovação de memória Engram, context window de um milhão de tokens, capacidades multimodais nativas e preços agressivamente baixos sob uma licença Apache 2.0 o torna uma alternativa genuína aos modelos de fronteira proprietários.

As ressalvas são reais — a verificação de benchmarks está em andamento, existem riscos geopolíticos e o suporte empresarial é limitado. Mas para desenvolvedores e organizações dispostos a navegar nessas incertezas, o V4 oferece capacidades de classe de fronteira a uma fração do custo.

Seja acessando-o através da API da DeepSeek, auto-hospedando-o em sua infraestrutura ou usando-o através de plataformas como ZBuild que integram múltiplos provedores de modelos, o DeepSeek V4 merece um lugar no seu kit de ferramentas de AI.

Perguntas Frequentes

Posso auto-hospedar o DeepSeek V4 em hardware de consumo?

Praticamente não. Embora o modelo ative apenas ~37B parâmetros por token, hospedar o modelo MoE completo de 1T de parâmetros requer uma memória GPU significativa para as tabelas de roteamento de especialistas. Você precisará de clusters de GPU de nível empresarial (múltiplas A100s ou H100s). Para a maioria dos desenvolvedores, a API da DeepSeek a $0.30/M input tokens é muito mais econômica do que a auto-hospedagem, a menos que você esteja processando bilhões de tokens mensalmente.

Como o V4 Lite difere do modelo V4 completo?

O DeepSeek V4 Lite apareceu no site da DeepSeek em March 9, 2026, mas nenhuma especificação oficial foi publicada. Com base nos padrões de nomenclatura da DeepSeek com o V3, "Lite" provavelmente se refere a uma variante destilada ou menor, otimizada para velocidade e custo em detrimento de alguma capacidade. Espere que ele seja mais rápido e barato, mas com desempenho reduzido em tarefas de raciocínio complexas.

O DeepSeek V4 é censurado para certos tópicos?

Como todos os modelos de AI chineses, o DeepSeek V4 possui filtragem de conteúdo para tópicos politicamente sensíveis, particularmente aqueles relacionados à política e governança chinesas. Para desenvolvimento geral, codificação e casos de uso técnicos, a filtragem tem impacto mínimo. Para aplicações que envolvem conteúdo político sensível ou geração irrestrita, esta é uma consideração legítima.

Quais linguagens de programação o V4 manipula melhor?

Com base nos resultados do SWE-Bench (que testa principalmente Python, JavaScript e Java), o V4 se destaca em linguagens convencionais. Relatórios da comunidade sugerem um forte desempenho em Python, JavaScript/TypeScript, Java, Go, Rust e C++. Linguagens menos comuns como Haskell, Elixir ou Zig provavelmente têm suporte mais fraco devido à distribuição dos dados de treinamento.

Como o DeepSeek V4 se compara ao Llama 4 para auto-hospedagem?

Ambos são open-source e estão disponíveis sob licenças permissivas. A arquitetura MoE do DeepSeek V4 com ~37B parâmetros ativos por token oferece melhor desempenho por computação do que os modelos densos. A vantagem do Llama 4 é o ecossistema maior da Meta e o suporte da comunidade. Para capacidade pura por dólar, o V4 provavelmente vence. Para ferramentas comunitárias e ecossistema de fine-tuning, o Llama pode ser mais acessível.

Lançamento do DeepSeek V4: Especificações, Benchmarks e Tudo o Que Sabemos Sobre o Modelo Open-Source de 1T (2026)