Principais Conclusões
- 1T de parâmetros com eficiência MoE: O DeepSeek V4 escala para aproximadamente 1 trilhão de parâmetros totais, mas ativa apenas ~37B por token, mantendo os custos de inference comparáveis ao V3.
- Memória Engram permite contexto de 1M: A arquitetura de memória condicional atinge 97% de precisão no Needle-in-a-Haystack em uma escala de um milhão de tokens, resolvendo o problema de degradação de recuperação.
- Multimodal nativo: Ao contrário de modelos que acoplam visão posteriormente, o V4 integra a geração de texto, imagem e vídeo durante o pré-treinamento para um raciocínio cross-modal mais coerente.
- Atrasado, mas iminente: Múltiplas janelas de lançamento passaram, mas um "V4 Lite" apareceu no site da DeepSeek em March 9, 2026, sugerindo uma estratégia de lançamento incremental.
DeepSeek V4: Tudo o que Sabemos -- Especificações, Benchmarks e Status de Lançamento (March 2026)
March 2026 -- O DeepSeek V3 reescreveu as regras para a IA de código aberto quando foi lançado no final de 2024, provando que um laboratório de IA chinês poderia competir de igual para igual com a OpenAI e Anthropic em benchmarks de raciocínio, ao mesmo tempo em que liberava os pesos gratuitamente. Agora, o DeepSeek V4 é o modelo de código aberto mais antecipado de 2026 -- e após meses de atrasos, vazamentos e uma aparição surpresa do "V4 Lite", o lançamento completo parece iminente.
Este artigo compila tudo o que se sabe atualmente sobre o DeepSeek V4: sua arquitetura, capacidades, alegações de benchmark, a história do hardware e o longo caminho até o lançamento. Onde as informações vêm de vazamentos ou fontes não oficiais, observamos isso claramente.
Arquitetura: 1 Trilhão de Parâmetros, 37 Bilhões Ativos
O DeepSeek V4 continua a arquitetura Mixture-of-Experts (MoE) que tornou o V3 tão eficiente, mas a escala drasticamente. Aqui estão os principais números arquiteturais baseados nas informações disponíveis:
| Especificação | DeepSeek V3 | DeepSeek V4 | DeepSeek V4 Lite |
|---|---|---|---|
| Total de Parâmetros | 671B | ~1T (1 trilhão) | ~200B |
| Parâmetros Ativos | ~37B | ~37B | TBD |
| Arquitetura | MoE | MoE | MoE |
| Janela de Contexto | 128K tokens | 1M tokens | TBD |
| Hardware de Treinamento | Nvidia H800 | Huawei Ascend / Cambricon | TBD |
| Licença | Aberta (customizada) | Apache 2.0 (planejada) | TBD |
A abordagem MoE é o que mantém o V4 prático, apesar de sua escala de trilhões de parâmetros. Em vez de ativar o modelo inteiro em cada token, o MoE roteia cada entrada para um pequeno subconjunto de sub-redes "expert" especializadas. O DeepSeek V4 supostamente ativa aproximadamente 37 bilhões de parâmetros por token -- praticamente o mesmo que o V3 -- o que significa que os custos de inference permanecem gerenciáveis, mesmo que o modelo total seja 50% maior.
Esta é uma escolha de design crítica. Um modelo denso de 1T de parâmetros seria proibitivamente caro para rodar. Ao manter os parâmetros ativos constantes enquanto expande o pool de especialistas, o DeepSeek ganha capacidade para uma especialização mais profunda em vários domínios (código, matemática, escrita criativa, tarefas multilíngues) sem aumentar proporcionalmente os requisitos de compute.
Memória Engram: Memória Condicional que Realmente Funciona
Talvez o recurso tecnicamente mais interessante do DeepSeek V4 seja o Engram, uma arquitetura de memória condicional projetada para resolver um dos problemas mais difíceis em modelos de linguagem de contexto longo: recuperar efetivamente informações relevantes de entradas extremamente longas.
A atenção padrão do transformer degrada conforme o contexto cresce. Os modelos podem tecnicamente aceitar entradas longas, mas sua capacidade de encontrar e usar informações específicas enterradas profundamente nesses contextos diminui. Isso está bem documentado no benchmark Needle-in-a-Haystack, que testa se um modelo pode localizar um fato específico inserido em várias posições dentro de um documento longo.
A arquitetura Engram aborda isso por meio de um mecanismo de memória condicional que armazena e recupera seletivamente informações com base em sinais de relevância, em vez de depender puramente da atenção em toda a sequência.
Os resultados alegados:
| Métrica | Atenção Padrão | Engram (DeepSeek V4) |
|---|---|---|
| Needle-in-a-Haystack (1M tokens) | 84.2% de precisão | 97% de precisão |
| Comprimento de Contexto Suportado | Varia (128K típico) | 1M tokens |
Se o número de 97% se mantiver sob testes independentes, isso representa um avanço significativo. A lacuna entre 84.2% e 97% na escala de um milhão de tokens é a diferença entre um modelo que funciona na maioria das vezes com documentos longos e um que funciona de forma confiável com eles. Para desenvolvedores que constroem sistemas de retrieval-augmented generation (RAG), ferramentas de análise de código ou pipelines de processamento de documentos, isso poderia reduzir a necessidade de estratégias de chunking e camadas de recuperação externas.
Ressalva importante: Esses números vêm de benchmarks internos e não foram verificados de forma independente até March 2026. Até que avaliações de terceiros confirmem as alegações, trate-as como aspiracionais.
Janela de Contexto: 1 Milhão de tokens
A janela de contexto de 1 milhão de tokens do DeepSeek V4 o coloca na mesma classe dos modelos Gemini da Google, que foram pioneiros em contextos de um milhão de tokens. Para referência, um milhão de tokens é aproximadamente equivalente a:
- 15-20 romances completos
- Uma base de código inteira de tamanho médio (500+ arquivos)
- Vários anos de histórico de chat
- Um conjunto completo de documentos de descoberta legal
O valor prático do contexto longo depende fortemente da qualidade da recuperação (veja Engram acima). Uma janela de um milhão de tokens com recuperação ruim é pior do que uma janela de 128K com recuperação excelente. Se as alegações de Engram da DeepSeek se confirmarem, o V4 ofereceria tanto a capacidade quanto a precisão para tornar os contextos de um milhão de tokens genuinamente úteis, em vez de apenas um número de marketing.
Para desenvolvedores, as aplicações imediatas incluem:
- Compreensão de código de todo o repositório sem a necessidade de fragmentar e resumir
- Análise de documentos longos (jurídicos, médicos, financeiros) em uma única passagem
- Sessões de agentes estendidas onde o modelo retém todo o histórico de conversas e ações
- Raciocínio multi-documento em grandes coleções
Capacidades Multimodais: Geração de Texto, Imagem e Vídeo
O DeepSeek V4 é descrito como um modelo multimodal nativo, o que significa que as capacidades de visão e geração são integradas durante o pré-treinamento, em vez de adicionadas como módulos separados após o fato. Esta é uma distinção arquitetural significativa em relação aos modelos que acoplam a compreensão de imagem por meio de camadas de adaptadores.
As capacidades multimodais relatadas incluem:
- Geração de texto (a capacidade principal do modelo de linguagem)
- Compreensão e geração de imagens (competindo com DALL-E 3, Midjourney)
- Geração de vídeo (competindo com OpenAI Sora, Google Veo 3)
- Raciocínio cross-modal (responder perguntas sobre imagens, gerar imagens a partir de descrições complexas, criar vídeo a partir de texto)
A capacidade de geração de vídeo é particularmente notável. Se o DeepSeek V4 puder gerar vídeo com uma qualidade competitiva com o Sora ou Veo 3 sendo código aberto, ele democratizaria o acesso a uma tecnologia que atualmente requer acesso caro a API ou plataformas proprietárias. No entanto, as alegações de qualidade de geração de vídeo estão entre as mais difíceis de avaliar apenas por fichas técnicas -- a qualidade da produção no mundo real varia enormemente.
A integração multimodal nativa permite teoricamente um raciocínio cross-modal mais coerente. Um modelo que entende imagens desde o pré-treinamento deve lidar com tarefas como "descreva o que há de errado com esta captura de tela da UI e gere uma versão corrigida" de forma mais natural do que um onde a visão foi adicionada posteriormente. Se o V4 cumprirá essa promessa na prática, ainda não se sabe.
Benchmarks: Afirmações Fortes, Não Verificadas
Benchmarks internos vazados pintam um quadro impressionante das capacidades do DeepSeek V4. Veja como as pontuações alegadas se comparam aos modelos líderes atuais:
Benchmarks de Codificação
| Modelo | HumanEval | SWE-bench Verified |
|---|---|---|
| DeepSeek V4 (vazado) | 90% | 80%+ |
| Claude Opus 4.5 | ~88% | 80.9% |
| GPT-5.3 Codex | ~87% | ~80% |
| DeepSeek V3 | ~82% | ~49% |
| Llama 3.1 405B | ~80% | ~33% |
Observações Principais
HumanEval em 90% representaria um novo marco para este benchmark, embora o HumanEval tenha se tornado cada vez mais saturado e muitos pesquisadores questionem sua relevância contínua para distinguir modelos de alto nível.
SWE-bench Verified acima de 80% é a afirmação mais significativa. O SWE-bench testa a capacidade de um modelo de resolver problemas reais do GitHub de projetos reais de código aberto -- um teste muito mais difícil e prático de habilidade de codificação. O Claude Opus 4.5 detém atualmente o recorde de 80.9%. Se o DeepSeek V4 igualar ou exceder isso sendo código aberto, será uma conquista histórica.
O salto da pontuação de ~49% do V3 no SWE-bench para os alegados 80%+ do V4 seria extraordinário. Esse tipo de melhoria em uma única geração é incomum e justifica ceticismo até que seja verificado de forma independente. As explicações possíveis incluem:
- A memória Engram e a janela de contexto mais longa permitem que o modelo raciocine sobre repositórios inteiros, o que o SWE-bench recompensa
- Melhorias significativas nos dados de treinamento específicos de código e fine-tuning
- As pontuações de benchmark são de uma configuração de avaliação otimizada que pode não refletir o uso típico
Até que benchmarks independentes de fontes como LMSYS, BigCode ou laboratórios acadêmicos confirmem esses números, eles devem ser tratados como alegações e não como fatos.
Hardware: Construído sem Nvidia
Um dos aspectos mais consequentes do DeepSeek V4 é o seu hardware de treinamento. Devido às restrições de exportação dos EUA que limitam o acesso de empresas chinesas às GPUs mais poderosas da Nvidia, o DeepSeek V4 foi supostamente treinado em uma combinação de:
- Aceleradores de IA Huawei Ascend 910B
- Chips Cambricon MLU
Isso é significativo por dois motivos.
Primeiro, demonstra que modelos de IA de fronteira podem ser treinados sem hardware da Nvidia. O DeepSeek V3 já era notável por usar chips Nvidia H800 (uma versão restrita da H100), mas o V4 muda inteiramente para o silício doméstico chinês. Se o V4 cumprir suas alegações de benchmark, provará que o fosso de hardware em torno da Nvidia é mais estreito do que muitos supunham.
Segundo, tem implicações para a competição de hardware de IA de forma ampla. A Huawei e a Cambricon têm investido pesadamente em aceleradores de IA, e um treinamento bem-sucedido do V4 seria seu ponto de prova mais forte até o momento.
Executando o V4 em Hardware de Consumo
Apesar de sua escala de trilhões de parâmetros, o DeepSeek enfatizou que o V4 pode rodar em hardware de consumo quando quantizado. Os alvos relatados:
| Configuração | Hardware Necessário |
|---|---|
| Precisão total (FP16/BF16) | Cluster de GPU multi-node |
| Quantizado em INT8 | 2x Nvidia RTX 4090 (48 GB de VRAM total) |
| Quantizado em INT4 | 1x Nvidia RTX 5090 (32 GB de VRAM) |
Essa história de acessibilidade é central para a proposta de valor de código aberto do DeepSeek. Um modelo de pesos abertos que requer um data center para rodar é academicamente interessante, mas praticamente limitado. Um modelo que cabe no hardware que um desenvolvedor pode comprar na Micro Center muda a equação inteiramente.
A quantização sempre envolve compensações -- a precisão reduzida pode degradar o desempenho em certas tarefas -- mas a arquitetura MoE do DeepSeek é bem adequada para a quantização porque apenas os parâmetros dos especialistas ativos precisam ser carregados na memória para qualquer etapa de inference específica.
Código Aberto: Licença Apache 2.0
O DeepSeek confirmou planos de lançar os pesos do V4 sob a licença Apache 2.0, uma das licenças de código aberto mais permissivas disponíveis. Isso significa:
- Uso comercial permitido -- as empresas podem implantar o V4 em produtos sem taxas de licenciamento
- Modificação permitida -- os desenvolvedores podem fazer fine-tuning, destilar ou modificar o modelo livremente
- Sem obrigações de copyleft -- trabalhos derivados não precisam ter o código aberto
- Concessão de patente incluída -- a Apache 2.0 inclui uma licença de patente explícita
Isso continua o padrão de lançamentos abertos genuínos do DeepSeek, que contrasta com a abordagem de "pesos abertos, mas licença restrita" adotada por alguns concorrentes. Para a comunidade de desenvolvedores, um lançamento Apache 2.0 de um modelo neste nível de capacidade seria sem precedentes.
O impacto prático para os desenvolvedores:
- Alternativas auto-hospedadas às APIs do Claude, GPT e Gemini tornam-se viáveis para mais casos de uso
- Fine-tuning em dados proprietários torna-se possível sem compartilhar dados com terceiros
- Previsibilidade de custos -- os custos de inference são custos de hardware, não taxas de API por token
- Controle de latência -- a implantação local elimina as viagens de ida e volta pela rede
Cronograma de Lançamento: Uma Longa Série de Prazos Perdidos
O caminho para o lançamento do DeepSeek V4 tem sido tudo menos suave. Aqui está a linha do tempo das janelas de lançamento esperadas e perdidas:
| Data | Evento |
|---|---|
| Final de January 2026 | Surgem rumores iniciais de um "V4" em teste em fóruns de tecnologia chineses |
| Meados de February 2026 | Primeiro prazo de lançamento especulado passa sem anúncio |
| Final de February 2026 | Prazo de lançamento do Ano Novo Lunar passa; breve interrupção da API gera especulação |
| Início de March 2026 | Financial Times relata que o lançamento do V4 é "iminente" |
| March 9, 2026 | O rótulo "V4 Lite" aparece no site da DeepSeek, sendo rapidamente notado pelos usuários |
| March 12, 2026 | O V4 completo ainda não foi lançado oficialmente |
A aparição do V4 Lite em March 9 é o sinal mais concreto até o momento. Embora os detalhes permaneçam escassos, sugere que pelo menos uma variante menor da família V4 está em estágios finais. A contagem de parâmetros de ~200B sugerida para o V4 Lite o tornaria significativamente mais acessível do que o modelo completo de um trilhão de parâmetros, oferecendo potencialmente uma prévia das inovações arquiteturais do V4, como a memória Engram.
Múltiplos fatores poderiam explicar os atrasos:
- Treinamento em hardware não-Nvidia introduz novos desafios de engenharia
- Metas de benchmark podem não ter sido atingidas nas execuções de treinamento iniciais
- Considerações regulatórias em torno dos frameworks de governança de IA da China
- Timing geopolítico -- grandes lançamentos de IA de laboratórios chineses atraem escrutínio
O que isso Significa para Desenvolvedores
Independentemente da data exata de lançamento, o DeepSeek V4 tem implicações que valem a pena planejar.
Se os benchmarks se confirmarem
Um modelo de código aberto que iguala o Claude Opus 4.5 e o GPT-5.3 em tarefas de codificação mudaria fundamentalmente o cálculo de construir vs. comprar para ferramentas de desenvolvedor baseadas em IA. Empresas que atualmente pagam custos significativos de API por capacidades de codificação de fronteira teriam uma alternativa auto-hospedável. Isso coloca pressão para baixo nos preços das APIs em todo o setor -- o que beneficia os desenvolvedores, independentemente de qual modelo usem.
Se o Engram funcionar como afirmado
Um modelo que lida de forma confiável com contextos de um milhão de tokens reduziria a complexidade das arquiteturas RAG. Em vez de construir pipelines elaborados de chunking, embedding e recuperação, os desenvolvedores poderiam potencialmente passar repositórios de código inteiros ou coleções de documentos diretamente para o modelo. Isso não elimina a necessidade de RAG inteiramente (custo e latência ainda importam), mas simplifica a arquitetura para muitos casos de uso.
Se a geração multimodal for competitiva
A geração de imagem e vídeo em código aberto abriria casos de uso criativos e de produtos que atualmente exigem APIs proprietárias caras. Pequenas equipes e desenvolvedores independentes ganhariam acesso a capacidades que atualmente estão restritas por listas de espera e preços corporativos.
O que fazer agora
- Fique atento ao lançamento oficial -- siga os canais oficiais do DeepSeek em vez de confiar em rumores
- Prepare sua infraestrutura -- se você planeja auto-hospedar, certifique-se de ter o hardware de GPU necessário (mínimo de 2x RTX 4090 para inference quantizada)
- Planeje sua avaliação -- decida quais benchmarks e casos de uso importam para suas aplicações específicas, para que você possa testar rapidamente assim que os pesos estiverem disponíveis
- Mantenha o ceticismo -- benchmarks vazados são marketing até serem verificados de forma independente; avalie o modelo em suas próprias tarefas antes de tomar decisões de infraestrutura
Conclusão
O DeepSeek V4 representa o que poderia ser o lançamento de IA de código aberto mais significativo de 2026. Um modelo MoE de um trilhão de parâmetros com contexto de um milhão de tokens, capacidades multimodais nativas e benchmarks de codificação que rivalizam com os melhores modelos proprietários -- tudo sob Apache 2.0 -- seria um ponto de inflexão genuíno para o ecossistema de desenvolvedores de IA.
A palavra-chave é "poderia". As alegações de benchmark não são verificadas. A data de lançamento permanece incerta. O sistema de memória Engram precisa de avaliação independente. E o desempenho prático de um modelo treinado em hardware não-Nvidia nesta escala é um território genuinamente inexplorado.
O que está claro é que a lacuna entre os modelos de IA de código aberto e proprietários continua a diminuir, e o DeepSeek é uma das principais forças que impulsionam essa convergência. Quer o V4 cumpra todas as promessas ou fique aquém em algumas áreas, seu eventual lançamento será um dos eventos mais importantes no desenvolvimento de IA este ano.
Atualizaremos este artigo conforme novas informações forem disponibilizadas. Para as últimas novidades sobre o DeepSeek V4 e outros desenvolvimentos de IA, acompanhe nossa cobertura.