Когда выйдет DeepSeek V4?

По состоянию на март 2026 года DeepSeek V4 официально не выпущена. Несколько окон релиза (середина февраля, Lunar New Year, начало марта) уже прошли. Financial Times и другие источники указывают на скорый релиз, а обновление «V4 Lite» появилось на сайте DeepSeek 9 марта 2026 года.

Сколько parameters у DeepSeek V4?

DeepSeek V4 использует архитектуру Mixture-of-Experts (MoE) с общим количеством около 1 trillion parameters и примерно 37 billion active parameters на token. Ожидается, что V4 Lite будет иметь около 200 billion parameters.

Какое context window у DeepSeek V4?

DeepSeek V4 поддерживает 1 million token context window, что является огромным скачком по сравнению с длиной контекста V3. Это обеспечивается архитектурой Engram conditional memory, которая достигает 97% accuracy в тесте Needle-in-a-Haystack на миллион токенов.

Является ли DeepSeek V4 open source?

Да. DeepSeek планирует выпустить веса V4 под лицензией Apache 2.0, продолжая свою open source традицию. Модель разработана для запуска на потребительском hardware (dual RTX 4090 или одна RTX 5090) при условии quantization.

Какие результаты DeepSeek V4 в benchmarks?

Утекшие внутренние benchmarks утверждают, что V4 набирает 90% в HumanEval и превышает 80% в SWE-bench Verified. Если это подтвердится, результат сравняется или превзойдет рекорд Claude Opus 4.5 в 80.9% на SWE-bench. Эти показатели не были независимо проверены.

Может ли DeepSeek V4 генерировать изображения и видео?

Да. DeepSeek V4 — это native multimodal модель, которая поддерживает генерацию text, image и video. В отличие от моделей, где vision capabilities добавлены отдельно, V4 интегрирует multimodal understanding во время pre-training для более связного cross-modal reasoning.

Principais Conclusões

1T de parâmetros com eficiência MoE: O DeepSeek V4 escala para aproximadamente 1 trilhão de parâmetros totais, mas ativa apenas ~37B por token, mantendo os custos de inference comparáveis ao V3.
Memória Engram permite contexto de 1M: A arquitetura de memória condicional atinge 97% de precisão no Needle-in-a-Haystack em uma escala de um milhão de tokens, resolvendo o problema de degradação de recuperação.
Multimodal nativo: Ao contrário de modelos que acoplam visão posteriormente, o V4 integra a geração de texto, imagem e vídeo durante o pré-treinamento para um raciocínio cross-modal mais coerente.
Atrasado, mas iminente: Múltiplas janelas de lançamento passaram, mas um "V4 Lite" apareceu no site da DeepSeek em March 9, 2026, sugerindo uma estratégia de lançamento incremental.

DeepSeek V4: Tudo o que Sabemos -- Especificações, Benchmarks e Status de Lançamento (March 2026)

March 2026 -- O DeepSeek V3 reescreveu as regras para a IA de código aberto quando foi lançado no final de 2024, provando que um laboratório de IA chinês poderia competir de igual para igual com a OpenAI e Anthropic em benchmarks de raciocínio, ao mesmo tempo em que liberava os pesos gratuitamente. Agora, o DeepSeek V4 é o modelo de código aberto mais antecipado de 2026 -- e após meses de atrasos, vazamentos e uma aparição surpresa do "V4 Lite", o lançamento completo parece iminente.

Este artigo compila tudo o que se sabe atualmente sobre o DeepSeek V4: sua arquitetura, capacidades, alegações de benchmark, a história do hardware e o longo caminho até o lançamento. Onde as informações vêm de vazamentos ou fontes não oficiais, observamos isso claramente.

Arquitetura: 1 Trilhão de Parâmetros, 37 Bilhões Ativos

O DeepSeek V4 continua a arquitetura Mixture-of-Experts (MoE) que tornou o V3 tão eficiente, mas a escala drasticamente. Aqui estão os principais números arquiteturais baseados nas informações disponíveis:

Especificação	DeepSeek V3	DeepSeek V4	DeepSeek V4 Lite
Total de Parâmetros	671B	~1T (1 trilhão)	~200B
Parâmetros Ativos	~37B	~37B	TBD
Arquitetura	MoE	MoE	MoE
Janela de Contexto	128K tokens	1M tokens	TBD
Hardware de Treinamento	Nvidia H800	Huawei Ascend / Cambricon	TBD
Licença	Aberta (customizada)	Apache 2.0 (planejada)	TBD

A abordagem MoE é o que mantém o V4 prático, apesar de sua escala de trilhões de parâmetros. Em vez de ativar o modelo inteiro em cada token, o MoE roteia cada entrada para um pequeno subconjunto de sub-redes "expert" especializadas. O DeepSeek V4 supostamente ativa aproximadamente 37 bilhões de parâmetros por token -- praticamente o mesmo que o V3 -- o que significa que os custos de inference permanecem gerenciáveis, mesmo que o modelo total seja 50% maior.

Esta é uma escolha de design crítica. Um modelo denso de 1T de parâmetros seria proibitivamente caro para rodar. Ao manter os parâmetros ativos constantes enquanto expande o pool de especialistas, o DeepSeek ganha capacidade para uma especialização mais profunda em vários domínios (código, matemática, escrita criativa, tarefas multilíngues) sem aumentar proporcionalmente os requisitos de compute.

Memória Engram: Memória Condicional que Realmente Funciona

Talvez o recurso tecnicamente mais interessante do DeepSeek V4 seja o Engram, uma arquitetura de memória condicional projetada para resolver um dos problemas mais difíceis em modelos de linguagem de contexto longo: recuperar efetivamente informações relevantes de entradas extremamente longas.

A atenção padrão do transformer degrada conforme o contexto cresce. Os modelos podem tecnicamente aceitar entradas longas, mas sua capacidade de encontrar e usar informações específicas enterradas profundamente nesses contextos diminui. Isso está bem documentado no benchmark Needle-in-a-Haystack, que testa se um modelo pode localizar um fato específico inserido em várias posições dentro de um documento longo.

A arquitetura Engram aborda isso por meio de um mecanismo de memória condicional que armazena e recupera seletivamente informações com base em sinais de relevância, em vez de depender puramente da atenção em toda a sequência.

Os resultados alegados:

Métrica	Atenção Padrão	Engram (DeepSeek V4)
Needle-in-a-Haystack (1M tokens)	84.2% de precisão	97% de precisão
Comprimento de Contexto Suportado	Varia (128K típico)	1M tokens

Se o número de 97% se mantiver sob testes independentes, isso representa um avanço significativo. A lacuna entre 84.2% e 97% na escala de um milhão de tokens é a diferença entre um modelo que funciona na maioria das vezes com documentos longos e um que funciona de forma confiável com eles. Para desenvolvedores que constroem sistemas de retrieval-augmented generation (RAG), ferramentas de análise de código ou pipelines de processamento de documentos, isso poderia reduzir a necessidade de estratégias de chunking e camadas de recuperação externas.

Ressalva importante: Esses números vêm de benchmarks internos e não foram verificados de forma independente até March 2026. Até que avaliações de terceiros confirmem as alegações, trate-as como aspiracionais.

Janela de Contexto: 1 Milhão de tokens

A janela de contexto de 1 milhão de tokens do DeepSeek V4 o coloca na mesma classe dos modelos Gemini da Google, que foram pioneiros em contextos de um milhão de tokens. Para referência, um milhão de tokens é aproximadamente equivalente a:

15-20 romances completos
Uma base de código inteira de tamanho médio (500+ arquivos)
Vários anos de histórico de chat
Um conjunto completo de documentos de descoberta legal

O valor prático do contexto longo depende fortemente da qualidade da recuperação (veja Engram acima). Uma janela de um milhão de tokens com recuperação ruim é pior do que uma janela de 128K com recuperação excelente. Se as alegações de Engram da DeepSeek se confirmarem, o V4 ofereceria tanto a capacidade quanto a precisão para tornar os contextos de um milhão de tokens genuinamente úteis, em vez de apenas um número de marketing.

Para desenvolvedores, as aplicações imediatas incluem:

Compreensão de código de todo o repositório sem a necessidade de fragmentar e resumir
Análise de documentos longos (jurídicos, médicos, financeiros) em uma única passagem
Sessões de agentes estendidas onde o modelo retém todo o histórico de conversas e ações
Raciocínio multi-documento em grandes coleções

Capacidades Multimodais: Geração de Texto, Imagem e Vídeo

O DeepSeek V4 é descrito como um modelo multimodal nativo, o que significa que as capacidades de visão e geração são integradas durante o pré-treinamento, em vez de adicionadas como módulos separados após o fato. Esta é uma distinção arquitetural significativa em relação aos modelos que acoplam a compreensão de imagem por meio de camadas de adaptadores.

As capacidades multimodais relatadas incluem:

Geração de texto (a capacidade principal do modelo de linguagem)
Compreensão e geração de imagens (competindo com DALL-E 3, Midjourney)
Geração de vídeo (competindo com OpenAI Sora, Google Veo 3)
Raciocínio cross-modal (responder perguntas sobre imagens, gerar imagens a partir de descrições complexas, criar vídeo a partir de texto)

A capacidade de geração de vídeo é particularmente notável. Se o DeepSeek V4 puder gerar vídeo com uma qualidade competitiva com o Sora ou Veo 3 sendo código aberto, ele democratizaria o acesso a uma tecnologia que atualmente requer acesso caro a API ou plataformas proprietárias. No entanto, as alegações de qualidade de geração de vídeo estão entre as mais difíceis de avaliar apenas por fichas técnicas -- a qualidade da produção no mundo real varia enormemente.

A integração multimodal nativa permite teoricamente um raciocínio cross-modal mais coerente. Um modelo que entende imagens desde o pré-treinamento deve lidar com tarefas como "descreva o que há de errado com esta captura de tela da UI e gere uma versão corrigida" de forma mais natural do que um onde a visão foi adicionada posteriormente. Se o V4 cumprirá essa promessa na prática, ainda não se sabe.

Benchmarks: Afirmações Fortes, Não Verificadas

Benchmarks internos vazados pintam um quadro impressionante das capacidades do DeepSeek V4. Veja como as pontuações alegadas se comparam aos modelos líderes atuais:

Benchmarks de Codificação

Modelo	HumanEval	SWE-bench Verified
DeepSeek V4 (vazado)	90%	80%+
Claude Opus 4.5	~88%	80.9%
GPT-5.3 Codex	~87%	~80%
DeepSeek V3	~82%	~49%
Llama 3.1 405B	~80%	~33%

Observações Principais

HumanEval em 90% representaria um novo marco para este benchmark, embora o HumanEval tenha se tornado cada vez mais saturado e muitos pesquisadores questionem sua relevância contínua para distinguir modelos de alto nível.

SWE-bench Verified acima de 80% é a afirmação mais significativa. O SWE-bench testa a capacidade de um modelo de resolver problemas reais do GitHub de projetos reais de código aberto -- um teste muito mais difícil e prático de habilidade de codificação. O Claude Opus 4.5 detém atualmente o recorde de 80.9%. Se o DeepSeek V4 igualar ou exceder isso sendo código aberto, será uma conquista histórica.

O salto da pontuação de ~49% do V3 no SWE-bench para os alegados 80%+ do V4 seria extraordinário. Esse tipo de melhoria em uma única geração é incomum e justifica ceticismo até que seja verificado de forma independente. As explicações possíveis incluem:

A memória Engram e a janela de contexto mais longa permitem que o modelo raciocine sobre repositórios inteiros, o que o SWE-bench recompensa
Melhorias significativas nos dados de treinamento específicos de código e fine-tuning
As pontuações de benchmark são de uma configuração de avaliação otimizada que pode não refletir o uso típico

Até que benchmarks independentes de fontes como LMSYS, BigCode ou laboratórios acadêmicos confirmem esses números, eles devem ser tratados como alegações e não como fatos.

Hardware: Construído sem Nvidia

Um dos aspectos mais consequentes do DeepSeek V4 é o seu hardware de treinamento. Devido às restrições de exportação dos EUA que limitam o acesso de empresas chinesas às GPUs mais poderosas da Nvidia, o DeepSeek V4 foi supostamente treinado em uma combinação de:

Aceleradores de IA Huawei Ascend 910B
Chips Cambricon MLU

Isso é significativo por dois motivos.

Primeiro, demonstra que modelos de IA de fronteira podem ser treinados sem hardware da Nvidia. O DeepSeek V3 já era notável por usar chips Nvidia H800 (uma versão restrita da H100), mas o V4 muda inteiramente para o silício doméstico chinês. Se o V4 cumprir suas alegações de benchmark, provará que o fosso de hardware em torno da Nvidia é mais estreito do que muitos supunham.

Segundo, tem implicações para a competição de hardware de IA de forma ampla. A Huawei e a Cambricon têm investido pesadamente em aceleradores de IA, e um treinamento bem-sucedido do V4 seria seu ponto de prova mais forte até o momento.

Executando o V4 em Hardware de Consumo

Apesar de sua escala de trilhões de parâmetros, o DeepSeek enfatizou que o V4 pode rodar em hardware de consumo quando quantizado. Os alvos relatados:

Configuração	Hardware Necessário
Precisão total (FP16/BF16)	Cluster de GPU multi-node
Quantizado em INT8	2x Nvidia RTX 4090 (48 GB de VRAM total)
Quantizado em INT4	1x Nvidia RTX 5090 (32 GB de VRAM)

Essa história de acessibilidade é central para a proposta de valor de código aberto do DeepSeek. Um modelo de pesos abertos que requer um data center para rodar é academicamente interessante, mas praticamente limitado. Um modelo que cabe no hardware que um desenvolvedor pode comprar na Micro Center muda a equação inteiramente.

A quantização sempre envolve compensações -- a precisão reduzida pode degradar o desempenho em certas tarefas -- mas a arquitetura MoE do DeepSeek é bem adequada para a quantização porque apenas os parâmetros dos especialistas ativos precisam ser carregados na memória para qualquer etapa de inference específica.

Código Aberto: Licença Apache 2.0

O DeepSeek confirmou planos de lançar os pesos do V4 sob a licença Apache 2.0, uma das licenças de código aberto mais permissivas disponíveis. Isso significa:

Uso comercial permitido -- as empresas podem implantar o V4 em produtos sem taxas de licenciamento
Modificação permitida -- os desenvolvedores podem fazer fine-tuning, destilar ou modificar o modelo livremente
Sem obrigações de copyleft -- trabalhos derivados não precisam ter o código aberto
Concessão de patente incluída -- a Apache 2.0 inclui uma licença de patente explícita

Isso continua o padrão de lançamentos abertos genuínos do DeepSeek, que contrasta com a abordagem de "pesos abertos, mas licença restrita" adotada por alguns concorrentes. Para a comunidade de desenvolvedores, um lançamento Apache 2.0 de um modelo neste nível de capacidade seria sem precedentes.

O impacto prático para os desenvolvedores:

Alternativas auto-hospedadas às APIs do Claude, GPT e Gemini tornam-se viáveis para mais casos de uso
Fine-tuning em dados proprietários torna-se possível sem compartilhar dados com terceiros
Previsibilidade de custos -- os custos de inference são custos de hardware, não taxas de API por token
Controle de latência -- a implantação local elimina as viagens de ida e volta pela rede

Cronograma de Lançamento: Uma Longa Série de Prazos Perdidos

O caminho para o lançamento do DeepSeek V4 tem sido tudo menos suave. Aqui está a linha do tempo das janelas de lançamento esperadas e perdidas:

Data	Evento
Final de January 2026	Surgem rumores iniciais de um "V4" em teste em fóruns de tecnologia chineses
Meados de February 2026	Primeiro prazo de lançamento especulado passa sem anúncio
Final de February 2026	Prazo de lançamento do Ano Novo Lunar passa; breve interrupção da API gera especulação
Início de March 2026	Financial Times relata que o lançamento do V4 é "iminente"
March 9, 2026	O rótulo "V4 Lite" aparece no site da DeepSeek, sendo rapidamente notado pelos usuários
March 12, 2026	O V4 completo ainda não foi lançado oficialmente

A aparição do V4 Lite em March 9 é o sinal mais concreto até o momento. Embora os detalhes permaneçam escassos, sugere que pelo menos uma variante menor da família V4 está em estágios finais. A contagem de parâmetros de ~200B sugerida para o V4 Lite o tornaria significativamente mais acessível do que o modelo completo de um trilhão de parâmetros, oferecendo potencialmente uma prévia das inovações arquiteturais do V4, como a memória Engram.

Múltiplos fatores poderiam explicar os atrasos:

Treinamento em hardware não-Nvidia introduz novos desafios de engenharia
Metas de benchmark podem não ter sido atingidas nas execuções de treinamento iniciais
Considerações regulatórias em torno dos frameworks de governança de IA da China
Timing geopolítico -- grandes lançamentos de IA de laboratórios chineses atraem escrutínio

O que isso Significa para Desenvolvedores

Independentemente da data exata de lançamento, o DeepSeek V4 tem implicações que valem a pena planejar.

Se os benchmarks se confirmarem

Um modelo de código aberto que iguala o Claude Opus 4.5 e o GPT-5.3 em tarefas de codificação mudaria fundamentalmente o cálculo de construir vs. comprar para ferramentas de desenvolvedor baseadas em IA. Empresas que atualmente pagam custos significativos de API por capacidades de codificação de fronteira teriam uma alternativa auto-hospedável. Isso coloca pressão para baixo nos preços das APIs em todo o setor -- o que beneficia os desenvolvedores, independentemente de qual modelo usem.

Se o Engram funcionar como afirmado

Um modelo que lida de forma confiável com contextos de um milhão de tokens reduziria a complexidade das arquiteturas RAG. Em vez de construir pipelines elaborados de chunking, embedding e recuperação, os desenvolvedores poderiam potencialmente passar repositórios de código inteiros ou coleções de documentos diretamente para o modelo. Isso não elimina a necessidade de RAG inteiramente (custo e latência ainda importam), mas simplifica a arquitetura para muitos casos de uso.

Se a geração multimodal for competitiva

A geração de imagem e vídeo em código aberto abriria casos de uso criativos e de produtos que atualmente exigem APIs proprietárias caras. Pequenas equipes e desenvolvedores independentes ganhariam acesso a capacidades que atualmente estão restritas por listas de espera e preços corporativos.

O que fazer agora

Fique atento ao lançamento oficial -- siga os canais oficiais do DeepSeek em vez de confiar em rumores
Prepare sua infraestrutura -- se você planeja auto-hospedar, certifique-se de ter o hardware de GPU necessário (mínimo de 2x RTX 4090 para inference quantizada)
Planeje sua avaliação -- decida quais benchmarks e casos de uso importam para suas aplicações específicas, para que você possa testar rapidamente assim que os pesos estiverem disponíveis
Mantenha o ceticismo -- benchmarks vazados são marketing até serem verificados de forma independente; avalie o modelo em suas próprias tarefas antes de tomar decisões de infraestrutura

Conclusão

O DeepSeek V4 representa o que poderia ser o lançamento de IA de código aberto mais significativo de 2026. Um modelo MoE de um trilhão de parâmetros com contexto de um milhão de tokens, capacidades multimodais nativas e benchmarks de codificação que rivalizam com os melhores modelos proprietários -- tudo sob Apache 2.0 -- seria um ponto de inflexão genuíno para o ecossistema de desenvolvedores de IA.

A palavra-chave é "poderia". As alegações de benchmark não são verificadas. A data de lançamento permanece incerta. O sistema de memória Engram precisa de avaliação independente. E o desempenho prático de um modelo treinado em hardware não-Nvidia nesta escala é um território genuinamente inexplorado.

O que está claro é que a lacuna entre os modelos de IA de código aberto e proprietários continua a diminuir, e o DeepSeek é uma das principais forças que impulsionam essa convergência. Quer o V4 cumpra todas as promessas ou fique aquém em algumas áreas, seu eventual lançamento será um dos eventos mais importantes no desenvolvimento de IA este ano.

Atualizaremos este artigo conforme novas informações forem disponibilizadas. Para as últimas novidades sobre o DeepSeek V4 e outros desenvolvimentos de IA, acompanhe nossa cobertura.

NxCode

DeepSeek V4: всё, что мы знаем — Specs, Benchmarks и дата релиза (2026)