Когда выйдет DeepSeek V4?

По состоянию на март 2026 года DeepSeek V4 официально не выпущена. Несколько окон релиза (середина февраля, Lunar New Year, начало марта) уже прошли. Financial Times и другие источники указывают на скорый релиз, а обновление «V4 Lite» появилось на сайте DeepSeek 9 марта 2026 года.

Сколько parameters у DeepSeek V4?

DeepSeek V4 использует архитектуру Mixture-of-Experts (MoE) с общим количеством около 1 trillion parameters и примерно 37 billion active parameters на token. Ожидается, что V4 Lite будет иметь около 200 billion parameters.

Какое context window у DeepSeek V4?

DeepSeek V4 поддерживает 1 million token context window, что является огромным скачком по сравнению с длиной контекста V3. Это обеспечивается архитектурой Engram conditional memory, которая достигает 97% accuracy в тесте Needle-in-a-Haystack на миллион токенов.

Является ли DeepSeek V4 open source?

Да. DeepSeek планирует выпустить веса V4 под лицензией Apache 2.0, продолжая свою open source традицию. Модель разработана для запуска на потребительском hardware (dual RTX 4090 или одна RTX 5090) при условии quantization.

Какие результаты DeepSeek V4 в benchmarks?

Утекшие внутренние benchmarks утверждают, что V4 набирает 90% в HumanEval и превышает 80% в SWE-bench Verified. Если это подтвердится, результат сравняется или превзойдет рекорд Claude Opus 4.5 в 80.9% на SWE-bench. Эти показатели не были независимо проверены.

Может ли DeepSeek V4 генерировать изображения и видео?

Да. DeepSeek V4 — это native multimodal модель, которая поддерживает генерацию text, image и video. В отличие от моделей, где vision capabilities добавлены отдельно, V4 интегрирует multimodal understanding во время pre-training для более связного cross-modal reasoning.

Punti chiave

1T parameters con efficienza MoE: DeepSeek V4 scala a circa 1 trillion di parametri totali ma ne attiva solo ~37B per token, mantenendo i costi di inference paragonabili a V3.
Memoria Engram abilita un contesto da 1M: L'architettura di memoria condizionale raggiunge un'accuratezza del 97% in Needle-in-a-Haystack su una scala da million-token, risolvendo il problema della degradazione del retrieval.
Multimodale nativo: A differenza dei modelli che aggiungono la vision come modulo esterno, V4 integra la generazione di testo, immagini e video durante il pre-training per un ragionamento cross-modale più coerente.
Ritardato ma imminente: Diverse finestre di rilascio sono passate, ma un "V4 Lite" è apparso sul sito web di DeepSeek il March 9, 2026, suggerendo una strategia di rilascio incrementale.

DeepSeek V4: Tutto quello che sappiamo -- Specifiche, Benchmark e Stato del rilascio (March 2026)

March 2026 -- DeepSeek V3 ha riscritto le regole per l'AI open-source quando è stato lanciato alla fine del 2024, dimostrando che un laboratorio di AI cinese poteva competere head-to-head con OpenAI e Anthropic sui benchmark di ragionamento rilasciando al contempo i pesi gratuitamente. Ora, DeepSeek V4 è il modello open-source più atteso del 2026 -- e dopo mesi di ritardi, leak e una comparsa a sorpresa di "V4 Lite", il rilascio completo appare imminente.

Questo articolo raccoglie tutto ciò che è attualmente noto su DeepSeek V4: la sua architettura, le capacità, le rivendicazioni sui benchmark, la storia dell'hardware e il lungo percorso verso il lancio. Laddove le informazioni provengono da leak o fonti non ufficiali, lo indichiamo chiaramente.

Architettura: 1 Trillion Parameters, 37 Billion Active

DeepSeek V4 continua l'architettura Mixture-of-Experts (MoE) che ha reso V3 così efficiente, ma la scala drasticamente. Ecco i numeri chiave dell'architettura basati sulle informazioni disponibili:

Specifica	DeepSeek V3	DeepSeek V4	DeepSeek V4 Lite
Parametri totali	671B	~1T (1 trillion)	~200B
Parametri attivi	~37B	~37B	TBD
Architettura	MoE	MoE	MoE
Finestra di contesto	128K tokens	1M tokens	TBD
Hardware di training	Nvidia H800	Huawei Ascend / Cambricon	TBD
Licenza	Aperta (custom)	Apache 2.0 (pianificata)	TBD

L'approccio MoE è ciò che mantiene V4 pratico nonostante la sua scala da trillion di parametri. Invece di attivare l'intero modello su ogni token, il MoE indirizza ogni input a un piccolo sottoinsieme di sotto-reti specializzate chiamate "esperti". DeepSeek V4 riferisce di attivare circa 37 billion di parametri per token -- circa lo stesso numero di V3 -- il che significa che i costi di inference rimangono gestibili anche se il modello totale è più grande del 50%.

Questa è una scelta di design fondamentale. Un modello denso da 1T di parametri sarebbe proibitivamente costoso da eseguire. Mantenendo costanti i parametri attivi ed espandendo il pool di esperti, DeepSeek guadagna capacità per una specializzazione più profonda tra i domini (codice, matematica, scrittura creativa, task multilingue) senza aumentare proporzionalmente i requisiti di compute.

Memoria Engram: Memoria condizionale che funziona davvero

Forse la caratteristica tecnicamente più interessante di DeepSeek V4 è Engram, un'architettura di memoria condizionale progettata per risolvere uno dei problemi più difficili nei modelli linguistici a lungo contesto: recuperare effettivamente informazioni rilevanti da input estremamente lunghi.

L'attention standard dei transformer degrada all'aumentare del contesto. I modelli possono tecnicamente accettare input lunghi, ma la loro capacità di trovare e utilizzare informazioni specifiche sepolte in profondità in quei contesti diminuisce. Questo è ben documentato nel benchmark Needle-in-a-Haystack, che testa se un modello può individuare un fatto specifico inserito in varie posizioni all'interno di un lungo documento.

L'architettura Engram affronta questo problema attraverso un meccanismo di memoria condizionale che memorizza e recupera selettivamente le informazioni in base ai segnali di rilevanza, piuttosto che affidarsi esclusivamente all'attention sull'intera sequenza.

I risultati rivendicati:

Metrica	Attention standard	Engram (DeepSeek V4)
Needle-in-a-Haystack (1M tokens)	84.2% accuratezza	97% accuratezza
Lunghezza del contesto supportata	Varia (128K tipico)	1M tokens

Se la cifra del 97% dovesse reggere a test indipendenti, rappresenterebbe un progresso significativo. Il divario tra l'84.2% e il 97% su una scala da million-token è la differenza tra un modello che funziona per lo più con documenti lunghi e uno che funziona in modo affidabile con essi. Per gli sviluppatori che creano sistemi di retrieval-augmented generation (RAG), strumenti di analisi del codice o pipeline di elaborazione documenti, questo potrebbe ridurre la necessità di strategie di chunking e livelli di retrieval esterni.

Avvertenza importante: questi numeri provengono da benchmark interni e non sono stati verificati indipendentemente alla data del March 2026. Fino a quando le valutazioni di terze parti non confermeranno le affermazioni, considerale come aspirazionali.

Finestra di contesto: 1 Million Tokens

La finestra di contesto da 1 million di tokens di DeepSeek V4 lo colloca nella stessa classe dei modelli Gemini di Google, che hanno aperto la strada ai contesti da million-token. Per riferimento, un milione di tokens equivale all'incirca a:

15-20 romanzi integrali
Un'intera codebase di medie dimensioni (500+ file)
Diversi anni di cronologia chat
Un set completo di documenti per una procedura legale

Il valore pratico di un contesto lungo dipende pesantemente dalla qualità del retrieval (vedi Engram sopra). Una finestra da un milione di tokens con un retrieval scarso è peggiore di una finestra da 128K con un retrieval eccellente. Se le affermazioni su Engram di DeepSeek sono corrette, V4 offrirebbe sia la capacità che l'accuratezza per rendere i contesti da million-token realmente utili piuttosto che un semplice numero di marketing.

Per gli sviluppatori, le applicazioni immediate includono:

Comprensione del codice dell'intero repository senza necessità di chunking e riassunti
Analisi di documenti lunghi (legali, medici, finanziari) in un unico passaggio
Sessioni di agenti estese in cui il modello mantiene l'intera conversazione e la cronologia delle azioni
Ragionamento multi-documento su ampie collezioni

Capacità multimodali: Generazione di testo, immagini e video

DeepSeek V4 è descritto come un modello multimodale nativo, il che significa che le capacità di vision e generazione sono integrate durante il pre-training piuttosto che aggiunte come moduli separati a posteriori. Questa è una distinzione architettonica significativa rispetto ai modelli che aggiungono la comprensione delle immagini tramite livelli di adapter.

Le capacità multimodali riportate includono:

Generazione di testo (la capacità principale del modello linguistico)
Comprensione e generazione di immagini (in competizione con DALL-E 3, Midjourney)
Generazione di video (in competizione con OpenAI Sora, Google Veo 3)
Ragionamento cross-modale (rispondere a domande sulle immagini, generare immagini da descrizioni complesse, creare video dal testo)

La capacità di generazione video è particolarmente degna di nota. Se DeepSeek V4 può generare video con una qualità competitiva con Sora o Veo 3 pur essendo open-source, democratizzerebbe l'accesso a una tecnologia che attualmente richiede un accesso API costoso o piattaforme proprietarie. Tuttavia, le rivendicazioni sulla qualità della generazione video sono tra le più difficili da valutare solo dalle schede tecniche: la qualità dell'output nel mondo reale varia enormemente.

L'integrazione multimodale nativa consente teoricamente un ragionamento cross-modale più coerente. Un modello che comprende le immagini fin dal pre-training dovrebbe gestire task come "descrivi cosa c'è che non va in questo screenshot della UI e genera una versione corretta" in modo più naturale rispetto a uno in cui la vision è stata aggiunta successivamente. Resta da vedere se V4 manterrà questa promessa nella pratica.

Benchmark: Rivendicazioni forti, non verificate

I benchmark interni trapelati dipingono un quadro impressionante delle capacità di DeepSeek V4. Ecco come i punteggi rivendicati si confrontano con i modelli leader attuali:

Benchmark di coding

Modello	HumanEval	SWE-bench Verified
DeepSeek V4 (trapelato)	90%	80%+
Claude Opus 4.5	~88%	80.9%
GPT-5.3 Codex	~87%	~80%
DeepSeek V3	~82%	~49%
Llama 3.1 405B	~80%	~33%

Osservazioni chiave

HumanEval al 90% rappresenterebbe un nuovo traguardo per questo benchmark, sebbene HumanEval sia diventato sempre più saturo e molti ricercatori mettano in dubbio la sua continua rilevanza per distinguere i modelli di alto livello.

SWE-bench Verified sopra l'80% è la rivendicazione più significativa. SWE-bench testa la capacità di un modello di risolvere problemi reali di GitHub da progetti open-source reali -- un test molto più difficile e pratico della capacità di coding. Claude Opus 4.5 detiene attualmente il record con l'80.9%. Se DeepSeek V4 dovesse eguagliare o superare questo risultato pur essendo open-source, sarebbe un traguardo storico.

Il salto dal punteggio SWE-bench di ~49% di V3 all'80%+ rivendicato di V4 sarebbe straordinario. Questo tipo di miglioramento in una singola generazione è insolito e giustifica scetticismo fino a una verifica indipendente. Le possibili spiegazioni includono:

La memoria Engram e la finestra di contesto più lunga consentono al modello di ragionare su interi repository, il che avvantaggia SWE-bench
Miglioramenti significativi nei dati di training specifici per il codice e nel fine-tuning
I punteggi dei benchmark provengono da un setup di valutazione ottimizzato che potrebbe non riflettere l'uso tipico

Fino a quando benchmark indipendenti da fonti come LMSYS, BigCode o laboratori accademici non confermeranno questi numeri, essi dovrebbero essere considerati rivendicazioni piuttosto che fatti.

Hardware: Costruito senza Nvidia

Uno degli aspetti più rilevanti di DeepSeek V4 è il suo hardware di training. A causa delle restrizioni all'esportazione degli Stati Uniti che limitano l'accesso delle aziende cinesi alle GPU più potenti di Nvidia, DeepSeek V4 è stato riferito essere stato addestrato su una combinazione di:

Acceleratori AI Huawei Ascend 910B
Chip Cambricon MLU

Questo è significativo per due ragioni.

In primo luogo, dimostra che i modelli AI di frontiera possono essere addestrati senza hardware Nvidia. DeepSeek V3 era già noto per l'uso di chip Nvidia H800 (una versione limitata dell'H100), ma V4 passa interamente al silicio domestico cinese. Se V4 dovesse confermare le sue rivendicazioni sui benchmark, dimostrerebbe che il fossato hardware attorno a Nvidia è più stretto di quanto molti ritenessero.

In secondo luogo, ha implicazioni per la competizione sull'hardware AI in generale. Huawei e Cambricon hanno investito pesantemente negli acceleratori AI e una sessione di training di V4 riuscita sarebbe la loro prova più forte fino ad oggi.

Eseguire V4 su hardware consumer

Nonostante la sua scala da trillion di parametri, DeepSeek ha sottolineato che V4 può essere eseguito su hardware consumer quando quantizzato. I target riportati:

Configurazione	Hardware richiesto
Full precision (FP16/BF16)	Cluster GPU multi-nodo
INT8 quantizzato	2x Nvidia RTX 4090 (48 GB total VRAM)
INT4 quantizzato	1x Nvidia RTX 5090 (32 GB VRAM)

Questa storia di accessibilità è centrale nella proposta di valore open-source di DeepSeek. Un modello con pesi aperti che richiede un data center per essere eseguito è accademicamente interessante ma praticamente limitato. Un modello che entra nell'hardware che uno sviluppatore può acquistare da Micro Center cambia completamente l'equazione.

La quantizzazione comporta sempre dei compromessi -- la precisione ridotta può degradare le prestazioni in determinati task -- ma l'architettura MoE di DeepSeek è ben adatta alla quantizzazione perché solo i parametri degli esperti attivi devono essere caricati in memoria per ogni singolo passaggio di inference.

Open Source: Licenza Apache 2.0

DeepSeek ha confermato i piani per rilasciare i pesi di V4 sotto la licenza Apache 2.0, una delle licenze open-source più permissive disponibili. Ciò significa:

Uso commerciale permesso -- le aziende possono distribuire V4 nei prodotti senza costi di licenza
Modifica permessa -- gli sviluppatori possono effettuare fine-tuning, distillazione o modificare il modello liberamente
Nessun obbligo copyleft -- le opere derivate non devono essere necessariamente open-source
Concessione di brevetti inclusa -- Apache 2.0 include una licenza esplicita per i brevetti

Questo continua il modello di DeepSeek di rilasci genuinamente aperti, in contrasto con l'approccio "pesi aperti ma licenza limitata" adottato da alcuni concorrenti. Per la comunità degli sviluppatori, un rilascio Apache 2.0 di un modello a questo livello di capacità non avrebbe precedenti.

L'impatto pratico per gli sviluppatori:

Alternative self-hosted alle API di Claude, GPT e Gemini diventano praticabili per più casi d'uso
Fine-tuning su dati proprietari diventa possibile senza condividere i dati con terze parti
Prevedibilità dei costi -- i costi di inference sono costi hardware, non tariffe API per token
Controllo della latenza -- la distribuzione locale elimina i round-trip di rete

Cronologia del rilascio: Una lunga serie di finestre mancate

Il percorso verso il rilascio di DeepSeek V4 è stato tutt'altro che lineare. Ecco la cronologia delle finestre di rilascio previste e mancate:

Data	Evento
Late January 2026	Primi rumor di un "V4" in fase di test appaiono sui forum tecnologici cinesi
Mid-February 2026	La prima finestra di rilascio ipotizzata passa senza annunci
Late February 2026	La finestra di rilascio del Lunar New Year passa; una breve interruzione delle API scatena speculazioni
Early March 2026	Il Financial Times riporta che il rilascio di V4 è "imminente"
March 9, 2026	L'etichetta "V4 Lite" appare sul sito web di DeepSeek, viene rapidamente notata dagli utenti
March 12, 2026	Il V4 completo non è ancora stato lanciato ufficialmente

La comparsa di V4 Lite il March 9 è il segnale più concreto fino ad oggi. Sebbene i dettagli rimangano scarsi, suggerisce che almeno una variante più piccola della famiglia V4 sia nelle fasi finali. Il conteggio dei parametri di ~200B ipotizzato per V4 Lite lo renderebbe significativamente più accessibile rispetto al modello completo da trillion di parametri, offrendo potenzialmente un'anteprima delle innovazioni architettoniche di V4 come la memoria Engram.

Diversi fattori potrebbero spiegare i ritardi:

Il training su hardware non Nvidia introduce nuove sfide ingegneristiche
I target dei benchmark potrebbero non essere stati raggiunti nelle sessioni di training iniziali
Considerazioni normative relative ai framework di governance dell'AI in Cina
Tempistiche geopolitiche -- i principali rilasci di AI dai laboratori cinesi attirano molta attenzione

Cosa significa per gli sviluppatori

Indipendentemente dalla data esatta del rilascio, DeepSeek V4 ha implicazioni per le quali vale la pena pianificare.

Se i benchmark tengono

Un modello open-source che eguaglia Claude Opus 4.5 e GPT-5.3 nei task di coding sposterebbe fondamentalmente il calcolo build-vs-buy per gli strumenti di sviluppo basati su AI. Le aziende che attualmente pagano costi API significativi per capacità di coding di frontiera avrebbero un'alternativa self-hosted. Questo esercita una pressione al ribasso sui prezzi delle API in tutto il settore -- a vantaggio degli sviluppatori, indipendentemente dal modello utilizzato.

Se Engram funziona come rivendicato

Un modello che gestisce in modo affidabile contesti da million-token ridurrebbe la complessità delle architetture RAG. Invece di costruire elaborate pipeline di chunking, embedding e retrieval, gli sviluppatori potrebbero potenzialmente passare interi repository di codice o collezioni di documenti direttamente al modello. Questo non elimina del tutto la necessità di RAG (costo e latenza contano ancora), ma semplifica l'architettura per molti casi d'uso.

Se la generazione multimodale è competitiva

La generazione di immagini e video open-source aprirebbe casi d'uso creativi e di prodotto che attualmente richiedono costose API proprietarie. Piccoli team e sviluppatori indipendenti otterrebbero l'accesso a capacità che sono attualmente protette da liste d'attesa e prezzi enterprise.

Cosa fare ora

Monitora il rilascio ufficiale -- segui i canali ufficiali di DeepSeek invece di affidarti ai rumor
Prepara la tua infrastruttura -- se pianifichi il self-hosting, assicurati di avere l'hardware GPU (minimo 2x RTX 4090 per l'inference quantizzata)
Pianifica la tua valutazione -- decidi quali benchmark e casi d'uso contano per le tue applicazioni specifiche, in modo da poter testare rapidamente una volta che i pesi saranno disponibili
Rimani scettico -- i benchmark trapelati sono marketing finché non vengono verificati indipendentemente; valuta il modello sui tuoi task prima di prendere decisioni sull'infrastruttura

In sintesi

DeepSeek V4 rappresenta quello che potrebbe essere il rilascio di AI open-source più significativo del 2026. Un modello MoE da trillion di parametri con contesto da million-token, capacità multimodali native e benchmark di coding che rivaleggiano con i migliori modelli proprietari -- tutto sotto Apache 2.0 -- sarebbe un punto di svolta autentico per l'ecosistema degli sviluppatori AI.

La parola operativa è "potrebbe". Le rivendicazioni sui benchmark non sono verificate. La data di rilascio rimane incerta. Il sistema di memoria Engram necessita di una valutazione indipendente. E le prestazioni pratiche di un modello addestrato su hardware non Nvidia a questa scala sono un territorio genuinamente inesplorato.

Ciò che è chiaro è che il divario tra l'AI open-source e quella proprietaria continua a ridursi, e DeepSeek è una delle forze primarie che guidano questa convergenza. Sia che V4 mantenga ogni promessa o che deluda in alcune aree, il suo eventuale rilascio sarà uno degli eventi più importanti nello sviluppo dell'AI di quest'anno.

Aggiorneremo questo articolo man mano che nuove informazioni diventeranno disponibili. Per le ultime novità su DeepSeek V4 e altri sviluppi dell'AI, segui la nostra copertura.

NxCode

DeepSeek V4: всё, что мы знаем — Specs, Benchmarks и дата релиза (2026)