Kdy bude DeepSeek V4 vydán?

K březnu 2026 nebyl DeepSeek V4 oficiálně vydán. Několik termínů vydání (polovina února, Lunar New Year, začátek března) již uplynulo. Financial Times a další zdroje naznačují blízké vydání a na webu DeepSeek se 9. března 2026 objevila aktualizace «V4 Lite».

Kolik parameters má DeepSeek V4?

DeepSeek V4 využívá architekturu Mixture-of-Experts (MoE) s celkem až 1 trillion parameters a přibližně 37 billion active parameters na token. Očekává se, že V4 Lite bude mít kolem 200 billion parameters.

Jaký je context window u DeepSeek V4?

DeepSeek V4 podporuje 1 million token context window, což představuje obrovský skok oproti délce kontextu u V3. Toho je dosaženo díky architektuře Engram conditional memory, která dosahuje 97% accuracy v testu Needle-in-a-Haystack na milionu tokenů.

Je DeepSeek V4 open source?

Ano. DeepSeek plánuje vydat váhy V4 pod licencí Apache 2.0, v souladu se svou tradicí v oblasti open source. Model je navržen pro provoz na spotřebitelském hardware (dual RTX 4090 nebo jedné RTX 5090) za podmínky quantization.

Jaké jsou výsledky DeepSeek V4 v benchmarks?

Uniklé interní benchmarks tvrdí, že V4 dosahuje 90% v HumanEval a přesahuje 80% v SWE-bench Verified. Pokud se to potvrdí, výsledek vyrovná nebo překoná rekord modelu Claude Opus 4.5 ve výši 80.9% na SWE-bench. Tyto ukazatele nebyly nezávisle ověřeny.

Dokáže DeepSeek V4 generovat obrázky a video?

Ano. DeepSeek V4 je native multimodal model, který podporuje generování text, image a video. Na rozdíl od modelů, kde jsou vision capabilities přidávány samostatně, V4 integruje multimodal understanding během pre-training pro dosažení koherentnějšího cross-modal reasoning.

Idei principale

1T parametri cu eficiență MoE: DeepSeek V4 scalează la aproximativ 1 trilion de parametri totali, dar activează doar ~37B per token, menținând costurile de inference comparabile cu V3.
Memoria Engram permite un context de 1M: Arhitectura de memorie condiționată atinge o acuratețe Needle-in-a-Haystack de 97% la scara de un milion de tokens, rezolvând problema degradării retrieval.
Multimodal nativ: Spre deosebire de modelele care adaugă vision ulterior, V4 integrează generarea de text, imagine și video în timpul pre-training pentru un reasoning cross-modal mai coerent.
Întârziat, dar iminent: Mai multe ferestre de lansare au trecut, dar un "V4 Lite" a apărut pe site-ul DeepSeek pe March 9, 2026, sugerând o strategie de rollout incrementală.

DeepSeek V4: Tot ce știm -- Specificații, Benchmarks și Statusul lansării (March 2026)

March 2026 -- DeepSeek V3 a rescris regulile pentru AI open-source când s-a lansat la sfârșitul anului 2024, dovedind că un laborator de AI chinezesc poate concura direct cu OpenAI și Anthropic pe benchmarks de reasoning, lansând în același timp weights gratuit. Acum, DeepSeek V4 este cel mai așteptat model open-source din 2026 -- și după luni de întârzieri, scurgeri de informații și o apariție surpriză a "V4 Lite", lansarea completă pare iminentă.

Acest articol compilează tot ce se știe în prezent despre DeepSeek V4: arhitectura sa, capacitățile, afirmațiile despre benchmark, hardware și drumul lung până la lansare. Acolo unde informațiile provin din scurgeri sau surse neoficiale, menționăm acest lucru clar.

Arhitectură: 1 Trilion de parametri, 37 de miliarde activi

DeepSeek V4 continuă arhitectura Mixture-of-Experts (MoE) care a făcut V3 atât de eficient, dar o scalează dramatic. Iată principalele cifre arhitecturale bazate pe informațiile disponibile:

Specificație	DeepSeek V3	DeepSeek V4	DeepSeek V4 Lite
Parametri totali	671B	~1T (1 trilion)	~200B
Parametri activi	~37B	~37B	TBD
Arhitectură	MoE	MoE	MoE
Context Window	128K tokens	1M tokens	TBD
Hardware de training	Nvidia H800	Huawei Ascend / Cambricon	TBD
Licență	Open (custom)	Apache 2.0 (planificată)	TBD

Abordarea MoE este cea care menține V4 practic, în ciuda scalei sale de un trilion de parametri. În loc să activeze întregul model la fiecare token, MoE direcționează fiecare input către un mic subset de sub-rețele specializate de tip "expert". DeepSeek V4 ar activa aproximativ 37 de miliarde de parametri per token -- aproximativ la fel ca V3 -- ceea ce înseamnă că costurile de inference rămân gestionabile chiar dacă modelul total este cu 50% mai mare.

Aceasta este o alegere de design critică. Un model dense de 1T parametri ar fi prohibitiv de scump de rulat. Prin menținerea parametrilor activi constanți în timp ce extinde grupul de experți, DeepSeek câștigă capacitate pentru o specializare mai profundă în diverse domenii (code, math, creative writing, sarcini multilingve) fără a crește proporțional cerințele de compute.

Memoria Engram: Memorie condiționată care chiar funcționează

Poate cea mai interesantă caracteristică tehnică a DeepSeek V4 este Engram, o arhitectură de memorie condiționată concepută pentru a rezolva una dintre cele mai dificile probleme ale modelelor de limbaj cu context lung: recuperarea efectivă a informațiilor relevante din input-uri extrem de lungi.

Atenția standard a transformer-ului se degradează pe măsură ce contextul crește. Modelele pot accepta tehnic input-uri lungi, dar capacitatea lor de a găsi și utiliza informații specifice îngropate adânc în acele contexte scade. Acest lucru este bine documentat în benchmark-ul Needle-in-a-Haystack, care testează dacă un model poate localiza un fapt specific inserat în diverse poziții dintr-un document lung.

Arhitectura Engram abordează acest lucru printr-un mecanism de memorie condiționată care stochează și recuperează selectiv informații pe baza semnalelor de relevanță, în loc să se bazeze pur pe atenție pe întreaga secvență.

Rezultatele revendicate:

Metrică	Atenție standard	Engram (DeepSeek V4)
Needle-in-a-Haystack (1M tokens)	84.2% acuratețe	97% acuratețe
Context Length suportat	Variază (128K tipic)	1M tokens

Dacă cifra de 97% se confirmă în urma testelor independente, aceasta reprezintă un avans semnificativ. Diferența dintre 84.2% și 97% la scara de un milion de tokens este diferența dintre un model care funcționează în mare parte cu documente lungi și unul care funcționează în mod fiabil cu acestea. Pentru dezvoltatorii care construiesc sisteme de retrieval-augmented generation (RAG), instrumente de analiză code sau pipeline-uri de procesare a documentelor, acest lucru ar putea reduce nevoia de strategii de chunking și straturi externe de retrieval.

Avertisment important: Aceste cifre provin din benchmarks interne și nu au fost verificate independent până în March 2026. Până când evaluările third-party confirmă afirmațiile, tratați-le ca fiind aspiraționale.

Context Window: 1 milion de tokens

Context window-ul de 1 milion de tokens al DeepSeek V4 îl plasează în aceeași clasă cu modelele Gemini ale Google, care au pionierat contextele de un milion de tokens. Pentru referință, un milion de tokens este aproximativ echivalent cu:

15-20 de romane complete
Un codebase întreg de dimensiune medie (peste 500 de fișiere)
Câțiva ani de istoric de chat
Un set complet de documente de discovery juridic

Valoarea practică a contextului lung depinde foarte mult de calitatea retrieval (vezi Engram mai sus). Un context window de un milion de tokens cu retrieval slab este mai rău decât un window de 128K cu retrieval excelent. Dacă afirmațiile Engram ale DeepSeek se confirmă, V4 ar oferi atât capacitatea, cât și acuratețea necesare pentru a face contextele de un milion de tokens cu adevărat utile, nu doar un număr de marketing.

Pentru dezvoltatori, aplicațiile imediate includ:

Înțelegerea code-ului la nivel de întreg repository fără a fi nevoie de chunk și rezumare
Analiza documentelor lungi (juridice, medicale, financiare) dintr-o singură trecere
Sesiuni de agent extinse în care modelul păstrează istoricul complet al conversațiilor și acțiunilor
Reasoning pe mai multe documente dintr-o colecție mare

Capacități multimodale: Generare de text, imagine și video

DeepSeek V4 este descris ca fiind un model multimodal nativ, ceea ce înseamnă că vizualizarea și capacitățile de generare sunt integrate în timpul pre-training-ului, mai degrabă decât adăugate ca module separate ulterior. Aceasta este o distincție arhitecturală semnificativă față de modelele care adaugă înțelegerea imaginilor prin straturi de tip adapter.

Capacitățile multimodale raportate includ:

Generare de text (capacitatea principală a modelului de limbaj)
Înțelegerea și generarea de imagini (concurând cu DALL-E 3, Midjourney)
Generarea de video (concurând cu OpenAI Sora, Google Veo 3)
Reasoning cross-modal (răspuns la întrebări despre imagini, generarea de imagini din descrieri complexe, crearea de video din text)

Capacitatea de generare video este deosebit de notabilă. Dacă DeepSeek V4 poate genera video la o calitate competitivă cu Sora sau Veo 3 fiind în același timp open-source, ar democratiza accesul la o tehnologie care necesită în prezent fie acces API scump, fie platforme proprietare. Cu toate acestea, afirmațiile despre calitatea generării video sunt printre cele mai greu de evaluat doar din specificații -- calitatea output-ului în lumea reală variază enorm.

Integrarea multimodală nativă permite teoretic un reasoning cross-modal mai coerent. Un model care înțelege imaginile din pre-training ar trebui să gestioneze sarcini precum "descrie ce este greșit în acest screenshot de UI și generează o versiune corectată" mai natural decât unul în care vision a fost adăugat ulterior. Dacă V4 se va ridica la înălțimea acestei promisiuni în practică, rămâne de văzut.

Benchmarks: Afirmații puternice, neverificate

Benchmarks interne scurse oferă o imagine impresionantă a capacităților DeepSeek V4. Iată cum se compară scorurile revendicate cu modelele de top actuale:

Benchmarks de coding

Model	HumanEval	SWE-bench Verified
DeepSeek V4 (scurs)	90%	80%+
Claude Opus 4.5	~88%	80.9%
GPT-5.3 Codex	~87%	~80%
DeepSeek V3	~82%	~49%
Llama 3.1 405B	~80%	~33%

Observații cheie

HumanEval la 90% ar reprezenta un nou record pentru acest benchmark, deși HumanEval a devenit din ce în ce mai saturat și mulți cercetători se întreabă de relevanța sa continuă pentru distingerea modelelor de top.

SWE-bench Verified peste 80% este afirmația mai semnificativă. SWE-bench testează capacitatea unui model de a rezolva probleme reale de pe GitHub din proiecte open-source reale -- un test de abilitate de coding mult mai dificil și practic. Claude Opus 4.5 deține în prezent recordul la 80.9%. Dacă DeepSeek V4 egalează sau depășește acest scor fiind în același timp open-source, ar fi o realizare istorică.

Saltul de la scorul de ~49% al V3 pe SWE-bench la cel de peste 80% revendicat de V4 ar fi extraordinar. Acest tip de îmbunătățire într-o singură generație este neobișnuit și justifică scepticismul până la verificarea independentă. Explicațiile posibile includ:

Memoria Engram și context window-ul mai lung permit modelului să analizeze repository-uri întregi, ceea ce este recompensat de SWE-bench
Îmbunătățiri semnificative în datele de training specifice pentru code și fine-tuning
Scorurile de benchmark provin dintr-un setup de evaluare optimizat care s-ar putea să nu reflecte utilizarea tipică

Până când benchmarks independente din surse precum LMSYS, BigCode sau laboratoare academice confirmă aceste cifre, ele ar trebui tratate ca afirmații, nu ca fapte.

Hardware: Construit fără Nvidia

Unul dintre cele mai importante aspecte ale DeepSeek V4 este hardware-ul său de training. Din cauza restricțiilor de export din SUA care limitează accesul companiilor chineze la cele mai puternice GPU-uri Nvidia, DeepSeek V4 a fost raportat ca fiind antrenat pe o combinație de:

Acceleratoare AI Huawei Ascend 910B
Chip-uri Cambricon MLU

Acest lucru este semnificativ din două motive.

În primul rând, demonstrează că modelele AI de frontieră pot fi antrenate fără hardware Nvidia. DeepSeek V3 a fost deja notabil pentru utilizarea chip-urilor Nvidia H800 (o versiune restricționată a H100), dar V4 trece în întregime pe siliciu chinezesc intern. Dacă V4 își confirmă afirmațiile din benchmarks, ar dovedi că bariera hardware din jurul Nvidia este mai îngustă decât au presupus mulți.

În al doilea rând, are implicații pentru competiția hardware AI în general. Huawei și Cambricon au investit masiv în acceleratoare AI, iar un training de succes al V4 ar fi cel mai puternic punct de dovadă de până acum.

Rularea V4 pe hardware de consum

În ciuda scalei sale de un trilion de parametri, DeepSeek a subliniat că V4 poate rula pe hardware de consum atunci când este cuantizat. Target-urile raportate:

Configurație	Hardware necesar
Precizie completă (FP16/BF16)	Cluster GPU multi-nod
Cuantizat INT8	2x Nvidia RTX 4090 (48 GB total VRAM)
Cuantizat INT4	1x Nvidia RTX 5090 (32 GB VRAM)

Această poveste a accesibilității este centrală pentru propunerea de valoare open-source a DeepSeek. Un model cu weights deschise care necesită un centru de date pentru a rula este interesant din punct de vedere academic, dar limitat practic. Un model care încape pe hardware pe care un dezvoltator îl poate cumpăra de la Micro Center schimbă complet ecuația.

Cuantizarea implică întotdeauna compromisuri -- precizia redusă poate degrada performanța pe anumite sarcini -- dar arhitectura MoE a DeepSeek este bine adaptată pentru cuantizare deoarece doar parametrii experți activi trebuie încărcați în memorie pentru orice pas de inference dat.

Open Source: Licența Apache 2.0

DeepSeek a confirmat planurile de a lansa weights pentru V4 sub licența Apache 2.0, una dintre cele mai permisive licențe open-source disponibile. Acest lucru înseamnă:

Utilizare comercială permisă -- companiile pot implementa V4 în produse fără taxe de licențiere
Modificare permisă -- dezvoltatorii pot face fine-tune, distilare sau pot modifica modelul în mod liber
Fără obligații de copyleft -- lucrările derivate nu trebuie să fie open-source
Grant de brevet inclus -- Apache 2.0 include o licență de brevet explicită

Aceasta continuă modelul DeepSeek de lansări autentice deschise, care contrastează cu abordarea "weights deschise, dar licență restricționată" adoptată de unii competitori. Pentru comunitatea de dezvoltatori, o lansare Apache 2.0 a unui model la acest nivel de capacitate ar fi fără precedent.

Impactul practic pentru dezvoltatori:

Alternativele self-hosted la API-urile Claude, GPT și Gemini devin viabile pentru mai multe cazuri de utilizare
Fine-tuning pe date proprietare devine posibil fără a partaja datele cu o parte terță
Predictibilitatea costurilor -- costurile de inference sunt costuri hardware, nu taxe API per-token
Controlul latenței -- implementarea locală elimină runda de rețea

Timeline-ul lansării: O serie lungă de ferestre ratate

Drumul către lansarea DeepSeek V4 a fost orice altceva decât lin. Iată timeline-ul ferestrelor de lansare așteptate și ratate:

Dată	Eveniment
Late January 2026	Primele zvonuri despre un "V4" în faza de testare apar pe forumurile tehnice chinezești
Mid-February 2026	Prima fereastră de lansare speculată trece fără niciun anunț
Late February 2026	Fereastra de lansare de Lunar New Year trece; o scurtă întrerupere a API-ului stârnește speculații
Early March 2026	Financial Times raportează că lansarea V4 este "iminentă"
March 9, 2026	Eticheta "V4 Lite" apare pe site-ul DeepSeek, fiind rapid observată de utilizatori
March 12, 2026	Versiunea completă V4 încă nu s-a lansat oficial

Apariția V4 Lite pe March 9 este cel mai concret semnal de până acum. Deși detaliile rămân puține, sugerează că cel puțin o variantă mai mică a familiei V4 este în etapele finale. Numărul de parametri de ~200B vehiculat pentru V4 Lite l-ar face semnificativ mai accesibil decât modelul complet de un trilion de parametri, oferind în același timp o avanpremieră a inovațiilor arhitecturale ale V4, cum ar fi memoria Engram.

Mai mulți factori ar putea explica întârzierile:

Antrenarea pe hardware non-Nvidia introduce noi provocări de engineering
Obiectivele de benchmark s-ar putea să nu fi fost atinse la primele rulări de training
Considerații de reglementare legate de cadrele de guvernanță AI din China
Momentul geopolitic -- lansările majore de AI din laboratoarele chinezești atrag atenția

Ce înseamnă acest lucru pentru dezvoltatori

Indiferent de data exactă a lansării, DeepSeek V4 are implicații care merită planificate.

Dacă benchmarks se confirmă

Un model open-source care egalează Claude Opus 4.5 și GPT-5.3 în sarcini de coding ar schimba fundamental calculul build-vs-buy pentru instrumentele de dezvoltare bazate pe AI. Companiile care plătesc în prezent costuri API semnificative pentru capacități de coding de frontieră ar avea o alternativă self-hostable. Acest lucru pune presiune pe scăderea prețurilor API în întreaga industrie -- ceea ce avantajează dezvoltatorii, indiferent de modelul pe care îl folosesc.

Dacă Engram funcționează conform afirmațiilor

Un model care gestionează în mod fiabil contexte de un milion de tokens ar reduce complexitatea arhitecturilor RAG. În loc să construiască pipeline-uri elaborate de chunking, embedding și retrieval, dezvoltatorii ar putea trimite direct modelului codebase-uri întregi sau colecții de documente. Acest lucru nu elimină complet nevoia de RAG (costul și latența încă contează), dar simplifică arhitectura pentru multe cazuri de utilizare.

Dacă generarea multimodală este competitivă

Generarea de imagini și video open-source ar deschide cazuri de utilizare creative și de produs care necesită în prezent API-uri proprietare scumpe. Echipele mici și dezvoltatorii independenți ar câștiga acces la capacități care sunt în prezent limitate de liste de așteptare și prețuri enterprise.

Ce să faci acum

Urmăriți lansarea oficială -- urmăriți canalele oficiale DeepSeek în loc să vă bazați pe zvonuri
Pregătiți-vă infrastructura -- dacă plănuiți să găzduiți modelul, asigurați-vă că aveți hardware-ul GPU necesar (minimum 2x RTX 4090 pentru inference cuantizat)
Planificați-vă evaluarea -- decideți care benchmarks și cazuri de utilizare contează pentru aplicațiile voastre specifice, astfel încât să puteți testa rapid odată ce weights sunt disponibile
Rămâneți sceptici -- benchmarks scurse reprezintă marketing până când sunt verificate independent; evaluați modelul pe propriile sarcini înainte de a lua decizii legate de infrastructură

Concluzia

DeepSeek V4 reprezintă ceea ce ar putea fi cea mai semnificativă lansare de AI open-source din 2026. Un model MoE de un trilion de parametri cu context de un milion de tokens, capacități multimodale native și benchmarks de coding care rivalizează cu cele mai bune modele proprietare -- totul sub Apache 2.0 -- ar fi un punct de inflexiune autentic pentru ecosistemul dezvoltatorilor AI.

Cuvântul operativ este "ar putea". Afirmațiile de benchmark sunt neverificate. Data lansării rămâne incertă. Sistemul de memorie Engram are nevoie de evaluare independentă. Iar performanța practică a unui model antrenat pe hardware non-Nvidia la această scară este un teritoriu cu adevărat necunoscut.

Ceea ce este clar este că prăpastia dintre modelele AI open-source și cele proprietare continuă să se micșoreze, iar DeepSeek este una dintre forțele principale care conduc această convergență. Indiferent dacă V4 se ridică la înălțimea fiecărei afirmații sau eșuează în anumite domenii, lansarea sa eventuală va fi unul dintre cele mai importante evenimente în dezvoltarea AI din acest an.

Vom actualiza acest articol pe măsură ce noi informații devin disponibile. Pentru cele mai recente știri despre DeepSeek V4 și alte evoluții AI, urmăriți acoperirea noastră.

NxCode

DeepSeek V4: Vše, co víme – Specs, Benchmarks a datum vydání (2026)