Когда выйдет DeepSeek V4?

По состоянию на март 2026 года DeepSeek V4 официально не выпущена. Несколько окон релиза (середина февраля, Lunar New Year, начало марта) уже прошли. Financial Times и другие источники указывают на скорый релиз, а обновление «V4 Lite» появилось на сайте DeepSeek 9 марта 2026 года.

Сколько parameters у DeepSeek V4?

DeepSeek V4 использует архитектуру Mixture-of-Experts (MoE) с общим количеством около 1 trillion parameters и примерно 37 billion active parameters на token. Ожидается, что V4 Lite будет иметь около 200 billion parameters.

Какое context window у DeepSeek V4?

DeepSeek V4 поддерживает 1 million token context window, что является огромным скачком по сравнению с длиной контекста V3. Это обеспечивается архитектурой Engram conditional memory, которая достигает 97% accuracy в тесте Needle-in-a-Haystack на миллион токенов.

Является ли DeepSeek V4 open source?

Да. DeepSeek планирует выпустить веса V4 под лицензией Apache 2.0, продолжая свою open source традицию. Модель разработана для запуска на потребительском hardware (dual RTX 4090 или одна RTX 5090) при условии quantization.

Какие результаты DeepSeek V4 в benchmarks?

Утекшие внутренние benchmarks утверждают, что V4 набирает 90% в HumanEval и превышает 80% в SWE-bench Verified. Если это подтвердится, результат сравняется или превзойдет рекорд Claude Opus 4.5 в 80.9% на SWE-bench. Эти показатели не были независимо проверены.

Может ли DeepSeek V4 генерировать изображения и видео?

Да. DeepSeek V4 — это native multimodal модель, которая поддерживает генерацию text, image и video. В отличие от моделей, где vision capabilities добавлены отдельно, V4 интегрирует multimodal understanding во время pre-training для более связного cross-modal reasoning.

Kluczowe wnioski

1T parameters z wydajnością MoE: DeepSeek V4 skaluje się do około 1 trillion całkowitych parameters, ale aktywuje tylko ~37B na token, utrzymując koszty inference na poziomie porównywalnym do V3.
Pamięć Engram umożliwia 1M context window: Architektura pamięci warunkowej osiąga 97% dokładności Needle-in-a-Haystack przy skali million-token, rozwiązując problem degradacji retrieval.
Natywna multimodalność: W przeciwieństwie do modeli, które dołączają vision zewnętrznie, V4 integruje generowanie tekstu, obrazu i wideo podczas pre-training dla bardziej spójnego rozumowania cross-modalnego.
Opóźniony, ale bliski wydania: Wiele okien wydawniczych już minęło, ale "V4 Lite" pojawił się na stronie internetowej DeepSeek 9 marca 2026 r., co sugeruje strategię stopniowego wdrażania.

DeepSeek V4: Wszystko, co wiemy -- Specyfikacje, Benchmarki i Status Wydania (March 2026)

March 2026 -- DeepSeek V3 napisał zasady dla open-source AI na nowo, gdy zadebiutował pod koniec 2024 r., udowadniając, że chińskie laboratorium AI może konkurować łeb w łeb z OpenAI i Anthropic w benchmarkach rozumowania, wydając jednocześnie wagi za darmo. Teraz DeepSeek V4 jest najbardziej oczekiwanym modelem open-source roku 2026 -- i po miesiącach opóźnień, przecieków oraz niespodziewanym pojawieniu się "V4 Lite", pełne wydanie wydaje się bliskie.

Ten artykuł gromadzi wszystko, co obecnie wiadomo o DeepSeek V4: jego architekturę, możliwości, deklaracje dotyczące benchmarków, kwestie hardware oraz długą drogę do premiery. Tam, gdzie informacje pochodzą z przecieków lub nieoficjalnych źródeł, wyraźnie to zaznaczamy.

Architektura: 1 Trillion Parameters, 37 Billion Aktywnych

DeepSeek V4 kontynuuje architekturę Mixture-of-Experts (MoE), która uczyniła V3 tak wydajnym, ale skaluje ją drastycznie. Oto kluczowe liczby architektoniczne oparte na dostępnych informacjach:

Specyfikacja	DeepSeek V3	DeepSeek V4	DeepSeek V4 Lite
Całkowita liczba parameters	671B	~1T (1 trillion)	~200B
Aktywne parameters	~37B	~37B	TBD
Architektura	MoE	MoE	MoE
Context Window	128K tokens	1M tokens	TBD
Hardware treningowy	Nvidia H800	Huawei Ascend / Cambricon	TBD
Licencja	Open (custom)	Apache 2.0 (planowana)	TBD

Podejście MoE pozwala zachować praktyczność V4 pomimo skali trillion-parameter. Zamiast aktywować cały model przy każdym tokenie, MoE kieruje każdy input do małego podzbioru wyspecjalizowanych sub-sieci "expert". DeepSeek V4 rzekomo aktywuje około 37 billion parameters na token -- w przybliżeniu tyle samo co V3 -- co oznacza, że koszty inference pozostają możliwe do opanowania, mimo że całkowity model jest o 50% większy.

Jest to krytyczny wybór projektowy. Gęsty model o skali 1T-parameter byłby zbyt kosztowny w eksploatacji. Utrzymując stałą liczbę aktywnych parameters przy jednoczesnym rozszerzaniu puli expertów, DeepSeek zyskuje zdolność do głębszej specjalizacji w różnych domenach (kod, matematyka, kreatywne pisanie, zadania wielojęzyczne) bez proporcjonalnego zwiększania wymagań obliczeniowych.

Pamięć Engram: Pamięć warunkowa, która naprawdę działa

Być może najciekawszą technicznie funkcją DeepSeek V4 jest Engram, architektura pamięci warunkowej zaprojektowana w celu rozwiązania jednego z najtrudniejszych problemów w modelach językowych o długim kontekście: efektywnego wyszukiwania istotnych informacji z ekstremalnie długich danych wejściowych.

Standardowy transformer attention ulega degradacji wraz ze wzrostem kontekstu. Modele technicznie mogą przyjmować długie dane wejściowe, ale ich zdolność do znajdowania i używania konkretnych informacji ukrytych głęboko w tych kontekstach spada. Jest to dobrze udokumentowane w benchmarku Needle-in-a-Haystack, który sprawdza, czy model potrafi zlokalizować konkretny fakt umieszczony w różnych pozycjach wewnątrz długiego dokumentu.

Architektura Engram rozwiązuje ten problem poprzez mechanizm pamięci warunkowej, który selektywnie przechowuje i pobiera informacje w oparciu o sygnały istotności, zamiast polegać wyłącznie na attention w całym ciągu.

Deklarowane wyniki:

Metryka	Standard Attention	Engram (DeepSeek V4)
Needle-in-a-Haystack (1M tokens)	84.2% dokładności	97% dokładności
Obsługiwana długość context window	Różna (zwykle 128K)	1M tokens

Jeśli liczba 97% potwierdzi się w niezależnych testach, będzie to oznaczać znaczący postęp. Luka między 84.2% a 97% przy skali million-token to różnica między modelem, który w większości radzi sobie z długimi dokumentami, a takim, który pracuje z nimi niezawodnie. Dla programistów budujących systemy retrieval-augmented generation (RAG), narzędzia do analizy kodu lub procesy przetwarzania dokumentów, może to zmniejszyć potrzebę stosowania strategii chunking i zewnętrznych warstw retrieval.

Ważne zastrzeżenie: Liczby te pochodzą z wewnętrznych benchmarków i nie zostały niezależnie zweryfikowane do marca 2026 r. Dopóki oceny stron trzecich nie potwierdzą tych deklaracji, należy traktować je jako aspiracje.

Context Window: 1 Milion Tokens

1 milion token context window w DeepSeek V4 stawia go w tej samej klasie co modele Google Gemini, które zapoczątkowały miliony tokenów kontekstu. Dla odniesienia, milion tokens to w przybliżeniu odpowiednik:

15-20 pełnowymiarowych powieści
Całego średniej wielkości codebase (ponad 500 plików)
Kilku lat historii czatu
Pełnego zestawu dokumentów prawnych

Praktyczna wartość długiego kontekstu zależy silnie od jakości retrieval (patrz Engram powyżej). Milion-token window ze słabym retrieval jest gorszy niż 128K window z doskonałym retrieval. Jeśli twierdzenia DeepSeek dotyczące Engram się potwierdzą, V4 oferowałby zarówno pojemność, jak i dokładność, czyniąc milion-token context window autentycznie użytecznym, a nie tylko liczbą marketingową.

Dla programistów bezpośrednie zastosowania obejmują:

Zrozumienie całego repozytorium kodu bez konieczności chunking i podsumowywania
Analiza długich dokumentów (prawnych, medycznych, finansowych) w jednym przebiegu
Rozszerzone sesje agentów, w których model zachowuje pełną historię rozmów i działań
Rozumowanie wielodokumentowe na dużych kolekcjach

Możliwości multimodalne: Generowanie tekstu, obrazu i wideo

DeepSeek V4 jest opisywany jako natywny model multimodalny, co oznacza, że vision i możliwości generowania są zintegrowane podczas pre-training, a nie dodawane jako oddzielne moduły po fakcie. Jest to istotne rozróżnienie architektoniczne w porównaniu do modeli, które dołączają rozumienie obrazu poprzez warstwy adapterów.

Zgłaszane możliwości multimodalne obejmują:

Generowanie tekstu (podstawowa zdolność modelu językowego)
Rozumienie i generowanie obrazów (konkurujące z DALL-E 3, Midjourney)
Generowanie wideo (konkurujące z OpenAI Sora, Google Veo 3)
Rozumowanie cross-modalne (odpowiadanie na pytania dotyczące obrazów, generowanie obrazów ze złożonych opisów, tworzenie wideo z tekstu)

Zdolność generowania wideo jest szczególnie godna uwagi. Jeśli DeepSeek V4 może generować wideo o jakości konkurencyjnej dla Sora lub Veo 3, będąc jednocześnie open-source, zdemokratyzowałoby to dostęp do technologii, która obecnie wymaga albo drogiego dostępu do API, albo platform własnościowych. Jednak deklaracje dotyczące jakości generowania wideo są jednymi z najtrudniejszych do oceny na podstawie samych specyfikacji -- jakość rzeczywistych wyników różni się ogromnie.

Natywna integracja multimodalna teoretycznie umożliwia bardziej spójne rozumowanie cross-modalne. Model, który rozumie obrazy od etapu pre-training, powinien radzić sobie z zadaniami takimi jak "opisz, co jest nie tak z tym zrzutem ekranu UI i wygeneruj poprawioną wersję" bardziej naturalnie niż model, w którym vision dodano później. To, czy V4 spełni tę obietnicę w praktyce, dopiero się okaże.

Benchmarki: Silne deklaracje, niezweryfikowane

Przeciekające wewnętrzne benchmarki malują imponujący obraz możliwości DeepSeek V4. Oto jak deklarowane wyniki wypadają w porównaniu z obecnymi wiodącymi modelami:

Benchmarki kodowania

Model	HumanEval	SWE-bench Verified
DeepSeek V4 (leak)	90%	80%+
Claude Opus 4.5	~88%	80.9%
GPT-5.3 Codex	~87%	~80%
DeepSeek V3	~82%	~49%
Llama 3.1 405B	~80%	~33%

Kluczowe obserwacje

HumanEval na poziomie 90% stanowiłoby nowy rekord dla tego benchmarku, chociaż HumanEval staje się coraz bardziej nasycony i wielu badaczy kwestionuje jego dalszą przydatność w odróżnianiu modeli najwyższej klasy.

SWE-bench Verified powyżej 80% to bardziej znacząca deklaracja. SWE-bench testuje zdolność modelu do rozwiązywania rzeczywistych problemów GitHub z prawdziwych projektów open-source -- co jest znacznie trudniejszym i bardziej praktycznym testem umiejętności kodowania. Claude Opus 4.5 obecnie posiada rekord 80.9%. Jeśli DeepSeek V4 dorówna temu lub go przewyższy, będąc modelem open-source, będzie to przełomowe osiągnięcie.

Skok z ~49% w SWE-bench dla V3 do deklarowanych 80%+ dla V4 byłby nadzwyczajny. Tego rodzaju poprawa w jednej generacji jest rzadka i budzi sceptycyzm do czasu niezależnej weryfikacji. Możliwe wyjaśnienia obejmują:

Pamięć Engram i dłuższe context window pozwalają modelowi rozumować nad całymi repozytoriami, co premiuje SWE-bench
Znaczące ulepszenia w danych treningowych specyficznych dla kodu i fine-tuning
Wyniki benchmarków pochodzą ze zoptymalizowanej konfiguracji ewaluacyjnej, która może nie odzwierciedlać typowego użycia

Dopóki niezależne benchmarki z takich źródeł jak LMSYS, BigCode lub laboratoria akademickie nie potwierdzą tych liczb, należy je traktować jako deklaracje, a nie fakty.

Hardware: Zbudowany bez Nvidia

Jednym z najistotniejszych aspektów DeepSeek V4 jest jego hardware treningowy. Ze względu na ograniczenia eksportowe USA, które limitują dostęp chińskich firm do najpotężniejszych GPU od Nvidia, DeepSeek V4 był rzekomo trenowany na kombinacji:

Akceleratorów AI Huawei Ascend 910B
Chipów Cambricon MLU

Jest to znaczące z dwóch powodów.

Po pierwsze, pokazuje to, że modele klasy frontier AI mogą być trenowane bez hardware od Nvidia. DeepSeek V3 był już godny uwagi dzięki użyciu chipów Nvidia H800 (ograniczonej wersji H100), ale V4 przenosi się całkowicie na chiński silicon. Jeśli V4 spełni swoje obietnice w benchmarkach, udowodni to, że fosa hardware'owa wokół Nvidia jest węższa, niż wielu zakładało.

Po drugie, ma to wpływ na ogólną konkurencję w dziedzinie AI hardware. Huawei i Cambricon intensywnie inwestują w akceleratory AI, a udany proces treningowy V4 byłby ich najsilniejszym dotychczasowym dowodem skuteczności.

Uruchamianie V4 na sprzęcie konsumenckim

Pomimo skali trillion-parameter, DeepSeek podkreślał, że V4 może działać na sprzęcie konsumenckim po quantized. Raportowane cele:

Konfiguracja	Wymagany Hardware
Full precision (FP16/BF16)	Wielowęzłowy klaster GPU
INT8 quantized	2x Nvidia RTX 4090 (łącznie 48 GB VRAM)
INT4 quantized	1x Nvidia RTX 5090 (32 GB VRAM)

Ta dostępność jest kluczowa dla propozycji wartości open-source od DeepSeek. Model o otwartych wagach, który do działania wymaga centrum danych, jest interesujący akademicko, ale ograniczony praktycznie. Model, który mieści się na hardware, który programista może kupić w Micro Center, całkowicie zmienia postać rzeczy.

Quantization zawsze wiąże się z kompromisami -- zmniejszona precyzja może pogorszyć wydajność w niektórych zadaniach -- ale architektura MoE DeepSeek dobrze nadaje się do quantization, ponieważ tylko aktywne expert parameters muszą być ładowane do pamięci dla danego kroku inference.

Open Source: Licencja Apache 2.0

DeepSeek potwierdził plany wydania wag V4 na licencji Apache 2.0, jednej z najbardziej liberalnych dostępnych licencji open-source. Oznacza to:

Dozwolony użytek komercyjny -- firmy mogą wdrażać V4 w produktach bez opłat licencyjnych
Dozwolona modyfikacja -- programiści mogą dowolnie fine-tune, distill lub modyfikować model
Brak zobowiązań copyleft -- prace pochodne nie muszą być udostępniane jako open-source
Udzielenie patentów w zestawie -- Apache 2.0 zawiera wyraźną licencję patentową

Kontynuuje to model prawdziwie otwartych wydań DeepSeek, co kontrastuje z podejściem "otwarte wagi, ale ograniczona licencja" stosowanym przez niektórych konkurentów. Dla społeczności programistów wydanie modelu na tym poziomie możliwości na licencji Apache 2.0 byłoby bezprecedensowe.

Praktyczny wpływ dla programistów:

Self-hosted alternatywy dla API Claude, GPT i Gemini stają się realne w większej liczbie przypadków użycia
Fine-tuning na własnych danych staje się możliwy bez udostępniania danych stronie trzeciej
Przewidywalność kosztów -- koszty inference to koszty hardware, a nie opłaty za token w API
Kontrola opóźnień -- lokalne wdrożenie eliminuje przesyłanie danych przez sieć

Harmonogram wydania: Długa seria przegapionych terminów

Droga do wydania DeepSeek V4 nie była łatwa. Oto oś czasu oczekiwanych i przegapionych okien wydawniczych:

Data	Wydarzenie
Late January 2026	Na chińskich forach technologicznych pojawiają się pierwsze plotki o testach "V4"
Mid-February 2026	Pierwsze spekulowane okno wydawnicze mija bez ogłoszenia
Late February 2026	Okno wydawnicze związane z Lunar New Year mija; krótka awaria API wywołuje spekulacje
Early March 2026	Financial Times donosi, że wydanie V4 jest "bliskie"
March 9, 2026	Etykieta "V4 Lite" pojawia się na stronie DeepSeek, co zostaje szybko zauważone przez użytkowników
March 12, 2026	Pełny V4 wciąż nie został oficjalnie wydany

Pojawienie się V4 Lite 9 marca jest jak dotąd najbardziej konkretnym sygnałem. Choć szczegóły są skąpe, sugeruje to, że przynajmniej mniejszy wariant rodziny V4 jest w końcowej fazie. Liczba ~200B parameters plotkowana dla V4 Lite czyniłaby go znacznie bardziej dostępnym niż pełny model o skali trillion-parameter, oferując jednocześnie przedsmak innowacji architektonicznych V4, takich jak pamięć Engram.

Wiele czynników może tłumaczyć opóźnienia:

Trening na hardware innym niż Nvidia wprowadza nowe wyzwania inżynieryjne
Cele benchmarków mogły nie zostać osiągnięte w początkowych przebiegach treningowych
Względy regulacyjne dotyczące chińskich ram zarządzania AI
Timing geopolityczny -- główne wydania AI z chińskich laboratoriów przyciągają uwagę

Co to oznacza dla programistów

Niezależnie od dokładnej daty wydania, DeepSeek V4 niesie ze sobą skutki, które warto zaplanować.

Jeśli benchmarki się potwierdzą

Model open-source dorównujący Claude Opus 4.5 i GPT-5.3 w zadaniach związanych z kodowaniem zasadniczo zmieniłby kalkulację build-vs-buy dla narzędzi programistycznych opartych na AI. Firmy płacące obecnie znaczne kwoty za API dla najnowocześniejszych możliwości kodowania zyskałyby alternatywę do samodzielnego hostowania. Wywiera to presję na obniżenie cen API w całej branży -- co przynosi korzyści programistom niezależnie od tego, którego modelu używają.

Jeśli Engram zadziała zgodnie z deklaracjami

Model, który niezawodnie obsługuje miliony tokenów kontekstu, zmniejszyłby złożoność architektur RAG. Zamiast budować skomplikowane procesy chunking, embedding i retrieval, programiści mogliby potencjalnie przekazywać całe codebase'y lub kolekcje dokumentów bezpośrednio do modelu. Nie eliminuje to całkowicie potrzeby RAG (koszt i opóźnienia wciąż mają znaczenie), ale upraszcza architekturę w wielu przypadkach użycia.

Jeśli generowanie multimodalne będzie konkurencyjne

Open-source'owe generowanie obrazów i wideo otworzyłoby kreatywne i produktowe przypadki użycia, które obecnie wymagają drogich, zamkniętych API. Małe zespoły i niezależni programiści zyskaliby dostęp do możliwości, które obecnie są ograniczone listami oczekiwania i cennikami enterprise.

Co robić teraz

Śledź oficjalne wydanie -- obserwuj oficjalne kanały DeepSeek zamiast polegać na plotkach
Przygotuj infrastrukturę -- jeśli planujesz self-host, upewnij się, że masz hardware GPU (minimum 2x RTX 4090 dla quantized inference)
Zaplanuj ewaluację -- zdecyduj, które benchmarki i przypadki użycia mają znaczenie dla Twoich konkretnych aplikacji, abyś mógł szybko przeprowadzić testy, gdy wagi będą dostępne
Zachowaj sceptycyzm -- przecieki benchmarków to marketing do czasu niezależnej weryfikacji; oceń model na własnych zadaniach przed podjęciem decyzji o infrastrukturze

Podsumowanie

DeepSeek V4 reprezentuje to, co może być najważniejszym wydaniem open-source AI w 2026 r. Model MoE o skali trillion-parameter z milionem tokenów context window, natywnymi możliwościami multimodalnymi i benchmarkami kodowania rywalizującymi z najlepszymi modelami własnościowymi -- wszystko na licencji Apache 2.0 -- byłoby prawdziwym punktem zwrotnym dla ekosystemu programistów AI.

Słowem kluczowym jest "mogłoby". Deklaracje dotyczące benchmarków są niezweryfikowane. Data wydania pozostaje niepewna. System pamięci Engram wymaga niezależnej oceny. A praktyczna wydajność modelu trenowanego na hardware innym niż Nvidia w tej skali jest autentycznie niezbadanym terytorium.

Jasne jest jednak to, że przepaść między open-source a zamkniętymi modelami AI stale się zmniejsza, a DeepSeek jest jedną z głównych sił napędzających tę konwergencję. Bez względu na to, czy V4 spełni każdą obietnicę, czy w niektórych obszarach okaże się słabszy, jego ewentualne wydanie będzie jednym z najważniejszych wydarzeń w rozwoju AI w tym roku.

Będziemy aktualizować ten artykuł w miarę pojawiania się nowych informacji. Aby śledzić najnowsze wieści o DeepSeek V4 i innych wydarzeniach w świecie AI, obserwuj nasze relacje.

NxCode

DeepSeek V4: всё, что мы знаем — Specs, Benchmarks и дата релиза (2026)