DeepSeek V4: Kõik, mida teame – Specs, Benchmarks ja väljalaskekuupäev (2026)
← Nazaj na novice

DeepSeek V4: Kõik, mida teame – Specs, Benchmarks ja väljalaskekuupäev (2026)

N

NxCode Team

12 min read

Ključne ugotovitve

  • 1T parametrov z MoE učinkovitostjo: DeepSeek V4 se razširi na približno 1 bilijon skupnih parametrov, vendar aktivira le ~37B na token, kar ohranja stroške inference primerljive z V3.
  • Engram pomnilnik omogoča 1M konteksta: Arhitektura pogojnega pomnilnika dosega 97-odstotno natančnost pri Needle-in-a-Haystack na lestvici milijon tokens, kar rešuje problem degradacije iskanja informacij.
  • Izvorno multimodalen: Za razliko od modelov, ki vid dodajo naknadno, V4 integrira generiranje besedila, slik in videa že med pred-usposabljanjem za bolj koherentno medmodalno sklepanje.
  • Zakasnjeno, a neizbežno: Številna okna za izdajo so že minila, vendar se je 9. marca 2026 na spletni strani DeepSeek pojavila oznaka "V4 Lite", kar nakazuje na strategijo postopnega uvajanja.

DeepSeek V4: Vse, kar vemo -- specifikacije, primerjalni testi in status izdaje (Marec 2026)

Marec 2026 -- DeepSeek V3 je ob svojem izidu konec leta 2024 ponovno napisal pravila za odprtokodno AI, ko je dokazal, da se kitajski laboratorij za AI lahko neposredno kosa z OpenAI in Anthropic na področju primerjalnih testov sklepanja, hkrati pa brezplačno objavi uteži modela. Zdaj je DeepSeek V4 najbolj pričakovan odprtokodni model leta 2026 -- in po mesecih zamud, puščanj informacij in presenetljivega pojava "V4 Lite", se zdi celotna izdaja neizbežna.

Ta članek povzema vse, kar je trenutno znano o DeepSeek V4: njegovo arhitekturo, zmožnosti, trditve o primerjalnih testih, zgodbo o strojni opremi in dolgo pot do izida. Kjer informacije izvirajo iz puščanj ali neuradnih virov, to jasno navajamo.


Arhitektura: 1 bilijon parametrov, 37 milijard aktivnih

DeepSeek V4 nadaljuje z arhitekturo Mixture-of-Experts (MoE), zaradi katere je bil V3 tako učinkovit, vendar jo dramatično povečuje. Tukaj so ključne arhitekturne številke na podlagi razpoložljivih informacij:

SpecifikacijaDeepSeek V3DeepSeek V4DeepSeek V4 Lite
Skupno število parametrov671B~1T (1 bilijon)~200B
Aktivni parametri~37B~37BŠe ni določeno
ArhitekturaMoEMoEMoE
Kontekstno okno128K tokens1M tokensŠe ni določeno
Strojna oprema za usposabljanjeNvidia H800Huawei Ascend / CambriconŠe ni določeno
LicencaOdprta (po meri)Apache 2.0 (načrtovano)Še ni določeno

Pristop MoE je tisto, kar ohranja V4 praktičen kljub njegovi lestvici bilijona parametrov. Namesto da bi aktiviral celoten model pri vsakem token, MoE usmeri vsak vhod v majhen podnabor specializiranih "strokovnih" podomrežij. DeepSeek V4 naj bi aktiviral približno 37 milijard parametrov na token -- približno enako kot V3 -- kar pomeni, da stroški inference ostajajo obvladljivi, čeprav je celoten model za 50 % večji.

To je kritična konstrukcijska odločitev. Gosti model z 1T parametri bi bil za delovanje pretirano drag. Z ohranjanjem konstantnih aktivnih parametrov ob razširitvi nabora strokovnjakov DeepSeek pridobi kapaciteto za globljo specializacijo na različnih področjih (koda, matematika, kreativno pisanje, večjezične naloge), ne da bi sorazmerno povečal računske zahteve.


Engram pomnilnik: Pogojni pomnilnik, ki dejansko deluje

Morda tehnično najzanimivejša lastnost DeepSeek V4 je Engram, arhitektura pogojnega pomnilnika, zasnovana za reševanje enega najtežjih problemov v jezikovnih modelih z dolgim kontekstom: dejansko pridobivanje ustreznih informacij iz izjemno dolgih vhodov.

Standardna pozornost transformerja (attention) upada z naraščanjem konteksta. Modeli lahko tehnično sprejmejo dolge vhode, vendar njihova sposobnost iskanja in uporabe specifičnih informacij, zakopanih globoko v teh kontekstih, pade. To je dobro dokumentirano v primerjalnem testu Needle-in-a-Haystack, ki preverja, ali model lahko locira določeno dejstvo, vstavljeno na različnih mestih znotraj dolgega dokumenta.

Arhitektura Engram to rešuje prek mehanizma pogojnega pomnilnika, ki selektivno shranjuje in pridobiva informacije na podlagi signalov o ustreznosti, namesto da bi se zanašal izključno na pozornost skozi celotno zaporedje.

Navedeni rezultati:

MetrikaStandardna pozornostEngram (DeepSeek V4)
Needle-in-a-Haystack (1M tokens)84.2% natančnost97% natančnost
Podprta dolžina kontekstaRazlično (običajno 128K)1M tokens

Če bo številka 97 % obveljala pri neodvisnem testiranju, to predstavlja pomemben napredek. Razlika med 84.2 % in 97 % na lestvici milijon tokens je razlika med modelom, ki večinoma deluje z dolgimi dokumenti, in tistim, ki z njimi zanesljivo deluje. Za razvijalce, ki gradijo sisteme za iskanje s pomočjo generiranja (RAG), orodja za analizo kode ali cevovode za obdelavo dokumentov, bi to lahko zmanjšalo potrebo po strategijah razkosavanja (chunking) in zunanjih iskalnih slojih.

Pomembno opozorilo: Te številke prihajajo iz notranjih primerjalnih testov in do marca 2026 niso bile neodvisno preverjene. Dokler ocene tretjih oseb ne potrdijo trditev, jih obravnavajte kot ambiciozne cilje.


Kontekstno okno: 1 milijon tokens

1 milijon tokens dolga kontekstno okno DeepSeek V4 ga uvršča v isti razred kot Googlove modele Gemini, ki so bili pionirji na področju milijonskih kontekstov. Za referenco, milijon tokens je približno enakovredno:

  • 15-20 celovečernim romanom
  • Celotni srednje veliki kodi (500+ datotek)
  • Večletni zgodovini klepeta
  • Celotnemu nizu dokumentov za pravni postopek (legal discovery)

Praktična vrednost dolgega konteksta je močno odvisna od kakovosti iskanja (glej Engram zgoraj). Milijonsko okno s slabim iskanjem je slabše od 128K okna z odličnim iskanjem. Če trditve DeepSeek o Engram držijo, bi V4 ponudil tako kapaciteto kot natančnost, da bi milijonski konteksti postali resnično uporabni in ne le marketinška številka.

Za razvijalce neposredne aplikacije vključujejo:

  • Razumevanje kode celotnega repozitorija brez potrebe po razkosavanju in povzemanju
  • Analiza dolgih dokumentov (pravnih, medicinskih, finančnih) v enem prehodu
  • Podaljšane seje agentov, kjer model ohrani celotno zgodovino pogovorov in dejanj
  • Sklepanje med več dokumenti v velikih zbirkah

Multimodalne zmožnosti: Generiranje besedila, slik in videa

DeepSeek V4 je opisan kot izvorno multimodalen model, kar pomeni, da so zmožnosti vida in generiranja integrirane že med pred-usposabljanjem, namesto da bi bile dodane kot ločeni moduli po tem. To je pomembna arhitekturna razlika od modelov, ki razumevanje slik dodajo prek prilagojevalnih slojev (adapter layers).

Poročane multimodalne zmožnosti vključujejo:

  • Generiranje besedila (osrednja zmožnost jezikovnega modela)
  • Razumevanje in generiranje slik (konkurenca DALL-E 3, Midjourney)
  • Generiranje videa (konkurenca OpenAI Sora, Google Veo 3)
  • Medmodalno sklepanje (odgovarjanje na vprašanja o slikah, generiranje slik iz kompleksnih opisov, ustvarjanje videa iz besedila)

Zmožnost generiranja videa je še posebej opazna. Če lahko DeepSeek V4 generira video kakovosti, ki je konkurenčna Sora ali Veo 3, hkrati pa je odprtokoden, bi to demokratiziralo dostop do tehnologije, ki trenutno zahteva bodisi drag dostop do API bodisi lastniške platforme. Vendar pa so trditve o kakovosti generiranja videa med najtežjimi za ocenjevanje le na podlagi specifikacij -- kakovost dejanskih rezultatov se močno razlikuje.

Izvorna multimodalna integracija teoretično omogoča bolj koherentno medmodalno sklepanje. Model, ki razume slike že iz pred-usposabljanja, bi moral naloge, kot so "opiši, kaj je narobe s tem posnetkom zaslona uporabniškega vmesnika in generiraj popravljeno različico", opraviti bolj naravno kot tisti, kjer je bil vid dodan kasneje. Ali bo V4 to obljubo v praksi izpolnil, bomo šele videli.


Primerjalni testi: Močne trditve, nepreverjeno

Pricurljali notranji primerjalni testi slikajo impresivno sliko zmožnosti DeepSeek V4. Tukaj je primerjava trdenih rezultatov s trenutno vodilnimi modeli:

Primerjalni testi kodiranja

ModelHumanEvalSWE-bench Verified
DeepSeek V4 (pricurljalo)90%80%+
Claude Opus 4.5~88%80.9%
GPT-5.3 Codex~87%~80%
DeepSeek V3~82%~49%
Llama 3.1 405B~80%~33%

Ključna opažanja

HumanEval pri 90% bi predstavljal nov mejnik za ta primerjalni test, čeprav je HumanEval postal vse bolj nasičen in mnogi raziskovalci dvomijo o njegovi nadaljnji ustreznosti za razlikovanje med vrhunskimi modeli.

SWE-bench Verified nad 80% je bolj pomenljiva trditev. SWE-bench preverja sposobnost modela za reševanje resničnih težav na GitHub iz resničnih odprtokodnih projektov -- kar je veliko težji in bolj praktičen preizkus sposobnosti kodiranja. Claude Opus 4.5 trenutno drži rekord z 80.9 %. Če DeepSeek V4 to doseže ali preseže, medtem ko je odprtokoden, bi bil to zgodovinski dosežek.

Skok z ~49 % rezultata SWE-bench pri V3 na trdenih 80 % pri V4 bi bil izjemen. Takšna izboljšava v eni generaciji je nenavadna in opravičuje skepticizem, dokler ni neodvisno preverjena. Možne razlage vključujejo:

  1. Pomnilnik Engram in daljše kontekstno okno omogočata modelu sklepanje o celotnih repozitorijih, kar SWE-bench nagrajuje.
  2. Znatne izboljšave v specifičnih podatkih za usposabljanje za kodo in finem prilagajanju.
  3. Rezultati primerjalnih testov izvirajo iz optimizirane nastavitve ocenjevanja, ki morda ne odraža običajne uporabe.

Dokler neodvisni primerjalni testi iz virov, kot so LMSYS, BigCode ali akademski laboratoriji, ne potrdijo teh številk, jih je treba obravnavati kot trditve in ne kot dejstva.


Strojna oprema: Zgrajeno brez Nvidia

Eden najpomembnejših vidikov DeepSeek V4 je njegova strojna oprema za usposabljanje. Zaradi omejitev izvoza iz ZDA, ki kitajskim podjetjem omejujejo dostop do najzmogljivejših GPU Nvidia, je bil DeepSeek V4 po poročilih usposobljen na kombinaciji:

  • Huawei Ascend 910B AI pospeševalnikov
  • Cambricon MLU čipov

To je pomembno iz dveh razlogov.

Prvič, dokazuje, da je mogoče vrhunske AI modele usposobiti brez strojne opreme Nvidia. DeepSeek V3 je bil že opazen zaradi uporabe čipov Nvidia H800 (omejena različica H100), vendar V4 v celoti prehaja na domači kitajski silicij. Če bo V4 izpolnil svoje trditve o primerjalnih testih, bo dokazal, da je tehnološki jarek okoli Nvidia ožji, kot so mnogi predvidevali.

Drugič, to ima širše posledice za konkurenco na področju strojne opreme AI. Huawei in Cambricon sta močno vlagala v pospeševalnike AI in uspešno usposabljanje V4 bi bila njuna najmočnejša dokazna točka do zdaj.

Izvajanje V4 na potrošniški strojni opremi

Kljub lestvici bilijona parametrov je DeepSeek poudaril, da V4 lahko deluje na potrošniški strojni opremi, ko je kvantiziran. Poročani cilji:

KonfiguracijaZahtevana strojna oprema
Polna natančnost (FP16/BF16)Večvozlǐčni GPU grozd
INT8 kvantizirano2x Nvidia RTX 4090 (48 GB skupnega VRAM)
INT4 kvantizirano1x Nvidia RTX 5090 (32 GB VRAM)

Ta zgodba o dostopnosti je osrednja v vrednostni ponudbi odprte kode DeepSeek. Model z odprtimi utežmi, ki za delovanje zahteva podatkovni center, je akademsko zanimiv, a praktično omejen. Model, ki se prilega strojni opremi, ki jo razvijalec lahko kupi v Micro Center, popolnoma spremeni enačbo.

Kvantizacija vedno vključuje kompromise -- zmanjšana natančnost lahko poslabša zmogljivost pri določenih nalogah -- vendar je arhitektura MoE podjetja DeepSeek primerna za kvantizacijo, ker je treba v pomnilnik za kateri koli korak inference naložiti le aktivne strokovne parametre.


Odprta koda: Licenca Apache 2.0

DeepSeek je potrdil načrte za izdajo uteži V4 pod licenco Apache 2.0, ki je ena najbolj dovoljujočih odprtokodnih licenc. To pomeni:

  • Komercialna uporaba dovoljena -- podjetja lahko V4 vključijo v izdelke brez licenčnin.
  • Spreminjanje dovoljeno -- razvijalci lahko prosto fino prilagajajo, destilirajo ali spreminjajo model.
  • Brez obveznosti copyleft -- izpeljana dela ni treba objaviti kot odprto kodo.
  • Podelitev patentov vključena -- Apache 2.0 vključuje izrecno patentno licenco.

To nadaljuje vzorec podjetja DeepSeek o resnično odprtih izdajah, kar je v nasprotju s pristopom "odprte uteži, a omejena licenca", ki so ga ubrali nekateri konkurenti. Za razvijalsko skupnost bi bila izdaja modela te stopnje zmožnosti pod Apache 2.0 brez primere.

Praktični vpliv za razvijalce:

  • Samostojno gostovane alternative za Claude, GPT in Gemini API postanejo izvedljive za več primerov uporabe.
  • Fino prilagajanje na lastniških podatkih postane mogoče brez deljenja podatkov s tretjimi osebami.
  • Predvidljivost stroškov -- stroški inference so stroški strojne opreme, ne pristojbine za API na token.
  • Nadzor nad latenco -- lokalna namestitev odpravi omrežne zakasnitve.

Časovnica izdaje: Dolga serija zamujenih rokov

Pot do izdaje DeepSeek V4 je bila vse prej kot gladka. Tukaj je časovnica pričakovanih in zamujenih oken za izdajo:

DatumDogodek
Konec januarja 2026Na kitajskih tehnoloških forumih se pojavijo prve govorice o testiranju "V4".
Sredina februarja 2026Prvo predvideno okno za izdajo mine brez napovedi.
Konec februarja 2026Okno za izdajo ob lunarnem novem letu mine; kratek izpad API sproži ugibanja.
Začetek marca 2026Financial Times poroča, da je izdaja V4 "neizbežna".
9. marec 2026Na spletni strani DeepSeek se pojavi oznaka "V4 Lite", ki jo uporabniki hitro opazijo.
12. marec 2026Polni V4 uradno še vedno ni bil lansiran.

Pojav V4 Lite 9. marca je do zdaj najbolj konkreten signal. Čeprav so podrobnosti redke, nakazuje, da je vsaj manjša različica družine V4 v zadnjih fazah. Število parametrov ~200B, o katerem se govori za V4 Lite, bi ga naredilo znatno bolj dostopnega od polnega bilijonskega modela, hkrati pa bi potencialno ponudil predogled arhitekturnih inovacij V4, kot je pomnilnik Engram.

Zamuve bi lahko pojasnili številni dejavniki:

  • Usposabljanje na strojni opremi, ki ni Nvidia, uvaja nove inženirske izzive.
  • Cilji primerjalnih testov morda niso bili doseženi v prvih krogih usposabljanja.
  • Regulativni vidiki glede kitajskih okvirov upravljanja z AI.
  • Geopolitični tajming -- pomembne izdaje AI iz kitajskih laboratorijev pritegnejo pozornost.

Kaj to pomeni za razvijalce

Ne glede na natančen datum izdaje ima DeepSeek V4 posledice, ki jih je vredno načrtovati.

Če primerjalni testi držijo

Odprtokodni model, ki se ujema s Claude Opus 4.5 in GPT-5.3 pri nalogah kodiranja, bi temeljito spremenil izračun "zgradi proti kupi" (build-vs-buy) za razvijalska orodja s pogonom na AI. Podjetja, ki trenutno plačujejo znatne stroške API za vrhunske zmožnosti kodiranja, bi imela alternativo, ki jo lahko gostijo sama. To vrši pritisk na znižanje cen API v celotni industriji -- kar koristi razvijalcem ne glede na to, kateri model uporabljajo.

Če Engram deluje, kot je trdeno

Model, ki zanesljivo obravnava milijonske kontekste, bi zmanjšal zapletenost RAG arhitektur. Namesto gradnje zapletenih cevovodov za razkosavanje, vdelavo (embedding) in iskanje, bi razvijalci potencialno lahko celotne repozitorije ali zbirke dokumentov poslali neposredno modelu. To ne odpravi potrebe po RAG v celoti (stroški in latenca so še vedno pomembni), vendar poenostavi arhitekturo za številne primere uporabe.

Če je multimodalno generiranje konkurenčno

Odprtokodno generiranje slik in videa bi odprlo kreativne in produktne primere uporabe, ki trenutno zahtevajo drage lastniške API. Majhne ekipe in neodvisni razvijalci bi dobili dostop do zmožnosti, ki so trenutno omejene s čakalnimi listami in cenami za podjetja.

Kaj storiti zdaj

  1. Spremljajte uradno izdajo -- sledite uradnim kanalom DeepSeek namesto zanašanja na govorice.
  2. Pripravite svojo infrastrukturo -- če nameravate gostovati sami, zagotovite, da imate strojno opremo GPU (najmanj 2x RTX 4090 za kvantizirano inferenco).
  3. Načrtujte svoje ocenjevanje -- določite, kateri primerjalni testi in primeri uporabe so pomembni za vaše specifične aplikacije, da boste lahko hitro testirali, ko bodo uteži na voljo.
  4. Ostanite skeptični -- pricurljali primerjalni testi so marketing, dokler niso neodvisno preverjeni; ocenite model na lastnih nalogah, preden sprejmete odločitve o infrastrukturi.

Bistvo

DeepSeek V4 predstavlja tisto, kar bi lahko bila najpomembnejša odprtokodna izdaja AI leta 2026. Model MoE z bilijonom parametrov, milijonskim kontekstom, izvornimi multimodalnimi zmožnostmi in rezultati kodiranja, ki tekmujejo z najboljšimi lastniškimi modeli -- vse pod Apache 2.0 -- bi bil prava prelomnica za razvijalski ekosistem AI.

Ključna beseda je "bi lahko". Trditve o primerjalnih tekstih so nepreverjene. Datum izdaje ostaja negotov. Sistem pomnilnika Engram potrebuje neodvisno oceno. In praktična zmogljivost modela, usposobljenega na strojni opremi, ki ni Nvidia, pri tej lestvici je resnično neraziskano ozemlje.

Jasno pa je, da se vrzel med odprtokodnimi in lastniškimi AI modeli še naprej oži in DeepSeek je ena od primarnih sil, ki poganjajo to zbliževanje. Ne glede na to, ali bo V4 izpolnil vsako trditev ali bo na nekaterih področjih zaostal, bo njegova končna izdaja eden najpomembnejših dogodkov v razvoju AI v letošnjem letu.

Ta članek bomo posodobili, ko bodo na voljo nove informacije. Za najnovejše novice o DeepSeek V4 in drugem razvoju AI spremljajte naše objave.

Nazaj na vse novice
Vam je bil članek všeč?

Gradite z NxCode

Spremenite svojo idejo v delujučo aplikacijo — brez programiranja.

46.000+ razvijalcev je ta mesec gradilo z NxCode

Zgradite svojo idejo z AI

Opišite, kaj želite — NxCode to zgradi za vas.

46.000+ razvijalcev je ta mesec gradilo z NxCode