Key Takeaways
- 1T-parametere med MoE-effektivitet: DeepSeek V4 skalerer til omtrent 1 trillion totale parametere, men aktiverer bare ~37B per token, noe som holder inferenskostnader på nivå med V3.
- Engram-minne muliggjør 1M-kontekst: Den betingede minnearkitekturen oppnår 97% Needle-in-a-Haystack-nøyaktighet på en skala med million-tokens, og løser problemet med degradering av gjenfinning.
- Nativ multimodal: I motsetning til modeller som bolter på syn i etterkant, integrerer V4 tekst-, bilde- og videogenerering under pre-training for mer sammenhengende tverrmodal resonnering.
- Forsinket, men nær forestående: Flere lanseringsvinduer har passert, men en "V4 Lite" dukket opp på DeepSeek sin nettside March 9, 2026, noe som tyder på en inkrementell utrullingsstrategi.
DeepSeek V4: Alt vi vet -- Specs, Benchmarks & lanseringsstatus (March 2026)
March 2026 -- DeepSeek V3 skrev om reglene for åpen kildekode-AI da den ble lansert sent i 2024, og beviste at en kinesisk AI-lab kunne konkurrere direkte med OpenAI og Anthropic på resonnerings-benchmarker, samtidig som de frigav vekter gratis. Nå er DeepSeek V4 den mest etterlengtede åpen kildekode-modellen i 2026 -- og etter måneder med forsinkelser, lekkasjer og en overraskende "V4 Lite"-opptreden, virker den fullstendige lanseringen nær forestående.
Denne artikkelen sammenstiller alt som for øyeblikket er kjent om DeepSeek V4: dens arkitektur, kapabiliteter, benchmark-påstander, maskinvarehistorie og den lange veien til lansering. Der informasjon kommer fra lekkasjer eller uoffisielle kilder, bemerker vi dette tydelig.
Arkitektur: 1 Trillion Parameters, 37 Billion Active
DeepSeek V4 fortsetter med Mixture-of-Experts (MoE)-arkitekturen som gjorde V3 så effektiv, men skalerer den dramatisk. Her er de viktigste arkitektoniske tallene basert på tilgjengelig informasjon:
| Spesifikasjon | DeepSeek V3 | DeepSeek V4 | DeepSeek V4 Lite |
|---|---|---|---|
| Totale parametere | 671B | ~1T (1 trillion) | ~200B |
| Aktive parametere | ~37B | ~37B | TBD |
| Arkitektur | MoE | MoE | MoE |
| Kontekstvindu | 128K tokens | 1M tokens | TBD |
| Maskinvare for trening | Nvidia H800 | Huawei Ascend / Cambricon | TBD |
| Lisens | Open (custom) | Apache 2.0 (planlagt) | TBD |
MoE-tilnærmingen er det som holder V4 praktisk til tross for dens skala på 1 trillion parametere. I stedet for å aktivere hele modellen på hver token, ruter MoE hver inndata til et lite utvalg av spesialiserte "ekspert"-undernettverk. DeepSeek V4 aktiverer angivelig omtrent 37 billion parameters per token -- omtrent det samme som V3 -- noe som betyr at inferenskostnader forblir håndterbare selv om den totale modellen er 50% større.
Dette er et kritisk designvalg. En tett 1T-parameter-modell ville vært uoverkommelig dyr å kjøre. Ved å holde aktive parametere konstante mens ekspert-poolen utvides, får DeepSeek kapasitet til dypere spesialisering på tvers av domener (kode, matte, kreativ skriving, flerspråklige oppgaver) uten å øke beregningskravene proporsjonalt.
Engram-minne: Betinget minne som faktisk fungerer
Kanskje den teknisk mest interessante funksjonen i DeepSeek V4 er Engram, en betinget minnearkitektur designet for å løse et av de vanskeligste problemene i språkmodeller med lang kontekst: å faktisk hente ut relevant informasjon fra ekstremt lange inndata.
Standard transformer-attention degraderes etter hvert som konteksten vokser. Modeller kan teknisk sett akseptere lange inndata, men deres evne til å finne og bruke spesifikk informasjon begravd dypt i disse kontekstene avtar. Dette er godt dokumentert i Needle-in-a-Haystack-benchmarken, som tester om en modell kan lokalisere et spesifikt faktum innebygd i ulike posisjoner i et langt dokument.
Engram-arkitekturen adresserer dette gjennom en betinget minnemekanisme som selektivt lagrer og henter informasjon basert på relevanssignaler, i stedet for å stole utelukkende på attention over hele sekvensen.
De påståtte resultatene:
| Metrikk | Standard Attention | Engram (DeepSeek V4) |
|---|---|---|
| Needle-in-a-Haystack (1M tokens) | 84.2% nøyaktighet | 97% nøyaktighet |
| Støttet kontekstlengde | Varierer (128K typisk) | 1M tokens |
Hvis 97%-tallet holder stand under uavhengig testing, representerer dette et betydelig fremskritt. Gapet mellom 84.2% og 97% på en skala med million-tokens er forskjellen mellom en modell som stort sett fungerer med lange dokumenter og en som pålitelig fungerer med dem. For utviklere som bygger retrieval-augmented generation (RAG)-systemer, kodeanalysevertøy eller dokumentbehandlings-pipelines, kan dette redusere behovet for chunking-strategier og eksterne gjenfinningslag.
Viktig forbehold: Disse tallene kommer fra interne benchmarker og har ikke blitt uavhengig verifisert per March 2026. Inntil tredjepartsvurderinger bekrefter påstandene, bør de behandles som ambisjoner.
Kontekstvindu: 1 Million Tokens
DeepSeek V4 sitt 1 million token kontekstvindu plasserer den i samme klasse som Google sine Gemini-modeller, som var pionerer for kontekstvinduer på 1 million tokens. Til referanse tilsvarer 1 million tokens omtrent:
- 15-20 romaner i full lengde
- En hel mellomstor kodebase (500+ filer)
- Flere år med chat-historikk
- Et fullstendig juridisk bevismateriale-dokumentsett
Den praktiske verdien av lang kontekst avhenger sterkt av gjenfinningskvalitet (se Engram over). Et kontekstvindu på 1 million tokens med dårlig gjenfinning er verre enn et 128K-vindu med utmerket gjenfinning. Hvis DeepSeek sine Engram-påstander holder, vil V4 tilby både kapasiteten og nøyaktigheten til å gjøre kontekstvinduer på 1 million tokens genuint nyttige i stedet for bare et markedsføringstall.
For utviklere inkluderer de umiddelbare bruksområdene:
- Kodeforståelse for hele repositorier uten behov for chunking og oppsummering
- Analyse av lange dokumenter (juridiske, medisinske, finansielle) i én enkelt gjennomgang
- Utvidede agent-sesjoner der modellen beholder full konverterings- og handlingshistorikk
- Resonnering på tvers av flere dokumenter i store samlinger
Multimodale kapabiliteter: Tekst-, bilde- og videogenerering
DeepSeek V4 beskrives som en nativ multimodal modell, noe som betyr at syns- og genereringsevner er integrert under pre-training i stedet for å bli lagt til som separate moduler i etterkant. Dette er et betydelig arkitektonisk skille fra modeller som bolter på bildeforståelse gjennom adapter-lag.
De rapporterte multimodale kapabilitetene inkluderer:
- Tekstgenerering (den kjerneleggende språkmodell-kapasiteten)
- Bildeforståelse og -generering (konkurrerer med DALL-E 3, Midjourney)
- Videogenerering (konkurrerer med OpenAI Sora, Google Veo 3)
- Tverrmodal resonnering (svare på spørsmål om bilder, generere bilder fra komplekse beskrivelser, lage video fra tekst)
Videogenererings-kapasiteten er spesielt bemerkelsesverdig. Hvis DeepSeek V4 kan generere video med en kvalitet som er konkurransedyktig med Sora eller Veo 3 samtidig som den er åpen kildekode, ville det demokratisere tilgangen til en teknologi som for øyeblikket krever enten dyre API-tilganger eller proprietære plattformer. Imidlertid er påstander om kvalitet på videogenerering blant de vanskeligste å evaluere ut fra spesifikasjoner alene -- bildekvalitet i den virkelige verden varierer enormt.
Nativ multimodal integrasjon muliggjør teoretisk sett mer sammenhengende tverrmodal resonnering. En modell som forstår bilder fra pre-training bør håndtere oppgaver som "beskriv hva som er galt med dette UI-skjermbildet og generer en rettet versjon" mer naturlig enn en der syn ble lagt til senere. Om V4 leverer på dette løftet i praksis gjenstår å se.
Benchmarks: Sterke påstander, ubekreftet
Lekkede interne benchmarker tegner et imponerende bilde av DeepSeek V4 sine kapabiliteter. Her er hvordan de påståtte poengsummene sammenlignes med nåværende ledende modeller:
Kodings-benchmarker
| Modell | HumanEval | SWE-bench Verified |
|---|---|---|
| DeepSeek V4 (lekkasje) | 90% | 80%+ |
| Claude Opus 4.5 | ~88% | 80.9% |
| GPT-5.3 Codex | ~87% | ~80% |
| DeepSeek V3 | ~82% | ~49% |
| Llama 3.1 405B | ~80% | ~33% |
Viktige observasjoner
HumanEval på 90% ville representert en ny rekord for denne benchmarken, selv om HumanEval har blitt stadig mer mettet og mange forskere stiller spørsmål ved dens fortsatte relevans for å skille toppmodeller.
SWE-bench Verified over 80% er den mer betydningsfulle påstanden. SWE-bench tester en modells evne til å løse ekte GitHub-problemer fra ekte åpen kildekode-prosjekter -- en mye vanskeligere og mer praktisk test av kodingsferdigheter. Claude Opus 4.5 har for øyeblikket rekorden på 80.9%. Hvis DeepSeek V4 matcher eller overgår dette mens den er åpen kildekode, ville det være en milepæl.
Hoppet fra V3 sin poengsum på ~49% i SWE-bench til V4 sin påståtte 80%+ ville vært ekstraordinært. Denne typen forbedring i en enkelt generasjon er uvanlig og tilsier skepsis inntil det er uavhengig verifisert. Mulige forklaringer inkluderer:
- Engram-minnet og det lengre kontekstvinduet tillater modellen å resonnere over hele repositorier, noe SWE-bench belønner
- Betydelige forbedringer i kodespesifikke treningsdata og fine-tuning
- Benchmark-poengsummene er fra et optimalisert evalueringsoppsett som kanskje ikke gjenspeiler typisk bruk
Inntil uavhengige benchmarker fra kilder som LMSYS, BigCode eller akademiske laber bekrefter disse tallene, bør de behandles som påstander snarere enn fakta.
Maskinvare: Bygget uten Nvidia
Et av de mest betydningsfulle aspektene ved DeepSeek V4 er treningsmaskinvaren. På grunn av amerikanske eksportrestriksjoner som begrenser kinesiske selskapers tilgang til Nvidia sine kraftigste GPU-er, ble DeepSeek V4 angivelig trent på en kombinasjon av:
- Huawei Ascend 910B AI-akseleratorer
- Cambricon MLU-chiper
Dette er betydningsfullt av to grunner.
For det første demonstrerer det at frontier AI-modeller kan trenes uten Nvidia-maskinvare. DeepSeek V3 var allerede bemerkelsesverdig for å bruke Nvidia H800-chiper (en begrenset versjon av H100), men V4 flytter seg helt over til innenlandsk kinesisk silisium. Hvis V4 leverer på sine benchmark-påstander, vil det bevise at maskinvare-moaten rundt Nvidia er smalere enn mange antok.
For det andre har det implikasjoner for konkurransen innen AI-maskinvare generelt. Huawei og Cambricon har investert tungt i AI-akseleratorer, og en vellykket V4-treningsrunde ville vært deres sterkeste bevis til dags dato.
Kjøre V4 på forbrukermaskinvare
Til tross for skalaen på 1 trillion parametere, har DeepSeek understreket at V4 kan kjøre på forbrukermaskinvare når den er kvantisert. De rapporterte målene:
| Konfigurasjon | Nødvendig maskinvare |
|---|---|
| Full presisjon (FP16/BF16) | Multi-node GPU-klynge |
| INT8-kvantisert | 2x Nvidia RTX 4090 (48 GB total VRAM) |
| INT4-kvantisert | 1x Nvidia RTX 5090 (32 GB VRAM) |
Denne tilgjengelighetshistorien er sentral i DeepSeek sitt verdiforslag for åpen kildekode. En modell med åpne vekter som krever et datasenter for å kjøre er akademisk interessant, men praktisk begrenset. En modell som passer på maskinvare en utvikler kan kjøpe på Micro Center endrer ligningen fullstendig.
Kvantisering innebærer alltid avveininger -- redusert presisjon kan degradere ytelsen på visse oppgaver -- men DeepSeek sin MoE-arkitektur er godt egnet for kvantisering fordi bare de aktive ekspert-parameterne må lastes inn i minnet for et gitt inferens-steg.
Åpen kildekode: Apache 2.0-lisens
DeepSeek har bekreftet planer om å frigi V4-vekter under Apache 2.0-lisensen, en av de mest permissive åpen kildekode-lisensene som er tilgjengelige. Dette betyr:
- Kommersiell bruk tillatt -- selskaper kan distribuere V4 i produkter uten lisensavgifter
- Modifisering tillatt -- utviklere kan fine-tune, distillere eller modifisere modellen fritt
- Ingen copyleft-forpliktelser -- avledede verk trenger ikke å være åpen kildekode
- Patentbevilling inkludert -- Apache 2.0 inkluderer en eksplisitt patentlisens
Dette fortsetter DeepSeek sitt mønster med genuint åpne utgivelser, som står i kontrast til tilnærmingen med "åpne vekter men begrenset lisens" som enkelte konkurrenter har tatt. For utviklermiljøet ville en Apache 2.0-utgivelse av en modell på dette kapasitetsnivået vært uten sidestykke.
Den praktiske effekten for utviklere:
- Selv-hostede alternativer til Claude, GPT og Gemini sine API-er blir levedyktige for flere bruksområder
- Fine-tuning på proprietære data blir mulig uten å dele data med en tredjepart
- Forutsigbarhet for kostnader -- inferenskostnader er maskinvarekostnader, ikke API-avgifter per token
- Latenskontroll -- lokal distribusjon eliminerer nettverksforsinkelser
Lanseringstidslinje: En lang serie med tapte vinduer
Veien til DeepSeek V4 sin lansering har vært alt annet enn smertefri. Her er tidslinjen for forventede og tapte lanseringsvinduer:
| Dato | Hendelse |
|---|---|
| Late January 2026 | Tidlige rykter om en "V4" i testing dukker opp på kinesiske teknologiforum |
| Mid-February 2026 | Første spekulerte lanseringsvindu passerer uten kunngjøring |
| Late February 2026 | Lanseringsvinduet for kinesisk nyttår passerer; en kort API-nedetid skaper spekulasjoner |
| Early March 2026 | Financial Times rapporterer at V4-lanseringen er "nær forestående" |
| March 9, 2026 | "V4 Lite"-etiketten dukker opp på DeepSeek sin nettside og blir raskt lagt merke til av brukere |
| March 12, 2026 | Fullstendig V4 har fortsatt ikke blitt offisielt lansert |
"V4 Lite"-opptredenen March 9 er det mest konkrete signalet til dags dato. Selv om detaljene forblir sparsomme, tyder det på at i det minste en mindre variant av V4-familien er i sluttfasen. Ryktene om et parameterantall på ~200B for V4 Lite ville gjort den betydelig mer tilgjengelig enn den fullstendige modellen på 1 trillion parametere, samtidig som den potensielt tilbyr en forhåndsvisning av V4 sine arkitektoniske innovasjoner som Engram-minne.
Flere faktorer kan forklare forsinkelsene:
- Trening på ikke-Nvidia-maskinvare introduserer nye ingeniørmessige utfordringer
- Benchmark-mål ble kanskje ikke nådd i de første treningsrundene
- Regulatoriske hensyn rundt Kinas rammeverk for AI-styring
- Geopolitisk timing -- store AI-lanseringer fra kinesiske laber tiltrekker seg granskning
Hva dette betyr for utviklere
Uavhengig av den eksakte lanseringsdatoen, har DeepSeek V4 implikasjoner det er verdt å planlegge for.
Hvis benchmarkene holder stand
En åpen kildekode-modell som matcher Claude Opus 4.5 og GPT-5.3 på kodings-oppgaver ville fundamentalt endret bygge-mot-kjøpe-kalkylen for AI-drevne utviklerverktøy. Selskaper som for øyeblikket betaler betydelige API-kostnader for frontier-koding-kapasiteter ville fått et selvhostbart alternativ. Dette legger et nedadgående press på API-priser i hele bransjen -- noe som gagner utviklere uavhengig av hvilken modell de bruker.
Hvis Engram fungerer som påstått
En modell som pålitelig håndterer kontekstvinduer på 1 million tokens ville redusert kompleksiteten i RAG-arkitekturer. I stedet for å bygge omfattende pipelines for chunking, embedding og gjenfinning, kan utviklere potensielt sende hele kodebaser eller dokumentsamlinger direkte til modellen. Dette eliminerer ikke behovet for RAG fullstendig (kostnad og latens betyr fortsatt noe), men det forenkler arkitekturen for mange bruksområder.
Hvis multimodal generering er konkurransedyktig
Åpen kildekode-bilde- og videogenerering ville åpnet opp for kreative bruksområder og produktmuligheter som for øyeblikket krever dyre proprietære API-er. Små team og indie-utviklere ville fått tilgang til kapabiliteter som for øyeblikket er låst bak ventelister og enterprise-prising.
Hva du bør gjøre nå
- Følg med på den offisielle lanseringen -- følg DeepSeek sine offisielle kanaler i stedet for å stole på rykter
- Forbered infrastrukturen din -- hvis du planlegger å hoste selv, sørg for at du har GPU-maskinvaren (minimum 2x RTX 4090 for kvantisert inferens)
- Planlegg evalueringen din -- bestem hvilke benchmarker og bruksområder som betyr noe for dine spesifikke applikasjoner, slik at du kan teste raskt når vektene er tilgjengelige
- Forbli skeptisk -- lekkede benchmarker er markedsføring inntil de er uavhengig verifisert; evaluer modellen på dine egne oppgaver før du tar beslutninger om infrastruktur
Konklusjon
DeepSeek V4 representerer det som kan bli den mest betydningsfulle åpen kildekode-lanseringen innen AI i 2026. En 1 trillion-parameters MoE-modell med kontekst på 1 million tokens, native multimodale kapabiliteter og kodings-benchmarker som rivaliserer de beste proprietære modellene -- alt under Apache 2.0 -- ville vært et genuint vendepunkt for AI-utviklerøkosystemet.
Nøkkelordet er "kan". Benchmark-påstandene er ubekreftede. Lanseringsdatoen forblir usikker. Engram-minnesystemet trenger uavhengig evaluering. Og den praktiske ytelsen til en modell trent på ikke-Nvidia-maskinvare i denne skalaen er genuint upløyd mark.
Det som er tydelig, er at gapet mellom åpen kildekode og proprietære AI-modeller fortsetter å minke, og DeepSeek er en av de primære kreftene som driver denne konvergensen. Enten V4 leverer på hver påstand eller kommer til kort på noen områder, vil dens eventuelle lansering være en av de viktigste hendelsene i AI-utvikling i år.
Vi vil oppdatere denne artikkelen etter hvert som ny informasjon blir tilgjengelig. For det siste om DeepSeek V4 og annen AI-utvikling, følg vår dekning.