Viktiga punkter
- 1T parametrar med MoE-effektivitet: DeepSeek V4 skalar till cirka 1 trillion totala parametrar men aktiverar endast ~37B per token, vilket håller inferenskostnaderna jämförbara med V3.
- Engram-minne möjliggör 1M-kontext: Den villkorade minnesarkitekturen uppnår 97% Needle-in-a-Haystack-noggrannhet vid en skala på en miljon tokens, vilket löser problemet med försämrad informationshämtning.
- Inbyggd multimodalitet: Till skillnad från modeller som lägger till vision i efterhand, integrerar V4 text-, bild- och videogenerering under förträning för mer sammanhängande korsmodalt resonemang.
- Försenad men nära förestående: Flera lanseringsfönster har passerat, men en "V4 Lite" dök upp på DeepSeeks webbplats den March 9, 2026, vilket tyder på en inkrementell lanseringsstrategi.
DeepSeek V4: Allt vi vet -- specifikationer, benchmarks & lanseringsstatus (March 2026)
March 2026 -- DeepSeek V3 skrev om reglerna för AI med öppen källkod när den lanserades i slutet av 2024, och bevisade att ett kinesiskt AI-labb kunde konkurrera direkt med OpenAI och Anthropic i prestandatester för resonemang samtidigt som vikterna släpptes fritt. Nu är DeepSeek V4 den mest efterlängtade modellen med öppen källkod under 2026 -- och efter månader av förseningar, läckor och en överraskande "V4 Lite"-publicering, verkar den fullständiga lanseringen vara nära förestående.
Denna artikel sammanställer allt som för närvarande är känt om DeepSeek V4: dess arkitektur, förmågor, påstådda benchmarks, hårdvarusituation och den långa vägen till lansering. Där information kommer från läckor eller inofficiella källor noterar vi det tydligt.
Arkitektur: 1 trillion parametrar, 37 billion aktiva
DeepSeek V4 fortsätter med den Mixture-of-Experts (MoE)-arkitektur som gjorde V3 så effektiv, men skalar upp den dramatiskt. Här är de viktigaste arkitektoniska siffrorna baserat på tillgänglig information:
| Specifikation | DeepSeek V3 | DeepSeek V4 | DeepSeek V4 Lite |
|---|---|---|---|
| Totala parametrar | 671B | ~1T (1 trillion) | ~200B |
| Aktiva parametrar | ~37B | ~37B | TBD |
| Arkitektur | MoE | MoE | MoE |
| Kontextfönster | 128K tokens | 1M tokens | TBD |
| Hårdvara för träning | Nvidia H800 | Huawei Ascend / Cambricon | TBD |
| Licens | Öppen (anpassad) | Apache 2.0 (planerad) | TBD |
MoE-metoden är det som håller V4 praktiskt användbar trots dess skala på en trillion parametrar. Istället för att aktivera hela modellen vid varje token, dirigerar MoE varje input till en liten delmängd av specialiserade "expert"-undernätverk. DeepSeek V4 rapporteras aktivera cirka 37 billion parametrar per token -- ungefär detsamma som V3 -- vilket innebär att inferenskostnaderna förblir hanterbara trots att den totala modellen är 50% större.
Detta är ett avgörande designval. En tät modell med 1T-parametrar skulle vara oerhört dyr att köra. Genom att hålla de aktiva parametrarna konstanta samtidigt som expertpoolen utökas, får DeepSeek kapacitet för djupare specialisering inom olika domäner (kod, matematik, kreativt skrivande, flerspråkiga uppgifter) utan att proportionellt öka beräkningskraven.
Engram-minne: Villkorat minne som faktiskt fungerar
Den kanske mest tekniskt intressanta funktionen i DeepSeek V4 är Engram, en villkorad minnesarkitektur designad för att lösa ett av de svåraste problemen i språkmodeller med lång kontext: att faktiskt hämta relevant information från extremt långa indata.
Standard transformer-attention försämras när kontexten växer. Modeller kan tekniskt sett ta emot långa indata, men deras förmåga att hitta och använda specifik information som ligger begravd djupt i dessa kontexter minskar. Detta är väldokumenterat i benchmarktestet Needle-in-a-Haystack, som testar om en modell kan lokalisera ett specifikt faktum inbäddat på olika positioner i ett långt dokument.
Engram-arkitekturen adresserar detta genom en villkorad minnesmekanism som selektivt lagrar och hämtar information baserat på relevanssignaler, snarare än att enbart lita på attention över hela sekvensen.
De påstådda resultaten:
| Mått | Standard Attention | Engram (DeepSeek V4) |
|---|---|---|
| Needle-in-a-Haystack (1M tokens) | 84.2% noggrannhet | 97% noggrannhet |
| Kontextlängd som stöds | Varierar (128K typiskt) | 1M tokens |
Om siffran på 97% står sig vid oberoende tester, representerar detta ett betydande framsteg. Skillnaden mellan 84.2% och 97% vid en skala på en miljon tokens är skillnaden mellan en modell som fungerar hyfsat med långa dokument och en som pålitligt fungerar med dem. För utvecklare som bygger system för retrieval-augmented generation (RAG), kodanalysverktyg eller pipelines för dokumentbehandling, kan detta minska behovet av chunking-strategier och externa lager för informationshämtning.
Viktig anmärkning: Dessa siffror kommer från interna benchmarks och har inte verifierats oberoende per March 2026. Tills tredjepartsutvärderingar bekräftar påståendena bör de betraktas som målsättningar.
Kontextfönster: 1 miljon tokens
DeepSeek V4:s kontextfönster på 1 miljon tokens placerar den i samma klass som Googles Gemini-modeller, som banade väg för kontextfönster på en miljon tokens. Som referens motsvarar en miljon tokens ungefär:
- 15-20 fullängdsromaner
- En hel medelstor kodbas (500+ filer)
- Flera års chathistorik
- En fullständig juridisk dokumentsamling
Det praktiska värdet av lång kontext beror kraftigt på kvaliteten på informationshämtningen (se Engram ovan). Ett fönster på en miljon tokens med dålig hämtning är sämre än ett fönster på 128K med utmärkt hämtning. Om DeepSeeks påståenden om Engram stämmer, skulle V4 erbjuda både kapaciteten och noggrannheten för att göra kontextfönster på en miljon tokens genuint användbara snarare än bara en marknadsföringssiffra.
För utvecklare inkluderar de omedelbara tillämpningarna:
- Kodförståelse för hela lagringsplatser utan behov av att dela upp och sammanfatta
- Analys av långa dokument (juridiska, medicinska, finansiella) i en enda körning
- Utökade agent-sessioner där modellen behåller hela konversations- och aktionshistoriken
- Resonemang över flera dokument i stora samlingar
Multimodala funktioner: Text-, bild- och videogenerering
DeepSeek V4 beskrivs som en inbyggd multimodal modell, vilket innebär att vision och genereringsförmåga integreras under förträningen snarare än att läggas till som separata moduler i efterhand. Detta är en betydande arkitektonisk skillnad från modeller som kopplar på bildförståelse via adapter-lager.
De rapporterade multimodala förmågorna inkluderar:
- Textgenerering (den centrala förmågan hos språkmodellen)
- Bildförståelse och -generering (konkurrerar med DALL-E 3, Midjourney)
- Videogenerering (konkurrerar med OpenAI Sora, Google Veo 3)
- Korsmodalt resonemang (besvara frågor om bilder, generera bilder från komplexa beskrivningar, skapa video från text)
Förmågan till videogenerering är särskilt anmärkningsvärd. Om DeepSeek V4 kan generera video med en kvalitet som är konkurrenskraftig med Sora eller Veo 3 samtidigt som den är öppen källkod, skulle det demokratisera tillgången till en teknologi som för närvarande kräver antingen dyra API-åtkomster eller proprietära plattformar. Dock är påståenden om kvalitet på videogenerering bland de svåraste att utvärdera enbart från specifikationsblad -- kvaliteten i praktiken varierar enormt.
Inbyggd multimodal integration möjliggör teoretiskt sett mer sammanhängande korsmodalt resonemang. En modell som förstår bilder från förträningen bör hantera uppgifter som "beskriv vad som är fel med denna skärmdump av ett UI och generera en korrigerad version" mer naturligt än en modell där vision lades till senare. Återstår att se om V4 levererar på detta löfte i praktiken.
Benchmarks: Starka påståenden, obekräftade
Läckta interna benchmarks ger en imponerande bild av DeepSeek V4:s förmågor. Här är hur de påstådda resultaten jämförs med nuvarande ledande modeller:
Prestandatester för kodning
| Modell | HumanEval | SWE-bench Verified |
|---|---|---|
| DeepSeek V4 (läckt) | 90% | 80%+ |
| Claude Opus 4.5 | ~88% | 80.9% |
| GPT-5.3 Codex | ~87% | ~80% |
| DeepSeek V3 | ~82% | ~49% |
| Llama 3.1 405B | ~80% | ~33% |
Viktiga iakttagelser
HumanEval på 90% skulle innebära en ny toppnotering för detta benchmark, även om HumanEval har blivit alltmer mättat och många forskare ifrågasätter dess fortsatta relevans för att särskilja toppmodeller.
SWE-bench Verified över 80% är det mer betydelsefulla påståendet. SWE-bench testar en modells förmåga att lösa verkliga GitHub-problem från riktiga projekt med öppen källkod -- ett mycket svårare och mer praktiskt test av kodningsförmåga. Claude Opus 4.5 innehar för närvarande rekordet på 80.9%. Om DeepSeek V4 matchar eller överträffar detta samtidigt som den är öppen källkod, vore det en historisk prestation.
Hoppet från V3:s ~49% på SWE-bench till V4:s påstådda 80%+ vore extraordinärt. Denna typ av förbättring i en enda generation är ovanlig och motiverar skepticism tills den verifierats oberoende. Möjliga förklaringar inkluderar:
- Engram-minnet och det längre kontextfönstret tillåter modellen att resonera över hela lagringsplatser, vilket SWE-bench premierar
- Betydande förbättringar i kodspecifik träningsdata och finjustering
- Benchmark-resultaten kommer från en optimerad utvärderingsmiljö som kanske inte återspeglar typisk användning
Tills oberoende benchmarks från källor som LMSYS, BigCode eller akademiska labb bekräftar dessa siffror, bör de betraktas som påståenden snarare än fakta.
Hårdvara: Byggd utan Nvidia
En av de mest betydelsefulla aspekterna av DeepSeek V4 är dess träningshårdvara. På grund av USA:s exportrestriktioner som begränsar kinesiska företags tillgång till Nvidias mest kraftfulla GPU:er, tränades DeepSeek V4 enligt uppgift på en kombination av:
- Huawei Ascend 910B AI-acceleratorer
- Cambricon MLU-chip
Detta är signifikant av två skäl.
För det första visar det att ledande AI-modeller kan tränas utan Nvidia-hårdvara. DeepSeek V3 var redan anmärkningsvärd för att den använde Nvidia H800-chip (en begränsad version av H100), men V4 går helt över till inhemskt kinesiskt kisel. Om V4 levererar på sina benchmark-påståenden, skulle det bevisa att hårdvaru-vallgraven kring Nvidia är smalare än många antagit.
För det föra har det konsekvenser för konkurrensen inom AI-hårdvara generellt. Huawei och Cambricon har investerat tungt i AI-acceleratorer, och en framgångsrik träning av V4 skulle vara deras starkaste bevis hittills.
Att köra V4 på konsumenthårdvara
Trots sin skala på en trillion parametrar har DeepSeek betonat att V4 kan köras på konsumenthårdvara när den är kvantiserad. De rapporterade målen:
| Konfiguration | Hårdvara som krävs |
|---|---|
| Full precision (FP16/BF16) | GPU-kluster med flera noder |
| INT8 kvantiserad | 2x Nvidia RTX 4090 (48 GB totalt VRAM) |
| INT4 kvantiserad | 1x Nvidia RTX 5090 (32 GB VRAM) |
Denna tillgänglighet är central för DeepSeeks värdeerbjudande för öppen källkod. En modell med öppna vikter som kräver ett datacenter för att köras är akademiskt intressant men praktiskt begränsad. En modell som får plats på hårdvara som en utvecklare kan köpa på Micro Center förändrar ekvationen helt.
Kvantisering innebär alltid kompromisser -- minskad precision kan försämra prestandan i vissa uppgifter -- men DeepSeeks MoE-arkitektur är väl lämpad för kvantisering eftersom endast de aktiva expertparametrarna behöver laddas i minnet för varje givet inferenssteg.
Öppen källkod: Apache 2.0-licens
DeepSeek har bekräftat planer på att släppa V4-vikterna under Apache 2.0-licensen, en av de mest tillåtande licenserna för öppen källkod som finns. Detta innebär:
- Kommersiell användning tillåten -- företag kan använda V4 i produkter utan licensavgifter
- Modifiering tillåten -- utvecklare kan fritt finjustera, destillera eller modifiera modellen
- Inga copyleft-förpliktelser -- härledda verk behöver inte ha öppen källkod
- Patentbeviljande ingår -- Apache 2.0 inkluderar en explicit patentlicens
Detta fortsätter DeepSeeks mönster av genuint öppna släpp, vilket står i kontrast till metoden med "öppna vikter men begränsad licens" som vissa konkurrenter använder. För utvecklarcommunityn vore ett Apache 2.0-släpp av en modell på denna kapabilitetsnivå sakna motstycke.
Den praktiska effekten för utvecklare:
- Egenhostade alternativ till Claude, GPT och Gemini API:er blir livskraftiga för fler användningsområden
- Finjustering på proprietär data blir möjlig utan att dela data med en tredje part
- Förutsägbara kostnader -- inferenskostnader är hårdvarukostnader, inte API-avgifter per token
- Kontroll över latens -- lokal driftsättning eliminerar nätverksfördröjningar
Lanseringstidslinje: En lång serie missade fönster
Vägen till lanseringen av DeepSeek V4 har varit allt annat än spikrak. Här är tidslinjen för förväntade och missade lanseringsfönster:
| Datum | Händelse |
|---|---|
| Late January 2026 | Tidiga rykten om en "V4" under testning dyker upp på kinesiska teknikforum |
| Mid-February 2026 | Det första spekulerade lanseringsfönstret passerar utan tillkännagivande |
| Late February 2026 | Lanseringsfönstret för Månnyåret passerar; ett kort API-avbrott väcker spekulationer |
| Early March 2026 | Financial Times rapporterar att lanseringen av V4 är "nära förestående" |
| March 9, 2026 | Etiketten "V4 Lite" dyker upp på DeepSeeks webbplats och noteras snabbt av användare |
| March 12, 2026 | Den fullständiga V4 har fortfarande inte lanserats officiellt |
Att V4 Lite dök upp den March 9 är den hittills mest konkreta signalen. Även om detaljerna är få, tyder det på att åtminstone en mindre variant av V4-familjen är i slutskedet. De ~200B parametrar som ryktas för V4 Lite skulle göra den betydligt mer tillgänglig än den fullständiga modellen på en trillion parametrar, samtidigt som den potentiellt erbjuder en förhandstitt på V4:s arkitektoniska innovationer som Engram-minnet.
Flera faktorer kan förklara förseningarna:
- Träning på icke-Nvidia-hårdvara introducerar nya tekniska utmaningar
- Benchmark-mål kanske inte uppnåddes vid de initiala träningskörningarna
- Regulatoriska överväganden kring Kinas ramverk för AI-styrning
- Geopolitisk tajming -- stora AI-släpp från kinesiska labb drar till sig uppmärksamhet
Vad detta betyder för utvecklare
Oavsett det exakta lanseringsdatumet har DeepSeek V4 konsekvenser som är värda att planera för.
Om benchmarks stämmer
En modell med öppen källkod som matchar Claude Opus 4.5 och GPT-5.3 i kodningsuppgifter skulle i grunden förändra kalkylen mellan att bygga själv kontra att köpa för AI-drivna utvecklarverktyg. Företag som för närvarande betalar betydande API-kostnader för avancerade kodningsförmågor skulle få ett alternativ för egen hosting. Detta sätter press nedåt på API-prissättningen i hela branschen -- vilket gynnar utvecklare oavsett vilken modell de använder.
Om Engram fungerar som påstått
En modell som pålitligt hanterar kontextfönster på en miljon tokens skulle minska komplexiteten i RAG-arkitekturer. Istället för att bygga avancerade pipelines för chunking, inbäddning och hämtning, skulle utvecklare potentiellt kunna skicka hela kodbaser eller dokumentsamlingar direkt till modellen. Detta eliminerar inte behovet av RAG helt (kostnad och latens spelar fortfarande roll), men det förenklar arkitekturen för många användningsområden.
Om multimodal generering är konkurrenskraftig
Bild- och videogenerering med öppen källkod skulle öppna upp kreativa och produktrelaterade användningsområden som för närvarande kräver dyra proprietära API:er. Små team och indieutvecklare skulle få tillgång till förmågor som för närvarande är begränsade bakom väntelistor och företagsprissättning.
Vad du kan göra nu
- Håll utkik efter den officiella lanseringen -- följ DeepSeeks officiella kanaler snarare än att lita på rykten
- Förbered din infrastruktur -- om du planerar att hosta själv, se till att du har GPU-hårdvaran (minst 2x RTX 4090 för kvantiserad inferens)
- Planera din utvärdering -- bestäm vilka benchmarks och användningsområden som är viktiga för dina specifika applikationer, så att du kan testa snabbt när vikterna blir tillgängliga
- Var skeptisk -- läckta benchmarks är marknadsföring tills de verifierats oberoende; utvärdera modellen på dina egna uppgifter innan du fattar beslut om infrastruktur
Slutsats
DeepSeek V4 representerar vad som kan bli det mest betydelsefulla släppet av AI med öppen källkod under 2026. En MoE-modell med en trillion parametrar, ett kontextfönster på en miljon tokens, inbyggda multimodala förmågor och kodnings-benchmarks som rivaliserar de bästa proprietära modellerna -- allt under Apache 2.0 -- vore en genuin vändpunkt för ekosystemet för AI-utvecklare.
Det operativa ordet är "kan". Påståendena om benchmarks är obekräftade. Lanseringsdatumet är fortfarande osäkert. Engram-minnessystemet behöver oberoende utvärdering. Och den praktiska prestandan hos en modell tränad på icke-Nvidia-hårdvara i denna skala är genuint outforskad mark.
Vad som är tydligt är att gapet mellan AI med öppen källkod och proprietär AI fortsätter att minska, och DeepSeek är en av de främsta krafterna som driver den utvecklingen. Oavsett om V4 levererar på varje påstående eller faller kort på vissa områden, kommer dess eventuella lansering att vara en av de viktigaste händelserna inom AI-utveckling i år.
Vi kommer att uppdatera denna artikel när ny information blir tillgänglig. För det senaste om DeepSeek V4 och andra AI-utvecklingar, följ vår bevakning.