متى سيصدر DeepSeek V4؟

اعتباراً من مارس 2026، لم يتم إصدار DeepSeek V4 رسمياً. لقد مرت عدة نوافذ للإصدار (منتصف فبراير، Lunar New Year، بداية مارس) بالفعل. تشير Financial Times ومصادر أخرى إلى قرب الإصدار، وظهر تحديث «V4 Lite» على موقع DeepSeek في 9 مارس 2026.

كم عدد parameters في DeepSeek V4؟

يستخدم DeepSeek V4 بنية Mixture-of-Experts (MoE) بإجمالي يصل إلى 1 trillion parameters وحوالي 37 billion active parameters لكل token. من المتوقع أن يحتوي V4 Lite على حوالي 200 billion parameters.

ما هو context window في DeepSeek V4؟

يدعم DeepSeek V4 1 million token context window، وهو ما يمثل قفزة هائلة مقارنة بطول سياق V3. يتم توفير ذلك من خلال بنية Engram conditional memory، والتي تحقق 97% accuracy في اختبار Needle-in-a-Haystack على مليون توكن.

هل DeepSeek V4 مفتوح المصدر (open source)؟

نعم. تخطط DeepSeek لإصدار أوزان V4 بموجب ترخيص Apache 2.0، استمراراً لتقليدها في الـ open source. تم تصميم النموذج للعمل على hardware استهلاكي (dual RTX 4090 أو RTX 5090 واحدة) بشرط الـ quantization.

ما هي نتائج DeepSeek V4 في الـ benchmarks؟

تدعي الـ benchmarks الداخلية المسربة أن V4 يحقق 90% في HumanEval ويتجاوز 80% في SWE-bench Verified. إذا تم تأكيد ذلك، فستعادل النتيجة أو تتفوق على الرقم القياسي لـ Claude Opus 4.5 البالغ 80.9% على SWE-bench. هذه المؤشرات لم يتم التحقق منها بشكل مستقل.

هل يمكن لـ DeepSeek V4 توليد الصور والفيديو؟

نعم. DeepSeek V4 هو نموذج native multimodal يدعم توليد الـ text والـ image والـ video. على عكس النماذج التي تُضاف فيها vision capabilities بشكل منفصل، يقوم V4 بدمج multimodal understanding أثناء الـ pre-training لتحقيق cross-modal reasoning أكثر تماسكاً.

תובנות מרכזיות

1T פרמטרים עם יעילות MoE: DeepSeek V4 מתרחב לכ-1 טריליון פרמטרים בסך הכל אך מפעיל רק כ-37B לכל token, מה ששומר על עלויות inference דומות ל-V3.
זיכרון Engram מאפשר קונטקסט של 1M: ארכיטקטורת ה-conditional memory משיגה דיוק של 97% ב-Needle-in-a-Haystack בקנה מידה של million-token, ופתרה את בעיית ה-retrieval degradation.
מולטימודלי נייטיבי: בניגוד למודלים ש"מדביקים" יכולות vision, DeepSeek V4 משלב יצירת טקסט, תמונה ווידאו במהלך ה-pre-training עבור reasoning חוצה-מודלים קוהרנטי יותר.
מעוכב אך קרב ובא: חלונות שחרור מרובים חלפו, אך גרסת "V4 Lite" הופיעה באתר של DeepSeek ב-March 9, 2026, מה שמרמז על אסטרטגיית rollout הדרגתית.

DeepSeek V4: כל מה שאנחנו יודעים -- מפרטים, Benchmarks וסטטוס שחרור (March 2026)

March 2026 -- DeepSeek V3 כתב מחדש את הכללים עבור AI בקוד פתוח כשהושק ב-late 2024, והוכיח שמעבדת AI סינית יכולה להתחרות ראש בראש עם OpenAI ו-Anthropic ב-benchmarks של reasoning תוך שחרור משקולות בחינם. כעת, DeepSeek V4 הוא המודל המצופה ביותר בקוד פתוח של 2026 -- ולאחר חודשים של עיכובים, הדלפות והופעה מפתיעה של "V4 Lite", השחרור המלא נראה קרוב מתמיד.

מאמר זה מרכז את כל מה שידוע כיום על DeepSeek V4: הארכיטקטורה שלו, היכולות, טענות ה-benchmark, סיפור החומרה והדרך הארוכה להשקה. במקומות בהם המידע מגיע מהדלפות או ממקורות לא רשמיים, אנו מציינים זאת בבירור.

ארכיטקטורה: 1 טריליון פרמטרים, 37 מיליארד פעילים

DeepSeek V4 ממשיך את ארכיטקטורת ה-Mixture-of-Experts (MoE) שהפכה את V3 לכל כך יעיל, אך מרחיב אותה באופן דרמטי. להלן מספרי הארכיטקטורה המרכזיים המבוססים על המידע הזמין:

מפרט	DeepSeek V3	DeepSeek V4	DeepSeek V4 Lite
סך פרמטרים	671B	~1T (1 טריליון)	~200B
פרמטרים פעילים	~37B	~37B	TBD
ארכיטקטורה	MoE	MoE	MoE
חלון קונטקסט	128K tokens	1M tokens	TBD
חומרת אימון	Nvidia H800	Huawei Ascend / Cambricon	TBD
רישיון	Open (custom)	Apache 2.0 (planned)	TBD

גישת ה-MoE היא מה ששומר על V4 פרקטי למרות קנה המידה של טריליון פרמטרים. במקום להפעיל את המודל כולו על כל token, ה-MoE מנתב כל קלט לתת-קבוצה קטנה של תת-רשתות "expert" מתמחות. DeepSeek V4 מפעיל על פי הדיווחים כ-37 מיליארד פרמטרים לכל token -- בערך אותו מספר כמו ב-V3 -- מה שאומר שעלויות ה-inference נשארות ניתנות לניהול למרות שהמודל הכולל גדול ב-50%.

זוהי בחירה עיצובית קריטית. מודל dense של 1T פרמטרים יהיה יקר מדי להרצה. על ידי שמירה על פרמטרים פעילים קבועים תוך הרחבת מאגר ה-experts, DeepSeek משיג קיבולת להתמחות עמוקה יותר בתחומים שונים (code, מתמטיקה, כתיבה יצירתית, משימות רב-לשוניות) מבלי להגדיל באופן פרופורציונלי את דרישות ה-compute.

זיכרון Engram: זיכרון מותנה שבאמת עובד

אולי המאפיין המעניין ביותר מבחינה טכנית ב-DeepSeek V4 הוא Engram, ארכיטקטורת conditional memory שנועדה לפתור את אחת הבעיות הקשות ביותר במודלי שפה בעלי קונטקסט ארוך: שליפה (retrieval) של מידע רלוונטי מקלטים ארוכים במיוחד.

ה-attention של transformer סטנדרטי נשחק ככל שהקונטקסט גדל. מודלים יכולים טכנית לקבל קלטים ארוכים, אך היכולת שלהם למצוא ולהשתמש במידע ספציפי הקבור עמוק בתוך אותם קונטקסטים יורדת. זה מתועד היטב ב-benchmark ה-Needle-in-a-Haystack, שבודק האם מודל יכול לאתר עובדה ספציפית המוטמעת במיקומים שונים בתוך מסמך ארוך.

ארכיטקטורת ה-Engram מטפלת בכך באמצעות מנגנון conditional memory שמאחסן ושולף מידע באופן סלקטיבי בהתבסס על אותות רלוונטיות, במקום להסתמך אך ורק על attention לאורך כל הרצף.

התוצאות הנטענות:

מדד	Standard Attention	Engram (DeepSeek V4)
Needle-in-a-Haystack (1M tokens)	84.2% accuracy	97% accuracy
אורך קונטקסט נתמך	משתנה (128K טיפוסי)	1M tokens

אם הנתון של 97% יחזיק מעמד תחת בדיקה עצמאית, מדובר בהתקדמות משמעותית. הפער בין 84.2% ל-97% בקנה מידה של million-token הוא ההבדל בין מודל שעובד לרוב עם מסמכים ארוכים לבין מודל שעובד איתם בצורה אמינה. עבור מפתחים שבונים מערכות RAG, כלי ניתוח code או pipelines לעיבוד מסמכים, זה עשוי להפחית את הצורך באסטרטגיות chunking ושכבות retrieval חיצוניות.

הערה חשובה: מספרים אלו מגיעים מ-benchmarks פנימיים ולא אומתו באופן עצמאי נכון ל-March 2026. עד שערכות הערכה של צד שלישי יאשרו את הטענות, יש להתייחס אליהן כשאיפה.

חלון קונטקסט: 1 מיליון Tokens

חלון הקונטקסט של 1 מיליון tokens ב-DeepSeek V4 מציב אותו באותה קטגוריה כמו מודלי ה-Gemini של Google, שהיו חלוצי הקונטקסטים של מיליון tokens. לשם השוואה, מיליון tokens שקולים בערך ל:

15-20 רומנים באורך מלא
codebase שלם בגודל בינוני (500+ קבצים)
היסטוריית chat של מספר שנים
סט מסמכי גילוי משפטי מלא

הערך המעשי של קונטקסט ארוך תלוי מאוד באיכות ה-retrieval (ראו Engram לעיל). חלון של מיליון tokens עם retrieval גרוע גרוע יותר מחלון של 128K עם retrieval מצוין. אם טענות ה-Engram של DeepSeek נכונות, V4 יציע גם את הקיבולת וגם את הדיוק כדי להפוך קונטקסטים של מיליון tokens לשימושיים באמת ולא רק למספר שיווקי.

עבור מפתחים, היישומים המיידיים כוללים:

הבנת code של repository שלם ללא צורך ב-chunking וסיכום
ניתוח מסמכים ארוכים (משפטיים, רפואיים, פיננסיים) במעבר יחיד
סשנים מורחבים של agent שבהם המודל שומר על היסטוריית שיחה ופעולה מלאה
reasoning רב-מסמכים על פני אוספים גדולים

יכולות מולטימודליות: יצירת טקסט, תמונה ווידאו

DeepSeek V4 מתואר כ-native multimodal model, כלומר יכולות ה-vision והיצירה משולבות במהלך ה-pre-training ולא מתווספות כמודולים נפרדים בדיעבד. זהו הבדל ארכיטקטוני משמעותי ממודלים ש"מדביקים" הבנת תמונה דרך שכבות adapter.

היכולות המולטימודליות המדווחות כוללות:

יצירת טקסט (יכולת הליבה של מודל השפה)
הבנת ויצירת תמונות (מתחרה ב-DALL-E 3, Midjourney)
יצירת וידאו (מתחרה ב-OpenAI Sora, Google Veo 3)
Cross-modal reasoning (מענה על שאלות לגבי תמונות, יצירת תמונות מתיאורים מורכבים, יצירת וידאו מטקסט)

יכולת יצירת הווידאו ראויה לציון במיוחד. אם DeepSeek V4 יכול לייצר וידאו באיכות המתחרה ב-Sora או Veo 3 תוך שהוא בקוד פתוח, זה יהפוך טכנולוגיה שדורשת כיום גישת API יקרה או פלטפורמות קנייניות לנגישה לכולם. עם זאת, טענות לגבי איכות יצירת וידאו הן מהקשות ביותר להערכה מדפי מפרט בלבד -- איכות הפלט בעולם האמיתי משתנה מאוד.

אינטגרציה מולטימודלית נייטיבית מאפשרת תיאורטית reasoning חוצה-מודלים קוהרנטי יותר. מודל שמבין תמונות מה-pre-training אמור לטפל במשימות כמו "תאר מה לא בסדר בצילום המסך הזה של ה-UI וייצר גרסה מתוקנת" בצורה טבעית יותר מאשר מודל שבו ה-vision התווסף מאוחר יותר. האם V4 יקיים את ההבטחה הזו בפועל, נותר לראות.

Benchmarks: טענות חזקות, לא מאומתות

הדלפות של benchmarks פנימיים מציירות תמונה מרשימה של היכולות של DeepSeek V4. הנה השוואה של הציונים הנטענים לעומת המודלים המובילים כיום:

Benchmarks של תכנות

מודל	HumanEval	SWE-bench Verified
DeepSeek V4 (מודלף)	90%	80%+
Claude Opus 4.5	~88%	80.9%
GPT-5.3 Codex	~87%	~80%
DeepSeek V3	~82%	~49%
Llama 3.1 405B	~80%	~33%

תצפיות מרכזיות

HumanEval ב-90% יהווה רף חדש עבור benchmark זה, אם כי HumanEval הפך לרווי יותר ויותר וחוקרים רבים מפקפקים ברלוונטיות המתמשכת שלו להבחנה בין מודלים מהדרג הראשון.

SWE-bench Verified מעל 80% היא הטענה המשמעותית יותר. SWE-bench בודק את יכולתו של מודל לפתור בעיות GitHub אמיתיות מפרויקטים אמיתיים בקוד פתוח -- מבחן קשה ופרקטי הרבה יותר ליכולת תכנות. Claude Opus 4.5 מחזיק כרגע בשיא של 80.9%. אם DeepSeek V4 ישתווה לזה או יעקוף את זה בזמן שהוא בקוד פתוח, זה יהיה הישג היסטורי.

הקפיצה מציון של ~49% ב-SWE-bench ב-V3 לציון הנטען של 80%+ ב-V4 תהיה יוצאת דופן. שיפור כזה בדור יחיד הוא חריג ומצדיק ספקנות עד לאימות עצמאי. הסברים אפשריים כוללים:

זיכרון ה-Engram וחלון הקונטקסט הארוך יותר מאפשרים למודל לבצע reasoning על פני repositories שלמים, מה ש-SWE-bench מתגמל.
שיפורים משמעותיים בנתוני אימון ספציפיים ל-code וב-fine-tuning.
ציוני ה-benchmark הם מהגדרת הערכה אופטימלית שאולי לא משקפת שימוש טיפוסי.

עד ש-benchmarks עצמאיים ממקורות כמו LMSYS, BigCode או מעבדות אקדמיות יאשרו את המספרים האלו, יש להתייחס אליהם כטענות ולא כעובדות.

חומרה: נבנתה ללא Nvidia

אחד ההיבטים המשמעותיים ביותר של DeepSeek V4 הוא חומרת האימון שלו. בשל הגבלות הייצוא של ארה"ב המגבילות את הגישה של חברות סיניות ל-GPUs החזקים ביותר של Nvidia, DeepSeek V4 אומן על פי הדיווחים על שילוב של:

מאיצי AI מסוג Huawei Ascend 910B
שבבי Cambricon MLU

זה משמעותי משתי סיבות.

ראשית, זה מוכיח שניתן לאמן מודלי AI בחזית הטכנולוגיה ללא חומרת Nvidia. DeepSeek V3 כבר היה ראוי לציון בשל השימוש בשבבי Nvidia H800 (גרסה מוגבלת של ה-H100), אך V4 עובר לחלוטין לסיליקון סיני מקומי. אם V4 יעמוד בטענות ה-benchmark שלו, זה יוכיח שה"חפיר" (moat) החומרתי סביב Nvidia צר יותר ממה שרבים הניחו.

שנית, יש לכך השלכות על התחרות בתחום חומרת ה-AI באופן רחב. Huawei ו-Cambricon משקיעות רבות במאיצי AI, והרצת אימון מוצלחת של V4 תהיה ההוכחה החזקה ביותר שלהן עד כה.

הרצת V4 על חומרת צרכני קצה

למרות קנה המידה של טריליון פרמטרים, DeepSeek הדגישה ש-V4 יכול לרוץ על חומרת צרכנים כאשר הוא עובר quantization. היעדים המדווחים:

קונפיגורציה	חומרה נדרשת
Full precision (FP16/BF16)	Multi-node GPU cluster
INT8 quantized	2x Nvidia RTX 4090 (48 GB total VRAM)
INT4 quantized	1x Nvidia RTX 5090 (32 GB VRAM)

סיפור הנגישות הזה מרכזי להצעת הערך של DeepSeek כקוד פתוח. מודל עם משקולות פתוחות שדורש data center כדי לרוץ הוא מעניין מבחינה אקדמית אך מוגבל מבחינה מעשית. מודל שמתאים לחומרה שמפתח יכול לקנות ב-Micro Center משנה את המשוואה לחלוטין.

תהליך ה-quantization תמיד כולל פשרות -- דיוק מופחת יכול לפגוע בביצועים במשימות מסוימות -- אך ארכיטקטורת ה-MoE של DeepSeek מתאימה היטב ל-quantization מכיוון שרק פרמטרי ה-experts הפעילים צריכים להיטען לזיכרון עבור כל שלב inference נתון.

קוד פתוח: רישיון Apache 2.0

DeepSeek אישרה תוכניות לשחרר את משקולות V4 תחת רישיון Apache 2.0, אחד הרישיונות המתירניים ביותר הקיימים בקוד פתוח. המשמעות היא:

שימוש מסחרי מותר -- חברות יכולות להטמיע את V4 במוצרים ללא דמי רישיון.
שינוי מותר -- מפתחים יכולים לבצע fine-tune, distill או לשנות את המודל בחופשיות.
אין חובות copyleft -- אין צורך לשחרר עבודות נגזרות כקוד פתוח.
מתן פטנטים כלול -- Apache 2.0 כולל רישיון פטנט מפורש.

זה ממשיך את הדפוס של DeepSeek של שחרורים פתוחים אמיתיים, המנוגד לגישת "משקולות פתוחות אך רישיון מוגבל" שננקטה על ידי חלק מהמתחרים. עבור קהילת המפתחים, שחרור Apache 2.0 של מודל ברמת יכולת כזו יהיה חסר תקדים.

ההשפעה המעשית עבור מפתחים:

חלופות באירוח עצמי (self-hosted) ל-APIs של Claude, GPT ו-Gemini הופכות לישימות עבור יותר מקרי בוחן.
Fine-tuning על נתונים קנייניים הופך לאפשרי ללא שיתוף נתונים עם צד שלישי.
יכולת חיזוי עלויות -- עלויות ה-inference הן עלויות חומרה, לא דמי API לכל token.
שליטה ב-latency -- פריסה מקומית מבטלת את ה-network round trips.

לוח זמנים לשחרור: סדרה ארוכה של חלונות שהוחמצו

הדרך לשחרור של DeepSeek V4 לא הייתה חלקה כלל. להלן לוח הזמנים של חלונות השחרור הצפויים והמוחמצים:

תאריך	אירוע
Late January 2026	שמועות ראשונות על "V4" בבדיקות צצות בפורומי טכנולוגיה סיניים
Mid-February 2026	חלון שחרור משוער ראשון חולף ללא הכרזה
Late February 2026	חלון השחרור של ראש השנה הסיני חולף; תקלת API קצרה מעוררת השערות
Early March 2026	ה-Financial Times מדווח כי שחרור V4 "קרוב"
March 9, 2026	התווית "V4 Lite" מופיעה באתר של DeepSeek, ומזוהה במהירות על ידי משתמשים
March 12, 2026	V4 המלא עדיין לא הושק רשמית

הופעת ה-V4 Lite ב-March 9 היא הסימן המוחשי ביותר עד כה. בעוד הפרטים נותרים דלים, זה מרמז שלפחות גרסה קטנה יותר של משפחת V4 נמצאת בשלבים סופיים. מספר הפרמטרים של ~200B שמוערך עבור V4 Lite יהפוך אותו לנגיש משמעותית מהמודל המלא של טריליון פרמטרים, תוך שהוא עשוי להציע תצוגה מקדימה של החידושים הארכיטקטוניים של V4 כמו זיכרון Engram.

גורמים מרובים עשויים להסביר את העיכובים:

אימון על חומרה שאינה Nvidia מציב אתגרים הנדסיים חדשים.
יעדי Benchmark אולי לא הושגו בהרצות האימון הראשוניות.
שיקולי רגולציה סביב מסגרות ממשל ה-AI של סין.
תזמון גיאופוליטי -- שחרורי AI מרכזיים ממעבדות סיניות מושכים בדיקה קפדנית.

מה זה אומר עבור מפתחים

ללא קשר לתאריך השחרור המדויק, ל-DeepSeek V4 יש השלכות ששווה לתכנן עבורן.

אם ה-benchmarks יתאמתו

מודל בקוד פתוח שמשתווה ל-Claude Opus 4.5 ול-GPT-5.3 במשימות coding ישנה מהיסוד את חישוב ה-build-vs-buy עבור כלי פיתוח מבוססי AI. חברות המשלמות כיום עלויות API משמעותיות עבור יכולות coding מתקדמות יקבלו חלופה הניתנת לאירוח עצמי. זה מפעיל לחץ כלפי מטה על תמחור ה-API בכל התעשייה -- מה שמועיל למפתחים ללא קשר למודל שבו הם משתמשים.

אם Engram יעבוד כפי שנטען

מודל שמטפל בצורה אמינה בקונטקסטים של מיליון tokens יפחית את המורכבות של ארכיטקטורות RAG. במקום לבנות pipelines מורכבים של chunking, embedding ו-retrieval, מפתחים יוכלו פוטנציאלית להעביר codebases שלמים או אוספי מסמכים ישירות למודל. זה לא מבטל את הצורך ב-RAG לחלוטין (עלות ו-latency עדיין חשובים), אך זה מפשט את הארכיטקטורה עבור מקרי בוחן רבים.

אם היצירה המולטימודלית תהיה תחרותית

יצירת תמונה ווידאו בקוד פתוח תפתח מקרי בוחן יצירתיים ומוצריים שדורשים כיום APIs קנייניים יקרים. צוותים קטנים ומפתחי אינדי יקבלו גישה ליכולות שכרגע חסומות מאחורי רשימות המתנה ותמחור ארגוני.

מה לעשות עכשיו

עקבו אחר השחרור הרשמי -- עקבו אחר הערוצים הרשמיים של DeepSeek במקום להסתמך על שמועות.
הכינו את התשתית שלכם -- אם אתם מתכננים לארח בעצמכם, ודאו שיש לכם את חומרת ה-GPU (מינימום 2x RTX 4090 עבור quantized inference).
תכננו את ההערכה שלכם -- החליטו אילו benchmarks ומקרי בוחן חשובים ליישומים הספציפיים שלכם, כדי שתוכלו לבדוק במהירות ברגע שהמשקולות יהיו זמינות.
הישארו סקפטיים -- benchmarks מודלפים הם שיווק עד שהם מאומתים באופן עצמאי; העריכו את המודל במשימות שלכם לפני קבלת החלטות תשתיתיות.

השורה התחתונה

DeepSeek V4 מייצג את מה שעשוי להיות שחרור ה-AI המשמעותי ביותר בקוד פתוח של 2026. מודל MoE של טריליון פרמטרים עם קונטקסט של מיליון tokens, יכולות מולטימודליות נייטיביות ו-benchmarks של coding שמתחרים בטובים שבמודלים הקנייניים -- כל זאת תחת Apache 2.0 -- יהיה נקודת מפנה אמיתית עבור המערכת האקולוגית של מפתחי AI.

מילת המפתח היא "עשוי". טענות ה-benchmark אינן מאומתות. תאריך השחרור נותר לא ודאי. מערכת הזיכרון Engram זקוקה להערכה עצמאית. והביצועים המעשיים של מודל שאומן על חומרה שאינה Nvidia בקנה מידה כזה הם טריטוריה לא מוכרת לחלוטין.

מה שברור הוא שהפער בין AI בקוד פתוח ל-AI קנייני ממשיך להצטמצם, ו-DeepSeek הוא אחד הכוחות המרכזיים המניעים את ההתכנסות הזו. בין אם V4 יקיים כל טענה ובין אם יפגר בתחומים מסוימים, השחרור הסופי שלו יהיה אחד האירועים החשובים ביותר בפיתוח AI השנה.

אנו נעדכן מאמר זה ככל שמידע חדש יהיה זמין. לחדשות האחרונות על DeepSeek V4 ופיתוחי AI נוספים, עקבו אחר הסיקור שלנו.

NxCode

DeepSeek V4: كل ما نعرفه - Specs، Benchmarks وتاريخ الإصدار (2026)