תובנות מרכזיות
- 1T פרמטרים עם יעילות MoE: DeepSeek V4 מתרחב לכ-1 טריליון פרמטרים בסך הכל אך מפעיל רק כ-37B לכל token, מה ששומר על עלויות inference דומות ל-V3.
- זיכרון Engram מאפשר קונטקסט של 1M: ארכיטקטורת ה-conditional memory משיגה דיוק של 97% ב-Needle-in-a-Haystack בקנה מידה של million-token, ופתרה את בעיית ה-retrieval degradation.
- מולטימודלי נייטיבי: בניגוד למודלים ש"מדביקים" יכולות vision, DeepSeek V4 משלב יצירת טקסט, תמונה ווידאו במהלך ה-pre-training עבור reasoning חוצה-מודלים קוהרנטי יותר.
- מעוכב אך קרב ובא: חלונות שחרור מרובים חלפו, אך גרסת "V4 Lite" הופיעה באתר של DeepSeek ב-March 9, 2026, מה שמרמז על אסטרטגיית rollout הדרגתית.
DeepSeek V4: כל מה שאנחנו יודעים -- מפרטים, Benchmarks וסטטוס שחרור (March 2026)
March 2026 -- DeepSeek V3 כתב מחדש את הכללים עבור AI בקוד פתוח כשהושק ב-late 2024, והוכיח שמעבדת AI סינית יכולה להתחרות ראש בראש עם OpenAI ו-Anthropic ב-benchmarks של reasoning תוך שחרור משקולות בחינם. כעת, DeepSeek V4 הוא המודל המצופה ביותר בקוד פתוח של 2026 -- ולאחר חודשים של עיכובים, הדלפות והופעה מפתיעה של "V4 Lite", השחרור המלא נראה קרוב מתמיד.
מאמר זה מרכז את כל מה שידוע כיום על DeepSeek V4: הארכיטקטורה שלו, היכולות, טענות ה-benchmark, סיפור החומרה והדרך הארוכה להשקה. במקומות בהם המידע מגיע מהדלפות או ממקורות לא רשמיים, אנו מציינים זאת בבירור.
ארכיטקטורה: 1 טריליון פרמטרים, 37 מיליארד פעילים
DeepSeek V4 ממשיך את ארכיטקטורת ה-Mixture-of-Experts (MoE) שהפכה את V3 לכל כך יעיל, אך מרחיב אותה באופן דרמטי. להלן מספרי הארכיטקטורה המרכזיים המבוססים על המידע הזמין:
| מפרט | DeepSeek V3 | DeepSeek V4 | DeepSeek V4 Lite |
|---|---|---|---|
| סך פרמטרים | 671B | ~1T (1 טריליון) | ~200B |
| פרמטרים פעילים | ~37B | ~37B | TBD |
| ארכיטקטורה | MoE | MoE | MoE |
| חלון קונטקסט | 128K tokens | 1M tokens | TBD |
| חומרת אימון | Nvidia H800 | Huawei Ascend / Cambricon | TBD |
| רישיון | Open (custom) | Apache 2.0 (planned) | TBD |
גישת ה-MoE היא מה ששומר על V4 פרקטי למרות קנה המידה של טריליון פרמטרים. במקום להפעיל את המודל כולו על כל token, ה-MoE מנתב כל קלט לתת-קבוצה קטנה של תת-רשתות "expert" מתמחות. DeepSeek V4 מפעיל על פי הדיווחים כ-37 מיליארד פרמטרים לכל token -- בערך אותו מספר כמו ב-V3 -- מה שאומר שעלויות ה-inference נשארות ניתנות לניהול למרות שהמודל הכולל גדול ב-50%.
זוהי בחירה עיצובית קריטית. מודל dense של 1T פרמטרים יהיה יקר מדי להרצה. על ידי שמירה על פרמטרים פעילים קבועים תוך הרחבת מאגר ה-experts, DeepSeek משיג קיבולת להתמחות עמוקה יותר בתחומים שונים (code, מתמטיקה, כתיבה יצירתית, משימות רב-לשוניות) מבלי להגדיל באופן פרופורציונלי את דרישות ה-compute.
זיכרון Engram: זיכרון מותנה שבאמת עובד
אולי המאפיין המעניין ביותר מבחינה טכנית ב-DeepSeek V4 הוא Engram, ארכיטקטורת conditional memory שנועדה לפתור את אחת הבעיות הקשות ביותר במודלי שפה בעלי קונטקסט ארוך: שליפה (retrieval) של מידע רלוונטי מקלטים ארוכים במיוחד.
ה-attention של transformer סטנדרטי נשחק ככל שהקונטקסט גדל. מודלים יכולים טכנית לקבל קלטים ארוכים, אך היכולת שלהם למצוא ולהשתמש במידע ספציפי הקבור עמוק בתוך אותם קונטקסטים יורדת. זה מתועד היטב ב-benchmark ה-Needle-in-a-Haystack, שבודק האם מודל יכול לאתר עובדה ספציפית המוטמעת במיקומים שונים בתוך מסמך ארוך.
ארכיטקטורת ה-Engram מטפלת בכך באמצעות מנגנון conditional memory שמאחסן ושולף מידע באופן סלקטיבי בהתבסס על אותות רלוונטיות, במקום להסתמך אך ורק על attention לאורך כל הרצף.
התוצאות הנטענות:
| מדד | Standard Attention | Engram (DeepSeek V4) |
|---|---|---|
| Needle-in-a-Haystack (1M tokens) | 84.2% accuracy | 97% accuracy |
| אורך קונטקסט נתמך | משתנה (128K טיפוסי) | 1M tokens |
אם הנתון של 97% יחזיק מעמד תחת בדיקה עצמאית, מדובר בהתקדמות משמעותית. הפער בין 84.2% ל-97% בקנה מידה של million-token הוא ההבדל בין מודל שעובד לרוב עם מסמכים ארוכים לבין מודל שעובד איתם בצורה אמינה. עבור מפתחים שבונים מערכות RAG, כלי ניתוח code או pipelines לעיבוד מסמכים, זה עשוי להפחית את הצורך באסטרטגיות chunking ושכבות retrieval חיצוניות.
הערה חשובה: מספרים אלו מגיעים מ-benchmarks פנימיים ולא אומתו באופן עצמאי נכון ל-March 2026. עד שערכות הערכה של צד שלישי יאשרו את הטענות, יש להתייחס אליהן כשאיפה.
חלון קונטקסט: 1 מיליון Tokens
חלון הקונטקסט של 1 מיליון tokens ב-DeepSeek V4 מציב אותו באותה קטגוריה כמו מודלי ה-Gemini של Google, שהיו חלוצי הקונטקסטים של מיליון tokens. לשם השוואה, מיליון tokens שקולים בערך ל:
- 15-20 רומנים באורך מלא
- codebase שלם בגודל בינוני (500+ קבצים)
- היסטוריית chat של מספר שנים
- סט מסמכי גילוי משפטי מלא
הערך המעשי של קונטקסט ארוך תלוי מאוד באיכות ה-retrieval (ראו Engram לעיל). חלון של מיליון tokens עם retrieval גרוע גרוע יותר מחלון של 128K עם retrieval מצוין. אם טענות ה-Engram של DeepSeek נכונות, V4 יציע גם את הקיבולת וגם את הדיוק כדי להפוך קונטקסטים של מיליון tokens לשימושיים באמת ולא רק למספר שיווקי.
עבור מפתחים, היישומים המיידיים כוללים:
- הבנת code של repository שלם ללא צורך ב-chunking וסיכום
- ניתוח מסמכים ארוכים (משפטיים, רפואיים, פיננסיים) במעבר יחיד
- סשנים מורחבים של agent שבהם המודל שומר על היסטוריית שיחה ופעולה מלאה
- reasoning רב-מסמכים על פני אוספים גדולים
יכולות מולטימודליות: יצירת טקסט, תמונה ווידאו
DeepSeek V4 מתואר כ-native multimodal model, כלומר יכולות ה-vision והיצירה משולבות במהלך ה-pre-training ולא מתווספות כמודולים נפרדים בדיעבד. זהו הבדל ארכיטקטוני משמעותי ממודלים ש"מדביקים" הבנת תמונה דרך שכבות adapter.
היכולות המולטימודליות המדווחות כוללות:
- יצירת טקסט (יכולת הליבה של מודל השפה)
- הבנת ויצירת תמונות (מתחרה ב-DALL-E 3, Midjourney)
- יצירת וידאו (מתחרה ב-OpenAI Sora, Google Veo 3)
- Cross-modal reasoning (מענה על שאלות לגבי תמונות, יצירת תמונות מתיאורים מורכבים, יצירת וידאו מטקסט)
יכולת יצירת הווידאו ראויה לציון במיוחד. אם DeepSeek V4 יכול לייצר וידאו באיכות המתחרה ב-Sora או Veo 3 תוך שהוא בקוד פתוח, זה יהפוך טכנולוגיה שדורשת כיום גישת API יקרה או פלטפורמות קנייניות לנגישה לכולם. עם זאת, טענות לגבי איכות יצירת וידאו הן מהקשות ביותר להערכה מדפי מפרט בלבד -- איכות הפלט בעולם האמיתי משתנה מאוד.
אינטגרציה מולטימודלית נייטיבית מאפשרת תיאורטית reasoning חוצה-מודלים קוהרנטי יותר. מודל שמבין תמונות מה-pre-training אמור לטפל במשימות כמו "תאר מה לא בסדר בצילום המסך הזה של ה-UI וייצר גרסה מתוקנת" בצורה טבעית יותר מאשר מודל שבו ה-vision התווסף מאוחר יותר. האם V4 יקיים את ההבטחה הזו בפועל, נותר לראות.
Benchmarks: טענות חזקות, לא מאומתות
הדלפות של benchmarks פנימיים מציירות תמונה מרשימה של היכולות של DeepSeek V4. הנה השוואה של הציונים הנטענים לעומת המודלים המובילים כיום:
Benchmarks של תכנות
| מודל | HumanEval | SWE-bench Verified |
|---|---|---|
| DeepSeek V4 (מודלף) | 90% | 80%+ |
| Claude Opus 4.5 | ~88% | 80.9% |
| GPT-5.3 Codex | ~87% | ~80% |
| DeepSeek V3 | ~82% | ~49% |
| Llama 3.1 405B | ~80% | ~33% |
תצפיות מרכזיות
HumanEval ב-90% יהווה רף חדש עבור benchmark זה, אם כי HumanEval הפך לרווי יותר ויותר וחוקרים רבים מפקפקים ברלוונטיות המתמשכת שלו להבחנה בין מודלים מהדרג הראשון.
SWE-bench Verified מעל 80% היא הטענה המשמעותית יותר. SWE-bench בודק את יכולתו של מודל לפתור בעיות GitHub אמיתיות מפרויקטים אמיתיים בקוד פתוח -- מבחן קשה ופרקטי הרבה יותר ליכולת תכנות. Claude Opus 4.5 מחזיק כרגע בשיא של 80.9%. אם DeepSeek V4 ישתווה לזה או יעקוף את זה בזמן שהוא בקוד פתוח, זה יהיה הישג היסטורי.
הקפיצה מציון של ~49% ב-SWE-bench ב-V3 לציון הנטען של 80%+ ב-V4 תהיה יוצאת דופן. שיפור כזה בדור יחיד הוא חריג ומצדיק ספקנות עד לאימות עצמאי. הסברים אפשריים כוללים:
- זיכרון ה-Engram וחלון הקונטקסט הארוך יותר מאפשרים למודל לבצע reasoning על פני repositories שלמים, מה ש-SWE-bench מתגמל.
- שיפורים משמעותיים בנתוני אימון ספציפיים ל-code וב-fine-tuning.
- ציוני ה-benchmark הם מהגדרת הערכה אופטימלית שאולי לא משקפת שימוש טיפוסי.
עד ש-benchmarks עצמאיים ממקורות כמו LMSYS, BigCode או מעבדות אקדמיות יאשרו את המספרים האלו, יש להתייחס אליהם כטענות ולא כעובדות.
חומרה: נבנתה ללא Nvidia
אחד ההיבטים המשמעותיים ביותר של DeepSeek V4 הוא חומרת האימון שלו. בשל הגבלות הייצוא של ארה"ב המגבילות את הגישה של חברות סיניות ל-GPUs החזקים ביותר של Nvidia, DeepSeek V4 אומן על פי הדיווחים על שילוב של:
- מאיצי AI מסוג Huawei Ascend 910B
- שבבי Cambricon MLU
זה משמעותי משתי סיבות.
ראשית, זה מוכיח שניתן לאמן מודלי AI בחזית הטכנולוגיה ללא חומרת Nvidia. DeepSeek V3 כבר היה ראוי לציון בשל השימוש בשבבי Nvidia H800 (גרסה מוגבלת של ה-H100), אך V4 עובר לחלוטין לסיליקון סיני מקומי. אם V4 יעמוד בטענות ה-benchmark שלו, זה יוכיח שה"חפיר" (moat) החומרתי סביב Nvidia צר יותר ממה שרבים הניחו.
שנית, יש לכך השלכות על התחרות בתחום חומרת ה-AI באופן רחב. Huawei ו-Cambricon משקיעות רבות במאיצי AI, והרצת אימון מוצלחת של V4 תהיה ההוכחה החזקה ביותר שלהן עד כה.
הרצת V4 על חומרת צרכני קצה
למרות קנה המידה של טריליון פרמטרים, DeepSeek הדגישה ש-V4 יכול לרוץ על חומרת צרכנים כאשר הוא עובר quantization. היעדים המדווחים:
| קונפיגורציה | חומרה נדרשת |
|---|---|
| Full precision (FP16/BF16) | Multi-node GPU cluster |
| INT8 quantized | 2x Nvidia RTX 4090 (48 GB total VRAM) |
| INT4 quantized | 1x Nvidia RTX 5090 (32 GB VRAM) |
סיפור הנגישות הזה מרכזי להצעת הערך של DeepSeek כקוד פתוח. מודל עם משקולות פתוחות שדורש data center כדי לרוץ הוא מעניין מבחינה אקדמית אך מוגבל מבחינה מעשית. מודל שמתאים לחומרה שמפתח יכול לקנות ב-Micro Center משנה את המשוואה לחלוטין.
תהליך ה-quantization תמיד כולל פשרות -- דיוק מופחת יכול לפגוע בביצועים במשימות מסוימות -- אך ארכיטקטורת ה-MoE של DeepSeek מתאימה היטב ל-quantization מכיוון שרק פרמטרי ה-experts הפעילים צריכים להיטען לזיכרון עבור כל שלב inference נתון.
קוד פתוח: רישיון Apache 2.0
DeepSeek אישרה תוכניות לשחרר את משקולות V4 תחת רישיון Apache 2.0, אחד הרישיונות המתירניים ביותר הקיימים בקוד פתוח. המשמעות היא:
- שימוש מסחרי מותר -- חברות יכולות להטמיע את V4 במוצרים ללא דמי רישיון.
- שינוי מותר -- מפתחים יכולים לבצע fine-tune, distill או לשנות את המודל בחופשיות.
- אין חובות copyleft -- אין צורך לשחרר עבודות נגזרות כקוד פתוח.
- מתן פטנטים כלול -- Apache 2.0 כולל רישיון פטנט מפורש.
זה ממשיך את הדפוס של DeepSeek של שחרורים פתוחים אמיתיים, המנוגד לגישת "משקולות פתוחות אך רישיון מוגבל" שננקטה על ידי חלק מהמתחרים. עבור קהילת המפתחים, שחרור Apache 2.0 של מודל ברמת יכולת כזו יהיה חסר תקדים.
ההשפעה המעשית עבור מפתחים:
- חלופות באירוח עצמי (self-hosted) ל-APIs של Claude, GPT ו-Gemini הופכות לישימות עבור יותר מקרי בוחן.
- Fine-tuning על נתונים קנייניים הופך לאפשרי ללא שיתוף נתונים עם צד שלישי.
- יכולת חיזוי עלויות -- עלויות ה-inference הן עלויות חומרה, לא דמי API לכל token.
- שליטה ב-latency -- פריסה מקומית מבטלת את ה-network round trips.
לוח זמנים לשחרור: סדרה ארוכה של חלונות שהוחמצו
הדרך לשחרור של DeepSeek V4 לא הייתה חלקה כלל. להלן לוח הזמנים של חלונות השחרור הצפויים והמוחמצים:
| תאריך | אירוע |
|---|---|
| Late January 2026 | שמועות ראשונות על "V4" בבדיקות צצות בפורומי טכנולוגיה סיניים |
| Mid-February 2026 | חלון שחרור משוער ראשון חולף ללא הכרזה |
| Late February 2026 | חלון השחרור של ראש השנה הסיני חולף; תקלת API קצרה מעוררת השערות |
| Early March 2026 | ה-Financial Times מדווח כי שחרור V4 "קרוב" |
| March 9, 2026 | התווית "V4 Lite" מופיעה באתר של DeepSeek, ומזוהה במהירות על ידי משתמשים |
| March 12, 2026 | V4 המלא עדיין לא הושק רשמית |
הופעת ה-V4 Lite ב-March 9 היא הסימן המוחשי ביותר עד כה. בעוד הפרטים נותרים דלים, זה מרמז שלפחות גרסה קטנה יותר של משפחת V4 נמצאת בשלבים סופיים. מספר הפרמטרים של ~200B שמוערך עבור V4 Lite יהפוך אותו לנגיש משמעותית מהמודל המלא של טריליון פרמטרים, תוך שהוא עשוי להציע תצוגה מקדימה של החידושים הארכיטקטוניים של V4 כמו זיכרון Engram.
גורמים מרובים עשויים להסביר את העיכובים:
- אימון על חומרה שאינה Nvidia מציב אתגרים הנדסיים חדשים.
- יעדי Benchmark אולי לא הושגו בהרצות האימון הראשוניות.
- שיקולי רגולציה סביב מסגרות ממשל ה-AI של סין.
- תזמון גיאופוליטי -- שחרורי AI מרכזיים ממעבדות סיניות מושכים בדיקה קפדנית.
מה זה אומר עבור מפתחים
ללא קשר לתאריך השחרור המדויק, ל-DeepSeek V4 יש השלכות ששווה לתכנן עבורן.
אם ה-benchmarks יתאמתו
מודל בקוד פתוח שמשתווה ל-Claude Opus 4.5 ול-GPT-5.3 במשימות coding ישנה מהיסוד את חישוב ה-build-vs-buy עבור כלי פיתוח מבוססי AI. חברות המשלמות כיום עלויות API משמעותיות עבור יכולות coding מתקדמות יקבלו חלופה הניתנת לאירוח עצמי. זה מפעיל לחץ כלפי מטה על תמחור ה-API בכל התעשייה -- מה שמועיל למפתחים ללא קשר למודל שבו הם משתמשים.
אם Engram יעבוד כפי שנטען
מודל שמטפל בצורה אמינה בקונטקסטים של מיליון tokens יפחית את המורכבות של ארכיטקטורות RAG. במקום לבנות pipelines מורכבים של chunking, embedding ו-retrieval, מפתחים יוכלו פוטנציאלית להעביר codebases שלמים או אוספי מסמכים ישירות למודל. זה לא מבטל את הצורך ב-RAG לחלוטין (עלות ו-latency עדיין חשובים), אך זה מפשט את הארכיטקטורה עבור מקרי בוחן רבים.
אם היצירה המולטימודלית תהיה תחרותית
יצירת תמונה ווידאו בקוד פתוח תפתח מקרי בוחן יצירתיים ומוצריים שדורשים כיום APIs קנייניים יקרים. צוותים קטנים ומפתחי אינדי יקבלו גישה ליכולות שכרגע חסומות מאחורי רשימות המתנה ותמחור ארגוני.
מה לעשות עכשיו
- עקבו אחר השחרור הרשמי -- עקבו אחר הערוצים הרשמיים של DeepSeek במקום להסתמך על שמועות.
- הכינו את התשתית שלכם -- אם אתם מתכננים לארח בעצמכם, ודאו שיש לכם את חומרת ה-GPU (מינימום 2x RTX 4090 עבור quantized inference).
- תכננו את ההערכה שלכם -- החליטו אילו benchmarks ומקרי בוחן חשובים ליישומים הספציפיים שלכם, כדי שתוכלו לבדוק במהירות ברגע שהמשקולות יהיו זמינות.
- הישארו סקפטיים -- benchmarks מודלפים הם שיווק עד שהם מאומתים באופן עצמאי; העריכו את המודל במשימות שלכם לפני קבלת החלטות תשתיתיות.
השורה התחתונה
DeepSeek V4 מייצג את מה שעשוי להיות שחרור ה-AI המשמעותי ביותר בקוד פתוח של 2026. מודל MoE של טריליון פרמטרים עם קונטקסט של מיליון tokens, יכולות מולטימודליות נייטיביות ו-benchmarks של coding שמתחרים בטובים שבמודלים הקנייניים -- כל זאת תחת Apache 2.0 -- יהיה נקודת מפנה אמיתית עבור המערכת האקולוגית של מפתחי AI.
מילת המפתח היא "עשוי". טענות ה-benchmark אינן מאומתות. תאריך השחרור נותר לא ודאי. מערכת הזיכרון Engram זקוקה להערכה עצמאית. והביצועים המעשיים של מודל שאומן על חומרה שאינה Nvidia בקנה מידה כזה הם טריטוריה לא מוכרת לחלוטין.
מה שברור הוא שהפער בין AI בקוד פתוח ל-AI קנייני ממשיך להצטמצם, ו-DeepSeek הוא אחד הכוחות המרכזיים המניעים את ההתכנסות הזו. בין אם V4 יקיים כל טענה ובין אם יפגר בתחומים מסוימים, השחרור הסופי שלו יהיה אחד האירועים החשובים ביותר בפיתוח AI השנה.
אנו נעדכן מאמר זה ככל שמידע חדש יהיה זמין. לחדשות האחרונות על DeepSeek V4 ופיתוחי AI נוספים, עקבו אחר הסיקור שלנו.