תובנות מרכזיות
- Computer Use הוא השדרוג המרכזי: GPT-5.4 יכול לנווט באופן אוטונומי באפליקציות שולחן עבודה, למלא טפסים ולהשלים תהליכי עבודה מרובי שלבים -- GPT-5.2 אינו יכול לעשות דבר מזה, וציון ה-OSWorld של 75% עוקף מומחים אנושיים (72.4%).
- חלון ההקשר (Context window) קופץ מ-400K ל-1M tokens: אם אתם עובדים עם codebases גדולים, מסמכים ארוכים או סשנים של agent מרובי סבבים, זהו שיפור משמעותי, אם כי תמחור ה-input מכפיל את עצמו מעבר ל-272K tokens.
- יעיל יותר ב-tokens ב-47%: GPT-5.4 מייצר פלט תמציתי יותר במשימות מורכבות, מה שיכול לקזז את עלות ה-per-token הגבוהה מעט שלו ($2.50 לעומת $1.75 לכל מיליון input tokens).
- תחליף ישיר (Drop-in replacement) עבור Chat Completions: פשוט שנו את שם המודל בקוד GPT-5.2 הקיים -- אך תכונות חדשות כמו Computer Use ו-Tool Search דורשות את ה-Responses API.
- GPT-5.2 Thinking יוצא לגמלאות ב-June 5, 2026: תכננו את ההגירה (migration) כעת, מכיוון ש-GPT-5.4 טוב יותר באופן מובהק לכל מקרי השימוש חוץ מקוד production המקושר באופן הדוק לפורמט ה-API הישן.
GPT-5.4 לעומת GPT-5.2: מה השתנה והאם כדאי לשדרג?
March 2026 — OpenAI שחררה את GPT-5.4 בתחילת March 2026, שלושה חודשים בלבד לאחר GPT-5.2. אם אתם מפתחים או משתמשים כבדים (power users) שכבר מריצים את GPT-5.2, השאלה היא פשוטה: האם GPT-5.4 שווה את המעבר, או שזהו שדרוג הדרגתי שניתן לדלג עליו?
תשובה קצרה: שדרגו. GPT-5.4 אינו הדרגתי. זהו המודל הרב-תכליתי הראשון עם Computer Use מובנה (native), הוא מרחיב את ההקשר ל-1M tokens, ועוקף מומחים אנושיים במבחן הביצועים OSWorld לאוטומציית שולחן עבודה. להלן כל מה שאתם צריכים כדי לקבל את ההחלטה ולבצע את ההגירה.
התשובה המהירה
כן, כדאי לשדרג. הנה הסיבות בשלוש נקודות:
- Computer Use הוא קטגוריית יכולת חדשה. GPT-5.4 יכול לראות מסכים, ללחוץ על כפתורים, למלא טפסים ולנווט באפליקציות באופן אוטונומי. GPT-5.2 אינו יכול לעשות דבר מזה.
- חלון ההקשר קופץ מ-400K ל-1M tokens (ניסיוני). אם אתם עובדים עם codebases גדולים, מסמכים ארוכים או סשנים של agent מרובי סבבים, זהו שיפור משמעותי.
- השיפורים במבחני הביצועים (Benchmarks) הם אמיתיים. GPT-5.4 מקבל ציון של 75.0% ב-OSWorld (בני אדם מקבלים 72.4%), 57.7% ב-SWE-Bench Pro (עלייה מ-55.6%), ו-92.8% ב-GPQA Diamond (עלייה מ-92.4%).
אם עומס העבודה שלכם אינו דורש Computer Use או הקשר ארוך (long-context), GPT-5.4 עדיין טוב יותר — הוא יעיל יותר ב-tokens (47% פחות tokens במשימות מורכבות) ומשלב את יכולות הקידוד המתקדמות מ-GPT-5.3-codex.
מה חדש ב-GPT-5.4
להלן הרשימה המלאה של היכולות החדשות והמשופרות לעומת GPT-5.2:
- Computer Use מובנה (Native). שליטה אוטונומית במסך — גלישה באינטרנט, הפעלת אפליקציות שולחן עבודה, מילוי טפסים וביצוע תהליכי עבודה מרובי שלבים ללא צורך בכלי עבודה מותאמים אישית. ציון של 75.0% ב-OSWorld, עוקף מומחים אנושיים (72.4%).
- חלון הקשר של 1M Token. זמין באופן ניסיוני ב-Codex וב-API (272K סטנדרטי, 1M עם הגדרה). GPT-5.2 הגיע למקסימום של 400K.
- Tool Search. עבור אפליקציות עם אקו-סיסטם גדול של כלים, GPT-5.4 מחפש ובוחר בצורה חכמה את הכלי הנכון במקום לסרוק כל תיאור כלי. זה הפחית את השימוש הכולל ב-tokens ב-47% בבדיקות של OpenAI תוך שמירה על דיוק.
- DNA של קידוד מ-GPT-5.3-codex. GPT-5.4 הוא מודל ה-reasoning הראשי הראשון המשלב את יכולות הקידוד המתקדמות מ-GPT-5.3-codex, מודל הקידוד הייעודי של OpenAI.
- מחקר עומק משופר ברשת (Deep Web Research). טיפול טוב יותר בשאילתות ספציפיות מאוד, עם שמירה חזקה יותר על ההקשר במהלך חשיבה ממושכת.
- בקרת מאמץ חשיבה (Reasoning Effort Controls). רמות מאמץ מפורטות מ-
noneועדxhigh, המאפשרות לכם לאזן בין latency לעומק על בסיס כל בקשה. - יעילות tokens טובה יותר. GPT-5.4 תמציתי יותר — 47% פחות tokens במשימות מורכבות — מה שיכול לקזז את עלות ה-per-token הגבוהה מעט שלו.
טבלת השוואה ראש בראש
| מפרט | GPT-5.2 | GPT-5.4 |
|---|---|---|
| תאריך שחרור | December 2025 | March 2026 |
| חלון הקשר | 400K tokens | 272K standard / 1M experimental |
| Computer Use | No | Yes (native) |
| Tool Search | No | Yes |
| שושלת קידוד | Base GPT-5 | GPT-5.3-codex integrated |
| SWE-Bench Pro | 55.6% | 57.7% |
| SWE-Bench Verified | -- | 80.0% |
| GPQA Diamond | 92.4% (Thinking) | 92.8% |
| OSWorld | N/A | 75.0% (superhuman) |
| ARC-AGI-2 | 52.9% (Thinking) | 73.3% |
| AIME 2025 | 100% | 100% |
| GDPval | 70.9% ties/beats experts | 83.0% |
| Terminal-Bench 2.0 | -- | 75.1% |
| מחיר API Input | $1.75 / 1M tokens | $2.50 / 1M tokens |
| מחיר API Output | $14.00 / 1M tokens | $15.00 / 1M tokens |
| מחיר Pro Input | -- | $30.00 / 1M tokens |
| מחיר Pro Output | -- | $180.00 / 1M tokens |
| מהירות פלט | ~68 tokens/sec | Comparable |
| מאמץ חשיבה (Reasoning Effort) | none to xhigh | none to xhigh |
| זמינות ב-ChatGPT | Plus, Team, Pro (legacy after June 2026) | Plus, Team, Pro (default) |
צלילה לעומק: מה באמת השתנה
Computer Use
זוהי תכונת הכותרת והסיבה לכך ש-GPT-5.4 אינו רק עדכון גרסה קטן. Computer Use אומר שהמודל יכול לקיים אינטראקציה אוטונומית עם מסך מחשב — הקלקה, הקלדה, גלילה וניווט בין אפליקציות.
בפועל, זה מאפשר תהליכי עבודה כמו: "עבור לפורטל ה-HR של החברה, הורד את תלוש השכר האחרון שלי ושלח אותו במייל לרואה החשבון שלי". GPT-5.2 יכול היה לנסח את המייל, אך לא יכול היה לנווט בפורטל או להוריד את הקובץ.
במבחן הביצועים OSWorld, המודד השלמת משימות שולחן עבודה אוטונומיות, GPT-5.4 קיבל 75.0%. מומחים אנושיים מקבלים 72.4%. זו הפעם הראשונה שדגם AI כלשהו עוקף בני אדם במבחן זה. עבור מפתחים שבונים agents מבוססי AI, תכונת Computer Use מבטלת קטגוריות שלמות של סקריפטים שבירים לאוטומציית דפדפן ואינטגרציות מותאמות אישית.
Computer Use זמין דרך ה-Responses API — הוא אינו נתמך דרך ה-endpoint הישן של Chat Completions.
חלון הקשר של 1M Token
GPT-5.2 תמך בעד 400K tokens של הקשר. GPT-5.4 מוגדר כברירת מחדל ל-272K אך ניתן להגדרה של עד 1M tokens באופן ניסיוני ב-Codex וב-API.
ההשפעה המעשית: אתם יכולים להזין codebase שלם בגודל בינוני לתוך prompt יחיד, לשמור על סשנים של agent שנמשכים שעות ללא איבוד הקשר, או לעבד מסמכים באורך של ספר בפעם אחת. שימו לב שתוספת התשלום עבור הקשר ארוך (long-context surcharge) מכפילה את תעריף ה-input token ל-$5.00 לכל 1M tokens ברגע שחוצים את רף ה-272K.
שיפורי חשיבה (Reasoning)
שיפורי ה-Reasoning של GPT-5.4 הם מדידים אך לא דרמטיים במבחני הביצועים הסטנדרטיים. GPQA Diamond עובר מ-92.4% ל-92.8%. המקום שבו השיפור בולט יותר הוא ב-ARC-AGI-2 (מ-52.9% ל-73.3%), המודד יכולת חשיבה כללית, וב-GDPval (מ-70.9% ל-83.0%), הבוחן עבודת ידע מקצועית ב-44 מקצועות.
בקרי מאמץ החשיבה (Reasoning effort controls: none, low, medium, high, xhigh) מאפשרים לכם לכייל את המודל לכל בקשה. משימת סיווג פשוטה יכולה לרוץ במאמץ low לתגובות מהירות וזולות, בעוד שהחלטה ארכיטקטונית מורכבת יכולה לרוץ ב-xhigh לעומק מקסימלי.
יצירת תמונות (Image Generation)
GPT-5.4 כולל יכולות יצירת תמונות מובנות (native). בעוד ש-GPT-5.2 יכול היה לעבד קלט של תמונות (vision), GPT-5.4 יכול גם להבין וגם לייצר תמונות בתוך אותו מודל, מה שמבטל את הצורך בקריאה נפרדת ל-DALL-E בתהליכי עבודה רבים.
Responses API ו-Tool Search
GPT-5.4 תוכנן סביב ה-Responses API, המחליף את פורמט ה-Chat Completions הישן עבור תכונות חדשות. Chat Completions עדיין עובד עבור יצירת טקסט בסיסית, אך Computer Use, Tool Search ותכונות reasoning מתקדמות דורשות את ה-Responses API.
Tool Search רלוונטי במיוחד עבור מפתחים שבונים agents עם כלים רבים. במקום לכלול כל הגדרת כלי ב-prompt (מה שצורך tokens ויכול לבלבל את המודל), Tool Search מאפשר ל-GPT-5.4 לשאול ולבחור בצורה חכמה כלים רלוונטיים מתוך מאגר גדול. OpenAI מדווחת על הפחתה של 47% בשימוש ב-tokens עם דיוק זהה.
השוואת מבחני ביצועים (Benchmarks)
כך GPT-5.4 ו-GPT-5.2 משתווים במבחני ביצועים מרכזיים, עם הקשר ממודלים מתחרים.
קידוד (Coding)
| מבחן ביצועים | GPT-5.2 (Thinking) | GPT-5.4 | הערות |
|---|---|---|---|
| SWE-Bench Pro | 55.6% | 57.7% | פתרון בעיות GitHub אמיתיות |
| SWE-Bench Verified | -- | 80.0% | תת-קבוצה מאומתת |
| Terminal-Bench 2.0 | -- | 75.1% | משימות קידוד מבוססות טרמינל |
שיפורי הקידוד של GPT-5.4 מגיעים ישירות משילוב יכולות GPT-5.3-codex. השיפור ב-SWE-Bench Pro מ-55.6% ל-57.7% מייצג שיפור משמעותי בעולם האמיתי — כל נקודת אחוז תואמת לעשרות בעיות GitHub אמיתיות נוספות שנפתרו בצורה נכונה.
חשיבה וידע (Reasoning and Knowledge)
| מבחן ביצועים | GPT-5.2 (Thinking) | GPT-5.4 | הערות |
|---|---|---|---|
| GPQA Diamond | 92.4% | 92.8% | שאלות ותשובות ברמת תואר שני |
| ARC-AGI-2 | 52.9% | 73.3% | יכולת חשיבה כללית |
| GDPval | 70.9% | 83.0% | עבודת ידע מקצועית |
הקפיצה ב-ARC-AGI-2 מ-52.9% ל-73.3% היא השיפור המשמעותי ביותר במבחן בודד, המצביע על הישגים ניכרים בחשיבה מופשטת וכללית.
מתמטיקה (Math)
| מבחן ביצועים | GPT-5.2 (Thinking) | GPT-5.4 | הערות |
|---|---|---|---|
| AIME 2025 | 100% | 100% | מתמטיקה תחרותית (הגעה לתקרה) |
| FrontierMath (T1-3) | 40.3% | -- | מתמטיקה ברמת מומחה |
שני המודלים משיגים ציונים מושלמים ב-AIME 2025. GPT-5.2 כבר הגיע לתקרה במתמטיקה תחרותית, ולכן שיפורי המתמטיקה של GPT-5.4 בולטים יותר במבחני ביצועים קשים יותר ופחות רוויים.
Computer Use (קטגוריה חדשה)
| מבחן ביצועים | GPT-5.2 | GPT-5.4 | הערות |
|---|---|---|---|
| OSWorld | N/A | 75.0% | מומחים אנושיים: 72.4% |
קטגוריית מבחן זו לא הייתה קיימת עבור GPT-5.2 מכיוון שלמודל חסרו יכולות Computer Use לחלוטין.
השוואת מחירים
תמחור API
| דרגה | GPT-5.2 | GPT-5.4 | הפרש |
|---|---|---|---|
| Input (standard) | $1.75 / 1M tokens | $2.50 / 1M tokens | +43% |
| Output | $14.00 / 1M tokens | $15.00 / 1M tokens | +7% |
| Cached Input | $0.175 / 1M tokens | $1.25 / 1M tokens | גבוה יותר |
| Long-context Input (>272K) | N/A | $5.00 / 1M tokens | תוספת תשלום חדשה |
| Pro Input | -- | $30.00 / 1M tokens | דרגת Premium |
| Pro Output | -- | $180.00 / 1M tokens | דרגת Premium |
GPT-5.4 יקר יותר פי 1.1 בערך על בסיס per-token. עם זאת, מכיוון ש-GPT-5.4 מייצר 47% פחות tokens במשימות מורכבות, העלות הכוללת למשימה יכולה למעשה להיות נמוכה יותר. אם אתם מריצים inference בנפח גבוה, בצעו benchmark לעומס העבודה הספציפי שלכם לפני שתניחו שהעלויות יעלו.
תמחור מנוי ChatGPT
| תוכנית | מחיר | גישה ל-GPT-5.2 | גישה ל-GPT-5.4 |
|---|---|---|---|
| Free | $0/month | מוגבלת | מוגבלת |
| Plus | $20/month | Yes (legacy) | Yes (default) |
| Team | $25/user/month | Yes (legacy) | Yes (default) |
| Pro | $200/month | Yes (legacy) | Yes (default, מגבלות גבוהות ביותר) |
עבור מנויי ChatGPT, אין עלות נוספת. GPT-5.4 מחליף את GPT-5.2 כמודל ברירת המחדל. GPT-5.2 נותר זמין תחת Legacy Models עד June 5, 2026, ולאחר מכן הוא יופסק.
מדריך הגירה: כיצד לעבור מ-GPT-5.2 ל-GPT-5.4
שלב 1: שנו את שם המודל
עבור קריאות Chat Completions API בסיסיות, החליפו את מזהה המודל:
# Before
response = client.chat.completions.create(
model="gpt-5.2",
messages=[{"role": "user", "content": "Hello"}]
)
# After
response = client.chat.completions.create(
model="gpt-5.4",
messages=[{"role": "user", "content": "Hello"}]
)
זה עובד כתחליף ישיר (drop-in). הקוד הקיים שלכם יפיק תוצאות ללא שינויים נוספים.
שלב 2: אמצו את ה-Responses API עבור תכונות חדשות
Computer Use, Tool Search ותכונות reasoning מתקדמות דורשות את ה-Responses API. אם אתם רוצים את היכולות הללו, העבירו את קריאות ה-API שלכם:
# Responses API with Computer Use
response = client.responses.create(
model="gpt-5.4",
tools=[{"type": "computer_use_preview"}],
input="Navigate to github.com and star the repo"
)
OpenAI מספקת מדריך הגירה מפורט בכתובת platform.openai.com/docs/guides/migrate-to-responses.
שלב 3: כיילו את מאמץ החשיבה (Reasoning Effort)
בדקו את הגדרות מאמץ החשיבה שלכם. GPT-5.4 עשוי להניב פשרות איכות שונות בכל רמה בהשוואה ל-GPT-5.2:
response = client.responses.create(
model="gpt-5.4",
reasoning={"effort": "high"},
input="Analyze this architecture for potential race conditions..."
)
השתמשו ב-low למשימות פשוטות (סיווג, חילוץ מידע), ב-medium לשאילתות כלליות, וב-high או xhigh למשימות חשיבה מורכבות.
שלב 4: שמרו על Phase Metadata
זהו פרט קריטי עבור מערכות production. בעת שימוש ב-Responses API עם GPT-5.4, עליכם לשמר נכון את שדה ה-phase בהודעות ה-assistant בעת שחזור היסטוריית השיחה. השמטת phase metadata גורמת לירידה משמעותית בביצועים. זה לא היה רלוונטי ב-GPT-5.2.
שלב 5: אופטימיזציה של תקציבי Tokens
GPT-5.4 תמציתי יותר. ייתכן שתוכלו להוריד את ה-max_completion_tokens שלכם ולחסוך בעלויות הפלט. בדקו זאת עם ה-prompts האמיתיים שלכם והתאימו בהתאם.
מתי להישאר ב-GPT-5.2
ישנן כמה סיבות לגיטימיות לעכב את ההגירה:
- קוד production קריטי ללא תקציב לבדיקות. אם יש לכם מערכות שעברו prompt-tuning נרחב המריצות את GPT-5.2 ואינכם יכולים להרשות לעצמכם בדיקות נסיגה (regression testing), הישארו במקום עד שתוכלו לבדוק כראוי. GPT-5.4 הוא תחליף ישיר לקריאות בסיסיות, אך מאפייני הפלט יהיו שונים.
- אופטימיזציית עלויות עם מודלים ישנים וזולים יותר. אם אתם מריצים משימות בנפח גבוה ובמורכבות נמוכה (סיווג, חילוץ מידע, סיכום) וכל שבריר סנט חשוב, המחיר הנמוך יותר של GPT-5.2 ל-input ($1.75 לעומת $2.50 לכל 1M tokens) עשוי להיות עדיף. עם זאת, יעילות ה-tokens של GPT-5.4 לעיתים קרובות מקזזת את תוספת המחיר ל-token.
- טיפול ב-Phase metadata. אם ה-middleware שלכם מסיר או משנה metadata של הודעות assistant ואינכם יכולים לעדכן זאת במהירות, ביצועי GPT-5.4 ירדו. תקנו תחילה את ה-middleware, ואז בצעו הגירה.
- לחץ של דדליין צפוף. GPT-5.2 לא הולך לשום מקום עד June 5, 2026. אם אתם בחלון השקה קריטי, אין סיבה להכניס סיכונים. בצעו הגירה לאחר הדדליין שלכם.
עבור כל השאר, אין סיבה להישאר ב-GPT-5.2. הוא מועבר ל-Legacy Models ויופסק ב-June 2026.
השורה התחתונה
GPT-5.4 אינו שדרוג גרסה מינורי. הוא מציג יכולת חדשה לחלוטין (Computer Use), מרחיב משמעותית את ההקשר (1M tokens), מספק שיפורים מדידים במבחני ביצועים לאורך קידוד וחשיבה, ומשפר את יעילות ה-tokens בכמעט 50% במשימות מורכבות.
עבור מפתחים, נתיב ההגירה ברור: שנו את שם המודל לתאימות מיידית, אמצו את ה-Responses API עבור תכונות חדשות, וכיילו את מאמץ החשיבה עבור עומס העבודה שלכם. עליית המחיר היא צנועה (פי 1.1 לערך לכל token) וככל הנראה תקוזז על ידי שיפורים ביעילות ה-tokens עבור רוב מקרי השימוש.
GPT-5.2 יצא לגמלאות ב-June 5, 2026. השאלה אינה האם להגר, אלא מתי. עבור רוב הצוותים, התשובה היא עכשיו.