أهم النقاط الرئيسية
- SWE-Bench هو تعادل بنسبة ~80%: الفجوة البالغة 0.4 نقطة بين Codex (~80%) و Sonnet 4.6 (79.6%) تقع ضمن نطاق التذبذب العشوائي -- هيكلية الوكيل (agent scaffolding) تهم أكثر من اختيار النموذج لمهام البرمجة القياسية.
- Codex يهيمن على سير عمل terminal: بنسبة 77.3% مقابل 59.1% في Terminal-Bench 2.0، يتمتع Codex بميزة 18 نقطة في عمليات terminal المستقلة مثل git وأنظمة البناء (build systems) وتصحيح الأخطاء (debugging).
- Sonnet يتفوق في فهم النوايا الغامضة: فضل المطورون Sonnet 4.6 على الإصدار السابق بنسبة 70% من الوقت لتفسير المتطلبات الغامضة، واختيار أنماط التصميم، وتوقع الحالات الحدية (edge cases).
- Codex يستخدم tokens أقل بـ 2-4 مرات لكل مهمة: استهلاك أقل للـ tokens يتكامل مع أسعار مدخلات أرخص (1.75$ مقابل 3.00$)، مما يجعل Codex أرخص بكثير لسير العمل المكثف الذي يعتمد على terminal.
- هيكلية الوكيل (agent harness) تهم أكثر من النموذج: يمكن أن تتأرجح نتائج SWE-bench بمقدار 22+ نقطة اعتماداً على scaffolding وتكوين الأدوات واستراتيجية الهندسة الفورية (prompting) -- استثمر في بنية الوكيل الخاص بك، وليس فقط في اختيار النموذج.
GPT-5.3 Codex مقابل Claude Sonnet 4.6: مقارنة البرمجة العملية
March 9, 2026 -- تضع معظم المقارنات GPT-5.3 Codex في مواجهة Claude Opus 4.6 -- وهما النموذجان الرائدان. لكن هذا يغفل النقطة الأساسية. فغالبية المطورين لا ينفقون 15$/75$ لكل مليون tokens على Opus لعملهم البرمجي اليومي. بل يستخدمون Claude Sonnet 4.6 بسعر 3$/15$، والذي يتعامل مع 80%+ من مهام البرمجة بجودة قريبة من Opus.
هذه هي المقارنة التي تهم حقاً: GPT-5.3 Codex (الذي صدر في February 5, 2026) مقابل Claude Sonnet 4.6 (الذي صدر في February 17, 2026) -- وهما النموذجان اللذان يختار بينهما معظم المطورين الآن.
باختصار: جدول القرار السريع
| حالة الاستخدام | الفائز | السبب |
|---|---|---|
| البرمجة المستندة إلى terminal | GPT-5.3 Codex | 77.3% في Terminal-Bench مقابل 59.1% |
| إعادة صياغة الأكواد متعددة الملفات | Claude Sonnet 4.6 | استنتاج أفضل، فهم للنية |
| السرعة / الإنتاجية | GPT-5.3 Codex | 61.9 tok/s، أسرع بنسبة 25% من سلفه |
| فهم المتطلبات الغامضة | Claude Sonnet 4.6 | مفضل بنسبة 70% من الوقت على Sonnet 4.5 |
| كفاءة تكلفة tokens | GPT-5.3 Codex | tokens أقل بـ 2-4 مرات لكل مهمة |
| استخدام الكمبيوتر / مهام المتصفح | Claude Sonnet 4.6 | 72.5% في OSWorld مقابل 64% |
| Vibe coding (توليد تطبيق كامل) | Claude Sonnet 4.6 | فاز بنتيجة 11-6 في الاختبارات الواقعية |
| مراجعة الكود | GPT-5.3 Codex | تكامل GitHub Copilot أصلي |
| نافذة السياق (Context window) | GPT-5.3 Codex | 400K tokens مقابل 200K (1M تجريبي على Opus فقط) |
الحكم السريع: اختر GPT-5.3 Codex إذا كنت تعمل بنظام terminal أولاً، وتولي أهمية للسرعة، وتريد تكاملاً وثيقاً مع GitHub و VS Code. اختر Claude Sonnet 4.6 إذا كنت بحاجة إلى استنتاج أعمق، أو تتعامل مع عمليات إعادة صياغة معقدة، أو تولد تطبيقات كاملة من التعليمات البرمجية.
مقارنة المعايير (Benchmark Comparison)
تحكي المعايير الرئيسية قصة نموذجين أقرب مما قد تتوقع في توليد الأكواد -- لكنهما يختلفان بوضوح في أسلوب التنفيذ.
| المعيار | GPT-5.3 Codex | Claude Sonnet 4.6 | Claude Opus 4.6 (مرجع) | الفائز |
|---|---|---|---|---|
| SWE-Bench Verified | ~80% | 79.6% | 80.8% | تعادل (ضمن نطاق التذبذب) |
| Terminal-Bench 2.0 | 77.3% | 59.1% | 65.4% | Codex بفارق 18.2 نقطة |
| OSWorld (استخدام الكمبيوتر) | 64% | 72.5% | 72.7% | Sonnet بفارق 8.5 نقاط |
ماذا تعني هذه الأرقام
SWE-Bench Verified هو المعيار الرئيسي للبرمجة -- حيث يحل مشكلات GitHub حقيقية من مشاريع مفتوحة المصدر مشهورة. بنسبة ~80% مقابل 79.6%، لا توجد فجوة ذات مغزى. كلا النموذجين يحلان تقريباً 4 من أصل 5 مهام برمجية واقعية. الفرق البالغ 0.4 نقطة يقع تماماً ضمن الهامش الذي يمكن أن يغيره تكوين الوكيل (agent).
Terminal-Bench 2.0 يقيس البرمجة المستقلة في بيئات terminal: تحرير الملفات، عمليات git، أنظمة البناء، وتصحيح الأخطاء. يهيمن GPT-5.3 Codex هنا بنسبة 77.3%، متفوقاً على 59.1% لنموذج Sonnet 4.6 بأكثر من 18 نقطة. هذه هي أقوى ميزة لـ Codex -- إذا كان سير عملك يتمحور حول terminal، فإن هذه الفجوة تهمك.
OSWorld يختبر استخدام الكمبيوتر -- التنقل في واجهات المستخدم الرسومية (GUIs)، استخدام المتصفحات، والتفاعل مع تطبيقات سطح المكتب. يتصدر Sonnet 4.6 بنسبة 72.5% مقابل 64% لـ Codex. ومن المثير للاهتمام أن Sonnet يطابق تقريباً Opus 4.6 (72.7%) في هذا المعيار، مما يجعله الخيار الأفضل من حيث القيمة لسير عمل استخدام الكمبيوتر.
التسعير وكفاءة الـ tokens
التسعير الخام لا يحكي سوى نصف القصة. كفاءة tokens لكل مهمة هي المكان الذي تظهر فيه صورة التكلفة الحقيقية.
التسعير لكل token
| GPT-5.3 Codex | Claude Sonnet 4.6 | |
|---|---|---|
| المدخلات (Input) | 1.75$ / 1M tokens | 3.00$ / 1M tokens |
| المخرجات (Output) | 14.00$ / 1M tokens | 15.00$ / 1M tokens |
| نافذة السياق | 400K tokens | 200K tokens (1M تجريبي على Opus) |
| السرعة | 61.9 tok/s | قياسي |
Codex أرخص في المدخلات (1.75$ مقابل 3.00$) ومتعادل تقريباً في المخرجات (14$ مقابل 15$). لكن التسعير لكل token ليس الصورة الكاملة.
كفاءة الـ tokens في العالم الحقيقي
هنا يتفوق Codex في التكلفة. من الناحية العملية، يستخدم GPT-5.3 Codex 2-4x tokens أقل لكل مهمة مقارنة بنماذج Claude. يميل Codex إلى إنتاج مخرجات أكثر إيجازاً ويتطلب عدداً أقل من عمليات التبادل ذهاباً وإياباً.
مثال واقعي -- مهمة استنساخ تصميم Figma:
| GPT-5.3 Codex | Claude Opus 4.6 | Claude Sonnet 4.6 (تقديري) | |
|---|---|---|---|
| تكلفة المهمة | ~54$ | ~187$ | ~40-50$ |
تسعير Sonnet 4.6 لكل token أقل من Opus، مما يجعل تكلفته التقديرية لنفس المهمة أقرب إلى Codex. ولكن لا تزال كفاءة tokens في Codex تمنحه الأفضلية في التكلفة لكل مهمة في العديد من أساليب العمل.
الخلاصة بشأن التكلفة: بالنسبة للبرمجة عالية الحجم والمكثفة في terminal، فإن Codex أرخص. بالنسبة للمهام المعقدة العرضية حيث تهمك جودة المخرجات أكثر من عدد الـ tokens، فإن Sonnet 4.6 يعتبر منافساً قوياً.
أين يتفوق GPT-5.3 Codex
مهام terminal والتنفيذ
تم بناء Codex للبرمجة التي تعتمد على terminal أولاً. تعكس نسبته 77.3% في Terminal-Bench 2.0 تفوقاً حقيقياً في:
- تشغيل وتصحيح أنظمة البناء (build systems)
- تنفيذ سير عمل git متعدد الخطوات
- تحرير الملفات وتشغيل الاختبارات في حلقات terminal
- جلسات تصحيح الأخطاء التفاعلية
إذا كان سير عملك اليومي يبدو كـ "افتح terminal، شغّل الوكيل، كرر العملية على الكود"، فإن Codex مصمم خصيصاً لهذا الغرض.
السرعة
بمعدل 61.9 tokens في الثانية -- أسرع بنسبة 25% من GPT-5.2 -- يقدم Codex استجابات أسرع بشكل ملحوظ. في جلسات البرمجة التفاعلية حيث تنتظر كل استجابة قبل إصدار التعليمات التالية، تتضاعف هذه السرعة. خلال يوم برمجة مدته 8 ساعات، يكون الفرق ملموساً.
كفاءة الـ tokens
يولد Codex حلولاً أكثر إيجازاً. بينما قد ينتج Sonnet تفسيرات مفصلة بجانب الكود، يميل Codex إلى إخراج تغييرات كود مركزة. وهذا يعني:
- تكلفة أقل لكل مهمة (2-4 مرات في بعض أساليب العمل)
- أوقات إكمال أسرع
- ضجيج أقل للتحليل في المخرجات
التكامل مع GitHub و VS Code
يتمتع Codex بتكامل أصلي مع GitHub Copilot و VS Code. بالنسبة للمطورين المندمجين بالفعل في نظام GitHub البيئي، فإن هذا يعني:
- اقتراحات كود مضمنة مرتبطة بـ Codex
- مراجعة طلبات السحب (Pull requests) مدعومة بنفس النموذج
- سياق سلس من مستودع الأكواد الخاص بك
أين يتفوق Claude Sonnet 4.6
الاستنتاج وفهم النية
يتفوق Sonnet 4.6 باستمرار على Codex عندما تتطلب المهمة فهم ما يريده المطور حقاً -- خاصة من المواصفات الغامضة أو غير المكتملة. في اختبارات Claude Code، فضل المطورون Sonnet 4.6 على Sonnet 4.5 السابق 70% من الوقت، وعلى الإصدار الرائد السابق Opus 4.5 59% من الوقت. هذه أرقام تفضيل، وليست نتائج معايير -- وهي تعكس تجربة المطور الحقيقية.
تظهر هذه الميزة في:
- تفسير متطلبات المنتج الغامضة
- اختيار أنماط التصميم المناسبة دون توجيه
- توقع الحالات الحدية التي لم يذكرها المطور صراحة
- إنتاج كود "يعمل ببساطة" من المحاولة الأولى بشكل متكرر
إعادة صياغة الأكواد متعددة الملفات
عندما تلمس المهمة 5-15 ملفاً عبر قاعدة الأكواد، تصبح ميزة الاستنتاج في Sonnet 4.6 أكثر وضوحاً. فهو يتتبع التبعيات، ويفهم سلاسل الاستيراد (import chains)، ويجري تغييرات منسقة تحافظ على الاتساق. يتعامل Codex مع إعادة الصياغة بكفاءة، ولكن بالنسبة للتغييرات واسعة النطاق، يميل Sonnet إلى إنتاج مراجع مكسورة أقل.
استخدام الكمبيوتر
إن نسبة 72.5% التي حققها Sonnet 4.6 في OSWorld (مقابل 64% لـ Codex) تجعله الخيار الأقوى لسير العمل الذي يتضمن تفاعل المتصفح، أو اختبار واجهة المستخدم الرسومية، أو أي مهمة يحتاج فيها النموذج إلى "رؤية" الشاشة والتفاعل معها. هذه الفجوة البالغة 8.5 نقاط كبيرة -- وهي مماثلة تقريباً لنسبة 72.7% لنموذج Opus 4.6، مما يجعل Sonnet الخيار الأمثل من حيث القيمة لاستخدام الكمبيوتر.
توليد تطبيقات كاملة (Vibe Coding)
يتفوق Sonnet 4.6 في توليد تطبيقات كاملة وجاهزة للعمل من توجيه واحد -- وهو سير العمل الذي غالباً ما يسمى "vibe coding".
نتائج اختبار Vibe Coding في العالم الحقيقي
تقيس المعايير القدرات المعزولة. تضع الاختبارات الواقعية من converge.run كلا النموذجين في مهام توليد تطبيقات كاملة يتم تقييمها على مقياس من 0-3:
| المهمة | Claude Sonnet 4.6 | GPT-5.3 Codex |
|---|---|---|
| لعبة الدفاع عن البرج | 2/3 | 3/3 |
| نسخة ChatGPT | 3/3 | 1/3 |
| صفحة هبوط | 3/3 | 1/3 |
| محاكاة جزيئات ثلاثية الأبعاد | 3/3 | 1/3 |
| الإجمالي | 11/12 | 6/12 |
فاز Sonnet 4.6 بشكل حاسم، 11 إلى 6. النمط ملحوظ: فاز Codex في المهمة الأكثر تنظيماً (لعبة الدفاع عن البرج بقواعد واضحة)، بينما هيمن Sonnet على المهام التي تتطلب تنفيذاً إبداعياً، وحساً بتصميم واجهة المستخدم، وهندسة تطبيق شاملة.
وهذا يتماشى مع قصة المعايير -- Codex يتفوق في التنفيذ المحدد، بينما يتفوق Sonnet في المهام التي تتطلب حكماً أوسع.
رؤية "الوكيل يهم أكثر من النموذج"
إليك النتيجة الأكثر تقليلاً من قيمتها في أبحاث البرمجة الحالية بالذكاء الاصطناعي: هيكلية الوكيل (agent harness) حول النموذج تهم أكثر من النموذج نفسه.
يمكن أن تتأرجح نتائج SWE-bench بمقدار 22+ نقطة اعتماداً على:
- تكوين الأدوات (الأدوات التي يمكن للنموذج استدعاؤها)
- استراتيجية التوجيه (prompting) وتعليمات النظام
- منطق إعادة المحاولة ومعالجة الأخطاء
- استرجاع الملفات وإدارة السياق
وهذا يعني أن وكيل Sonnet 4.6 الذي تم تكوينه جيداً يمكن أن يتفوق على إعداد Codex الضعيف، والعكس صحيح. قبل القلق بشأن اختيار النموذج، استثمر في:
- Scaffolding -- كيف يسترجع وكيلك السياق، ويدير الملفات، ويعالج الأخطاء
- تكامل الأدوات -- ما هي الأدوات التي يمكن للنموذج الوصول إليها (البحث، terminal، المتصفح)
- هندسة الأوامر (Prompt engineering) -- أوامر النظام المضبوطة لقاعدة الأكواد والاتفاقيات الخاصة بك
- التقييم -- قم بقياس ما يهم لمهامك الخاصة، وليس فقط SWE-bench
النموذج هو متغير واحد. النظام المحيط به هو المضاعف.
إطار عمل القرار
اختر GPT-5.3 Codex إذا:
- كان سير عملك الأساسي يعتمد على terminal (تشغيل الأوامر، تصحيح الأخطاء، عمليات git)
- كانت السرعة والاستجابة أمراً بالغ الأهمية لتدفق عملك
- كنت تعمل ضمن نظام GitHub / VS Code / Copilot البيئي
- كانت التكلفة تهمك وتقوم بتشغيل كميات كبيرة من مهام البرمجة
- كانت مهامك محددة جيداً بمواصفات واضحة
اختر Claude Sonnet 4.6 إذا:
- كنت تعمل بشكل متكرر بناءً على متطلبات غامضة أو متطورة
- كانت إعادة صياغة الملفات المتعددة والاستنتاج المعقد مهاماً شائعة
- كنت بحاجة إلى قدرات استخدام الكمبيوتر (المتصفح، التفاعل مع واجهة المستخدم الرسومية)
- كنت تولد تطبيقات كاملة من الأوامر (vibe coding)
- كنت تريد جودة بمستوى Opus دون تسعير بمستوى Opus
- كانت مهامك تتطلب فهم السياق والنية، وليس فقط تنفيذ التعليمات
استخدم كليهما إذا:
- كنت تستطيع تحمل اشتراكين أو مفاتيح API
- كان عملك يمتد ليشمل كلاً من تنفيذ terminal والاستنتاج المعقد
- كنت تريد Codex للمهام الحساسة للسرعة و Sonnet للمهام الحساسة للعمق
- كان فريقك يستخدم أدوات مثل Continue.dev التي تدعم تبديل النماذج
الحكم النهائي
لا يتنافس GPT-5.3 Codex و Claude Sonnet 4.6 على نفس المكانة -- فهما محسنان لسير عمل مختلف للمطورين.
Codex هو محرك التنفيذ. فهو سريع، وكفء في استخدام tokens، ومهيمن في البرمجة المستندة إلى terminal. إذا كنت تفكر في البرمجة بالذكاء الاصطناعي كـ "إعطائه مهمة واضحة وتركه ينفذها"، فإن Codex هو نموذجك.
Sonnet 4.6 هو شريك الاستنتاج. فهو يفهم ما تقصده، ويتعامل مع الغموض بشكل جيد، وينتج مخرجات عالية الجودة في المهام المعقدة. إذا كنت تفكر في البرمجة بالذكاء الاصطناعي كـ "تعاون مع شريك ذكي في حل المشكلات الصعبة"، فإن Sonnet هو نموذجك.
حقيقة أن Sonnet 4.6 يسجل 79.6% في SWE-bench -- بفارق 1.2 نقطة عن Opus 4.6 وبخُمس التكلفة -- تجعله القيمة الأكثر جاذبية في برمجة الذكاء الاصطناعي حالياً. لكن هيمنة Codex على terminal (77.3% مقابل 59.1%) وميزة السرعة (61.9 tok/s) حقيقية تماماً أيضاً.