Основные выводы
- SWE-Bench — это ничья на уровне ~80%: Разрыв в 0.4 балла между Codex (~80%) и Sonnet 4.6 (79.6%) находится в пределах статистической погрешности — для стандартных задач кодирования оснастка агента (agent scaffolding) имеет большее значение, чем выбор модели.
- Codex доминирует в рабочих процессах в терминале: С результатом 77.3% против 59.1% в Terminal-Bench 2.0, Codex имеет преимущество в 18 баллов в автономных операциях терминала, таких как git, системы сборки и отладка.
- Sonnet выигрывает в понимании расплывчатых намерений: Разработчики предпочитали Sonnet 4.6 его предшественнику в 70% случаев при интерпретации двусмысленных требований, выборе паттернов проектирования и предвидении пограничных случаев.
- Codex использует в 2-4 раза меньше tokens на задачу: Низкое потребление tokens в сочетании с более дешевой ценой за входящие данные ($1.75 против $3.00) делает Codex значительно дешевле для высокообъемных рабочих процессов с интенсивным использованием терминала.
- Оснастка агента важнее модели: Результаты SWE-bench могут колебаться более чем на 22 балла в зависимости от scaffolding, конфигурации инструментов и стратегии prompting — инвестируйте в архитектуру вашего агента, а не только в выбор модели.
GPT-5.3 Codex против Claude Sonnet 4.6: Практическое сравнение для программирования
March 9, 2026 — Большинство сравнений сопоставляют GPT-5.3 Codex с Claude Opus 4.6 — двумя флагманами. Но это упускает суть. Большинство разработчиков не тратят $15/$75 за миллион tokens на Opus для своей ежедневной работы по кодированию. Они используют Claude Sonnet 4.6 по цене $3/$15, который справляется с 80%+ задач кодирования с качеством, близким к Opus.
Это сравнение, которое действительно имеет значение: GPT-5.3 Codex (выпущен February 5, 2026) против Claude Sonnet 4.6 (выпущен February 17, 2026) — две модели, между которыми сейчас выбирает большинство разработчиков.
TL;DR: Таблица для быстрого принятия решений
| Сценарий использования | Победитель | Почему |
|---|---|---|
| Кодирование через терминал | GPT-5.3 Codex | 77.3% в Terminal-Bench против 59.1% |
| Многофайловый рефакторинг | Claude Sonnet 4.6 | Лучшее рассуждение, понимание намерений |
| Скорость / пропускная способность | GPT-5.3 Codex | 61.9 tok/s, на 25% быстрее предшественника |
| Понимание расплывчатых требований | Claude Sonnet 4.6 | Предпочтение в 70% случаев перед Sonnet 4.5 |
| Эффективность стоимости tokens | GPT-5.3 Codex | в 2-4 раза меньше tokens на задачу |
| Использование компьютера / задачи в браузере | Claude Sonnet 4.6 | 72.5% в OSWorld против 64% |
| Vibe coding (генерация приложений целиком) | Claude Sonnet 4.6 | Победа 11-6 в реальных тестах |
| Code review | GPT-5.3 Codex | Нативная интеграция с GitHub Copilot |
| Context window | GPT-5.3 Codex | 400K tokens против 200K (1M beta только в Opus) |
Краткий вердикт: Выбирайте GPT-5.3 Codex, если вы работаете прежде всего через терминал, цените скорость и хотите тесной интеграции с GitHub/VS Code. Выбирайте Claude Sonnet 4.6, если вам нужны глубокие рассуждения, вы выполняете сложные рефакторинги или генерируете целые приложения из промптов.
Сравнение бенчмарков
Основные бенчмарки рассказывают историю двух моделей, которые ближе друг к другу в генерации кода, чем можно было ожидать, но резко расходятся в стиле исполнения.
| Бенчмарк | GPT-5.3 Codex | Claude Sonnet 4.6 | Claude Opus 4.6 (ref) | Победитель |
|---|---|---|---|---|
| SWE-Bench Verified | ~80% | 79.6% | 80.8% | Ничья (в пределах погрешности) |
| Terminal-Bench 2.0 | 77.3% | 59.1% | 65.4% | Codex на 18.2 балла |
| OSWorld (Computer Use) | 64% | 72.5% | 72.7% | Sonnet на 8.5 балла |
Что означают эти цифры
SWE-Bench Verified — это главный бенчмарк по кодированию, решающий реальные проблемы с GitHub из популярных open-source проектов. При ~80% против 79.6% значимого разрыва нет. Обе модели решают примерно 4 из 5 реальных задач кодирования. Разница в 0.4 балла находится в пределах того диапазона, в котором конфигурация агента может изменить результат.
Terminal-Bench 2.0 измеряет автономное кодирование в средах терминала: редактирование файлов, операции git, системы сборки, отладка. GPT-5.3 Codex доминирует здесь с результатом 77.3%, опережая 59.1% у Sonnet 4.6 более чем на 18 баллов. Это самое сильное преимущество Codex — если ваш рабочий процесс ориентирован на терминал, этот разрыв имеет значение.
OSWorld тестирует использование компьютера — навигацию по GUI, использование браузеров, взаимодействие с десктопными приложениями. Sonnet 4.6 лидирует с 72.5% против 64% у Codex. Примечательно, что Sonnet почти сравнялся с Opus 4.6 (72.7%) в этом бенчмарке, что делает его явным фаворитом по соотношению цены и качества для рабочих процессов с использованием компьютера.
Цена и эффективность tokens
Чистая цена рассказывает только половину истории. Эффективность tokens на задачу — вот где проявляется реальная картина затрат.
Цена за token
| GPT-5.3 Codex | Claude Sonnet 4.6 | |
|---|---|---|
| Input | $1.75 / 1M tokens | $3.00 / 1M tokens |
| Output | $14.00 / 1M tokens | $15.00 / 1M tokens |
| Context Window | 400K tokens | 200K tokens (1M beta в Opus) |
| Скорость | 61.9 tok/s | Стандартная |
Codex дешевле на входящие данные ($1.75 против $3.00) и примерно эквивалентен на исходящие ($14 против $15). Но цена за token — это еще не все.
Реальная эффективность tokens
Здесь Codex вырывается вперед по стоимости. На практике GPT-5.3 Codex использует в 2-4 раза меньше tokens на задачу по сравнению с моделями Claude. Codex стремится выдавать более лаконичные результаты и требует меньше итераций общения.
Реальный пример — задача клонирования дизайна Figma:
| GPT-5.3 Codex | Claude Opus 4.6 | Claude Sonnet 4.6 (оценка) | |
|---|---|---|---|
| Стоимость задачи | ~$54 | ~$187 | ~$40-50 |
Цена за token у Sonnet 4.6 ниже, чем у Opus, что приближает его оценочную стоимость для той же задачи к Codex. Но эффективность использования tokens у Codex все равно дает ему преимущество в стоимости за задачу для многих рабочих процессов.
Итог по стоимости: Для высокообъемного кодирования с упором на терминал Codex дешевле. Для периодических сложных задач, где вы цените качество результата выше количества tokens, Sonnet 4.6 конкурентоспособен.
В чем выигрывает GPT-5.3 Codex
Задачи в терминале и на выполнение
Codex был создан для работы прежде всего в терминале. Его результат 77.3% в Terminal-Bench 2.0 отражает подлинное превосходство в:
- Запуске и отладке систем сборки
- Выполнении многоэтапных рабочих процессов git
- Редактировании файлов и запуске тестов в циклах терминала
- Интерактивных сессиях отладки
Если ваш ежедневный рабочий процесс выглядит как «открыть терминал, запустить агента, итерировать код», Codex создан специально для этого.
Скорость
При скорости 61.9 tokens в секунду — на 25% быстрее, чем GPT-5.2 — Codex обеспечивает заметно более живой отклик. В интерактивных сессиях кодирования, где вы ждете каждого ответа перед выдачей следующей инструкции, эта скорость накапливается. За 8-часовой рабочий день разница становится ощутимой.
Эффективность tokens
Codex генерирует более лаконичные решения. Там, где Sonnet может выдать подробные объяснения вместе с кодом, Codex склонен выводить только конкретные изменения кода. Это означает:
- Более низкую стоимость за задачу (в 2-4 раза в некоторых рабочих процессах)
- Более быстрое время завершения
- Меньше лишнего шума в выводе для анализа
Интеграция с GitHub и VS Code
Codex имеет нативную интеграцию с GitHub Copilot и VS Code. Для разработчиков, уже встроенных в экосистему GitHub, это означает:
- Встроенные предложения кода, привязанные к Codex
- Проверка pull request на базе той же модели
- Бесшовный контекст из вашего репозитория
В чем выигрывает Claude Sonnet 4.6
Рассуждение и понимание намерений
Sonnet 4.6 последовательно превосходит Codex, когда задача требует понимания того, что на самом деле хочет разработчик — особенно при расплывчатых или неполных спецификациях. При тестировании Claude Code разработчики предпочитали Sonnet 4.6 предыдущему Sonnet 4.5 в 70% случаев, а предыдущему флагману Opus 4.5 — в 59% случаев. Это показатели предпочтений, а не баллы бенчмарков — они отражают реальный опыт разработчиков.
Это преимущество проявляется в:
- Интерпретации неоднозначных требований к продукту
- Выборе подходящих паттернов проектирования без подсказок
- Предвидении пограничных случаев, о которых разработчик явно не упомянул
- Написании кода, который чаще «просто работает» с первой попытки
Многофайловый рефакторинг
Когда задача затрагивает 5-15 файлов в кодовой базе, преимущество Sonnet 4.6 в рассуждении становится более выраженным. Он отслеживает зависимости, понимает цепочки импорта и вносит скоординированные изменения, сохраняющие согласованность. Codex справляется с рефакторингом достойно, но при крупномасштабных изменениях Sonnet, как правило, создает меньше битых ссылок.
Использование компьютера
Результат Sonnet 4.6 в 72.5% в OSWorld (против 64% у Codex) делает его более сильным выбором для рабочих процессов, включающих взаимодействие с браузером, тестирование GUI или любую задачу, где модели нужно «видеть» экран и взаимодействовать с ним. Этот разрыв в 8.5 балла значителен — он почти идентичен результату Opus 4.6 (72.7%), что делает Sonnet очевидным выгодным вариантом для использования компьютера.
Генерация приложений целиком (Vibe Coding)
Sonnet 4.6 преуспевает в генерации полных, работающих приложений из одного промпта — рабочий процесс, часто называемый «vibe coding».
Результаты реальных тестов Vibe Coding
Бенчмарки измеряют изолированные возможности. Реальные тесты от converge.run подвергли обе модели задачам по генерации полных приложений, оцениваемым по шкале 0-3:
| Задача | Claude Sonnet 4.6 | GPT-5.3 Codex |
|---|---|---|
| Игра Tower Defense | 2/3 | 3/3 |
| Клон ChatGPT | 3/3 | 1/3 |
| Landing Page | 3/3 | 1/3 |
| 3D-симуляция частиц | 3/3 | 1/3 |
| Итого | 11/12 | 6/12 |
Sonnet 4.6 уверенно победил со счетом 11 против 6. Закономерность примечательна: Codex выиграл в наиболее структурированной задаче (игра tower defense с четкими правилами), в то время как Sonnet доминировал в задачах, требующих творческой реализации, чувства дизайна UI и целостной архитектуры приложения.
Это согласуется с историей бенчмарков — Codex превосходит в четком исполнении, Sonnet превосходит в задачах, требующих более широкого суждения.
Инсайт: «Агент важнее модели»
Вот самый недооцененный вывод из текущих исследований ИИ-кодирования: оснастка агента (agent harness) вокруг модели важнее, чем сама модель.
Результаты SWE-bench могут колебаться на 22+ балла в зависимости от:
- Конфигурации инструментов (какие инструменты модель может вызывать)
- Стратегии prompting и системных инструкций
- Логики повторных попыток и обработки ошибок
- Извлечения файлов и управления контекстом
Это означает, что хорошо настроенный агент Sonnet 4.6 может превзойти плохо настроенную конфигурацию Codex, и наоборот. Прежде чем мучиться с выбором модели, инвестируйте в:
- Scaffolding — как ваш агент извлекает контекст, управляет файлами и обрабатывает ошибки.
- Интеграцию инструментов — к каким инструментам у модели есть доступ (поиск, терминал, браузер).
- Prompt engineering — системные промпты, настроенные под вашу конкретную кодовую базу и конвенции.
- Оценку — измеряйте то, что важно для ВАШИХ задач, а не SWE-bench.
Модель — это одна переменная. Система вокруг нее — это множитель.
Структура принятия решения
Выбирайте GPT-5.3 Codex, если:
- Ваш основной рабочий процесс основан на терминале (запуск команд, отладка, операции git)
- Скорость и отзывчивость имеют решающее значение для вашего потока
- Вы работаете в экосистеме GitHub/VS Code/Copilot
- Стоимость имеет значение, и вы выполняете большие объемы задач кодирования
- Ваши задачи четко определены и имеют ясные спецификации
Выбирайте Claude Sonnet 4.6, если:
- Вы часто работаете с расплывчатыми или меняющимися требованиями
- Многофайловый рефакторинг и сложные рассуждения являются обычными задачами
- Вам нужны возможности использования компьютера (браузер, взаимодействие с GUI)
- Вы генерируете целые приложения из промптов (vibe coding)
- Вы хотите получить качество уровня Opus без цены уровня Opus
- Ваши задачи требуют понимания контекста и намерений, а не просто выполнения инструкций
Используйте оба, если:
- Вы можете позволить себе две подписки или API ключа
- Ваша работа охватывает как выполнение в терминале, так и сложные рассуждения
- Вы хотите использовать Codex для задач, критичных к скорости, и Sonnet для задач, критичных к глубине проработки
- Ваша команда использует такие инструменты, как Continue.dev, которые поддерживают переключение моделей
Окончательный вердикт
GPT-5.3 Codex и Claude Sonnet 4.6 не соревнуются за одну и ту же нишу — они оптимизированы для разных рабочих процессов разработки.
Codex — это движок исполнения. Он быстрый, эффективный в использовании tokens и доминирует в кодировании через терминал. Если вы воспринимаете ИИ-кодирование как «дать четкую задачу и позволить выполнить её», Codex — ваша модель.
Sonnet 4.6 — это партнер по рассуждениям. Он понимает, что вы имеете в виду, хорошо справляется с неопределенностью и выдает более качественный результат в сложных задачах. Если вы воспринимаете ИИ-кодирование как «сотрудничество с интеллектуальным партнером над трудными проблемами», Sonnet — ваша модель.
Тот факт, что Sonnet 4.6 набирает 79.6% в SWE-bench — в пределах 1.2 балла от Opus 4.6 при стоимости в пять раз ниже — делает его самым заманчивым предложением в ИИ-кодировании на данный момент. Но доминирование Codex в терминале (77.3% против 59.1%) и преимущество в скорости (61.9 tok/s) столь же реальны.
Большинство разработчиков не ошибутся ни с тем, ни с другим. Лучший выбор — тот, который соответствует тому, как вы на самом деле работаете.
Похожие статьи
- Лучший ИИ для программирования в 2026 году: 10 инструментов, ранжированных по реальной производительности
- OpenAI Codex против Cursor против Claude Code: какой инструмент ИИ для кодинга использовать в 2026 году?
- Claude Opus 4.6: руководство по использованию окна контекста в 1 миллион tokens для анализа больших кодовых баз