Основные выводы
- Пять уровней reasoning.effort: Параметр
reasoning.effort(none,low,medium,high,xhigh) управляет компромиссом между стоимостью и качеством для каждого API request —noneведет себя как модель без функции мышления (самая быстрая/дешевая), в то время какxhighобеспечивает максимальную глубину при стоимости в 3-5 раз выше. - Нативное computer use через API: GPT-5.4 может управлять десктопными приложениями, нажимать кнопки и автономно перемещаться по UI, набирая 75% в OSWorld (превышая базовый уровень эксперта-человека в 72.4%) — это активируется путем передачи типа инструмента
computer_use. - Контекст 1M+ tokens за $2.50/$15: Окно входных данных в 1,050,000-tokens позволяет обрабатывать целые базы кода за один request, хотя стоимость input удваивается после 272K tokens.
- GPT-5.4 Pro стоит в 12 раз дороже: Резервируйте вариант Pro стоимостью $30/$180 за миллион tokens для задач с высокими ставками, где критически важна точность — для подавляющего большинства рабочих нагрузок используйте стандартную GPT-5.4.
GPT-5.4 API Руководство для разработчиков: Reasoning Effort, Computer Use и примеры кода
March 11, 2026 — GPT-5.4 является самой мощной моделью OpenAI на сегодняшний день, и она поставляется с функциями API, которые существенно меняют способы разработки. Регулируемые усилия рассуждения, нативное использование компьютера, окно контекста 1M+ tokens и значительно улучшенная генерация кода — все это через тот же эндпоинт Chat Completions, который вы уже знаете.
Это руководство предназначено для разработчиков, которые хотят начать создавать решения с помощью GPT-5.4 API сегодня. Никакой маркетинговой чепухи. Только IDs моделей, параметры, примеры кода, расчеты стоимости и практические компромиссы, которые вам необходимо учитывать.
Быстрый старт
IDs моделей
| Модель | API ID | Лучше всего для |
|---|---|---|
| GPT-5.4 | gpt-5.4 | Задачи общего назначения, написание кода, рассуждения, computer use |
| GPT-5.4 Pro | gpt-5.4-pro | Максимальная точность в сложных и ответственных задачах |
Ваш первый API вызов
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "user", "content": "Explain the tradeoffs between B-trees and LSM-trees for write-heavy workloads."}
]
)
print(response.choices[0].message.content)
Это все. Если вы использовали любую модель GPT через Chat Completions API, GPT-5.4 является прямой заменой. Различия заключаются в новых параметрах и возможностях.
Ценообразование
| Модель | Вход (Input) | Выход (Output) | Примечания |
|---|---|---|---|
| GPT-5.4 | $2.50 / 1M tokens | $15.00 / 1M tokens | Input удваивается после 272K tokens |
| GPT-5.4 Pro | $30.00 / 1M tokens | $180.00 / 1M tokens | В 12 раз дороже стандартной версии |
Окно контекста: 1,050,000 tokens вход, 128,000 tokens макс. выход.
Требования к доступу: Платный аккаунт API с минимальными расходами 5$ ранее (Tier 1). Недоступно на бесплатном уровне.
Reasoning Effort: Контроль бюджета на мышление
Самым важным новым параметром в GPT-5.4 является reasoning.effort. Он контролирует, какой объем внутренних вычислений модель выделяет для цепочки рассуждений chain-of-thought перед выдачей ответа.
Пять уровней
| Уровень | Поведение | Когда использовать |
|---|---|---|
none | Без chain-of-thought. Самый быстрый и дешевый. Ведет себя как модель без мышления. | Простые преобразования, форматирование, извлечение данных |
low | Минимальное рассуждение. Быстрая проверка логики. | Прямые вопросы и ответы, классификация, суммаризация |
medium | Сбалансированное рассуждение. Это значение по умолчанию. | Общее написание кода, анализ, большинство рабочих нагрузок |
high | Расширенные цепочки рассуждений. Более тщательный подход. | Сложная отладка, архитектурные решения, многошаговая логика |
xhigh | Максимальная глубина рассуждений. Самый медленный, но самый точный. | Сложная математика, крупные рефакторинги, аудиты безопасности, исследования |
Пример кода: Настройка Reasoning Effort
from openai import OpenAI
client = OpenAI()
# High reasoning для сложной задачи рефакторинга
response = client.chat.completions.create(
model="gpt-5.4",
reasoning={"effort": "high"},
messages=[
{"role": "user", "content": "Refactor this function to use async/await and handle all edge cases for network failures, timeouts, and partial responses:\n\ndef fetch_all_pages(url):\n results = []\n while url:\n resp = requests.get(url)\n data = resp.json()\n results.extend(data['items'])\n url = data.get('next')\n return results"}
]
)
Практические рекомендации по уровням рассуждения
Начните с medium и корректируйте. Для большинства рабочих нагрузок API значение по умолчанию является правильным выбором. Вот как об этом стоит думать:
-
Пути, чувствительные к задержке (автодополнение, чат, UI в реальном времени): Используйте
lowилиnone. Разница в скорости существенна, а для таких задач, как форматирование текста или простой поиск, дополнительные рассуждения не приносят пользы. -
Пакетная обработка (конвейеры проверки кода, анализ документов, извлечение данных): Используйте
high. Вы не заставляете пользователя ждать, поэтому дополнительная задержка не имеет значения, а улучшения точности суммируются на сотнях элементов. -
Одиночные запросы с высокими ставками (аудит безопасности кодовой базы, планирование сложной миграции, разработка новых алгоритмов): Используйте
xhigh. Это тот случай, когда 12-кратные вычисления оправдывают себя.
Влияние на стоимость: Более высокие усилия рассуждения означают генерацию (и оплату) большего количества внутренних tokens. Запрос на уровне xhigh может стоить в 3–5 раз дороже, чем тот же запрос на уровне low. Следите за использованием tokens при изменении уровней.
Computer Use API
GPT-5.4 — это первая модель общего назначения с нативными возможностями использования компьютера. В бенчмарке OSWorld она набирает 75%, что превышает базовый уровень человека-эксперта в 72.4%. Это не просто оболочка для скриншотов. Модель нативно понимает интерфейсы рабочих столов и может управлять ими автономно.
Как это работает
- Вы отправляете prompt с описанием того, что нужно сделать.
- Модель делает скриншоты целевой среды.
- Она генерирует клики мышью, ввод с клавиатуры и действия по навигации.
- Она выполняет цикл "сборка-запуск-проверка-исправление" для контроля собственной работы.
- Она возвращает результаты или запрашивает уточнения.
Пример кода: Computer Use
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5.4",
tools=[{"type": "computer_use"}],
messages=[
{"role": "user", "content": "Open the browser, go to github.com, and create a new repository called 'my-project'"}
]
)
Что может делать Computer Use
- Автоматизация браузера: Заполнение форм, навигация по многошаговым рабочим процессам, извлечение структурированных данных с динамических страниц.
- Работа с десктопными приложениями: Открытие приложений, взаимодействие с нативными UI, перенос данных между программами.
- Тестирование рабочих процессов: Прохождение через UI flows, проверка визуальных состояний, выполнение последовательностей онбординга.
- Ввод данных: Перемещение данных между таблицами, CRM и внутренними инструментами.
Ограничения, о которых стоит знать
- Задержка (Latency): Каждый цикл действий включает скриншот, вывод модели и выполнение действия. Многошаговые задачи занимают реальное время.
- Требуется надзор: Не запускайте computer use без присмотра в чувствительных системах. Модель может промахнуться при клике, неверно истолковать элементы UI или совершить непреднамеренные действия.
- Настройка среды: Computer use требует наличия среды отображения. Для автоматизации на стороне сервера вам понадобится виртуальный дисплей (например, Xvfb на Linux или виртуальный рабочий стол).
- Нет прямого доступа к файловой системе по умолчанию: Computer use работает через UI, а не через прямые вызовы файловой системы. Используйте его вместе с инструментами выполнения кода для гибридных рабочих процессов.
Программирование с GPT-5.4
GPT-5.4 наследует и улучшает возможности кодирования GPT-5.3 Codex. Результаты бенчмарков говорят сами за себя:
| Бенчмарк | Результат GPT-5.4 | Что тестируется |
|---|---|---|
| SWE-Bench Pro | 57.7% | Решение реальных проблем GitHub |
| SWE-Bench Verified | ~80% | Курируемая подборка SWE-Bench |
| Terminal-Bench 2.0 | 75.1% | Задачи по разработке в терминале |
Чем отличается от GPT-5.3 Codex
- На 47% меньше tokens в сложных задачах — менее многословный вывод, более лаконичный код.
- Изменения в нескольких файлах с меньшим количеством попыток — лучшее понимание зависимостей между файлами.
- Следование специфическим паттернам репозитория — адаптируется к соглашениям вашей кодовой базы при предоставлении контекста.
- На 33% меньше фактических ошибок — меньше галлюцинаций в ссылках на API, использовании библиотек и конфигурациях.
Советы по улучшению генерации кода
1. Используйте системные prompts для установки стандартов кодирования.
response = client.chat.completions.create(
model="gpt-5.4",
reasoning={"effort": "high"},
messages=[
{"role": "system", "content": "You are a senior Python developer. Follow PEP 8. Use type hints. Write docstrings in Google style. Prefer composition over inheritance. Use dataclasses for DTOs."},
{"role": "user", "content": "Implement a retry decorator with exponential backoff, jitter, and configurable max retries."}
]
)
2. Передавайте реальный код для контекста. Окно контекста GPT-5.4 в 1M tokens означает, что вы можете включать целые модули или даже полные репозитории. Модель выдает значительно лучший код, когда видит существующие паттерны, типы и соглашения.
3. Устанавливайте усилия рассуждения на high или xhigh для сложных изменений. Простые исправления ошибок хорошо работают на medium, но архитектурные рефакторинги, миграции и изменения в нескольких файлах заметно выигрывают от более высоких усилий рассуждения.
4. Используйте max_completion_tokens для предотвращения бесконтрольных ответов. При генерации кода установите разумный предел, чтобы вам не выставляли счет за многословные объяснения, о которых вы не просили.
response = client.chat.completions.create(
model="gpt-5.4",
messages=[...],
max_completion_tokens=4096
)
Стратегии работы с большим контекстом
Окно контекста в 1,050,000-tokens — это скрытая суперсила GPT-5.4. Вот как использовать его эффективно и избежать ценовых ловушек.
Надбавка за 272K
Стоимость входных данных удваивается, как только вы превышаете 272K tokens в одном запросе. Это означает, что запрос на 500K-tokens стоит примерно:
- Первые 272K tokens: 272K x $2.50/1M = $0.68
- Оставшиеся 228K tokens: 228K x $5.00/1M = $1.14
- Общая стоимость input: $1.82
Для сравнения, тот же запрос по стандартной цене стоил бы $1.25. В данном случае надбавка увеличивает счет примерно на 46%.
Пример кода: Использование большого контекста
from openai import OpenAI
client = OpenAI()
# Загрузка всей кодовой базы в контекст
with open("codebase_dump.txt", "r") as f:
full_codebase_content = f.read()
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "system", "content": full_codebase_content}, # до 1M tokens
{"role": "user", "content": "Find all security vulnerabilities in this codebase"}
],
max_completion_tokens=8192
)
Лучшие практики для больших контекстов
Рекомендуется:
- Размещайте самые релевантные файлы в начале. Модель уделяет больше всего внимания началу и концу контекста. Ставьте файлы, наиболее важные для задачи, первыми.
- Используйте системное сообщение для справочных материалов. Размещайте вашу кодовую базу, документацию или данные в системном сообщении. Ваши фактические инструкции помещайте в пользовательское сообщение.
- Явно устанавливайте
max_completion_tokens. При максимальном выходе 128K неограниченный ответ на большом контексте может быстро стать дорогим.
Не рекомендуется:
- Не используйте всегда все окно целиком. Если для вашей задачи требуется всего 50K tokens контекста, не дополняйте его до 1M. Вы платите за входные tokens независимо от того, нужны они модели или нет.
- Не игнорируйте границу 272K. Структурируйте свои prompts так, чтобы по возможности оставаться ниже 272K. Если у вас 280K, посмотрите, можно ли сократить 10K tokens менее релеванчного контекста, чтобы сэкономить на надбавке.
- Не ожидайте идеального запоминания на протяжении всех 1M tokens. Производительность постепенно снижается с увеличением длины контекста. Для максимальной точности держите самую важную информацию в пределах первых 200K tokens.
GPT-5.4 против GPT-5.4 Pro: Когда переходить
GPT-5.4 Pro стоит в 12 раз дороже стандартной GPT-5.4. Вот когда это оправдано.
| Параметр | GPT-5.4 | GPT-5.4 Pro |
|---|---|---|
| Стоимость Input | $2.50 / 1M | $30.00 / 1M |
| Стоимость Output | $15.00 / 1M | $180.00 / 1M |
| Лучше всего для | Большинства задач разработки | Максимальной точности в трудных проблемах |
| Глубина рассуждения | Сильная на всех уровнях | Более глубокое внутреннее рассуждение по умолчанию |
| Задержка (Latency) | Стандартная | Выше (больше вычислений на запрос) |
Используйте стандартную GPT-5.4, когда:
- Вы создаете рабочие приложения с предсказуемыми затратами.
- Задачи четко определены (CRUD, преобразования, стандартное написание кода).
- Вам нужна меньшая задержка для функций, ориентированных на пользователя.
- Вы обрабатываете большие объемы запросов.
Используйте GPT-5.4 Pro, когда:
- Точность в одном запросе важнее стоимости (юридический анализ, медицинские исследования, аудиты безопасности).
- Вы решаете новые проблемы, для которых у модели не было много примеров.
- Многошаговые цепочки рассуждений должны быть безупречными.
- Вы проводите конкурентный бенчмаркинг или оценку.
Практическое правило: Используйте стандартную версию по умолчанию. Запустите ваши самые сложные тестовые сценарии через обе модели. Если Pro стабильно выдает лучшие результаты на вашей конкретной рабочей нагрузке, переключите эти конкретные вызовы на Pro, а все остальное оставьте на стандарте.
Миграция с GPT-5.3 Codex
Если вы в данный момент используете GPT-5.3 Codex (или GPT-5.2-Codex), вот основные различия, которые следует учесть.
Что меняется
| Область | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Model ID | gpt-5.3-codex | gpt-5.4 |
| Окно контекста | 1,000,000 tokens | 1,050,000 tokens |
| Computer use | Недоступно | Нативная поддержка |
| Reasoning effort | Поддерживается | Поддерживается (тот же параметр) |
| Цена (input) | Варьируется от варианта | $2.50 / 1M tokens |
| Цена (output) | Варьируется от варианта | $15.00 / 1M tokens |
| Эффективность tokens | Базовая | На 47% меньше tokens в сложных задачах |
Контрольный список миграции
- Замените model ID. Измените
gpt-5.3-codexнаgpt-5.4в ваших вызовах API. - Протестируйте настройки reasoning effort. Существуют те же уровни усилий (от
noneдоxhigh), но GPT-5.4 может давать другие компромиссы по качеству на каждом уровне. Переоцените ваши значения по умолчанию. - Пересмотрите бюджеты выходных tokens. GPT-5.4 более лаконична (на 47% меньше tokens в сложных задачах). Возможно, вы сможете снизить
max_completion_tokensи сэкономить на стоимости вывода. - Оцените computer use. Если у вас были обходные пути для автоматизации UI (скрипты Selenium, кастомные инструменты), нативное использование компьютера в GPT-5.4 может их заменить.
- Следите за надбавкой 272K. Если ваши рабочие нагрузки в Codex использовали большие контексты, но оставались в рамках структуры ценообразования Codex, пересчитайте затраты с учетом многоуровневого ценообразования на входные данные GPT-5.4.
Что остается прежним
- Эндпоинт Chat Completions API идентичен.
- Роли сообщений system/user/assistant работают так же.
- Streaming, function calling и tool use полностью совместимы.
- Синтаксис параметра
reasoningне изменился.
Бенчмарки с одного взгляда
Для быстрой справки приведем результаты GPT-5.4 в бенчмарках, которые наиболее важны для разработчиков:
| Бенчмарк | Результат | Что измеряет |
|---|---|---|
| SWE-Bench Pro | 57.7% | Сложная реальная программная инженерия |
| SWE-Bench Verified | ~80% | Курируемое решение проблем GitHub |
| Terminal-Bench 2.0 | 75.1% | Написание кода в терминале и системные задачи |
| OSWorld | 75.0% | Работа на десктопном компьютере (базовый уровень человека: 72.4%) |
| GDPval | 83% | Профессиональная интеллектуальная работа в 44 профессиях |
Дополнительные метрики качества:
- На 33% меньше фактических ошибок по сравнению с GPT-5.2.
- На 18% меньше ответов с любыми ошибками в целом.
Резюме
GPT-5.4 — это не революционное изменение API, а практическое. Тот же эндпоинт, тот же формат сообщений, те же паттерны использования инструментов. Новое здесь то, что теперь у вас есть детальный контроль над вычислениями для рассуждений, нативное использование компьютера без сторонних инструментов, окно контекста, достаточное для целых кодовых баз, и значительно лучший вывод кода.
Три вещи, которые нужно сделать прямо сейчас:
- Устанавливайте
reasoning.effortосознанно. Не полагайтесь на значение по умолчанию для каждого вызова. Сопоставляйте уровень усилий со сложностью задачи и вашим бюджетом задержки/стоимости. - Экспериментируйте с computer use. Если у вас есть рабочие процессы автоматизации UI, протестируйте их с помощью нативных возможностей GPT-5.4. Возможно, вы сможете отказаться от хрупких скриптов Selenium.
- Проведите аудит использования контекста. С учетом границы надбавки в 272K и окна в 1M, можно реально сэкономить (или потратить) деньги в зависимости от того, как вы структурируете свои prompts.
Модель доступна прямо сейчас под идентификатором gpt-5.4 для аккаунтов API Tier 1+. Начинайте разработку.