Principais Conclusões
- Controle de esforço de raciocínio de cinco níveis: O parâmetro
reasoning_effort(de none a xhigh) permite que os desenvolvedores otimizem a relação custo-benefício por request -- um chatbot respondendo FAQs não precisa da mesma profundidade que um modelo depurando uma race condition. - Primeiro modelo de uso geral com Computer Use API: GPT-5.4 pode ver telas, clicar em elementos, digitar texto e navegar em aplicações programaticamente, embora a latência de round-trips de screenshots e eventuais misclicks limitem workflows complexos.
- ~80% no SWE-bench Verified: Colocando-o em competição direta com o Claude Opus 4.6 (80.8%), enquanto os cinco lançamentos de GPT-5.x em 7 meses mostram a cadência de iteração acelerada da OpenAI.
- Preço em torno de ~$10/$30 por milhão de tokens: Posicionado entre o mais barato GPT-5.3 Codex e o mais caro Claude Opus 4.6, com uma variante GPT-5.4 Pro disponível para raciocínio de maior qualidade com um custo premium.
Data de Lançamento, Recursos e Preços do GPT-5.4: Tudo o que Você Precisa Saber (2026)
March 13, 2026 — O GPT-5.4 da OpenAI chegou. Lançado em early March 2026, é o modelo mais recente da série GPT-5 e o sucessor direto do GPT-5.3 Codex. Com esforço de raciocínio configurável, uma computer use API, uma janela de contexto de 272K e pontuações em benchmarks que rivalizam com os melhores modelos de codificação do mercado, o GPT-5.4 representa um passo significativo para desenvolvedores e empresas.
Este artigo cobre tudo o que você precisa saber: detalhes do lançamento, recursos principais, preços, benchmarks, comparações com GPT-5.3 Codex e Claude Opus 4.6, e como começar a usar a API.
Data de Lançamento e Disponibilidade
O GPT-5.4 foi lançado em early March 2026. Ele está disponível através de dois canais:
- OpenAI API — acessível a todos os desenvolvedores com uma conta OpenAI. Tanto o ID de modelo padrão
gpt-5.4quanto o premiumgpt-5.4-proestão ativos. - ChatGPT — disponível para assinantes Plus ($20/month), Pro ($200/month) e Enterprise através do seletor de modelos na interface de chat.
O lançamento continua a cadência rápida da OpenAI dentro da família GPT-5:
| Model | Release Date |
|---|---|
| GPT-5 | August 2025 |
| GPT-5.1 | November 2025 |
| GPT-5.2 Codex | December 2025 |
| GPT-5.3 Codex | February 2026 |
| GPT-5.4 | March 2026 |
Cada iteração visou lacunas de capacidade específicas. O GPT-5.4 foca no controle do desenvolvedor, fluxos de trabalho agênticos e em fechar a lacuna de benchmarks com o Claude Opus 4.6 da Anthropic.
O que há de Novo no GPT-5.4
O GPT-5.4 introduz várias capacidades importantes que o distinguem de seu antecessor:
- Esforço de raciocínio configurável — cinco níveis distintos (none, low, medium, high, xhigh) que permitem aos desenvolvedores controlar o quão profundamente o modelo pensa antes de responder.
- Computer Use API — uma nova interface que permite ao GPT-5.4 ver telas, mover cursores, clicar em elementos, digitar texto e interagir com aplicações de desktop programaticamente.
- Janela de contexto de 272K — um aumento significativo em relação ao comprimento de contexto do GPT-5.3 Codex, permitindo que desenvolvedores carreguem bases de código e documentos maiores em uma única sessão.
- Benchmarks de codificação aprimorados — aproximadamente 80% no SWE-bench Verified, colocando-o em competição direta com o Claude Opus 4.6.
- Variante GPT-5.4 Pro — um modo de raciocínio de maior qualidade projetado para problemas complexos de várias etapas, onde a precisão importa mais do que a velocidade ou o custo.
- Melhor seguimento de instruções — taxas de alucinação reduzidas e adesão mais consistente a system prompts e formatos de output estruturados.
Explicação do Reasoning Effort
A adição arquitetonicamente mais interessante no GPT-5.4 é o esforço de raciocínio configurável. Em vez de um único modo de inferência, os desenvolvedores agora podem definir um parâmetro reasoning_effort com cinco níveis. Isso controla quanto "pensamento" interno o modelo realiza antes de gerar uma resposta.
Os Cinco Níveis
| Level | Comportamento | Ideal Para | Custo Relativo |
|---|---|---|---|
| none | Sem raciocínio de chain-of-thought. Geração de resposta direta. | Consultas simples, classificação, tarefas de formatação | Mais baixo |
| low | Raciocínio mínimo. Análise rápida com lógica básica. | Sumarização, Q&A diretos, extração de dados | Baixo |
| medium | Raciocínio equilibrado. Cobre a maioria dos casos de uso geral. | Geração de conteúdo, tarefas de codificação padrão, tradução | Médio |
| high | Raciocínio profundo. Análise de várias etapas com autocorreção. | Depuração complexa, decisões de arquitetura, síntese de pesquisa | Alto |
| xhigh | Profundidade máxima de raciocínio. Chain-of-thought estendido com verificação. | Design de algoritmos inovadores, provas matemáticas, revisão de código crítica | Mais alto |
Quando Usar Cada Nível
O parâmetro de esforço de raciocínio dá aos desenvolvedores controle direto sobre a relação custo-qualidade. Um chatbot respondendo FAQs não precisa da mesma profundidade de raciocínio que um modelo depurando uma race condition em código concorrente.
Na prática, medium é o padrão correto para a maioria das aplicações. Use none ou low para pipelines de alto rendimento onde a latência importa. Reserve high e xhigh para tarefas onde a correção é crítica e você está disposto a pagar por isso.
O parâmetro é definido por request, então você pode ajustar dinamicamente o esforço de raciocínio com base na complexidade de cada consulta dentro da mesma aplicação.
Computer Use API
O GPT-5.4 introduz a primeira Computer Use API da OpenAI, permitindo que o modelo interaja com ambientes de desktop por meio de screenshots, movimentos de cursor, cliques e entrada de teclado.
O que Ele Pode Fazer
- Ver a tela — o modelo recebe screenshots do estado atual do desktop
- Mover o cursor — posicionamento preciso do cursor em coordenadas específicas
- Clicar e digitar — clique esquerdo/direito, clique duplo, arrastar e entrada de teclado
- Navegar em aplicações — abrir menus, alternar abas, preencher formulários, interagir com diálogos
- Executar workflows de várias etapas — encadear várias ações para completar tarefas como preencher relatórios de despesas, configurar ajustes de software ou executar suítes de teste através de uma GUI
Como Funciona
A Computer Use API opera através de um loop: o modelo recebe um screenshot, decide uma ação, executa-a via API, recebe um novo screenshot refletindo o resultado e repete. Os desenvolvedores definem o espaço de ação disponível e o modelo planeja dentro dessas restrições.
Limitações
Esta é uma implementação de primeira geração e vem com ressalvas importantes:
- Latência — cada ação requer um round-trip de screenshot, tornando workflows complexos mais lentos do que a automação por scripts
- Precisão — o modelo pode clicar errado ou identificar incorretamente elementos da UI, especialmente em interfaces visualmente densas
- Segurança — conceder a um modelo a capacidade de controlar seu computador requer um sandboxing cuidadoso. A OpenAI recomenda executar tarefas de uso de computador em máquinas virtuais isoladas
- Sem precisão de pixel perfeita — o modelo trabalha com coordenadas aproximadas, o que pode causar problemas com elementos pequenos da UI
Para desenvolvedores já familiarizados com o recurso Computer Use da Anthropic no Claude, o conceito é semelhante. A implementação da OpenAI fornece funcionalidade comparável com o benefício adicional dos controles de esforço de raciocínio.
Detalhamento de Preços
O GPT-5.4 tem o preço de aproximadamente $10 per million input tokens e $30 per million output tokens. Aqui está como ele se compara a outros modelos líderes:
| Model | Input (per 1M tokens) | Output (per 1M tokens) | Janela de Contexto |
|---|---|---|---|
| GPT-5.4 | $10 | $30 | 272K |
| GPT-5.4 Pro | Superior (em níveis) | Superior (em níveis) | 272K |
| GPT-5.3 Codex | $2 | $8 | 200K |
| Claude Opus 4.6 | $15 | $75 | 200K |
| Claude Sonnet 4.6 | $3 | $15 | 200K |
| DeepSeek V4 | $2.19 | $8.78 | 128K |
Principais conclusões:
- O GPT-5.4 é significativamente mais barato que o Claude Opus 4.6, entregando performance de benchmark comparável. A $30 por milhão de tokens de saída contra $75, a diferença de custo é substancial em escala.
- O GPT-5.4 é mais caro que o GPT-5.3 Codex, o que faz sentido dadas as suas capacidades mais amplas. O GPT-5.3 Codex continua sendo a melhor escolha para tarefas puras de codificação onde o orçamento importa.
- DeepSeek V4 é a opção mais barata, mas fica atrás na maioria dos benchmarks e carece dos recursos de uso de computador e esforço de raciocínio.
- A variante GPT-5.4 Pro utiliza preços em níveis que aumentam com o nível de esforço de raciocínio. Para raciocínio xhigh, os custos podem ser significativamente maiores que o modelo base.
Benchmarks
O GPT-5.4 entrega uma performance sólida em benchmarks de codificação e raciocínio. Aqui está como ele se compara à concorrência:
Benchmarks de Codificação
| Benchmark | GPT-5.4 | GPT-5.3 Codex | Claude Opus 4.6 | DeepSeek V4 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | ~80.0% | 75.2% | 80.8% | 70.4% | 68.9% |
| HumanEval | 95.1% | 93.8% | 94.6% | 90.2% | 91.4% |
| MBPP+ | 89.7% | 87.1% | 90.2% | 84.5% | 85.8% |
Benchmarks de Raciocínio
| Benchmark | GPT-5.4 (xhigh) | Claude Opus 4.6 | GPT-5.3 Codex |
|---|---|---|---|
| GPQA Diamond | 74.8% | 75.2% | 71.3% |
| MATH-500 | 97.2% | 96.8% | 95.4% |
| ARC-AGI | 62.1% | 59.4% | 55.8% |
Análise: O GPT-5.4 fecha a lacuna com o Claude Opus 4.6 no SWE-bench Verified, o benchmark de codificação mais observado. A diferença de 0.8 pontos percentuais (80.0% vs. 80.8%) está dentro da margem de ruído para a maioria das aplicações práticas. No HumanEval, o GPT-5.4 assume uma ligeira liderança. Os benchmarks de raciocínio no esforço xhigh são competitivos em todos os aspectos, com o GPT-5.4 mostrando força particular no ARC-AGI.
GPT-5.4 vs GPT-5.3 Codex
Se você já está usando o GPT-5.3 Codex, aqui está o que o upgrade para o GPT-5.4 oferece:
| Recurso | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Janela de contexto | 200K | 272K |
| Esforço de raciocínio | Fixo | Configurável (5 níveis) |
| Uso de computador | No | Yes |
| SWE-bench Verified | 75.2% | ~80.0% |
| Preço da API (entrada) | $2/1M | $10/1M |
| Preço da API (saída) | $8/1M | $30/1M |
| Velocidade (tok/s) | Muito rápida (Codex-Spark: 1000+) | Moderada |
| Principal ponto forte | Codificação rápida, uso de terminal | Propósito geral, tarefas agênticas |
Você deve fazer o upgrade? Depende do seu caso de uso.
- Faça o upgrade se você precisa de capacidades de uso de computador, profundidade de raciocínio configurável, contexto mais longo ou a maior precisão de codificação possível.
- Permaneça no GPT-5.3 Codex se velocidade e custo são suas prioridades, se você está construindo um pipeline focado em codificação ou se não precisa dos recursos agênticos.
O GPT-5.3 Codex não está sendo descontinuado. Ambos os modelos atendem a segmentos diferentes, e a OpenAI continua a suportar a família GPT-5 completa.
GPT-5.4 vs Claude Opus 4.6
Esta é a comparação que a maioria dos desenvolvedores está acompanhando. GPT-5.4 e Claude Opus 4.6 são os dois modelos mais capazes disponíveis em March 2026, e eles alternam a liderança entre as categorias.
| Categoria | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| SWE-bench Verified | ~80.0% | 80.8% |
| HumanEval | 95.1% | 94.6% |
| Janela de contexto | 272K | 200K |
| Controles de raciocínio | 5 níveis configuráveis | Padrão |
| Uso de computador | Yes (novo) | Yes (maduro) |
| Refatoração de múltiplos arquivos | Bom | Excelente |
| Seguimento de instruções | Muito bom | Excelente |
| Preço (saída) | $30/1M tokens | $75/1M tokens |
| Compreensão de base de código | Forte | Melhor da categoria |
Onde o GPT-5.4 vence:
- Preço. A $30 por milhão de tokens de saída contra $75, o GPT-5.4 custa menos da metade.
- Controles de esforço de raciocínio. A capacidade de aumentar ou diminuir o raciocínio por request é uma vantagem arquitetônica genuína para sistemas de produção.
- Janela de contexto maior. 272K contra 200K oferece mais espaço para grandes bases de código.
Onde o Claude Opus 4.6 vence:
- SWE-bench. A liderança de 0.8 pontos percentuais é pequena, mas consistente.
- Refatoração de múltiplos arquivos. O Claude continua a se destacar na compreensão de relacionamentos em bases de código grandes e interconectadas.
- Maturidade do uso de computador. A Anthropic lançou o computer use mais cedo e teve mais tempo para refinar a experiência.
- Seguimento de instruções. O Claude Opus 4.6 é ligeiramente mais confiável ao seguir prompts complexos com múltiplas restrições.
O veredito: Para a maioria dos desenvolvedores, o GPT-5.4 oferece melhor valor graças ao seu preço mais baixo e controles flexíveis de raciocínio. Para projetos de codificação complexos onde a precisão em tarefas de engenharia de software do mundo real é a prioridade máxima, o Claude Opus 4.6 mantém uma ligeira vantagem. Muitas equipes descobrirão que usar ambos os modelos — GPT-5.4 para tarefas de alto volume, Claude Opus 4.6 para revisões de código críticas — é a estratégia ideal.
Como Começar
Início Rápido da API
Começar a usar o GPT-5.4 através da OpenAI API leva minutos.
1. Instale o SDK:
pip install openai --upgrade
2. Completion básica:
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "system", "content": "You are a senior software engineer."},
{"role": "user", "content": "Review this function for bugs and suggest improvements."}
],
reasoning_effort="high"
)
print(response.choices[0].message.content)
3. Usando níveis de esforço de raciocínio:
# Fast, cheap classification — no reasoning needed
response = client.chat.completions.create(
model="gpt-5.4",
messages=[{"role": "user", "content": "Is this a bug report or feature request?"}],
reasoning_effort="none"
)
# Complex debugging — maximum reasoning
response = client.chat.completions.create(
model="gpt-5.4",
messages=[{"role": "user", "content": "Why does this concurrent map access cause a race condition?"}],
reasoning_effort="xhigh"
)
4. GPT-5.4 Pro para tarefas críticas:
response = client.chat.completions.create(
model="gpt-5.4-pro",
messages=[{"role": "user", "content": "Design a distributed consensus algorithm for this use case."}],
reasoning_effort="xhigh"
)
Acesso ao ChatGPT
Se você é um assinante Plus, Pro ou Enterprise do ChatGPT, selecione GPT-5.4 no menu suspenso de modelos na interface de chat. Nenhuma configuração adicional é necessária.
Conclusão
O GPT-5.4 é o modelo mais capaz e versátil da OpenAI até o momento. A combinação de esforço de raciocínio configurável, capacidades de uso de computador, uma janela de contexto de 272K e pontuações em benchmarks que igualam o Claude Opus 4.6 o torna uma escolha forte para desenvolvedores que constroem sistemas de AI em produção.
O preço é agressivo. Com aproximadamente 40% do custo de tokens de saída do Claude Opus 4.6 e performance comparável, o GPT-5.4 muda a economia da execução de modelos de fronteira em escala. O parâmetro de esforço de raciocínio adiciona outra dimensão de controle de custo que nenhum outro provedor oferece atualmente.
Dito isso, o GPT-5.4 não é um vencedor claro em todas as categorias. O Claude Opus 4.6 ainda lidera no SWE-bench e em refatoração de múltiplos arquivos. O GPT-5.3 Codex permanece mais rápido e barato para cargas de trabalho puras de codificação. O melhor modelo depende do que você está construindo.
Para a maioria das equipes avaliando sua stack de AI em March 2026, o GPT-5.4 merece consideração séria — seja como modelo principal ou como parte de uma estratégia de múltiplos modelos que aproveite seus pontos fortes ao lado de modelos complementares.
