GPT-5.4 API Developer Guide: Reasoning Effort, Computer Use, en Code Examples (2026)
← Torna alle notizie

GPT-5.4 API Developer Guide: Reasoning Effort, Computer Use, en Code Examples (2026)

N

NxCode Team

13 min read

Key Takeaways

  • Cinque livelli di reasoning.effort: Il parametro reasoning.effort (none, low, medium, high, xhigh) controlla il compromesso tra costo e qualità per richiesta -- none si comporta come un modello senza ragionamento (più veloce/economico), mentre xhigh fornisce la massima profondità a un costo 3-5 volte superiore.
  • Uso nativo del computer via API: GPT-5.4 può operare su app desktop, cliccare pulsanti e navigare interfacce utente in modo autonomo, con un punteggio di 75% su OSWorld (superando il baseline degli esperti umani del 72.4%) -- abilitato passando un tipo di tool computer_use.
  • Contesto di 1M+ tokens a $2.50/$15: La finestra di contesto da 1,050,000 tokens elabora intere codebase in una singola richiesta, sebbene il prezzo dell'input raddoppi oltre i 272K tokens.
  • GPT-5.4 Pro costa 12 volte di più: Riserva la variante Pro da $30/$180 per milione di tokens per task ad alta posta in gioco dove l'accuratezza è critica -- usa GPT-5.4 standard per la stragrande maggioranza dei carichi di lavoro.

Guida per sviluppatori API GPT-5.4: Reasoning Effort, Uso del Computer e Esempi di Codice

March 11, 2026 -- GPT-5.4 è il modello più capace di OpenAI fino ad oggi, e viene distribuito con funzionalità API che cambiano in modo significativo il modo in cui costruisci applicazioni. Sforzo di ragionamento regolabile, uso nativo del computer, una finestra di contesto di 1M+ tokens e una generazione di codice notevolmente migliorata -- tutto attraverso lo stesso endpoint Chat Completions che già conosci.

Questa guida è per gli sviluppatori che vogliono iniziare a costruire con l'API di GPT-5.4 oggi. Niente chiacchiere di marketing. Solo model IDs, parametri, esempi di codice, calcoli dei prezzi e i compromessi pratici che devi considerare.


Quick Start

Model IDs

ModelloAPI IDIdeale per
GPT-5.4gpt-5.4Task generici, coding, ragionamento, uso del computer
GPT-5.4 Progpt-5.4-proMassima accuratezza su task complessi e critici

La tua prima chiamata API

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "user", "content": "Explain the tradeoffs between B-trees and LSM-trees for write-heavy workloads."}
    ]
)

print(response.choices[0].message.content)

Tutto qui. Se hai usato qualsiasi modello GPT attraverso l'API Chat Completions, GPT-5.4 è un sostituto immediato. Le differenze risiedono nei nuovi parametri e nelle nuove capacità.

Prezzi

ModelloInputOutputNote
GPT-5.4$2.50 / 1M tokens$15.00 / 1M tokensL'input raddoppia oltre 272K tokens
GPT-5.4 Pro$30.00 / 1M tokens$180.00 / 1M tokens12 volte il costo dello standard

Finestra di contesto: 1,050,000 tokens in input, 128,000 tokens max output.

Requisiti di accesso: Account API a pagamento con una spesa minima precedente di $5 (Tier 1). Non disponibile nel livello gratuito.


Reasoning Effort: Controllare il Budget di Pensiero

Il nuovo parametro più importante in GPT-5.4 è reasoning.effort. Controlla quanto calcolo interno il modello alloca al ragionamento chain-of-thought prima di produrre una risposta.

I Cinque Livelli

LivelloComportamentoQuando usarlo
noneNessun chain-of-thought. Più veloce, più economico. Si comporta come un modello senza ragionamento.Semplici trasformazioni, formattazione, estrazione
lowRagionamento minimo. Rapidi controlli di integrità.Domande e risposte dirette, classificazione, riassunto
mediumRagionamento bilanciato. Questo è il valore predefinito.Coding generale, analisi, la maggior parte dei carichi di lavoro in produzione
highCatene di ragionamento estese. Più approfondito.Debugging complesso, decisioni di architettura, logica a più fasi
xhighMassima profondità di ragionamento. Più lento ma più accurato.Matematica difficile, grandi refactoring, audit di sicurezza, ricerca

Esempio di Codice: Impostare lo Sforzo di Ragionamento

from openai import OpenAI
client = OpenAI()

# High reasoning per un task di refactoring complesso
response = client.chat.completions.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},
    messages=[
        {"role": "user", "content": "Refactor this function to use async/await and handle all edge cases for network failures, timeouts, and partial responses:\n\ndef fetch_all_pages(url):\n    results = []\n    while url:\n        resp = requests.get(url)\n        data = resp.json()\n        results.extend(data['items'])\n        url = data.get('next')\n    return results"}
    ]
)

Guida Pratica sui Livelli di Ragionamento

Inizia da medium e regola. Per la maggior parte dei carichi di lavoro API, il valore predefinito è la scelta giusta. Ecco come approcciarlo:

  • Percorsi sensibili alla latenza (autocompletamento, chat, interfacce in tempo reale): Usa low o none. La differenza di velocità è sostanziale e per task come la formattazione del testo o semplici ricerche, il ragionamento extra non aggiunge valore.

  • Elaborazione batch (pipeline di revisione del codice, analisi di documenti, estrazione dati): Usa high. Non stai bloccando un utente, quindi la latenza extra non conta, e i miglioramenti dell'accuratezza si sommano su centinaia di elementi.

  • Singole richieste ad alta posta in gioco (audit di sicurezza di una codebase, pianificazione di migrazioni complesse, progettazione di nuovi algoritmi): Usa xhigh. È qui che il calcolo 12 volte superiore si ripaga da solo.

Implicazione sui costi: Un maggiore sforzo di ragionamento significa che vengono generati (e fatturati) più tokens interni. Una richiesta a xhigh può costare 3-5 volte di più della stessa richiesta a low. Monitora il tuo utilizzo di tokens quando cambi i livelli.


API per l'Uso del Computer

GPT-5.4 è il primo modello general-purpose con capacità native di uso del computer. Nel benchmark OSWorld, ottiene un punteggio del 75% -- superando il baseline degli esperti umani del 72.4%. Non si tratta di un wrapper attorno a screenshot. Il modello comprende nativamente le interfacce desktop e può operarle autonomamente.

Come Funziona

  1. Invii un prompt descrivendo ciò che vuoi fare
  2. Il modello scatta screenshot dell'ambiente di destinazione
  3. Genera clic del mouse, input da tastiera e azioni di navigazione
  4. Esegue un ciclo build-run-verify-fix per controllare il proprio lavoro
  5. Restituisce i risultati o chiede chiarimenti

Esempio di Codice: Uso del Computer

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.4",
    tools=[{"type": "computer_use"}],
    messages=[
        {"role": "user", "content": "Open the browser, go to github.com, and create a new repository called 'my-project'"}
    ]
)

Cosa può fare l'Uso del Computer

  • Automazione del browser: Compilare moduli, navigare workflow a più fasi, estrarre dati strutturati da pagine dinamiche
  • Operatività su app desktop: Aprire applicazioni, interagire con interfacce native, trasferire dati tra programmi
  • Workflow di test: Cliccare attraverso flussi UI, verificare stati visivi, eseguire sequenze di onboarding
  • Inserimento dati: Spostare dati tra fogli di calcolo, CRM e strumenti interni

Limitazioni da Conoscere

  • Latenza: Ogni ciclo di azione comporta uno screenshot, l'inferenza del modello e l'esecuzione dell'azione. I task a più fasi richiedono tempo reale.
  • Supervisione richiesta: Non eseguire l'uso del computer senza supervisione su sistemi sensibili. Il modello può sbagliare clic, interpretare male elementi della UI o intraprendere azioni non intenzionali.
  • Configurazione dell'ambiente: L'uso del computer richiede un ambiente di visualizzazione. Per l'automazione lato server, è necessario un display virtuale (ad esempio, Xvfb su Linux o un desktop virtuale).
  • Nessun accesso al file system per impostazione predefinita: L'uso del computer opera attraverso la UI, non tramite chiamate dirette al file system. Combinalo con strumenti di esecuzione di codice per workflow ibridi.

Coding con GPT-5.4

GPT-5.4 eredita e migliora le capacità di coding di GPT-5.3 Codex. I benchmark raccontano la storia:

BenchmarkPunteggio GPT-5.4Cosa testa
SWE-Bench Pro57.7%Risoluzione di problemi GitHub reali
SWE-Bench Verified~80%Sottoinsieme curato di SWE-Bench
Terminal-Bench 2.075.1%Task di sviluppo basati su terminale

Cosa c'è di diverso rispetto a GPT-5.3 Codex

  • 47% in meno di tokens su task complessi -- output meno prolisso, codice più compatto
  • Modifiche multi-file con meno tentativi -- migliore comprensione delle dipendenze tra file
  • Segue i pattern specifici del repository -- si adatta alle convenzioni della tua codebase quando viene fornito il contesto
  • 33% in meno di errori fattuali -- meno allucinazioni nei riferimenti API, nell'uso delle librerie e nella configurazione

Suggerimenti per una Migliore Generazione di Codice

1. Usa i system prompts per impostare gli standard di codifica.

response = client.chat.completions.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},
    messages=[
        {"role": "system", "content": "You are a senior Python developer. Follow PEP 8. Use type hints. Write docstrings in Google style. Prefer composition over inheritance. Use dataclasses for DTOs."},
        {"role": "user", "content": "Implement a retry decorator with exponential backoff, jitter, and configurable max retries."}
    ]
)

2. Fornisci il tuo codice attuale come contesto. La finestra di contesto da 1M di tokens di GPT-5.4 significa che puoi includere interi moduli o persino repository completi. Il modello produce codice significativamente migliore quando può vedere pattern, tipi e convenzioni esistenti.

3. Imposta lo sforzo di ragionamento su high o xhigh per modifiche complesse. Semplici correzioni di bug funzionano bene a medium, ma refactoring architettonici, migrazioni e modifiche multi-file beneficiano misurabilmente di un maggiore sforzo di ragionamento.

4. Usa max_completion_tokens per prevenire risposte fuori controllo. Per la generazione di codice, imposta un limite ragionevole in modo da non ricevere addebiti per spiegazioni prolisse che non hai richiesto.

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[...],
    max_completion_tokens=4096
)

Strategie per Contesti Ampi

La finestra di contesto da 1,050,000 tokens è il superpotere silenzioso di GPT-5.4. Ecco come usarla efficacemente -- ed evitare trappole nei costi.

Il Sovrapprezzo oltre i 272K

Il prezzo dell'input raddoppia una volta superati i 272K tokens in una singola richiesta. Ciò significa che una richiesta da 500K tokens costa approssimativamente:

  • Primi 272K tokens: 272K x $2.50/1M = $0.68
  • Rimanenti 228K tokens: 228K x $5.00/1M = $1.14
  • Costo totale input: $1.82

Per confronto, la stessa richiesta a prezzi standard costerebbe $1.25. Il sovrapprezzo aggiunge circa il 46% al conto in questo caso.

Esempio di Codice: Utilizzo di un Contesto Ampio

from openai import OpenAI
client = OpenAI()

# Caricamento dell'intera codebase nel contesto
with open("codebase_dump.txt", "r") as f:
    full_codebase_content = f.read()

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "system", "content": full_codebase_content},  # fino a 1M tokens
        {"role": "user", "content": "Find all security vulnerabilities in this codebase"}
    ],
    max_completion_tokens=8192
)

Best Practices per Contesti Ampi

Cosa fare:

  • Carica prima i file più rilevanti. Il modello presta maggiore attenzione all'inizio e alla fine del contesto. Metti per primi i file più rilevanti per il task.
  • Usa il messaggio di sistema per il materiale di riferimento. Inserisci la tua codebase, documentazione o dati nel messaggio di sistema. Inserisci le tue istruzioni effettive nel messaggio dell'utente.
  • Imposta max_completion_tokens esplicitamente. Con un output massimo di 128K, una risposta senza limiti su un contesto ampio può diventare costosa rapidamente.

Cosa non fare:

  • Non usare sempre l'intera finestra. Se il tuo task necessita solo di 50K tokens di contesto, non riempirlo fino a 1M. Paghi per i tokens di input indipendentemente dal fatto che il modello ne abbia bisogno o meno.
  • Non ignorare la soglia dei 272K. Struttura i tuoi prompt per rimanere sotto i 272K quando possibile. Se sei a 280K, vedi se puoi tagliare 10K tokens di contesto meno rilevante per risparmiare sul sovrapprezzo.
  • Non aspettarti un richiamo perfetto su 1M di tokens. Le prestazioni degradano gradualmente con la lunghezza del contesto. Per la massima accuratezza, mantieni le informazioni più critiche entro i primi 200K tokens.

GPT-5.4 vs GPT-5.4 Pro: Quando Passare alla Versione Superiore

GPT-5.4 Pro costa 12 volte di più rispetto a GPT-5.4 standard. Ecco quando è giustificato.

DimensioneGPT-5.4GPT-5.4 Pro
Costo input$2.50 / 1M$30.00 / 1M
Costo output$15.00 / 1M$180.00 / 1M
Ideale perLa maggior parte dei task di sviluppoMassima accuratezza su problemi difficili
Profondità ragionamentoForte a tutti i livelliRagionamento interno più profondo di default
LatenzaStandardMaggiore (più calcolo per richiesta)

Usa GPT-5.4 Standard Quando:

  • Stai costruendo applicazioni di produzione con costi prevedibili
  • I task sono ben definiti (CRUD, trasformazioni, coding standard)
  • Hai bisogno di una latenza inferiore per funzionalità rivolte all'utente
  • Stai elaborando volumi elevati di richieste

Usa GPT-5.4 Pro Quando:

  • L'accuratezza su una singola richiesta conta più del costo (analisi legale, ricerca medica, audit di sicurezza)
  • Stai affrontando problemi nuovi di cui il modello non ha visto molti esempi
  • Le catene di ragionamento a più fasi devono essere impeccabili
  • Stai effettuando benchmark competitivi o valutazioni

La regola pratica: Usa lo standard come impostazione predefinita. Esegui i tuoi test case più difficili su entrambi i modelli. Se Pro produce costantemente risultati migliori sul tuo carico di lavoro specifico, passa a Pro per quelle chiamate specifiche e mantieni tutto il resto sullo standard.


Migrazione da GPT-5.3 Codex

Se stai attualmente utilizzando GPT-5.3 Codex (o GPT-5.2-Codex), ecco le differenze chiave da pianificare.

Cosa Cambia

AreaGPT-5.3 CodexGPT-5.4
Model IDgpt-5.3-codexgpt-5.4
Finestra di contesto1,000,000 tokens1,050,000 tokens
Uso del computerNon disponibileSupporto nativo
Sforzo di ragionamentoSupportatoSupportato (stesso parametro)
Prezzi (input)Varia per variante$2.50 / 1M tokens
Prezzi (output)Varia per variante$15.00 / 1M tokens
Efficienza dei tokensBaseline47% in meno di tokens su task complessi

Checklist per la Migrazione

  1. Sostituisci il model ID. Cambia gpt-5.3-codex in gpt-5.4 nelle tue chiamate API.
  2. Testa le tue impostazioni di sforzo di ragionamento. Esistono gli stessi livelli di sforzo (da none a xhigh), ma GPT-5.4 può produrre diversi compromessi di qualità a ciascun livello. Rivaluta i tuoi valori predefiniti.
  3. Rivedi i budget dei tokens di output. GPT-5.4 è più conciso (47% in meno di tokens su task complessi). Potresti essere in grado di abbassare il tuo max_completion_tokens e risparmiare sui costi di output.
  4. Valuta l'uso del computer. Se avevi soluzioni alternative per l'automazione della UI (script Selenium, strumenti personalizzati), l'uso nativo del computer di GPT-5.4 potrebbe sostituirli.
  5. Attenzione al sovrapprezzo per 272K. Se i tuoi carichi di lavoro Codex usavano contesti ampi ma rimanevano sotto la struttura dei prezzi di Codex, ricalcola i costi con i prezzi a scaglioni di GPT-5.4 per l'input.

Cosa Rimane Invariato

  • L'endpoint dell'API Chat Completions è identico
  • I ruoli dei messaggi system/user/assistant funzionano allo stesso modo
  • Streaming, function calling e uso dei tool sono tutti compatibili
  • La sintassi del parametro reasoning è invariata

Benchmark in Breve

Per un riferimento rapido, ecco come si comporta GPT-5.4 nei benchmark che contano di più per gli sviluppatori:

BenchmarkPunteggioCosa misura
SWE-Bench Pro57.7%Ingegneria del software complessa nel mondo reale
SWE-Bench Verified~80%Risoluzione curata di problemi GitHub
Terminal-Bench 2.075.1%Coding basato su terminale e task di sistema
OSWorld75.0%Funzionamento del computer desktop (baseline umana: 72.4%)
GDPval83%Lavoro intellettuale professionale in 44 occupazioni

Ulteriori metriche di qualità:

  • 33% in meno di errori fattuali rispetto a GPT-5.2
  • 18% in meno di risposte con qualsiasi errore complessivamente

Riepilogo

GPT-5.4 non è una rivoluzione delle API -- è un cambiamento pratico. Lo stesso endpoint, lo stesso formato dei messaggi, gli stessi pattern di utilizzo dei tool. La novità è che ora hai un controllo granulare sul calcolo del ragionamento, l'uso nativo del computer senza strumenti di terze parti, una finestra di contesto abbastanza grande per intere codebase e un output di codice significativamente migliore.

Le tre cose da fare subito:

  1. Imposta reasoning.effort intenzionalmente. Non fare affidamento sul valore predefinito per ogni chiamata. Adatta il livello di sforzo alla complessità del task e al tuo budget di latenza/costo.
  2. Sperimenta con l'uso del computer. Se hai workflow di automazione della UI, testali con le capacità native di GPT-5.4. Potresti essere in grado di eliminare fragili script Selenium.
  3. Controlla il tuo utilizzo del contesto. Con la soglia del sovrapprezzo a 272K e la finestra da 1M, ci sono soldi veri da risparmiare (o sprecare) a seconda di come strutturi i tuoi prompt.

Il modello è disponibile ora come gpt-5.4 per gli account API Tier 1+. Inizia a costruire.

Torna a tutte le notizie
Ti è piaciuto questo articolo?

Costruisci con NxCode

Trasforma la tua idea in un'app funzionante — senza programmare.

Oltre 46.000 sviluppatori hanno costruito con NxCode questo mese

Provalo tu stesso

Descrivi ciò che vuoi — NxCode lo costruisce per te.

Oltre 46.000 sviluppatori hanno costruito con NxCode questo mese