Key Takeaways
- Cinque livelli di reasoning.effort: Il parametro
reasoning.effort(none, low, medium, high, xhigh) controlla il compromesso tra costo e qualità per richiesta --nonesi comporta come un modello senza ragionamento (più veloce/economico), mentrexhighfornisce la massima profondità a un costo 3-5 volte superiore. - Uso nativo del computer via API: GPT-5.4 può operare su app desktop, cliccare pulsanti e navigare interfacce utente in modo autonomo, con un punteggio di 75% su OSWorld (superando il baseline degli esperti umani del 72.4%) -- abilitato passando un tipo di tool
computer_use. - Contesto di 1M+ tokens a $2.50/$15: La finestra di contesto da 1,050,000 tokens elabora intere codebase in una singola richiesta, sebbene il prezzo dell'input raddoppi oltre i 272K tokens.
- GPT-5.4 Pro costa 12 volte di più: Riserva la variante Pro da $30/$180 per milione di tokens per task ad alta posta in gioco dove l'accuratezza è critica -- usa GPT-5.4 standard per la stragrande maggioranza dei carichi di lavoro.
Guida per sviluppatori API GPT-5.4: Reasoning Effort, Uso del Computer e Esempi di Codice
March 11, 2026 -- GPT-5.4 è il modello più capace di OpenAI fino ad oggi, e viene distribuito con funzionalità API che cambiano in modo significativo il modo in cui costruisci applicazioni. Sforzo di ragionamento regolabile, uso nativo del computer, una finestra di contesto di 1M+ tokens e una generazione di codice notevolmente migliorata -- tutto attraverso lo stesso endpoint Chat Completions che già conosci.
Questa guida è per gli sviluppatori che vogliono iniziare a costruire con l'API di GPT-5.4 oggi. Niente chiacchiere di marketing. Solo model IDs, parametri, esempi di codice, calcoli dei prezzi e i compromessi pratici che devi considerare.
Quick Start
Model IDs
| Modello | API ID | Ideale per |
|---|---|---|
| GPT-5.4 | gpt-5.4 | Task generici, coding, ragionamento, uso del computer |
| GPT-5.4 Pro | gpt-5.4-pro | Massima accuratezza su task complessi e critici |
La tua prima chiamata API
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "user", "content": "Explain the tradeoffs between B-trees and LSM-trees for write-heavy workloads."}
]
)
print(response.choices[0].message.content)
Tutto qui. Se hai usato qualsiasi modello GPT attraverso l'API Chat Completions, GPT-5.4 è un sostituto immediato. Le differenze risiedono nei nuovi parametri e nelle nuove capacità.
Prezzi
| Modello | Input | Output | Note |
|---|---|---|---|
| GPT-5.4 | $2.50 / 1M tokens | $15.00 / 1M tokens | L'input raddoppia oltre 272K tokens |
| GPT-5.4 Pro | $30.00 / 1M tokens | $180.00 / 1M tokens | 12 volte il costo dello standard |
Finestra di contesto: 1,050,000 tokens in input, 128,000 tokens max output.
Requisiti di accesso: Account API a pagamento con una spesa minima precedente di $5 (Tier 1). Non disponibile nel livello gratuito.
Reasoning Effort: Controllare il Budget di Pensiero
Il nuovo parametro più importante in GPT-5.4 è reasoning.effort. Controlla quanto calcolo interno il modello alloca al ragionamento chain-of-thought prima di produrre una risposta.
I Cinque Livelli
| Livello | Comportamento | Quando usarlo |
|---|---|---|
none | Nessun chain-of-thought. Più veloce, più economico. Si comporta come un modello senza ragionamento. | Semplici trasformazioni, formattazione, estrazione |
low | Ragionamento minimo. Rapidi controlli di integrità. | Domande e risposte dirette, classificazione, riassunto |
medium | Ragionamento bilanciato. Questo è il valore predefinito. | Coding generale, analisi, la maggior parte dei carichi di lavoro in produzione |
high | Catene di ragionamento estese. Più approfondito. | Debugging complesso, decisioni di architettura, logica a più fasi |
xhigh | Massima profondità di ragionamento. Più lento ma più accurato. | Matematica difficile, grandi refactoring, audit di sicurezza, ricerca |
Esempio di Codice: Impostare lo Sforzo di Ragionamento
from openai import OpenAI
client = OpenAI()
# High reasoning per un task di refactoring complesso
response = client.chat.completions.create(
model="gpt-5.4",
reasoning={"effort": "high"},
messages=[
{"role": "user", "content": "Refactor this function to use async/await and handle all edge cases for network failures, timeouts, and partial responses:\n\ndef fetch_all_pages(url):\n results = []\n while url:\n resp = requests.get(url)\n data = resp.json()\n results.extend(data['items'])\n url = data.get('next')\n return results"}
]
)
Guida Pratica sui Livelli di Ragionamento
Inizia da medium e regola. Per la maggior parte dei carichi di lavoro API, il valore predefinito è la scelta giusta. Ecco come approcciarlo:
-
Percorsi sensibili alla latenza (autocompletamento, chat, interfacce in tempo reale): Usa
lowonone. La differenza di velocità è sostanziale e per task come la formattazione del testo o semplici ricerche, il ragionamento extra non aggiunge valore. -
Elaborazione batch (pipeline di revisione del codice, analisi di documenti, estrazione dati): Usa
high. Non stai bloccando un utente, quindi la latenza extra non conta, e i miglioramenti dell'accuratezza si sommano su centinaia di elementi. -
Singole richieste ad alta posta in gioco (audit di sicurezza di una codebase, pianificazione di migrazioni complesse, progettazione di nuovi algoritmi): Usa
xhigh. È qui che il calcolo 12 volte superiore si ripaga da solo.
Implicazione sui costi: Un maggiore sforzo di ragionamento significa che vengono generati (e fatturati) più tokens interni. Una richiesta a xhigh può costare 3-5 volte di più della stessa richiesta a low. Monitora il tuo utilizzo di tokens quando cambi i livelli.
API per l'Uso del Computer
GPT-5.4 è il primo modello general-purpose con capacità native di uso del computer. Nel benchmark OSWorld, ottiene un punteggio del 75% -- superando il baseline degli esperti umani del 72.4%. Non si tratta di un wrapper attorno a screenshot. Il modello comprende nativamente le interfacce desktop e può operarle autonomamente.
Come Funziona
- Invii un prompt descrivendo ciò che vuoi fare
- Il modello scatta screenshot dell'ambiente di destinazione
- Genera clic del mouse, input da tastiera e azioni di navigazione
- Esegue un ciclo build-run-verify-fix per controllare il proprio lavoro
- Restituisce i risultati o chiede chiarimenti
Esempio di Codice: Uso del Computer
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5.4",
tools=[{"type": "computer_use"}],
messages=[
{"role": "user", "content": "Open the browser, go to github.com, and create a new repository called 'my-project'"}
]
)
Cosa può fare l'Uso del Computer
- Automazione del browser: Compilare moduli, navigare workflow a più fasi, estrarre dati strutturati da pagine dinamiche
- Operatività su app desktop: Aprire applicazioni, interagire con interfacce native, trasferire dati tra programmi
- Workflow di test: Cliccare attraverso flussi UI, verificare stati visivi, eseguire sequenze di onboarding
- Inserimento dati: Spostare dati tra fogli di calcolo, CRM e strumenti interni
Limitazioni da Conoscere
- Latenza: Ogni ciclo di azione comporta uno screenshot, l'inferenza del modello e l'esecuzione dell'azione. I task a più fasi richiedono tempo reale.
- Supervisione richiesta: Non eseguire l'uso del computer senza supervisione su sistemi sensibili. Il modello può sbagliare clic, interpretare male elementi della UI o intraprendere azioni non intenzionali.
- Configurazione dell'ambiente: L'uso del computer richiede un ambiente di visualizzazione. Per l'automazione lato server, è necessario un display virtuale (ad esempio, Xvfb su Linux o un desktop virtuale).
- Nessun accesso al file system per impostazione predefinita: L'uso del computer opera attraverso la UI, non tramite chiamate dirette al file system. Combinalo con strumenti di esecuzione di codice per workflow ibridi.
Coding con GPT-5.4
GPT-5.4 eredita e migliora le capacità di coding di GPT-5.3 Codex. I benchmark raccontano la storia:
| Benchmark | Punteggio GPT-5.4 | Cosa testa |
|---|---|---|
| SWE-Bench Pro | 57.7% | Risoluzione di problemi GitHub reali |
| SWE-Bench Verified | ~80% | Sottoinsieme curato di SWE-Bench |
| Terminal-Bench 2.0 | 75.1% | Task di sviluppo basati su terminale |
Cosa c'è di diverso rispetto a GPT-5.3 Codex
- 47% in meno di tokens su task complessi -- output meno prolisso, codice più compatto
- Modifiche multi-file con meno tentativi -- migliore comprensione delle dipendenze tra file
- Segue i pattern specifici del repository -- si adatta alle convenzioni della tua codebase quando viene fornito il contesto
- 33% in meno di errori fattuali -- meno allucinazioni nei riferimenti API, nell'uso delle librerie e nella configurazione
Suggerimenti per una Migliore Generazione di Codice
1. Usa i system prompts per impostare gli standard di codifica.
response = client.chat.completions.create(
model="gpt-5.4",
reasoning={"effort": "high"},
messages=[
{"role": "system", "content": "You are a senior Python developer. Follow PEP 8. Use type hints. Write docstrings in Google style. Prefer composition over inheritance. Use dataclasses for DTOs."},
{"role": "user", "content": "Implement a retry decorator with exponential backoff, jitter, and configurable max retries."}
]
)
2. Fornisci il tuo codice attuale come contesto. La finestra di contesto da 1M di tokens di GPT-5.4 significa che puoi includere interi moduli o persino repository completi. Il modello produce codice significativamente migliore quando può vedere pattern, tipi e convenzioni esistenti.
3. Imposta lo sforzo di ragionamento su high o xhigh per modifiche complesse. Semplici correzioni di bug funzionano bene a medium, ma refactoring architettonici, migrazioni e modifiche multi-file beneficiano misurabilmente di un maggiore sforzo di ragionamento.
4. Usa max_completion_tokens per prevenire risposte fuori controllo. Per la generazione di codice, imposta un limite ragionevole in modo da non ricevere addebiti per spiegazioni prolisse che non hai richiesto.
response = client.chat.completions.create(
model="gpt-5.4",
messages=[...],
max_completion_tokens=4096
)
Strategie per Contesti Ampi
La finestra di contesto da 1,050,000 tokens è il superpotere silenzioso di GPT-5.4. Ecco come usarla efficacemente -- ed evitare trappole nei costi.
Il Sovrapprezzo oltre i 272K
Il prezzo dell'input raddoppia una volta superati i 272K tokens in una singola richiesta. Ciò significa che una richiesta da 500K tokens costa approssimativamente:
- Primi 272K tokens: 272K x $2.50/1M = $0.68
- Rimanenti 228K tokens: 228K x $5.00/1M = $1.14
- Costo totale input: $1.82
Per confronto, la stessa richiesta a prezzi standard costerebbe $1.25. Il sovrapprezzo aggiunge circa il 46% al conto in questo caso.
Esempio di Codice: Utilizzo di un Contesto Ampio
from openai import OpenAI
client = OpenAI()
# Caricamento dell'intera codebase nel contesto
with open("codebase_dump.txt", "r") as f:
full_codebase_content = f.read()
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "system", "content": full_codebase_content}, # fino a 1M tokens
{"role": "user", "content": "Find all security vulnerabilities in this codebase"}
],
max_completion_tokens=8192
)
Best Practices per Contesti Ampi
Cosa fare:
- Carica prima i file più rilevanti. Il modello presta maggiore attenzione all'inizio e alla fine del contesto. Metti per primi i file più rilevanti per il task.
- Usa il messaggio di sistema per il materiale di riferimento. Inserisci la tua codebase, documentazione o dati nel messaggio di sistema. Inserisci le tue istruzioni effettive nel messaggio dell'utente.
- Imposta
max_completion_tokensesplicitamente. Con un output massimo di 128K, una risposta senza limiti su un contesto ampio può diventare costosa rapidamente.
Cosa non fare:
- Non usare sempre l'intera finestra. Se il tuo task necessita solo di 50K tokens di contesto, non riempirlo fino a 1M. Paghi per i tokens di input indipendentemente dal fatto che il modello ne abbia bisogno o meno.
- Non ignorare la soglia dei 272K. Struttura i tuoi prompt per rimanere sotto i 272K quando possibile. Se sei a 280K, vedi se puoi tagliare 10K tokens di contesto meno rilevante per risparmiare sul sovrapprezzo.
- Non aspettarti un richiamo perfetto su 1M di tokens. Le prestazioni degradano gradualmente con la lunghezza del contesto. Per la massima accuratezza, mantieni le informazioni più critiche entro i primi 200K tokens.
GPT-5.4 vs GPT-5.4 Pro: Quando Passare alla Versione Superiore
GPT-5.4 Pro costa 12 volte di più rispetto a GPT-5.4 standard. Ecco quando è giustificato.
| Dimensione | GPT-5.4 | GPT-5.4 Pro |
|---|---|---|
| Costo input | $2.50 / 1M | $30.00 / 1M |
| Costo output | $15.00 / 1M | $180.00 / 1M |
| Ideale per | La maggior parte dei task di sviluppo | Massima accuratezza su problemi difficili |
| Profondità ragionamento | Forte a tutti i livelli | Ragionamento interno più profondo di default |
| Latenza | Standard | Maggiore (più calcolo per richiesta) |
Usa GPT-5.4 Standard Quando:
- Stai costruendo applicazioni di produzione con costi prevedibili
- I task sono ben definiti (CRUD, trasformazioni, coding standard)
- Hai bisogno di una latenza inferiore per funzionalità rivolte all'utente
- Stai elaborando volumi elevati di richieste
Usa GPT-5.4 Pro Quando:
- L'accuratezza su una singola richiesta conta più del costo (analisi legale, ricerca medica, audit di sicurezza)
- Stai affrontando problemi nuovi di cui il modello non ha visto molti esempi
- Le catene di ragionamento a più fasi devono essere impeccabili
- Stai effettuando benchmark competitivi o valutazioni
La regola pratica: Usa lo standard come impostazione predefinita. Esegui i tuoi test case più difficili su entrambi i modelli. Se Pro produce costantemente risultati migliori sul tuo carico di lavoro specifico, passa a Pro per quelle chiamate specifiche e mantieni tutto il resto sullo standard.
Migrazione da GPT-5.3 Codex
Se stai attualmente utilizzando GPT-5.3 Codex (o GPT-5.2-Codex), ecco le differenze chiave da pianificare.
Cosa Cambia
| Area | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Model ID | gpt-5.3-codex | gpt-5.4 |
| Finestra di contesto | 1,000,000 tokens | 1,050,000 tokens |
| Uso del computer | Non disponibile | Supporto nativo |
| Sforzo di ragionamento | Supportato | Supportato (stesso parametro) |
| Prezzi (input) | Varia per variante | $2.50 / 1M tokens |
| Prezzi (output) | Varia per variante | $15.00 / 1M tokens |
| Efficienza dei tokens | Baseline | 47% in meno di tokens su task complessi |
Checklist per la Migrazione
- Sostituisci il model ID. Cambia
gpt-5.3-codexingpt-5.4nelle tue chiamate API. - Testa le tue impostazioni di sforzo di ragionamento. Esistono gli stessi livelli di sforzo (da
noneaxhigh), ma GPT-5.4 può produrre diversi compromessi di qualità a ciascun livello. Rivaluta i tuoi valori predefiniti. - Rivedi i budget dei tokens di output. GPT-5.4 è più conciso (47% in meno di tokens su task complessi). Potresti essere in grado di abbassare il tuo
max_completion_tokense risparmiare sui costi di output. - Valuta l'uso del computer. Se avevi soluzioni alternative per l'automazione della UI (script Selenium, strumenti personalizzati), l'uso nativo del computer di GPT-5.4 potrebbe sostituirli.
- Attenzione al sovrapprezzo per 272K. Se i tuoi carichi di lavoro Codex usavano contesti ampi ma rimanevano sotto la struttura dei prezzi di Codex, ricalcola i costi con i prezzi a scaglioni di GPT-5.4 per l'input.
Cosa Rimane Invariato
- L'endpoint dell'API Chat Completions è identico
- I ruoli dei messaggi system/user/assistant funzionano allo stesso modo
- Streaming, function calling e uso dei tool sono tutti compatibili
- La sintassi del parametro
reasoningè invariata
Benchmark in Breve
Per un riferimento rapido, ecco come si comporta GPT-5.4 nei benchmark che contano di più per gli sviluppatori:
| Benchmark | Punteggio | Cosa misura |
|---|---|---|
| SWE-Bench Pro | 57.7% | Ingegneria del software complessa nel mondo reale |
| SWE-Bench Verified | ~80% | Risoluzione curata di problemi GitHub |
| Terminal-Bench 2.0 | 75.1% | Coding basato su terminale e task di sistema |
| OSWorld | 75.0% | Funzionamento del computer desktop (baseline umana: 72.4%) |
| GDPval | 83% | Lavoro intellettuale professionale in 44 occupazioni |
Ulteriori metriche di qualità:
- 33% in meno di errori fattuali rispetto a GPT-5.2
- 18% in meno di risposte con qualsiasi errore complessivamente
Riepilogo
GPT-5.4 non è una rivoluzione delle API -- è un cambiamento pratico. Lo stesso endpoint, lo stesso formato dei messaggi, gli stessi pattern di utilizzo dei tool. La novità è che ora hai un controllo granulare sul calcolo del ragionamento, l'uso nativo del computer senza strumenti di terze parti, una finestra di contesto abbastanza grande per intere codebase e un output di codice significativamente migliore.
Le tre cose da fare subito:
- Imposta
reasoning.effortintenzionalmente. Non fare affidamento sul valore predefinito per ogni chiamata. Adatta il livello di sforzo alla complessità del task e al tuo budget di latenza/costo. - Sperimenta con l'uso del computer. Se hai workflow di automazione della UI, testali con le capacità native di GPT-5.4. Potresti essere in grado di eliminare fragili script Selenium.
- Controlla il tuo utilizzo del contesto. Con la soglia del sovrapprezzo a 272K e la finestra da 1M, ci sono soldi veri da risparmiare (o sprecare) a seconda di come strutturi i tuoi prompt.
Il modello è disponibile ora come gpt-5.4 per gli account API Tier 1+. Inizia a costruire.