Welke model ID gebruik ik voor GPT-5.4 in de API?

Gebruik 'gpt-5.4' als de model ID voor het standaardmodel. Voor maximale prestaties bij complexe taken, gebruik 'gpt-5.4-pro'. Beiden zijn toegankelijk via het standaard OpenAI Chat Completions API endpoint.

Hoe werkt de reasoning effort parameter in GPT-5.4?

De reasoning.effort parameter bepaalt hoeveel interne compute GPT-5.4 gebruikt voor chain-of-thought reasoning. Het accepteert vijf niveaus: none, low, medium, high en xhigh. De standaardwaarde is medium. Door het in te stellen op none gedraagt het model zich als een non-thinking model (het snelst en goedkoopst), terwijl xhigh maximale reasoning depth biedt voor complexe problemen.

Hoeveel kost de GPT-5.4 API?

GPT-5.4 kost $2.50 per 1M input tokens en $15 per 1M output tokens. GPT-5.4 Pro kost $30 per 1M input tokens en $180 per 1M output tokens. Input pricing verdubbelt wanneer je de 272K tokens in een enkele aanvraag overschrijdt.

Wat is de GPT-5.4 context window grootte?

GPT-5.4 ondersteunt een 1,050,000-token context window met tot wel 128K tokens aan output. Dit is groot genoeg om volledige codebases in een enkele aanvraag te verwerken. Let op dat de input pricing verdubbelt boven de 272K tokens.

Kan GPT-5.4 een computer besturen via de API?

Ja. GPT-5.4 is het eerste general-purpose model met native computer-use mogelijkheden. Je schakelt dit in door een computer_use tool type mee te geven in de tools array. Het model kan vervolgens desktop apps bedienen, op knoppen klikken, formulieren invullen en autonoom door UIs navigeren. Het scoort 75% op OSWorld, wat hoger is dan de human expert baseline van 72.4%.

Wat zijn de toegangseisen voor de GPT-5.4 API?

Je hebt een betaald OpenAI API account nodig met minimaal $5 aan eerdere uitgaven (Tier 1 access). GPT-5.4 is niet beschikbaar op de gratis API tier. Voor ChatGPT gebruikers is een Plus ($20/month), Team ($25/month) of Pro ($200/month) abonnement vereist.

Moet ik GPT-5.4 of GPT-5.4 Pro gebruiken?

Gebruik standaard GPT-5.4 voor de overgrote meerderheid van de taken — het verwerkt coding, analysis en reasoning goed voor $2.50/$15 per miljoen tokens. Reserveer GPT-5.4 Pro ($30/$180 per miljoen tokens) for taken waarbij nauwkeurigheid cruciaal is en kosten secundair zijn, zoals complexe multi-step reasoning, high-stakes code reviews of genuanceerd onderzoek. Pro kost 12x meer, dus gebruik standaard als default en upgrade alleen wanneer je kwaliteitsverschillen ziet.

Key Takeaways

Cinque livelli di reasoning.effort: Il parametro reasoning.effort (none, low, medium, high, xhigh) controlla il compromesso tra costo e qualità per richiesta -- none si comporta come un modello senza ragionamento (più veloce/economico), mentre xhigh fornisce la massima profondità a un costo 3-5 volte superiore.
Uso nativo del computer via API: GPT-5.4 può operare su app desktop, cliccare pulsanti e navigare interfacce utente in modo autonomo, con un punteggio di 75% su OSWorld (superando il baseline degli esperti umani del 72.4%) -- abilitato passando un tipo di tool computer_use.
Contesto di 1M+ tokens a $2.50/$15: La finestra di contesto da 1,050,000 tokens elabora intere codebase in una singola richiesta, sebbene il prezzo dell'input raddoppi oltre i 272K tokens.
GPT-5.4 Pro costa 12 volte di più: Riserva la variante Pro da $30/$180 per milione di tokens per task ad alta posta in gioco dove l'accuratezza è critica -- usa GPT-5.4 standard per la stragrande maggioranza dei carichi di lavoro.

Guida per sviluppatori API GPT-5.4: Reasoning Effort, Uso del Computer e Esempi di Codice

March 11, 2026 -- GPT-5.4 è il modello più capace di OpenAI fino ad oggi, e viene distribuito con funzionalità API che cambiano in modo significativo il modo in cui costruisci applicazioni. Sforzo di ragionamento regolabile, uso nativo del computer, una finestra di contesto di 1M+ tokens e una generazione di codice notevolmente migliorata -- tutto attraverso lo stesso endpoint Chat Completions che già conosci.

Questa guida è per gli sviluppatori che vogliono iniziare a costruire con l'API di GPT-5.4 oggi. Niente chiacchiere di marketing. Solo model IDs, parametri, esempi di codice, calcoli dei prezzi e i compromessi pratici che devi considerare.

Quick Start

Model IDs

Modello	API ID	Ideale per
GPT-5.4	`gpt-5.4`	Task generici, coding, ragionamento, uso del computer
GPT-5.4 Pro	`gpt-5.4-pro`	Massima accuratezza su task complessi e critici

La tua prima chiamata API

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "user", "content": "Explain the tradeoffs between B-trees and LSM-trees for write-heavy workloads."}
    ]
)

print(response.choices[0].message.content)

Tutto qui. Se hai usato qualsiasi modello GPT attraverso l'API Chat Completions, GPT-5.4 è un sostituto immediato. Le differenze risiedono nei nuovi parametri e nelle nuove capacità.

Prezzi

Modello	Input	Output	Note
GPT-5.4	$2.50 / 1M tokens	$15.00 / 1M tokens	L'input raddoppia oltre 272K tokens
GPT-5.4 Pro	$30.00 / 1M tokens	$180.00 / 1M tokens	12 volte il costo dello standard

Finestra di contesto: 1,050,000 tokens in input, 128,000 tokens max output.

Requisiti di accesso: Account API a pagamento con una spesa minima precedente di $5 (Tier 1). Non disponibile nel livello gratuito.

Reasoning Effort: Controllare il Budget di Pensiero

Il nuovo parametro più importante in GPT-5.4 è reasoning.effort. Controlla quanto calcolo interno il modello alloca al ragionamento chain-of-thought prima di produrre una risposta.

I Cinque Livelli

Livello	Comportamento	Quando usarlo
`none`	Nessun chain-of-thought. Più veloce, più economico. Si comporta come un modello senza ragionamento.	Semplici trasformazioni, formattazione, estrazione
`low`	Ragionamento minimo. Rapidi controlli di integrità.	Domande e risposte dirette, classificazione, riassunto
`medium`	Ragionamento bilanciato. Questo è il valore predefinito.	Coding generale, analisi, la maggior parte dei carichi di lavoro in produzione
`high`	Catene di ragionamento estese. Più approfondito.	Debugging complesso, decisioni di architettura, logica a più fasi
`xhigh`	Massima profondità di ragionamento. Più lento ma più accurato.	Matematica difficile, grandi refactoring, audit di sicurezza, ricerca

Esempio di Codice: Impostare lo Sforzo di Ragionamento

from openai import OpenAI
client = OpenAI()

# High reasoning per un task di refactoring complesso
response = client.chat.completions.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},
    messages=[
        {"role": "user", "content": "Refactor this function to use async/await and handle all edge cases for network failures, timeouts, and partial responses:\n\ndef fetch_all_pages(url):\n    results = []\n    while url:\n        resp = requests.get(url)\n        data = resp.json()\n        results.extend(data['items'])\n        url = data.get('next')\n    return results"}
    ]
)

Guida Pratica sui Livelli di Ragionamento

Inizia da medium e regola. Per la maggior parte dei carichi di lavoro API, il valore predefinito è la scelta giusta. Ecco come approcciarlo:

Percorsi sensibili alla latenza (autocompletamento, chat, interfacce in tempo reale): Usa low o none. La differenza di velocità è sostanziale e per task come la formattazione del testo o semplici ricerche, il ragionamento extra non aggiunge valore.
Elaborazione batch (pipeline di revisione del codice, analisi di documenti, estrazione dati): Usa high. Non stai bloccando un utente, quindi la latenza extra non conta, e i miglioramenti dell'accuratezza si sommano su centinaia di elementi.
Singole richieste ad alta posta in gioco (audit di sicurezza di una codebase, pianificazione di migrazioni complesse, progettazione di nuovi algoritmi): Usa xhigh. È qui che il calcolo 12 volte superiore si ripaga da solo.

Implicazione sui costi: Un maggiore sforzo di ragionamento significa che vengono generati (e fatturati) più tokens interni. Una richiesta a xhigh può costare 3-5 volte di più della stessa richiesta a low. Monitora il tuo utilizzo di tokens quando cambi i livelli.

API per l'Uso del Computer

GPT-5.4 è il primo modello general-purpose con capacità native di uso del computer. Nel benchmark OSWorld, ottiene un punteggio del 75% -- superando il baseline degli esperti umani del 72.4%. Non si tratta di un wrapper attorno a screenshot. Il modello comprende nativamente le interfacce desktop e può operarle autonomamente.

Come Funziona

Invii un prompt descrivendo ciò che vuoi fare
Il modello scatta screenshot dell'ambiente di destinazione
Genera clic del mouse, input da tastiera e azioni di navigazione
Esegue un ciclo build-run-verify-fix per controllare il proprio lavoro
Restituisce i risultati o chiede chiarimenti

Esempio di Codice: Uso del Computer

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.4",
    tools=[{"type": "computer_use"}],
    messages=[
        {"role": "user", "content": "Open the browser, go to github.com, and create a new repository called 'my-project'"}
    ]
)

Cosa può fare l'Uso del Computer

Automazione del browser: Compilare moduli, navigare workflow a più fasi, estrarre dati strutturati da pagine dinamiche
Operatività su app desktop: Aprire applicazioni, interagire con interfacce native, trasferire dati tra programmi
Workflow di test: Cliccare attraverso flussi UI, verificare stati visivi, eseguire sequenze di onboarding
Inserimento dati: Spostare dati tra fogli di calcolo, CRM e strumenti interni

Limitazioni da Conoscere

Latenza: Ogni ciclo di azione comporta uno screenshot, l'inferenza del modello e l'esecuzione dell'azione. I task a più fasi richiedono tempo reale.
Supervisione richiesta: Non eseguire l'uso del computer senza supervisione su sistemi sensibili. Il modello può sbagliare clic, interpretare male elementi della UI o intraprendere azioni non intenzionali.
Configurazione dell'ambiente: L'uso del computer richiede un ambiente di visualizzazione. Per l'automazione lato server, è necessario un display virtuale (ad esempio, Xvfb su Linux o un desktop virtuale).
Nessun accesso al file system per impostazione predefinita: L'uso del computer opera attraverso la UI, non tramite chiamate dirette al file system. Combinalo con strumenti di esecuzione di codice per workflow ibridi.

Coding con GPT-5.4

GPT-5.4 eredita e migliora le capacità di coding di GPT-5.3 Codex. I benchmark raccontano la storia:

Benchmark	Punteggio GPT-5.4	Cosa testa
SWE-Bench Pro	57.7%	Risoluzione di problemi GitHub reali
SWE-Bench Verified	~80%	Sottoinsieme curato di SWE-Bench
Terminal-Bench 2.0	75.1%	Task di sviluppo basati su terminale

Cosa c'è di diverso rispetto a GPT-5.3 Codex

47% in meno di tokens su task complessi -- output meno prolisso, codice più compatto
Modifiche multi-file con meno tentativi -- migliore comprensione delle dipendenze tra file
Segue i pattern specifici del repository -- si adatta alle convenzioni della tua codebase quando viene fornito il contesto
33% in meno di errori fattuali -- meno allucinazioni nei riferimenti API, nell'uso delle librerie e nella configurazione

Suggerimenti per una Migliore Generazione di Codice

1. Usa i system prompts per impostare gli standard di codifica.

response = client.chat.completions.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},
    messages=[
        {"role": "system", "content": "You are a senior Python developer. Follow PEP 8. Use type hints. Write docstrings in Google style. Prefer composition over inheritance. Use dataclasses for DTOs."},
        {"role": "user", "content": "Implement a retry decorator with exponential backoff, jitter, and configurable max retries."}
    ]
)

2. Fornisci il tuo codice attuale come contesto. La finestra di contesto da 1M di tokens di GPT-5.4 significa che puoi includere interi moduli o persino repository completi. Il modello produce codice significativamente migliore quando può vedere pattern, tipi e convenzioni esistenti.

3. Imposta lo sforzo di ragionamento su high o xhigh per modifiche complesse. Semplici correzioni di bug funzionano bene a medium, ma refactoring architettonici, migrazioni e modifiche multi-file beneficiano misurabilmente di un maggiore sforzo di ragionamento.

4. Usa max_completion_tokens per prevenire risposte fuori controllo. Per la generazione di codice, imposta un limite ragionevole in modo da non ricevere addebiti per spiegazioni prolisse che non hai richiesto.

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[...],
    max_completion_tokens=4096
)

Strategie per Contesti Ampi

La finestra di contesto da 1,050,000 tokens è il superpotere silenzioso di GPT-5.4. Ecco come usarla efficacemente -- ed evitare trappole nei costi.

Il Sovrapprezzo oltre i 272K

Il prezzo dell'input raddoppia una volta superati i 272K tokens in una singola richiesta. Ciò significa che una richiesta da 500K tokens costa approssimativamente:

Primi 272K tokens: 272K x $2.50/1M = $0.68
Rimanenti 228K tokens: 228K x $5.00/1M = $1.14
Costo totale input: $1.82

Per confronto, la stessa richiesta a prezzi standard costerebbe $1.25. Il sovrapprezzo aggiunge circa il 46% al conto in questo caso.

Esempio di Codice: Utilizzo di un Contesto Ampio

from openai import OpenAI
client = OpenAI()

# Caricamento dell'intera codebase nel contesto
with open("codebase_dump.txt", "r") as f:
    full_codebase_content = f.read()

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "system", "content": full_codebase_content},  # fino a 1M tokens
        {"role": "user", "content": "Find all security vulnerabilities in this codebase"}
    ],
    max_completion_tokens=8192
)

Best Practices per Contesti Ampi

Cosa fare:

Carica prima i file più rilevanti. Il modello presta maggiore attenzione all'inizio e alla fine del contesto. Metti per primi i file più rilevanti per il task.
Usa il messaggio di sistema per il materiale di riferimento. Inserisci la tua codebase, documentazione o dati nel messaggio di sistema. Inserisci le tue istruzioni effettive nel messaggio dell'utente.
Imposta max_completion_tokens esplicitamente. Con un output massimo di 128K, una risposta senza limiti su un contesto ampio può diventare costosa rapidamente.

Cosa non fare:

Non usare sempre l'intera finestra. Se il tuo task necessita solo di 50K tokens di contesto, non riempirlo fino a 1M. Paghi per i tokens di input indipendentemente dal fatto che il modello ne abbia bisogno o meno.
Non ignorare la soglia dei 272K. Struttura i tuoi prompt per rimanere sotto i 272K quando possibile. Se sei a 280K, vedi se puoi tagliare 10K tokens di contesto meno rilevante per risparmiare sul sovrapprezzo.
Non aspettarti un richiamo perfetto su 1M di tokens. Le prestazioni degradano gradualmente con la lunghezza del contesto. Per la massima accuratezza, mantieni le informazioni più critiche entro i primi 200K tokens.

GPT-5.4 vs GPT-5.4 Pro: Quando Passare alla Versione Superiore

GPT-5.4 Pro costa 12 volte di più rispetto a GPT-5.4 standard. Ecco quando è giustificato.

Dimensione	GPT-5.4	GPT-5.4 Pro
Costo input	$2.50 / 1M	$30.00 / 1M
Costo output	$15.00 / 1M	$180.00 / 1M
Ideale per	La maggior parte dei task di sviluppo	Massima accuratezza su problemi difficili
Profondità ragionamento	Forte a tutti i livelli	Ragionamento interno più profondo di default
Latenza	Standard	Maggiore (più calcolo per richiesta)

Usa GPT-5.4 Standard Quando:

Stai costruendo applicazioni di produzione con costi prevedibili
I task sono ben definiti (CRUD, trasformazioni, coding standard)
Hai bisogno di una latenza inferiore per funzionalità rivolte all'utente
Stai elaborando volumi elevati di richieste

Usa GPT-5.4 Pro Quando:

L'accuratezza su una singola richiesta conta più del costo (analisi legale, ricerca medica, audit di sicurezza)
Stai affrontando problemi nuovi di cui il modello non ha visto molti esempi
Le catene di ragionamento a più fasi devono essere impeccabili
Stai effettuando benchmark competitivi o valutazioni

La regola pratica: Usa lo standard come impostazione predefinita. Esegui i tuoi test case più difficili su entrambi i modelli. Se Pro produce costantemente risultati migliori sul tuo carico di lavoro specifico, passa a Pro per quelle chiamate specifiche e mantieni tutto il resto sullo standard.

Migrazione da GPT-5.3 Codex

Se stai attualmente utilizzando GPT-5.3 Codex (o GPT-5.2-Codex), ecco le differenze chiave da pianificare.

Cosa Cambia

Area	GPT-5.3 Codex	GPT-5.4
Model ID	`gpt-5.3-codex`	`gpt-5.4`
Finestra di contesto	1,000,000 tokens	1,050,000 tokens
Uso del computer	Non disponibile	Supporto nativo
Sforzo di ragionamento	Supportato	Supportato (stesso parametro)
Prezzi (input)	Varia per variante	$2.50 / 1M tokens
Prezzi (output)	Varia per variante	$15.00 / 1M tokens
Efficienza dei tokens	Baseline	47% in meno di tokens su task complessi

Checklist per la Migrazione

Sostituisci il model ID. Cambia gpt-5.3-codex in gpt-5.4 nelle tue chiamate API.
Testa le tue impostazioni di sforzo di ragionamento. Esistono gli stessi livelli di sforzo (da none a xhigh), ma GPT-5.4 può produrre diversi compromessi di qualità a ciascun livello. Rivaluta i tuoi valori predefiniti.
Rivedi i budget dei tokens di output. GPT-5.4 è più conciso (47% in meno di tokens su task complessi). Potresti essere in grado di abbassare il tuo max_completion_tokens e risparmiare sui costi di output.
Valuta l'uso del computer. Se avevi soluzioni alternative per l'automazione della UI (script Selenium, strumenti personalizzati), l'uso nativo del computer di GPT-5.4 potrebbe sostituirli.
Attenzione al sovrapprezzo per 272K. Se i tuoi carichi di lavoro Codex usavano contesti ampi ma rimanevano sotto la struttura dei prezzi di Codex, ricalcola i costi con i prezzi a scaglioni di GPT-5.4 per l'input.

Cosa Rimane Invariato

L'endpoint dell'API Chat Completions è identico
I ruoli dei messaggi system/user/assistant funzionano allo stesso modo
Streaming, function calling e uso dei tool sono tutti compatibili
La sintassi del parametro reasoning è invariata

Benchmark in Breve

Per un riferimento rapido, ecco come si comporta GPT-5.4 nei benchmark che contano di più per gli sviluppatori:

Benchmark	Punteggio	Cosa misura
SWE-Bench Pro	57.7%	Ingegneria del software complessa nel mondo reale
SWE-Bench Verified	~80%	Risoluzione curata di problemi GitHub
Terminal-Bench 2.0	75.1%	Coding basato su terminale e task di sistema
OSWorld	75.0%	Funzionamento del computer desktop (baseline umana: 72.4%)
GDPval	83%	Lavoro intellettuale professionale in 44 occupazioni

Ulteriori metriche di qualità:

33% in meno di errori fattuali rispetto a GPT-5.2
18% in meno di risposte con qualsiasi errore complessivamente

Riepilogo

GPT-5.4 non è una rivoluzione delle API -- è un cambiamento pratico. Lo stesso endpoint, lo stesso formato dei messaggi, gli stessi pattern di utilizzo dei tool. La novità è che ora hai un controllo granulare sul calcolo del ragionamento, l'uso nativo del computer senza strumenti di terze parti, una finestra di contesto abbastanza grande per intere codebase e un output di codice significativamente migliore.

Le tre cose da fare subito:

Imposta reasoning.effort intenzionalmente. Non fare affidamento sul valore predefinito per ogni chiamata. Adatta il livello di sforzo alla complessità del task e al tuo budget di latenza/costo.
Sperimenta con l'uso del computer. Se hai workflow di automazione della UI, testali con le capacità native di GPT-5.4. Potresti essere in grado di eliminare fragili script Selenium.
Controlla il tuo utilizzo del contesto. Con la soglia del sovrapprezzo a 272K e la finestra da 1M, ci sono soldi veri da risparmiare (o sprecare) a seconda di come strutturi i tuoi prompt.

Il modello è disponibile ora come gpt-5.4 per gli account API Tier 1+. Inizia a costruire.

GPT-5.4 API Developer Guide: Reasoning Effort, Computer Use, en Code Examples (2026)