Viktige poeng
- Fem nivåer for reasoning effort: Parameteren
reasoning.effort(none, low, medium, high, xhigh) kontrollerer avveiningen mellom kostnad og kvalitet per forespørsel --nonefungerer som en ikke-tenkende modell (raskest/billigst), mensxhighgir maksimal dybde til 3-5x kostnaden. - Innebygd computer use via API: GPT-5.4 kan betjene skrivebordsprogrammer, klikke på knapper og navigere i brukergrensesnitt autonomt, og scorer 75% på OSWorld (noe som overgår menneskelige eksperters referanseverdi på 72.4%) -- aktiveres ved å sende inn en
computer_useverktøytype. - 1M+ token kontekst til $2.50/$15: Inndatavinduet på 1,050,000 tokens behandler hele kodebaser i en enkelt forespørsel, selv om prisen på input dobles etter 272K tokens.
- GPT-5.4 Pro koster 12x mer: Reserver Pro-varianten til $30/$180 per million tokens for kritiske oppgaver der nøyaktighet er avgjørende -- bruk standard GPT-5.4 som standard for de aller fleste arbeidsbelastninger.
GPT-5.4 API Utviklerveiledning: Reasoning Effort, Computer Use og kodeeksempler
March 11, 2026 -- GPT-5.4 er OpenAIs mest kapable modell til dags dato, og den leveres med API-funksjoner som i betydelig grad endrer hvordan du bygger med den. Justerbar reasoning effort, innebygd computer use, et 1M+ token kontekstvindu og betydelig forbedret kodegenerering -- alt gjennom det samme Chat Completions-endepunktet du allerede kjenner.
Denne veiledningen er for utviklere som ønsker å begynne å bygge med GPT-5.4 API i dag. Ingen markedsføringspreik. Bare modell-ID-er, parametere, kodeeksempler, prisberegninger og de praktiske avveiningene du må ta.
Kom i gang
Modell-ID-er
| Modell | API ID | Best til |
|---|---|---|
| GPT-5.4 | gpt-5.4 | Generelle oppgaver, koding, resonnering, computer use |
| GPT-5.4 Pro | gpt-5.4-pro | Maksimal nøyaktighet på komplekse, kritiske oppgaver |
Ditt første API-kall
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "user", "content": "Explain the tradeoffs between B-trees and LSM-trees for write-heavy workloads."}
]
)
print(response.choices[0].message.content)
Det er alt. Hvis du har brukt en GPT-modell via Chat Completions API, er GPT-5.4 en direkte erstatning. Forskjellene ligger i de nye parameterne og funksjonene.
Prising
| Modell | Input | Output | Merknader |
|---|---|---|---|
| GPT-5.4 | $2.50 / 1M tokens | $15.00 / 1M tokens | Input dobles etter 272K tokens |
| GPT-5.4 Pro | $30.00 / 1M tokens | $180.00 / 1M tokens | 12x kostnaden av standard |
Kontekstvindu: 1,050,000 tokens input, 128,000 tokens maks output.
Tilgangskrav: Betalt API-konto med minimum $5 tidligere forbruk (Tier 1). Ikke tilgjengelig på gratisnivå.
Reasoning Effort: Kontroll over tenkebudsjettet
Den viktigste nye parameteren i GPT-5.4 er reasoning.effort. Den kontrollerer hvor mye intern beregningskraft modellen tildeler chain-of-thought-resonnering før den produserer et svar.
De fem nivåene
| Nivå | Oppførsel | Bruksområde |
|---|---|---|
none | Ingen chain-of-thought. Raskest, billigst. Fungerer som en ikke-tenkende modell. | Simple transformasjoner, formatering, ekstraksjon |
low | Minimal resonnering. Raske logikksjekker. | Enkel Q&A, klassifisering, oppsummering |
medium | Balansert resonnering. Dette er standardvalget. | Generell koding, analyse, de fleste produksjonsmiljøer |
high | Utvidede resonneringskjeder. Mer grundig. | Kompleks feilsøking, arkitekturbeslutninger, flertrinnslogikk |
xhigh | Maksimal resonneringsdybde. Tregest, men mest nøyaktig. | Vanskelig matematikk, store refaktoreringer, sikkerhetsrevisjoner, forskning |
Kodeeksempel: Innstilling av Reasoning Effort
from openai import OpenAI
client = OpenAI()
# High reasoning for a complex refactoring task
response = client.chat.completions.create(
model="gpt-5.4",
reasoning={"effort": "high"},
messages=[
{"role": "user", "content": "Refactor this function to use async/await and handle all edge cases for network failures, timeouts, and partial responses:\n\ndef fetch_all_pages(url):\n results = []\n while url:\n resp = requests.get(url)\n data = resp.json()\n results.extend(data['items'])\n url = data.get('next')\n return results"}
]
)
Praktisk veiledning om resonneringsnivåer
Start på medium og juster. For de fleste API-arbeidsbelastninger er standardvalget det riktige. Slik bør du tenke på det:
-
Latenssensitive baner (autofullfør, chat, sanntidsgrensesnitt): Bruk
lowellernone. Hastighetsforskjellen er betydelig, og for oppgaver som tekstformatering eller enkle oppslag, tilfører ekstra resonnering ingen verdi. -
Batch-prosessering (pipelines for kodegjennomgang, dokumentanalyse, dataekstraksjon): Bruk
high. Du blokkerer ikke en bruker, så den ekstra forsinkelsen spiller ingen rolle, og nøyaktighetsforbedringene akkumuleres over hundrevis av elementer. -
Kritiske enkelte forespørsler (sikkerhetsrevisjon av en kodebase, kompleks migreringsplanlegging, design av nye algoritmer): Bruk
xhigh. Dette er der 12x beregningskraft betaler seg selv.
Kostnadskonsekvens: Høyere reasoning effort betyr at flere interne tokens genereres (og faktureres). En forespørsel på xhigh kan koste 3–5 ganger mer enn samme forespørsel på low. Overvåk din token-bruk når du endrer nivåer.
Computer Use API
GPT-5.4 er den første generelle modellen med innebygde computer-use-funksjoner. I OSWorld-benchmarken scorer den 75 % – noe som overgår den menneskelige ekspert-referanseverdien på 72.4 %. Dette er ikke bare et skall rundt skjermbilder. Modellen forstår skrivebordsgrensesnitt naturlig og kan betjene dem autonomt.
Slik fungerer det
- Du sender en melding som beskriver hva du vil ha gjort
- Modellen tar skjermbilder av målmiljøet
- Den genererer museklikk, tastaturinndata og navigasjonshandlinger
- Den kjører en build-run-verify-fix-løkke for å sjekke sitt eget arbeid
- Den returnerer resultater eller ber om avklaring
Kodeeksempel: Computer Use
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5.4",
tools=[{"type": "computer_use"}],
messages=[
{"role": "user", "content": "Open the browser, go to github.com, and create a new repository called 'my-project'"}
]
)
Hva Computer Use kan gjøre
- Nettleserautomatisering: Fylle ut skjemaer, navigere i flertrinns arbeidsflyter, hente strukturerte data fra dynamiske sider
- Betjening av skrivebordsprogrammer: Åpne applikasjoner, samhandle med innebygde brukergrensesnitt, overføre data mellom programmer
- Testing av arbeidsflyter: Klikke gjennom UI-flyter, verifisere visuelle tilstander, kjøre gjennom onboarding-sekvenser
- Dataregistrering: Flytte data mellom regneark, CRMs og interne verktøy
Begrensninger å kjenne til
- Latens: Hver handling-syklus innebærer et skjermbilde, modell-inferens og utførelse av handlingen. Flertrinns oppgaver tar tid.
- Tilsyn kreves: Ikke kjør computer use uten tilsyn på sensitive systemer. Modellen kan feilklikke, feiltolke UI-elementer eller utføre utilsiktede handlinger.
- Oppsett av miljø: Computer use krever et visningsmiljø. For automatisering på serversiden trenger du en virtuell skjerm (f.eks. Xvfb på Linux eller et virtuelt skrivebord).
- Ingen filsystemtilgang som standard: Computer use opererer gjennom brukergrensesnittet, ikke direkte filsystemkall. Kombiner det med verktøy for kodeutførelse for hybride arbeidsflyter.
Koding med GPT-5.4
GPT-5.4 arver og forbedrer kodingsegenskapene til GPT-5.3 Codex. Benchmark-testene forteller historien:
| Benchmark | GPT-5.4 Score | Hva den tester |
|---|---|---|
| SWE-Bench Pro | 57.7% | Løsning av virkelige GitHub-problemer |
| SWE-Bench Verified | ~80% | Kvalitetssikret delmengde av SWE-Bench |
| Terminal-Bench 2.0 | 75.1% | Terminalbaserte utviklingsoppgaver |
Hva er forskjellig fra GPT-5.3 Codex
- 47 % færre tokens på komplekse oppgaver -- mindre ordgyteri, strammere kode
- Endringer i flere filer med færre forsøk -- bedre forståelse av avhengigheter mellom filer
- Følger repo-spesifikke mønstre -- tilpasser seg din kodebases konvensjoner når den får kontekst
- 33 % færre faktiske feil -- mindre hallusinering i API-referanser, bibliotekbruk og konfigurasjon
Tips for bedre kodegenerering
1. Bruk system-prompter for å angi kodestandarder.
response = client.chat.completions.create(
model="gpt-5.4",
reasoning={"effort": "high"},
messages=[
{"role": "system", "content": "You are a senior Python developer. Follow PEP 8. Use type hints. Write docstrings in Google style. Prefer composition over inheritance. Use dataclasses for DTOs."},
{"role": "user", "content": "Implement a retry decorator with exponential backoff, jitter, and configurable max retries."}
]
)
2. Gi den din faktiske kode som kontekst. GPT-5.4 sitt 1M token kontekstvindu betyr at du kan inkludere hele moduler eller til og med fulle repositories. Modellen produserer betydelig bedre kode når den kan se eksisterende mønstre, typer og konvensjoner.
3. Sett reasoning effort til high eller xhigh for komplekse endringer. Enkle feilrettinger fungerer fint på medium, men arkitektoniske refaktoreringer, migreringer og endringer i flere filer drar målbar nytte av høyere reasoning effort.
4. Bruk max_completion_tokens for å forhindre løpske svar. For kodegenerering, sett en rimelig grense slik at du ikke blir fakturert for omfattende forklaringer du ikke ba om.
response = client.chat.completions.create(
model="gpt-5.4",
messages=[...],
max_completion_tokens=4096
)
Strategier for store kontekster
Kontekstvinduet på 1,050,000 tokens er GPT-5.4 sin stille superkraft. Her er hvordan du bruker det effektivt – og unngår kostnadsfellene.
Tilleggsavgiften på 272K
Prisen for input dobles når du overskrider 272K tokens i en enkelt forespørsel. Det betyr at en forespørsel på 500K tokens koster omtrent:
- Første 272K tokens: 272K x $2.50/1M = $0.68
- Resterende 228K tokens: 228K x $5.00/1M = $1.14
- Total inputkostnad: $1.82
Til sammenligning ville den samme forespørselen med standardprising kostet $1.25. Tilleggsavgiften øker regningen med ca. 46 % i dette tilfellet.
Kodeeksempel: Bruk av stor kontekst
from openai import OpenAI
client = OpenAI()
# Load entire codebase into context
with open("codebase_dump.txt", "r") as f:
full_codebase_content = f.read()
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "system", "content": full_codebase_content}, # up to 1M tokens
{"role": "user", "content": "Find all security vulnerabilities in this codebase"}
],
max_completion_tokens=8192
)
Beste praksis for store kontekster
Gjør:
- Plasser de mest relevante filene først. Modellen vier mest oppmerksomhet til starten og slutten av konteksten. Legg filene som er mest relevante for oppgaven først.
- Bruk system-meldingen for referansemateriale. Plasser din kodebase, dokumentasjon eller data i system-meldingen. Legg dine faktiske instruksjoner i bruker-meldingen.
- Angi
max_completion_tokenseksplisitt. Med 128K maks output kan et svar uten grenser på en stor kontekst raskt bli dyrt.
Ikke gjør:
- Ikke bruk hele vinduet hver gang. Hvis oppgaven din bare trenger 50K tokens med kontekst, ikke fyll det opp til 1M. Du betaler for input-tokens uavhengig av om modellen trenger dem eller ikke.
- Ikke ignorer 272K-grensen. Strukturer dine prompter for å holde deg under 272K når det er mulig. Hvis du er på 280K, se om du kan fjerne 10K tokens med mindre relevant kontekst for å spare på tilleggsavgiften.
- Ikke forvent perfekt gjenkalling over 1M tokens. Ytelsen degraderes gradvis med kontekstlengden. For høyest nøyaktighet, hold den mest kritiske informasjonen innenfor de første 200K tokens.
GPT-5.4 vs GPT-5.4 Pro: Når bør du oppgradere?
GPT-5.4 Pro koster 12x mer enn standard GPT-5.4. Her er når det er berettiget.
| Dimensjon | GPT-5.4 | GPT-5.4 Pro |
|---|---|---|
| Inputkostnad | $2.50 / 1M | $30.00 / 1M |
| Outputkostnad | $15.00 / 1M | $180.00 / 1M |
| Best til | De fleste utviklingsoppgaver | Maksimal nøyaktighet på vanskelige problemer |
| Resonneringsdybde | Sterk på alle nivåer | Dypere intern resonnering som standard |
| Latens | Standard | Høyere (mer beregningskraft per forespørsel) |
Bruk standard GPT-5.4 når:
- Du bygger produksjonsapplikasjoner med forutsigbare kostnader
- Oppgavene er godt definerte (CRUD, transformasjoner, standard koding)
- Du trenger lavere latens for brukerrettede funksjoner
- Du behandler store mengder forespørsler
Bruk GPT-5.4 Pro når:
- Nøyaktighet på en enkelt forespørsel betyr mer enn kostnad (juridisk analyse, medisinsk forskning, sikkerhetsrevisjoner)
- Du takler nye problemer som modellen ikke har sett mange eksempler på
- Flertrinns resonneringskjeder må være vanntette
- Du utfører konkurransebasert benchmarking eller evaluering
Den praktiske regelen: Bruk standard som utgangspunkt. Kjør dine vanskeligste testtilfeller gjennom begge modeller. Hvis Pro konsekvent gir bedre resultater på din spesifikke arbeidsbelastning, bytt disse spesifikke kallene til Pro og behold alt annet på standard.
Migrering fra GPT-5.3 Codex
Hvis du for øyeblikket bruker GPT-5.3 Codex (eller GPT-5.2-Codex), er dette de viktigste forskjellene du må planlegge for.
Hva endres
| Område | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Modell-ID | gpt-5.3-codex | gpt-5.4 |
| Kontekstvindu | 1,000,000 tokens | 1,050,000 tokens |
| Computer use | Ikke tilgjengelig | Innebygd støtte |
| Reasoning effort | Støttet | Støttet (samme parameter) |
| Prising (input) | Varierer etter variant | $2.50 / 1M tokens |
| Prising (output) | Varierer etter variant | $15.00 / 1M tokens |
| Token-effektivitet | Referanseverdi | 47 % færre tokens på komplekse oppgaver |
Sjekkliste for migrering
- Bytt modell-ID. Endre
gpt-5.3-codextilgpt-5.4i dine API-kall. - Test dine innstillinger for reasoning effort. De samme innsatsnivåene eksisterer (
nonetilxhigh), men GPT-5.4 kan produsere andre avveininger i kvalitet på hvert nivå. Evaluer dine standardvalg på nytt. - Se over budsjetter for output-tokens. GPT-5.4 er mer kortfattet (47 % færre tokens på komplekse oppgaver). Du kan kanskje senke din
max_completion_tokensog spare på output-kostnader. - Evaluer computer use. Hvis du hadde midlertidige løsninger for UI-automatisering (Selenium-skripter, tilpassede verktøy), kan GPT-5.4 sin innebygde computer use kanskje erstatte dem.
- Vær oppmerksom på tilleggsavgiften på 272K. Hvis dine Codex-arbeidsbelastninger brukte store kontekster, men holdt seg under Codex sin prisstruktur, må du beregne kostnadene på nytt med GPT-5.4 sin lagdelte input-prising.
Hva forblir likt
- Chat Completions API-endepunktet er identisk
- System/user/assistant-meldingsroller fungerer på samme måte
- Streaming, funksjonskalling og verktøybruk er alle kompatible
- Syntaksen for
reasoning-parameteren er uendret
Oversikt over benchmarks
For rask referanse, her er hvordan GPT-5.4 presterer i de benchmark-testene som betyr mest for utviklere:
| Benchmark | Score | Hva den måler |
|---|---|---|
| SWE-Bench Pro | 57.7% | Kompleks programvareutvikling i den virkelige verden |
| SWE-Bench Verified | ~80% | Kvalitetssikret løsning av GitHub-problemer |
| Terminal-Bench 2.0 | 75.1% | Terminalbasert koding og systemoppgaver |
| OSWorld | 75.0% | Betjening av stasjonær datamaskin (menneskelig referanse: 72.4%) |
| GDPval | 83% | Profesjonelt kunnskapsarbeid på tvers av 44 yrker |
Ytterligere kvalitetsmål:
- 33 % færre faktiske feil sammenlignet med GPT-5.2
- 18 % færre svar med noen form for feil totalt sett
Oppsummering
GPT-5.4 er ikke en revolusjonerende API-endring – det er en praktisk en. Det samme endepunktet, det samme meldingsformatet, de samme mønstrene for verktøybruk. Det som er nytt er at du nå har finkornet kontroll over beregningskraft for resonnering, innebygd computer-use uten tredjepartsverktøy, et kontekstvindu som er stort nok for hele kodebaser, og betydelig bedre kodesvar.
De tre tingene du bør gjøre akkurat nå:
- Angi
reasoning.effortbevisst. Ikke stol på standardvalget for hvert kall. Tilpass innsatsnivået til oppgavens kompleksitet og ditt budsjett for latens/kostnad. - Eksperimenter med computer use. Hvis du har noen arbeidsflyter for UI-automatisering, test dem mot GPT-5.4 sin innebygde computer-use-funksjonalitet. Du kan kanskje pensjonere skjøre Selenium-skripter.
- Gå gjennom din kontekstbruk. Med grensen for 272K-tilleggsavgift og 1M-vinduet, er det ekte penger å spare (eller kaste bort) avhengig av hvordan du strukturerer dine prompter.
Modellen er tilgjengelig nå som gpt-5.4 for Tier 1+ API-kontoer. Begynn å bygge.