GPT-5.4 API Developer Guide: Reasoning Effort, Computer Use, och Code Examples (2026)
← Tilbake til nyheter

GPT-5.4 API Developer Guide: Reasoning Effort, Computer Use, och Code Examples (2026)

N

NxCode Team

11 min read

Viktige poeng

  • Fem nivåer for reasoning effort: Parameteren reasoning.effort (none, low, medium, high, xhigh) kontrollerer avveiningen mellom kostnad og kvalitet per forespørsel -- none fungerer som en ikke-tenkende modell (raskest/billigst), mens xhigh gir maksimal dybde til 3-5x kostnaden.
  • Innebygd computer use via API: GPT-5.4 kan betjene skrivebordsprogrammer, klikke på knapper og navigere i brukergrensesnitt autonomt, og scorer 75% på OSWorld (noe som overgår menneskelige eksperters referanseverdi på 72.4%) -- aktiveres ved å sende inn en computer_use verktøytype.
  • 1M+ token kontekst til $2.50/$15: Inndatavinduet på 1,050,000 tokens behandler hele kodebaser i en enkelt forespørsel, selv om prisen på input dobles etter 272K tokens.
  • GPT-5.4 Pro koster 12x mer: Reserver Pro-varianten til $30/$180 per million tokens for kritiske oppgaver der nøyaktighet er avgjørende -- bruk standard GPT-5.4 som standard for de aller fleste arbeidsbelastninger.

GPT-5.4 API Utviklerveiledning: Reasoning Effort, Computer Use og kodeeksempler

March 11, 2026 -- GPT-5.4 er OpenAIs mest kapable modell til dags dato, og den leveres med API-funksjoner som i betydelig grad endrer hvordan du bygger med den. Justerbar reasoning effort, innebygd computer use, et 1M+ token kontekstvindu og betydelig forbedret kodegenerering -- alt gjennom det samme Chat Completions-endepunktet du allerede kjenner.

Denne veiledningen er for utviklere som ønsker å begynne å bygge med GPT-5.4 API i dag. Ingen markedsføringspreik. Bare modell-ID-er, parametere, kodeeksempler, prisberegninger og de praktiske avveiningene du må ta.


Kom i gang

Modell-ID-er

ModellAPI IDBest til
GPT-5.4gpt-5.4Generelle oppgaver, koding, resonnering, computer use
GPT-5.4 Progpt-5.4-proMaksimal nøyaktighet på komplekse, kritiske oppgaver

Ditt første API-kall

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "user", "content": "Explain the tradeoffs between B-trees and LSM-trees for write-heavy workloads."}
    ]
)

print(response.choices[0].message.content)

Det er alt. Hvis du har brukt en GPT-modell via Chat Completions API, er GPT-5.4 en direkte erstatning. Forskjellene ligger i de nye parameterne og funksjonene.

Prising

ModellInputOutputMerknader
GPT-5.4$2.50 / 1M tokens$15.00 / 1M tokensInput dobles etter 272K tokens
GPT-5.4 Pro$30.00 / 1M tokens$180.00 / 1M tokens12x kostnaden av standard

Kontekstvindu: 1,050,000 tokens input, 128,000 tokens maks output.

Tilgangskrav: Betalt API-konto med minimum $5 tidligere forbruk (Tier 1). Ikke tilgjengelig på gratisnivå.


Reasoning Effort: Kontroll over tenkebudsjettet

Den viktigste nye parameteren i GPT-5.4 er reasoning.effort. Den kontrollerer hvor mye intern beregningskraft modellen tildeler chain-of-thought-resonnering før den produserer et svar.

De fem nivåene

NivåOppførselBruksområde
noneIngen chain-of-thought. Raskest, billigst. Fungerer som en ikke-tenkende modell.Simple transformasjoner, formatering, ekstraksjon
lowMinimal resonnering. Raske logikksjekker.Enkel Q&A, klassifisering, oppsummering
mediumBalansert resonnering. Dette er standardvalget.Generell koding, analyse, de fleste produksjonsmiljøer
highUtvidede resonneringskjeder. Mer grundig.Kompleks feilsøking, arkitekturbeslutninger, flertrinnslogikk
xhighMaksimal resonneringsdybde. Tregest, men mest nøyaktig.Vanskelig matematikk, store refaktoreringer, sikkerhetsrevisjoner, forskning

Kodeeksempel: Innstilling av Reasoning Effort

from openai import OpenAI
client = OpenAI()

# High reasoning for a complex refactoring task
response = client.chat.completions.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},
    messages=[
        {"role": "user", "content": "Refactor this function to use async/await and handle all edge cases for network failures, timeouts, and partial responses:\n\ndef fetch_all_pages(url):\n    results = []\n    while url:\n        resp = requests.get(url)\n        data = resp.json()\n        results.extend(data['items'])\n        url = data.get('next')\n    return results"}
    ]
)

Praktisk veiledning om resonneringsnivåer

Start på medium og juster. For de fleste API-arbeidsbelastninger er standardvalget det riktige. Slik bør du tenke på det:

  • Latenssensitive baner (autofullfør, chat, sanntidsgrensesnitt): Bruk low eller none. Hastighetsforskjellen er betydelig, og for oppgaver som tekstformatering eller enkle oppslag, tilfører ekstra resonnering ingen verdi.

  • Batch-prosessering (pipelines for kodegjennomgang, dokumentanalyse, dataekstraksjon): Bruk high. Du blokkerer ikke en bruker, så den ekstra forsinkelsen spiller ingen rolle, og nøyaktighetsforbedringene akkumuleres over hundrevis av elementer.

  • Kritiske enkelte forespørsler (sikkerhetsrevisjon av en kodebase, kompleks migreringsplanlegging, design av nye algoritmer): Bruk xhigh. Dette er der 12x beregningskraft betaler seg selv.

Kostnadskonsekvens: Høyere reasoning effort betyr at flere interne tokens genereres (og faktureres). En forespørsel på xhigh kan koste 3–5 ganger mer enn samme forespørsel på low. Overvåk din token-bruk når du endrer nivåer.


Computer Use API

GPT-5.4 er den første generelle modellen med innebygde computer-use-funksjoner. I OSWorld-benchmarken scorer den 75 % – noe som overgår den menneskelige ekspert-referanseverdien på 72.4 %. Dette er ikke bare et skall rundt skjermbilder. Modellen forstår skrivebordsgrensesnitt naturlig og kan betjene dem autonomt.

Slik fungerer det

  1. Du sender en melding som beskriver hva du vil ha gjort
  2. Modellen tar skjermbilder av målmiljøet
  3. Den genererer museklikk, tastaturinndata og navigasjonshandlinger
  4. Den kjører en build-run-verify-fix-løkke for å sjekke sitt eget arbeid
  5. Den returnerer resultater eller ber om avklaring

Kodeeksempel: Computer Use

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.4",
    tools=[{"type": "computer_use"}],
    messages=[
        {"role": "user", "content": "Open the browser, go to github.com, and create a new repository called 'my-project'"}
    ]
)

Hva Computer Use kan gjøre

  • Nettleserautomatisering: Fylle ut skjemaer, navigere i flertrinns arbeidsflyter, hente strukturerte data fra dynamiske sider
  • Betjening av skrivebordsprogrammer: Åpne applikasjoner, samhandle med innebygde brukergrensesnitt, overføre data mellom programmer
  • Testing av arbeidsflyter: Klikke gjennom UI-flyter, verifisere visuelle tilstander, kjøre gjennom onboarding-sekvenser
  • Dataregistrering: Flytte data mellom regneark, CRMs og interne verktøy

Begrensninger å kjenne til

  • Latens: Hver handling-syklus innebærer et skjermbilde, modell-inferens og utførelse av handlingen. Flertrinns oppgaver tar tid.
  • Tilsyn kreves: Ikke kjør computer use uten tilsyn på sensitive systemer. Modellen kan feilklikke, feiltolke UI-elementer eller utføre utilsiktede handlinger.
  • Oppsett av miljø: Computer use krever et visningsmiljø. For automatisering på serversiden trenger du en virtuell skjerm (f.eks. Xvfb på Linux eller et virtuelt skrivebord).
  • Ingen filsystemtilgang som standard: Computer use opererer gjennom brukergrensesnittet, ikke direkte filsystemkall. Kombiner det med verktøy for kodeutførelse for hybride arbeidsflyter.

Koding med GPT-5.4

GPT-5.4 arver og forbedrer kodingsegenskapene til GPT-5.3 Codex. Benchmark-testene forteller historien:

BenchmarkGPT-5.4 ScoreHva den tester
SWE-Bench Pro57.7%Løsning av virkelige GitHub-problemer
SWE-Bench Verified~80%Kvalitetssikret delmengde av SWE-Bench
Terminal-Bench 2.075.1%Terminalbaserte utviklingsoppgaver

Hva er forskjellig fra GPT-5.3 Codex

  • 47 % færre tokens på komplekse oppgaver -- mindre ordgyteri, strammere kode
  • Endringer i flere filer med færre forsøk -- bedre forståelse av avhengigheter mellom filer
  • Følger repo-spesifikke mønstre -- tilpasser seg din kodebases konvensjoner når den får kontekst
  • 33 % færre faktiske feil -- mindre hallusinering i API-referanser, bibliotekbruk og konfigurasjon

Tips for bedre kodegenerering

1. Bruk system-prompter for å angi kodestandarder.

response = client.chat.completions.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},
    messages=[
        {"role": "system", "content": "You are a senior Python developer. Follow PEP 8. Use type hints. Write docstrings in Google style. Prefer composition over inheritance. Use dataclasses for DTOs."},
        {"role": "user", "content": "Implement a retry decorator with exponential backoff, jitter, and configurable max retries."}
    ]
)

2. Gi den din faktiske kode som kontekst. GPT-5.4 sitt 1M token kontekstvindu betyr at du kan inkludere hele moduler eller til og med fulle repositories. Modellen produserer betydelig bedre kode når den kan se eksisterende mønstre, typer og konvensjoner.

3. Sett reasoning effort til high eller xhigh for komplekse endringer. Enkle feilrettinger fungerer fint på medium, men arkitektoniske refaktoreringer, migreringer og endringer i flere filer drar målbar nytte av høyere reasoning effort.

4. Bruk max_completion_tokens for å forhindre løpske svar. For kodegenerering, sett en rimelig grense slik at du ikke blir fakturert for omfattende forklaringer du ikke ba om.

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[...],
    max_completion_tokens=4096
)

Strategier for store kontekster

Kontekstvinduet på 1,050,000 tokens er GPT-5.4 sin stille superkraft. Her er hvordan du bruker det effektivt – og unngår kostnadsfellene.

Tilleggsavgiften på 272K

Prisen for input dobles når du overskrider 272K tokens i en enkelt forespørsel. Det betyr at en forespørsel på 500K tokens koster omtrent:

  • Første 272K tokens: 272K x $2.50/1M = $0.68
  • Resterende 228K tokens: 228K x $5.00/1M = $1.14
  • Total inputkostnad: $1.82

Til sammenligning ville den samme forespørselen med standardprising kostet $1.25. Tilleggsavgiften øker regningen med ca. 46 % i dette tilfellet.

Kodeeksempel: Bruk av stor kontekst

from openai import OpenAI
client = OpenAI()

# Load entire codebase into context
with open("codebase_dump.txt", "r") as f:
    full_codebase_content = f.read()

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "system", "content": full_codebase_content},  # up to 1M tokens
        {"role": "user", "content": "Find all security vulnerabilities in this codebase"}
    ],
    max_completion_tokens=8192
)

Beste praksis for store kontekster

Gjør:

  • Plasser de mest relevante filene først. Modellen vier mest oppmerksomhet til starten og slutten av konteksten. Legg filene som er mest relevante for oppgaven først.
  • Bruk system-meldingen for referansemateriale. Plasser din kodebase, dokumentasjon eller data i system-meldingen. Legg dine faktiske instruksjoner i bruker-meldingen.
  • Angi max_completion_tokens eksplisitt. Med 128K maks output kan et svar uten grenser på en stor kontekst raskt bli dyrt.

Ikke gjør:

  • Ikke bruk hele vinduet hver gang. Hvis oppgaven din bare trenger 50K tokens med kontekst, ikke fyll det opp til 1M. Du betaler for input-tokens uavhengig av om modellen trenger dem eller ikke.
  • Ikke ignorer 272K-grensen. Strukturer dine prompter for å holde deg under 272K når det er mulig. Hvis du er på 280K, se om du kan fjerne 10K tokens med mindre relevant kontekst for å spare på tilleggsavgiften.
  • Ikke forvent perfekt gjenkalling over 1M tokens. Ytelsen degraderes gradvis med kontekstlengden. For høyest nøyaktighet, hold den mest kritiske informasjonen innenfor de første 200K tokens.

GPT-5.4 vs GPT-5.4 Pro: Når bør du oppgradere?

GPT-5.4 Pro koster 12x mer enn standard GPT-5.4. Her er når det er berettiget.

DimensjonGPT-5.4GPT-5.4 Pro
Inputkostnad$2.50 / 1M$30.00 / 1M
Outputkostnad$15.00 / 1M$180.00 / 1M
Best tilDe fleste utviklingsoppgaverMaksimal nøyaktighet på vanskelige problemer
ResonneringsdybdeSterk på alle nivåerDypere intern resonnering som standard
LatensStandardHøyere (mer beregningskraft per forespørsel)

Bruk standard GPT-5.4 når:

  • Du bygger produksjonsapplikasjoner med forutsigbare kostnader
  • Oppgavene er godt definerte (CRUD, transformasjoner, standard koding)
  • Du trenger lavere latens for brukerrettede funksjoner
  • Du behandler store mengder forespørsler

Bruk GPT-5.4 Pro når:

  • Nøyaktighet på en enkelt forespørsel betyr mer enn kostnad (juridisk analyse, medisinsk forskning, sikkerhetsrevisjoner)
  • Du takler nye problemer som modellen ikke har sett mange eksempler på
  • Flertrinns resonneringskjeder må være vanntette
  • Du utfører konkurransebasert benchmarking eller evaluering

Den praktiske regelen: Bruk standard som utgangspunkt. Kjør dine vanskeligste testtilfeller gjennom begge modeller. Hvis Pro konsekvent gir bedre resultater på din spesifikke arbeidsbelastning, bytt disse spesifikke kallene til Pro og behold alt annet på standard.


Migrering fra GPT-5.3 Codex

Hvis du for øyeblikket bruker GPT-5.3 Codex (eller GPT-5.2-Codex), er dette de viktigste forskjellene du må planlegge for.

Hva endres

OmrådeGPT-5.3 CodexGPT-5.4
Modell-IDgpt-5.3-codexgpt-5.4
Kontekstvindu1,000,000 tokens1,050,000 tokens
Computer useIkke tilgjengeligInnebygd støtte
Reasoning effortStøttetStøttet (samme parameter)
Prising (input)Varierer etter variant$2.50 / 1M tokens
Prising (output)Varierer etter variant$15.00 / 1M tokens
Token-effektivitetReferanseverdi47 % færre tokens på komplekse oppgaver

Sjekkliste for migrering

  1. Bytt modell-ID. Endre gpt-5.3-codex til gpt-5.4 i dine API-kall.
  2. Test dine innstillinger for reasoning effort. De samme innsatsnivåene eksisterer (none til xhigh), men GPT-5.4 kan produsere andre avveininger i kvalitet på hvert nivå. Evaluer dine standardvalg på nytt.
  3. Se over budsjetter for output-tokens. GPT-5.4 er mer kortfattet (47 % færre tokens på komplekse oppgaver). Du kan kanskje senke din max_completion_tokens og spare på output-kostnader.
  4. Evaluer computer use. Hvis du hadde midlertidige løsninger for UI-automatisering (Selenium-skripter, tilpassede verktøy), kan GPT-5.4 sin innebygde computer use kanskje erstatte dem.
  5. Vær oppmerksom på tilleggsavgiften på 272K. Hvis dine Codex-arbeidsbelastninger brukte store kontekster, men holdt seg under Codex sin prisstruktur, må du beregne kostnadene på nytt med GPT-5.4 sin lagdelte input-prising.

Hva forblir likt

  • Chat Completions API-endepunktet er identisk
  • System/user/assistant-meldingsroller fungerer på samme måte
  • Streaming, funksjonskalling og verktøybruk er alle kompatible
  • Syntaksen for reasoning-parameteren er uendret

Oversikt over benchmarks

For rask referanse, her er hvordan GPT-5.4 presterer i de benchmark-testene som betyr mest for utviklere:

BenchmarkScoreHva den måler
SWE-Bench Pro57.7%Kompleks programvareutvikling i den virkelige verden
SWE-Bench Verified~80%Kvalitetssikret løsning av GitHub-problemer
Terminal-Bench 2.075.1%Terminalbasert koding og systemoppgaver
OSWorld75.0%Betjening av stasjonær datamaskin (menneskelig referanse: 72.4%)
GDPval83%Profesjonelt kunnskapsarbeid på tvers av 44 yrker

Ytterligere kvalitetsmål:

  • 33 % færre faktiske feil sammenlignet med GPT-5.2
  • 18 % færre svar med noen form for feil totalt sett

Oppsummering

GPT-5.4 er ikke en revolusjonerende API-endring – det er en praktisk en. Det samme endepunktet, det samme meldingsformatet, de samme mønstrene for verktøybruk. Det som er nytt er at du nå har finkornet kontroll over beregningskraft for resonnering, innebygd computer-use uten tredjepartsverktøy, et kontekstvindu som er stort nok for hele kodebaser, og betydelig bedre kodesvar.

De tre tingene du bør gjøre akkurat nå:

  1. Angi reasoning.effort bevisst. Ikke stol på standardvalget for hvert kall. Tilpass innsatsnivået til oppgavens kompleksitet og ditt budsjett for latens/kostnad.
  2. Eksperimenter med computer use. Hvis du har noen arbeidsflyter for UI-automatisering, test dem mot GPT-5.4 sin innebygde computer-use-funksjonalitet. Du kan kanskje pensjonere skjøre Selenium-skripter.
  3. Gå gjennom din kontekstbruk. Med grensen for 272K-tilleggsavgift og 1M-vinduet, er det ekte penger å spare (eller kaste bort) avhengig av hvordan du strukturerer dine prompter.

Modellen er tilgjengelig nå som gpt-5.4 for Tier 1+ API-kontoer. Begynn å bygge.

Tilbake til alle nyheter
Likte du denne artikkelen?

Bygg med NxCode

Gjør ideen din til en fungerende app — ingen koding nødvendig.

46 000+ utviklere bygget med NxCode denne måneden

Prøv selv

Beskriv hva du vil ha — NxCode bygger det for deg.

46 000+ utviklere bygget med NxCode denne måneden