GPT-5.4 API Developer Guide: Reasoning Effort, Computer Use, a Code Examples (2026)
← Tilbage til nyheder

GPT-5.4 API Developer Guide: Reasoning Effort, Computer Use, a Code Examples (2026)

N

NxCode Team

11 min read

Vigtigste pointer

  • Fem niveauer for ræsonnementsindsats: Parameteren reasoning.effort (none, low, medium, high, xhigh) styrer afvejningen mellem omkostning og kvalitet pr. anmodning -- none fungerer som en model uden tænkning (hurtigst/billigst), mens xhigh giver maksimal dybde til 3-5x prisen.
  • Indfødt computerbrug via API: GPT-5.4 kan styre desktop-apps, klikke på knapper og navigere i brugergrænseflader autonomt og scorer 75% på OSWorld (hvilket overgår den menneskelige ekspert-baseline på 72,4%) -- dette aktiveres ved at sende en computer_use værktøjstype.
  • 1M+ tokens kontekst til $2.50/$15: Vinduet med 1,050,000-tokens input behandler hele kodebaser i en enkelt anmodning, selvom input-prisen fordobles efter 272K tokens.
  • GPT-5.4 Pro koster 12x mere: Reserver Pro-varianten til $30/$180 pr. million tokens til kritiske opgaver, hvor nøjagtighed er altafgørende -- brug standard GPT-5.4 til langt de fleste arbejdsopgaver.

GPT-5.4 API-udviklervejledning: Ræsonnementsindsats, computerbrug og kodeeksempler

March 11, 2026 -- GPT-5.4 er OpenAI's mest kapable model til dato, og den leveres med API-funktioner, der markant ændrer, hvordan du bygger med den. Justerbar ræsonnementsindsats, indfødt computerbrug, et 1M+ tokens kontekstvindue og markant forbedret kodegenerering -- alt sammen gennem det samme Chat Completions endpoint, som du allerede kender.

Denne vejledning er til udviklere, der ønsker at begynde at bygge med GPT-5.4 API i dag. Ingen marketing-snak. Kun model-ID'er, parametre, kodeeksempler, prisberegninger og de praktiske afvejninger, du skal foretage.


Hurtig start

Model-ID'er

ModelAPI IDBedst til
GPT-5.4gpt-5.4Generelle opgaver, kodning, ræsonnement, computerbrug
GPT-5.4 Progpt-5.4-proMaksimal nøjagtighed ved komplekse og kritiske opgaver

Dit første API-kald

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "user", "content": "Explain the tradeoffs between B-trees and LSM-trees for write-heavy workloads."}
    ]
)

print(response.choices[0].message.content)

Det er det hele. Hvis du har brugt en GPT-model via Chat Completions API, er GPT-5.4 en direkte erstatning. Forskellene ligger i de nye parametre og funktioner.

Prissætning

ModelInputOutputNoter
GPT-5.4$2.50 / 1M tokens$15.00 / 1M tokensInput fordobles efter 272K tokens
GPT-5.4 Pro$30.00 / 1M tokens$180.00 / 1M tokens12x prisen af standard

Kontekstvindue: 1,050,000 tokens input, 128,000 tokens maks output.

Adgangskrav: Betalt API-konto med minimum $5 tidligere forbrug (Tier 1). Ikke tilgængelig på den gratis version.


Ræsonnementsindsats: Styring af tænkebudgettet

Den vigtigste nye parameter i GPT-5.4 er reasoning.effort. Den styrer, hvor meget intern beregningskraft modellen tildeler chain-of-thought ræsonnement, før den producerer et svar.

De fem niveauer

NiveauAdfærdHvornår det skal bruges
noneIngen tankekæde. Hurtigst, billigst. Fungerer som en ikke-tænkende model.Simple transformationer, formatering, ekstraktion
lowMinimalt ræsonnement. Hurtige tjek.Enkel Q&A, klassificering, opsummering
mediumBalanceret ræsonnement. Dette er standarden.Generel kodning, analyse, de fleste produktionsopgaver
highUdvidede ræsonnement-kæder. Mere grundig.Kompleks fejlfinding, arkitekturbeslutninger, logik i flere trin
xhighMaksimal ræsonnementdybde. Langsomst men mest nøjagtig.Svær matematik, store refaktoreringer, sikkerhedsrevisioner, forskning

Kodeeksempel: Indstilling af ræsonnementsindsats

from openai import OpenAI
client = OpenAI()

# Høj ræsonnement for en kompleks refaktoreringsopgave
response = client.chat.completions.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},
    messages=[
        {"role": "user", "content": "Refactor this function to use async/await and handle all edge cases for network failures, timeouts, and partial responses:\n\ndef fetch_all_pages(url):\n    results = []\n    while url:\n        resp = requests.get(url)\n        data = resp.json()\n        results.extend(data['items'])\n        url = data.get('next')\n    return results"}
    ]
)

Praktisk vejledning om ræsonnement-niveauer

Start ved medium og juster. For de fleste API-arbejdsopgaver er standardindstillingen det rigtige valg. Her er hvordan du skal tænke over det:

  • Latensfølsomme stier (autofunktioner, chat, realtids-brugergrænseflader): Brug low eller none. Hastighedsforskellen er betydelig, og for opgaver som tekstformatering eller simple opslag giver ekstra ræsonnement ingen værdi.

  • Batch-behandling (pipelines til kodegennemgang, dokumentanalyse, dataekstraktion): Brug high. Du blokerer ikke en bruger, så den ekstra ventetid betyder intet, og forbedringer i nøjagtighed hober sig op over hundreder af emner.

  • Kritiske enkeltanmodninger (sikkerhedsrevision af en kodebase, kompleks migrationsplanlægning, nyt algoritmedesign): Brug xhigh. Det er her, den 12x beregningskraft tjener sig selv hjem.

Omkostningsmæssig konsekvens: Højere ræsonnementsindsats betyder, at der genereres (og faktureres) flere interne tokens. En anmodning på xhigh kan koste 3--5x mere end den samme anmodning på low. Overvåg dit forbrug af tokens, når du ændrer niveauer.


Computer Use API

GPT-5.4 er den første generelle model med indfødte funktioner til computerbrug. På OSWorld-benchmark scorer den 75% -- hvilket overgår den menneskelige ekspert-baseline på 72,4%. Dette er ikke bare en løsning baseret på screenshots. Modellen forstår indfødt desktop-grænseflader og kan betjene dem autonomt.

Sådan fungerer det

  1. Du sender en prompt, der beskriver, hvad du vil have gjort
  2. Modellen tager screenshots af målmiljøet
  3. Den genererer museklik, tastaturinput og navigationshandlinger
  4. Den udfører en build-run-verify-fix-løkke for at tjekke sit eget arbejde
  5. Den returnerer resultater eller beder om afklaring

Kodeeksempel: Computerbrug

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.4",
    tools=[{"type": "computer_use"}],
    messages=[
        {"role": "user", "content": "Open the browser, go to github.com, and create a new repository called 'my-project'"}
    ]
)

Hvad computerbrug kan gøre

  • Browser-automatisering: Udfylde formularer, navigere i arbejdsgange med flere trin, skrabe strukturerede data fra dynamiske sider
  • Betjening af desktop-apps: Åbne applikationer, interagere med indfødte brugergrænseflader, overføre data mellem programmer
  • Test-arbejdsgange: Klikke gennem UI-flows, verificere visuelle tilstande, gennemgå onboarding-sekvenser
  • Dataindtastning: Flytte data mellem regneark, CRM-systemer og interne værktøjer

Begrænsninger, du bør kende

  • Latens: Hver handlingscyklus involverer et screenshot, model-inferens og udførelse af handlingen. Opgaver med flere trin tager tid.
  • Opsyn påkrævet: Kør ikke computerbrug uden opsyn på følsomme systemer. Modellen kan klikke forkert, fejlfortolke UI-elementer eller foretage utilsigtede handlinger.
  • Opsætning af miljø: Computerbrug kræver et skærmmiljø. Til automatisering på serversiden skal du bruge en virtuel skærm (f.eks. Xvfb på Linux eller et virtuelt skrivebord).
  • Ingen adgang til filsystemet som standard: Computerbrug fungerer via brugergrænsefladen, ikke direkte kald til filsystemet. Kombiner det med kodeudførelsesværktøjer for hybride arbejdsgange.

Kodning med GPT-5.4

GPT-5.4 arver og forbedrer GPT-5.3 Codex's evner til kodning. Benchmarks fortæller historien:

BenchmarkGPT-5.4 ScoreHvad det tester
SWE-Bench Pro57.7%Løsning af GitHub-problemer fra den virkelige verden
SWE-Bench Verified~80%Udvalgt undersæt af SWE-Bench
Terminal-Bench 2.075.1%Terminal-baserede udviklingsopgaver

Hvad er forskellen fra GPT-5.3 Codex

  • 47% færre tokens på komplekse opgaver -- mindre ordrigt output, strammere kode
  • Ændringer i flere filer med færre forsøg -- bedre forståelse af afhængigheder på tværs af filer
  • Følger repo-specifikke mønstre -- tilpasser sig din kodebases konventioner, når den får kontekst
  • 33% færre faktuelle fejl -- færre hallucinationer i API-referencer, biblioteksbrug og konfiguration

Tips til bedre kodegenerering

1. Brug system-prompts til at fastsætte kodestandarder.

response = client.chat.completions.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},
    messages=[
        {"role": "system", "content": "You are a senior Python developer. Follow PEP 8. Use type hints. Write docstrings in Google style. Prefer composition over inheritance. Use dataclasses for DTOs."},
        {"role": "user", "content": "Implement a retry decorator with exponential backoff, jitter, and configurable max retries."}
    ]
)

2. Giv den din faktiske kode som kontekst. GPT-5.4's 1M tokens kontekstvindue betyder, at du kan inkludere hele moduler eller endda fulde repositories. Modellen producerer betydeligt bedre kode, når den kan se eksisterende mønstre, typer og konventioner.

3. Sæt ræsonnementsindsats til high eller xhigh for komplekse ændringer. Simple fejlrettelser fungerer fint ved medium, men arkitektoniske refaktoreringer, migreringer og ændringer i flere filer har målbart gavn af højere ræsonnementsindsats.

4. Brug max_completion_tokens for at forhindre løbske svar. Ved kodegenerering bør du sætte en rimelig grænse, så du ikke bliver faktureret for ordrige forklaringer, du ikke har bedt om.

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[...],
    max_completion_tokens=4096
)

Strategier for store kontekster

Kontekstvinduet på 1,050,000-tokens er GPT-5.4's stille superkraft. Her er hvordan du bruger det effektivt -- og undgår omkostningsfælder.

272K-tillægget

Input-prisen fordobles, når du overstiger 272K tokens i en enkelt anmodning. Det betyder, at en anmodning på 500K-tokens koster ca.:

  • De første 272K tokens: 272K x $2.50/1M = $0.68
  • De resterende 228K tokens: 228K x $5.00/1M = $1.14
  • Samlet input-omkostning: $1.82

Til sammenligning ville den samme anmodning til standardpris koste $1.25. Tillægget lægger ~46% til regningen i dette tilfælde.

Kodeeksempel: Brug af stor kontekst

from openai import OpenAI
client = OpenAI()

# Indlæs hele kodebasen i kontekst
with open("codebase_dump.txt", "r") as f:
    full_codebase_content = f.read()

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "system", "content": full_codebase_content},  # op til 1M tokens
        {"role": "user", "content": "Find all security vulnerabilities in this codebase"}
    ],
    max_completion_tokens=8192
)

Best practices for store kontekster

Gør dette:

  • Placer de mest relevante filer først. Modellen er mest opmærksom på begyndelsen og slutningen af konteksten. Læg de filer, der er mest relevante for opgaven, først.
  • Brug system-beskeder til referencemateriale. Placer din kodebase, dokumentation eller data i system-beskeden. Placer dine faktiske instruktioner i bruger-beskeden.
  • Sæt max_completion_tokens eksplicit. Med 128K maks output kan et svar uden begrænsning på en stor kontekst hurtigt blive dyrt.

Gør ikke dette:

  • Brug ikke altid det fulde vindue. Hvis din opgave kun kræver 50K tokens kontekst, så lad være med at fylde op til 1M. Du betaler for input-tokens, uanset om modellen har brug for dem eller ej.
  • Ignorer ikke 272K-grænsen. Strukturér dine prompts, så de holder sig under 272K, når det er muligt. Hvis du ligger på 280K, så se om du kan fjerne 10K tokens af mindre relevant kontekst for at spare på tillægget.
  • Forvent ikke perfekt hukommelse over 1M tokens. Ydeevnen falder gradvist med kontekstlængden. For den højeste nøjagtighed bør du holde den mest kritiske information inden for de første 200K tokens.

GPT-5.4 vs GPT-5.4 Pro: Hvornår skal man opgradere

GPT-5.4 Pro koster 12x mere end standard GPT-5.4. Her er hvornår det er retfærdiggjort.

DimensionGPT-5.4GPT-5.4 Pro
Input-omkostning$2.50 / 1M$30.00 / 1M
Output-omkostning$15.00 / 1M$180.00 / 1M
Bedst tilDe fleste udviklingsopgaverMaksimal nøjagtighed ved svære problemer
RæsonnementdybdeStærk på alle niveauerDybere internt ræsonnement som standard
LatensStandardHøjere (mere beregning pr. anmodning)

Brug standard GPT-5.4 når:

  • Du bygger produktionsapplikationer med forudsigelige omkostninger
  • Opgaver er veldefinerede (CRUD, transformationer, standardkodning)
  • Du har brug for lavere latens til brugerrettede funktioner
  • Du behandler store mængder anmodninger

Brug GPT-5.4 Pro når:

  • Nøjagtighed i en enkelt anmodning betyder mere end omkostninger (juridisk analyse, medicinsk forskning, sikkerhedsrevisioner)
  • Du tager fat på nye problemer, som modellen ikke har set mange eksempler på
  • Ræsonnement-kæder i flere trin skal være fuldstændig vandtætte
  • Du foretager konkurrencepræget benchmarking eller evaluering

Den praktiske regel: Brug standard som udgangspunkt. Kør dine sværeste testcases gennem begge modeller. Hvis Pro konsekvent producerer bedre resultater på din specifikke opgave, så skift de specifikke kald til Pro og behold alt andet på standard.


Migrering fra GPT-5.3 Codex

Hvis du i øjeblikket bruger GPT-5.3 Codex (eller GPT-5.2-Codex), er her de vigtigste forskelle, du skal planlægge efter.

Hvad ændrer sig

OmrådeGPT-5.3 CodexGPT-5.4
Model IDgpt-5.3-codexgpt-5.4
Kontekstvindue1,000,000 tokens1,050,000 tokens
ComputerbrugIkke tilgængeligIndfødt support
RæsonnementsindsatsUnderstøttetUnderstøttet (samme parameter)
Prissætning (input)Varierer efter variant$2.50 / 1M tokens
Prissætning (output)Varierer efter variant$15.00 / 1M tokens
Token-effektivitetBaseline47% færre tokens på komplekse opgaver

Tjekliste til migrering

  1. Udskift model-ID. Skift gpt-5.3-codex til gpt-5.4 i dine API-kald.
  2. Test dine indstillinger for ræsonnementsindsats. De samme niveauer findes (none til xhigh), men GPT-5.4 kan producere andre kvalitetsmæssige afvejninger på hvert niveau. Genovervej dine standardindstillinger.
  3. Gennemgå budgetter for output-tokens. GPT-5.4 er mere kortfattet (47% færre tokens på komplekse opgaver). Du kan muligvis sænke din max_completion_tokens og spare på output-omkostninger.
  4. Evaluer computerbrug. Hvis du havde midlertidige løsninger til UI-automatisering (Selenium-scripts, brugerdefinerede værktøjer), kan GPT-5.4's indfødte computerbrug muligvis erstatte dem.
  5. Hold øje med 272K-tillægget. Hvis dine Codex-arbejdsopgaver brugte store kontekster, men holdt sig inden for Codex's prisstruktur, skal du genberegne omkostningerne med GPT-5.4's lagdelte input-prissætning.

Hvad forbliver det samme

  • Chat Completions API-endpointet er identisk
  • System/user/assistant besked-roller fungerer på samme måde
  • Streaming, funktionskald og værktøjsbrug er alle kompatible
  • Syntaksen for reasoning-parameteren er uændret

Hurtigt overblik over benchmarks

Til hurtig reference er her, hvordan GPT-5.4 klarer sig på de benchmarks, der betyder mest for udviklere:

BenchmarkScoreHvad det måler
SWE-Bench Pro57.7%Kompleks softwareudvikling i den virkelige verden
SWE-Bench Verified~80%Udvalgt løsning af GitHub-problemer
Terminal-Bench 2.075.1%Terminal-baseret kodning og systemopgaver
OSWorld75.0%Betjening af desktop-computer (menneskelig baseline: 72,4%)
GDPval83%Professionelt vidensarbejde på tværs af 44 erhverv

Yderligere kvalitetsmål:

  • 33% færre faktuelle fejl sammenlignet med GPT-5.2
  • 18% færre svar med fejl overordnet set

Resumé

GPT-5.4 er ikke en revolutionerende API-ændring -- det er en praktisk en. Det samme endpoint, det samme beskedformat, de samme mønstre for værktøjsbrug. Det nye er, at du nu har finkornet kontrol over ræsonnementsberegning, indfødt computerbrug uden tredjepartsværktøjer, et kontekstvindue, der er stort nok til hele kodebaser, og markant bedre kode-output.

De tre ting, du skal gøre lige nu:

  1. Indstil reasoning.effort bevidst. Stol ikke på standarden for hvert kald. Match indsatsniveauet til opgavens kompleksitet og dit budget for latens/omkostninger.
  2. Eksperimenter med computerbrug. Hvis du har arbejdsgange med UI-automatisering, så test dem mod GPT-5.4's indfødte funktioner til computerbrug. Du kan muligvis pensionere skrøbelige Selenium-scripts.
  3. Gennemgå dit kontekstforbrug. Med 272K-tillægsgrænsen og 1M-vinduet er der rigtige penge at spare (eller spilde) afhængigt af, hvordan du strukturerer dine prompts.

Modellen er tilgængelig nu som gpt-5.4 for Tier 1+ API-konti. Begynd at bygge.

Tilbage til alle nyheder
Nød du denne artikel?

Byg med NxCode

Forvandl din idé til en fungerende app — ingen kodning krævet.

46.000+ udviklere byggede med NxCode denne måned

Prøv det selv

Beskriv hvad du vil have — NxCode bygger det for dig.

46.000+ udviklere byggede med NxCode denne måned