Viktiga slutsatser
- Fem resonemangsnivåer: Parametern
reasoning.effort(none,low,medium,high,xhigh) styr avvägningen mellan kostnad och kvalitet per anrop --nonefungerar som en modell utan tänkande (snabbast/billigast), medanxhighger maximalt djup till 3-5x kostnaden. - Inbyggd datoranvändning via API: GPT-5.4 kan styra skrivbordsappar, klicka på knappar och navigera i gränssnitt autonomt, med ett resultat på 75% i OSWorld (vilket överträffar baslinjen för mänskliga experter på 72.4%) -- detta aktiveras genom att skicka verktygstypen
computer_use. - 1M+ token kontext för $2.50/$15: Inmatningsfönstret på 1,050,000-token bearbetar hela kodbaser i ett enda anrop, även om inmatningspriset fördubblas efter 272K tokens.
- GPT-5.4 Pro kostar 12x mer: Reservera Pro-varianten för $30/$180 per miljon tokens för kritiska uppgifter där noggrannhet är avgörande -- använd standard GPT-5.4 för de allra flesta arbetsbelastningar.
GPT-5.4 API Utvecklarguide: Resonemangsinsats, datoranvändning och kodexempel
March 11, 2026 -- GPT-5.4 är OpenAI:s mest kapabla modell hittills, och den levereras med API-funktioner som fundamentalt förändrar hur du bygger med den. Justerbar resonemangsinsats, inbyggd datoranvändning, ett kontextfönster på 1M+ tokens och avsevärt förbättrad kodgenerering -- allt via samma Chat Completions-endpoint som du redan känner till.
Denna guide är för utvecklare som vill börja bygga med GPT-5.4 API idag. Inget marknadsföringstugg. Bara modell-ID:n, parametrar, kodexempel, prisberäkningar och de praktiska avvägningar du behöver göra.
Snabbstart
Modell-ID:n
| Modell | API ID | Bäst för |
|---|---|---|
| GPT-5.4 | gpt-5.4 | Allmänna uppgifter, kodning, resonemang, datoranvändning |
| GPT-5.4 Pro | gpt-5.4-pro | Maximal noggrannhet för komplexa, kritiska uppgifter |
Ditt första API-anrop
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "user", "content": "Explain the tradeoffs between B-trees and LSM-trees for write-heavy workloads."}
]
)
print(response.choices[0].message.content)
Det är allt. Om du har använt någon GPT-modell via Chat Completions API är GPT-5.4 en direkt ersättare. Skillnaderna ligger i de nya parametrarna och förmågorna.
Prissättning
| Modell | Inmatning | Utmatning | Noteringar |
|---|---|---|---|
| GPT-5.4 | $2.50 / 1M tokens | $15.00 / 1M tokens | Inmatningspriset fördubblas efter 272K tokens |
| GPT-5.4 Pro | $30.00 / 1M tokens | $180.00 / 1M tokens | 12x kostnaden för standard |
Kontextfönster: 1,050,000 tokens inmatning, 128,000 tokens max utmatning.
Åtkomstkrav: Betalt API-konto med minst $5 i tidigare utgifter (Tier 1). Inte tillgänglig på gratisnivån.
Resonemangsinsats: Kontrollera tänkebudgeten
Den viktigaste nya parametern i GPT-5.4 är reasoning.effort. Den styr hur mycket intern beräkningskraft modellen tilldelar till Chain-of-thought-resonemang innan den genererar ett svar.
De fem nivåerna
| Nivå | Beteende | När den ska användas |
|---|---|---|
none | Ingen Chain-of-thought. Snabbast, billigast. Fungerar som en modell utan tänkande. | Enkla transformationer, formatering, extrahering |
low | Minimalt resonemang. Snabba rimlighetskontroller. | Okomplicerad Q&A, klassificering, sammanfattning |
medium | Balanserat resonemang. Detta är standardvalet. | Allmän kodning, analys, de flesta produktionsmiljöer |
high | Utökade resonemangskedjor. Mer grundlig. | Komplex felsökning, arkitekturbeslut, flerstegslogik |
xhigh | Maximalt resonemangsdjup. Långsammast men mest noggrann. | Svår matematik, stora refaktoriseringar, säkerhetsgranskningar, forskning |
Kodexempel: Ställa in resonemangsinsats
from openai import OpenAI
client = OpenAI()
# High resonemang för en komplex refaktoreringsuppgift
response = client.chat.completions.create(
model="gpt-5.4",
reasoning={"effort": "high"},
messages=[
{"role": "user", "content": "Refactor this function to use async/await and handle all edge cases for network failures, timeouts, and partial responses:\n\ndef fetch_all_pages(url):\n results = []\n while url:\n resp = requests.get(url)\n data = resp.json()\n results.extend(data['items'])\n url = data.get('next')\n return results"}
]
)
Praktisk vägledning för resonemangsnivåer
Börja på medium och justera. För de flesta API-arbetsbelastningar är standardvalet det rätta. Så här bör du tänka:
-
Latenskänsliga flöden (autokomplettering, chatt, gränssnitt i realtid): Använd
lowellernone. Skillnaden i hastighet är betydande, och för uppgifter som textformatering eller enkla uppslag ger extra resonemang inget mervärde. -
Batchbearbetning (kodgranskningsflöden, dokumentanalys, dataextrahering): Använd
high. Du blockerar inte en användare, så den extra latensen spelar ingen roll, och förbättringarna i noggrannhet ackumuleras över hundratals objekt. -
Kritiska enskilda anrop (säkerhetsgranskning av en kodbas, komplex migrationsplanering, design av nya algoritmer): Använd
xhigh. Det är här 12x beräkningskraft lönar sig.
Kostnadskonsekvens: Högre resonemangsinsats innebär att fler interna tokens genereras (och faktureras). Ett anrop med xhigh kan kosta 3--5x mer än samma anrop med low. Övervaka din token-användning när du ändrar nivåer.
API för datoranvändning
GPT-5.4 är den första generella modellen med inbyggda förmågor för datoranvändning. I OSWorld-benchmarken får den 75% -- vilket överträffar baslinjen för mänskliga experter på 72.4%. Detta är inte bara ett skal kring skärmbilder. Modellen förstår skrivbordsgränssnitt nativt och kan använda dem autonomt.
Hur det fungerar
- Du skickar en prompt som beskriver vad du vill ha gjort.
- Modellen tar skärmbilder av målmiljön.
- Den genererar musklick, tangentbordsinmatningar och navigeringsåtgärder.
- Den kör en bygg-kör-verifiera-laga-loop för att kontrollera sitt eget arbete.
- Den returnerar resultat eller ber om förtydligande.
Kodexempel: Datoranvändning
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5.4",
tools=[{"type": "computer_use"}],
messages=[
{"role": "user", "content": "Open the browser, go to github.com, and create a new repository called 'my-project'"}
]
)
Vad datoranvändning kan göra
- Webbläsarautomatisering: Fylla i formulär, navigera i flerstegsflöden, skrapa strukturerad data från dynamiska sidor.
- Hantering av skrivbordsappar: Öppna applikationer, interagera med nativa gränssnitt, överföra data mellan program.
- Testflöden: Klicka igenom UI-flöden, verifiera visuella tillstånd, gå igenom onboarding-sekvenser.
- Datainmatning: Flytta data mellan kalkylblad, CRM-system och interna verktyg.
Begränsningar att känna till
- Latens: Varje åtgärdscykel innefattar en skärmbild, modellinferens och exekvering av åtgärd. Flerstegsuppgifter tar tid i anspråk.
- Övervakning krävs: Kör inte datoranvändning utan tillsyn på känsliga system. Modellen kan klicka fel, feltolka UI-element eller vidta oavsiktliga åtgärder.
- Miljökonfiguration: Datoranvändning kräver en skärmmiljö. För automatisering på serversidan behöver du en virtuell skärm (t.ex. Xvfb på Linux eller ett virtuellt skrivbord).
- Ingen filsystemåtkomst som standard: Datoranvändning sker via gränssnittet, inte genom direkta filsystemanrop. Kombinera det med kodexekveringsverktyg för hybridflöden.
Kodning med GPT-5.4
GPT-5.4 ärver och förbättrar kodningsförmågan från GPT-5.3 Codex. Benchmark-resultaten talar sitt tydliga språk:
| Benchmark | GPT-5.4 Resultat | Vad det testar |
|---|---|---|
| SWE-Bench Pro | 57.7% | Lösning av verkliga GitHub-problem |
| SWE-Bench Verified | ~80% | Gallrat urval av SWE-Bench |
| Terminal-Bench 2.0 | 75.1% | Terminalbaserade utvecklingsuppgifter |
Vad som skiljer sig från GPT-5.3 Codex
- 47% färre tokens för komplexa uppgifter -- mindre pratig output, stramare kod.
- Ändringar i flera filer med färre omförsök -- bättre förståelse för beroenden mellan filer.
- Följer repospecifika mönster -- anpassar sig till din kodbas konventioner när kontext tillhandahålls.
- 33% färre faktiska fel -- mindre hallucinering i API-referenser, biblioteksanvändning och konfiguration.
Tips för bättre kodgenerering
1. Använd system-prompter för att ställa in kodstandarder.
# System-prompt för senior utvecklarstandard
response = client.chat.completions.create(
model="gpt-5.4",
reasoning={"effort": "high"},
messages=[
{"role": "system", "content": "You are a senior Python developer. Follow PEP 8. Use type hints. Write docstrings in Google style. Prefer composition over inheritance. Use dataclasses for DTOs."},
{"role": "user", "content": "Implement a retry decorator with exponential backoff, jitter, and configurable max retries."}
]
)
2. Mata den med din faktiska kod för kontext. GPT-5.4:s kontextfönster på 1M tokens innebär att du kan inkludera hela moduler eller till och med fullständiga arkiv. Modellen producerar avsevärt bättre kod när den kan se befintliga mönster, typer och konventioner.
3. Ställ in resonemangsinsats till high eller xhigh för komplexa ändringar. Enkla buggfixar fungerar bra på medium, men arkitektoniska refaktoriseringar, migreringar och ändringar i flera filer drar mätbar nytta av högre resonemangsinsats.
4. Använd max_completion_tokens för att förhindra skenande svar. För kodgenerering bör du ställa in en rimlig gräns så att du inte faktureras för ordrika förklaringar som du inte bad om.
response = client.chat.completions.create(
model="gpt-5.4",
messages=[...],
max_completion_tokens=4096
)
Strategier för stora kontexter
Kontextfönstret på 1,050,000-token är GPT-5.4:s dolda superkraft. Så här använder du det effektivt -- och undviker kostnadsfällor.
Tilläggsavgiften vid 272K
Inmatningspriset fördubblas när du överskrider 272K tokens i ett enda anrop. Det betyder att ett anrop med 500K tokens kostar ungefär:
- Första 272K tokens: 272K x $2.50/1M = $0.68
- Återstående 228K tokens: 228K x $5.00/1M = $1.14
- Total inmatningskostnad: $1.82
Som jämförelse skulle samma anrop med standardprissättning kosta $1.25. Tilläggsavgiften lägger till ~46% på fakturan i detta fall.
Kodexempel: Användning av stor kontext
from openai import OpenAI
client = OpenAI()
# Ladda hela kodbasen i kontexten
with open("codebase_dump.txt", "r") as f:
full_codebase_content = f.read()
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "system", "content": full_codebase_content}, # upp till 1M tokens
{"role": "user", "content": "Find all security vulnerabilities in this codebase"}
],
max_completion_tokens=8192
)
Bästa praxis för stora kontexter
Gör detta:
- Placera de mest relevanta filerna först. Modellen är mest uppmärksam på början och slutet av kontexten. Lägg de filer som är mest relevanta för uppgiften först.
- Använd systemmeddelandet för referensmaterial. Placera din kodbas, dokumentation eller data i systemmeddelandet. Lägg dina faktiska instruktioner i användarmeddelandet.
- Ställ in
max_completion_tokensexplicit. Med 128K max utmatning kan ett obegränsat svar på en stor kontext snabbt bli dyrt.
Gör inte detta:
- Använd inte alltid hela fönstret. Om din uppgift bara behöver 50K tokens kontext, fyll inte ut det till 1M. Du betalar för inmatningstokens oavsett om modellen behöver dem eller inte.
- Ignorera inte 272K-gränsen. Strukturera dina prompter för att hålla dig under 272K när det är möjligt. Om du ligger på 280K, se om du kan ta bort 10K tokens av mindre relevant kontext för att spara in på tilläggsavgiften.
- Förvänta dig inte perfekt minne över 1M tokens. Prestandan försämras gradvis med kontextlängden. För högsta noggrannhet, håll den mest kritiska informationen inom de första 200K tokens.
GPT-5.4 mot GPT-5.4 Pro: När ska man uppgradera?
GPT-5.4 Pro kostar 12x mer än standard GPT-5.4. Här är när det är motiverat.
| Dimension | GPT-5.4 | GPT-5.4 Pro |
|---|---|---|
| Inmatningskostnad | $2.50 / 1M | $30.00 / 1M |
| Utmatningskostnad | $15.00 / 1M | $180.00 / 1M |
| Bäst för | De flesta utvecklingsuppgifter | Maximal noggrannhet vid svåra problem |
| Resonemangsdjup | Stark på alla nivåer | Djupare internt resonemang som standard |
| Latens | Standard | Högre (mer beräkningskraft per anrop) |
Använd standard GPT-5.4 när:
- Du bygger produktionsapplikationer med förutsägbara kostnader.
- Uppgifterna är väl-definierade (CRUD, transformationer, standardkodning).
- Du behöver lägre latens för användarvända funktioner.
- Du bearbetar stora volymer av anrop.
Använd GPT-5.4 Pro när:
- Noggrannhet i ett enskilt anrop är viktigare än kostnad (juridisk analys, medicinsk forskning, säkerhetsgranskningar).
- Du tar dig an nya problem som modellen inte sett många exempel på.
- Flerstegs resonemangskedjor måste vara vattentäta.
- Du utför konkurrenskraftig benchmarking eller utvärdering.
Den praktiska regeln: Använd standard som förval. Kör dina svåraste testfall genom båda modellerna. Om Pro konsekvent ger bättre resultat för din specifika arbetsbelastning, byt ut de specifika anropen till Pro och behåll allt annat på standard.
Migrering från GPT-5.3 Codex
Om du för närvarande använder GPT-5.3 Codex (eller GPT-5.2-Codex), här är de viktigaste skillnaderna att planera för.
Vad som ändras
| Område | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Modell-ID | gpt-5.3-codex | gpt-5.4 |
| Kontextfönster | 1,000,000 tokens | 1,050,000 tokens |
| Datoranvändning | Inte tillgänglig | Inbyggt stöd |
| Resonemangsinsats | Stöds | Stöds (samma parameter) |
| Pris (inmatning) | Varierar beroende på variant | $2.50 / 1M tokens |
| Pris (utmatning) | Varierar beroende på variant | $15.00 / 1M tokens |
| Token-effektivitet | Baslinje | 47% färre tokens för komplexa uppgifter |
Checklista för migrering
- Byt modell-ID. Ändra
gpt-5.3-codextillgpt-5.4i dina API-anrop. - Testa dina inställningar för resonemangsinsats. Samma insatsnivåer finns (
nonetillxhigh), men GPT-5.4 kan ge andra kvalitetsavvägningar vid varje nivå. Utvärdera dina standardval på nytt. - Se över budgeten för utmatningstokens. GPT-5.4 är mer kortfattad (47% färre tokens för komplexa uppgifter). Du kan eventuellt sänka din
max_completion_tokensoch spara in på utmatningskostnader. - Utvärdera datoranvändning. Om du hade nödlösningar för UI-automatisering (Selenium-skript, anpassade verktyg), kan GPT-5.4:s inbyggda datoranvändning ersätta dem.
- Håll koll på tilläggsavgiften vid 272K. Om dina Codex-arbetsbelastningar använde stora kontexter men höll sig inom Codex prissättning, räkna om kostnaderna med GPT-5.4:s stegvisa inmatningsprissättning.
Vad som förblir oförändrat
- Chat Completions API-endpointen är identisk.
- Rollerna för system/user/assistant-meddelanden fungerar på samma sätt.
- Streaming, funktionsanrop och verktygsanvändning är helt kompatibla.
- Syntaxen för parametern
reasoningär oförändrad.
Benchmark-översikt
För snabb referens, här är hur GPT-5.4 presterar i de benchmarktester som betyder mest för utvecklare:
| Benchmark | Resultat | Vad det mäter |
|---|---|---|
| SWE-Bench Pro | 57.7% | Komplex programvaruutveckling i verkliga miljöer |
| SWE-Bench Verified | ~80% | Gallrad lösning av GitHub-problem |
| Terminal-Bench 2.0 | 75.1% | Terminalbaserad kodning och systemuppgifter |
| OSWorld | 75.0% | Hantering av skrivbordsdatorer (mänsklig baslinje: 72.4%) |
| GDPval | 83% | Professionellt kunskapsarbete över 44 yrken |
Ytterligare kvalitetsmått:
- 33% färre faktiska fel jämfört med GPT-5.2.
- 18% färre svar med några som helst fel totalt sett.
Sammanfattning
GPT-5.4 är inte en revolutionerande API-förändring -- den är en praktisk sådan. Samma endpoint, samma meddelandeformat, samma mönster för verktygsanvändning. Det nya är att du nu har detaljerad kontroll över resonemangsberäkningar, inbyggd datoranvändning utan tredjepartsverktyg, ett kontextfönster stort nog för hela kodbaser och avsevärt bättre kod-output.
De tre sakerna att göra just nu:
- Ställ in
reasoning.effortmedvetet. Förlita dig inte på standardvalet för varje anrop. Matcha insatsnivån med uppgiftens komplexitet och din budget för latens och kostnad. - Experimentera med datoranvändning. Om du har flöden för UI-automatisering, testa dem mot GPT-5.4:s inbyggda datoranvändningsförmåga. Du kanske kan pensionera sköra Selenium-skript.
- Granska din kontextanvändning. Med gränsen för tilläggsavgift vid 272K och 1M-fönstret finns det riktiga pengar att spara (eller slösa) beroende på hur du strukturerar dina prompter.
Modellen är tillgänglig nu som gpt-5.4 för API-konton på Tier 1+. Börja bygga.