Viktige poeng
- Computer Use er hovedoppgraderingen: GPT-5.4 kan autonomt navigere i skrivebordsapplikasjoner, fylle ut skjemaer og fullføre arbeidsflyter i flere trinn -- GPT-5.2 kan ikke gjøre noe av dette, og OSWorld-skåren på 75% slår menneskelige eksperter (72.4%).
- Kontekstvinduet hopper fra 400K til 1M tokens: Hvis du jobber med store kodebaser, lange dokumenter eller agent-sesjoner over flere runder, er dette en vesentlig forbedring, selv om input-prisingen dobles over 272K tokens.
- 47% mer token-effektiv: GPT-5.4 genererer mer konsis output på komplekse oppgaver, noe som kan veie opp for den litt høyere kostnaden per token ($2.50 vs $1.75 per million input tokens).
- Direkte erstatning for Chat Completions: Bare endre modellnavnet i eksisterende GPT-5.2-kode -- men nye funksjoner som Computer Use og Tool Search krever Responses API.
- GPT-5.2 Thinking pensjoneres 5. juni 2026: Planlegg migrering nå, da GPT-5.4 er objektivt bedre for alle bruksområder unntatt produksjonskode som er tett koblet til det eldre API-formatet.
GPT-5.4 vs GPT-5.2: Hva er endret og bør du oppgradere?
March 2026 — OpenAI lanserte GPT-5.4 i starten av March 2026, bare tre måneder etter GPT-5.2. Hvis du er en utvikler eller avansert bruker som allerede kjører GPT-5.2, er spørsmålet enkelt: er GPT-5.4 verdt byttet, eller er det en inkrementell oppdatering du kan hoppe over?
Kort svar: oppgrader. GPT-5.4 er ikke inkrementell. Det er den første generelle modellen med innebygd Computer Use, den utvider konteksten til 1M tokens, og den slår menneskelige eksperter på OSWorld-benchmarken for skrivebordsautomatisering. Nedenfor er alt du trenger for å ta avgjørelsen og gjennomføre migreringen.
Det raske svaret
Ja, du bør oppgradere. Her er grunnen i tre punkter:
- Computer Use er en ny kategori av kapabiliteter. GPT-5.4 kan se skjermer, klikke på knapper, fylle ut skjemaer og navigere i applikasjoner autonomt. GPT-5.2 kan ikke gjøre noe av dette.
- Kontekstvinduet hopper fra 400K til 1M tokens (eksperimentelt). Hvis du jobber med store kodebaser, lange dokumenter eller agent-sesjoner over flere runder, er dette en vesentlig forbedring.
- Forbedringer i benchmarks er reelle. GPT-5.4 skårer 75.0% på OSWorld (mennesker skårer 72.4%), 57.7% på SWE-Bench Pro (opp fra 55.6%), og 92.8% på GPQA Diamond (opp fra 92.4%).
Hvis arbeidsmengden din ikke krever Computer Use eller lang kontekst, er GPT-5.4 uansett bedre — den er mer token-effektiv (47% færre tokens på komplekse oppgaver) og inkluderer de ledende kode-egenskapene fra GPT-5.3-codex.
Hva er nytt i GPT-5.4
Her er den komplette listen over nye og forbedrede kapabiliteter sammenlignet med GPT-5.2:
- Innebygd Computer Use. Autonom skjermkontroll — surf på nettet, bruk skrivebordsapplikasjoner, fyll ut skjemaer og utfør arbeidsflyter i flere trinn uten tilpasset verktøy. Skårer 75.0% på OSWorld, og overgår menneskelige eksperter (72.4%).
- 1M Token kontekstvindu. Tilgjengelig eksperimentelt i Codex og API (272K standard, 1M med konfigurasjon). GPT-5.2 hadde maks 400K.
- Tool Search. For applikasjoner med store økosystemer av verktøy, søker GPT-5.4 intelligent og velger det riktige verktøyet i stedet for å skanne hver verktøybeskrivelse. Dette reduserte total token-bruk med 47% i OpenAI sine tester, samtidig som nøyaktigheten ble opprettholdt.
- GPT-5.3-codex koding-DNA. GPT-5.4 er den første hovedmodellen for resonnering som inkluderer de ledende kode-egenskapene fra GPT-5.3-codex, OpenAI sin spesialiserte kodemodell.
- Forbedret Deep Web Research. Bedre håndtering av svært spesifikke spørsmål, med sterkere opprettholdelse av kontekst under utvidet resonnering.
- Kontroller for Reasoning Effort. Finmaskede innsatsnivåer fra
nonetilxhigh, slik at du kan bytte ventetid mot dybde på forespørselsbasis. - Bedre token-effektivitet. GPT-5.4 er mer konsis — 47% færre tokens på komplekse oppgaver — noe som kan veie opp for den litt høyere kostnaden per token.
Sammenligningstabell
| Spesifikasjon | GPT-5.2 | GPT-5.4 |
|---|---|---|
| Utgivelsesdato | December 2025 | March 2026 |
| Kontekstvindu | 400K tokens | 272K standard / 1M eksperimentelt |
| Computer Use | Nei | Ja (innebygd) |
| Tool Search | Nei | Ja |
| Koding-opphav | Base GPT-5 | GPT-5.3-codex integrert |
| SWE-Bench Pro | 55.6% | 57.7% |
| SWE-Bench Verified | -- | 80.0% |
| GPQA Diamond | 92.4% (Thinking) | 92.8% |
| OSWorld | N/A | 75.0% (overmenneskelig) |
| ARC-AGI-2 | 52.9% (Thinking) | 73.3% |
| AIME 2025 | 100% | 100% |
| GDPval | 70.9% likt/bedre enn eksperter | 83.0% |
| Terminal-Bench 2.0 | -- | 75.1% |
| API Input-pris | $1.75 / 1M tokens | $2.50 / 1M tokens |
| API Output-pris | $14.00 / 1M tokens | $15.00 / 1M tokens |
| Pro Input-pris | -- | $30.00 / 1M tokens |
| Pro Output-pris | -- | $180.00 / 1M tokens |
| Output-hastighet | ~68 tokens/sec | Tilsvarende |
| Reasoning Effort | none til xhigh | none til xhigh |
| ChatGPT-tilgjengelighet | Plus, Team, Pro (legacy etter June 2026) | Plus, Team, Pro (standard) |
Dypdykk: Hva er faktisk endret
Computer Use
Dette er hovedfunksjonen og grunnen til at GPT-5.4 ikke bare er en mindre oppdatering. Computer Use betyr at modellen autonomt kan samhandle med en dataskjerm — klikke, skrive, rulle og navigere på tvers av applikasjoner.
I praksis muliggjør dette arbeidsflyter som: "Gå til selskapets HR-portal, last ned min siste lønnsslipp, og send den til min regnskapsfører." GPT-5.2 kunne skrevet utkastet til e-posten, men den kunne ikke navigere i portalen eller laste ned filen.
På OSWorld-benchmarken, som måler autonom gjennomføring av skrivebordsoppgaver, skårer GPT-5.4 75.0%. Menneskelige eksperter skårer 72.4%. Dette er første gang en AI-modell har slått mennesker på denne benchmarken. For utviklere som bygger AI-agenter, eliminerer Computer Use hele kategorier av ustabile skript for nettleserautomatisering og tilpassede integrasjoner.
Computer Use er tilgjengelig via Responses API — det støttes ikke via det eldre Chat Completions-endepunktet.
1M Token kontekstvindu
GPT-5.2 støttet opptil 400K tokens med kontekst. GPT-5.4 har som standard 272K, men kan konfigureres for opptil 1M tokens eksperimentelt i Codex og API.
Den praktiske betydningen: du kan mate en hel mellomstor kodebase inn i en enkelt ledetekst, opprettholde agent-sesjoner over flere timer uten å miste kontekst, eller behandle dokumenter på lengde med bøker i én omgang. Merk at tillegget for lang kontekst dobler raten for input-tokens til $5.00 per 1M tokens når du passerer 272K-grensen.
Forbedringer i resonnering
GPT-5.4 sine gevinster innen resonnering er målbare, men ikke dramatiske på tvers av standard benchmarks. GPQA Diamond flytter seg fra 92.4% til 92.8%. Der forbedringen er mer synlig er i ARC-AGI-2 (52.9% til 73.3%), som måler generell resonneringsevne, og GDPval (70.9% til 83.0%), som tester profesjonelt kunnskapsarbeid på tvers av 44 yrker.
Kontrollene for reasoning effort (none, low, medium, high, xhigh) lar deg kalibrere per forespørsel. En enkel klassifiseringsoppgave kan kjøres med low innsats for raske, billige svar, mens en kompleks arkitektonisk beslutning kan kjøres med xhigh for maksimal dybde.
Bildegenerering
GPT-5.4 inkluderer innebygde kapabiliteter for bildegenerering. Mens GPT-5.2 kunne behandle bilde-input (vision), kan GPT-5.4 både forstå og generere bilder i samme modell, noe som eliminerer behovet for et separat DALL-E-kall i mange arbeidsflyter.
Responses API og Tool Search
GPT-5.4 er designet rundt Responses API, som erstatter det eldre Chat Completions-formatet for nye funksjoner. Chat Completions fungerer fortsatt for grunnleggende tekstgenerering, men Computer Use, Tool Search og avanserte resonneringsfunksjoner krever Responses API.
Tool Search er spesielt relevant for utviklere som bygger agenter med mange verktøy. I stedet for å inkludere hver verktøydefinisjon i ledeteksten (som bruker tokens og kan forvirre modellen), lar Tool Search GPT-5.4 intelligent spørre og velge relevante verktøy fra et stort register. OpenAI rapporterer 47% reduksjon i tokens med tilsvarende nøyaktighet.
Sammenligning av benchmarks
Her er hvordan GPT-5.4 og GPT-5.2 sammenlignes på viktige benchmarks, med kontekst fra konkurrerende modeller.
Koding
| Benchmark | GPT-5.2 (Thinking) | GPT-5.4 | Merknader |
|---|---|---|---|
| SWE-Bench Pro | 55.6% | 57.7% | Løsning av reelle GitHub-saker |
| SWE-Bench Verified | -- | 80.0% | Verifisert delsett |
| Terminal-Bench 2.0 | -- | 75.1% | Terminalbaserte kodingsoppgaver |
GPT-5.4 sine forbedringer innen koding kommer direkte fra integrering av GPT-5.3-codex-kapabiliteter. Økningen i SWE-Bench Pro fra 55.6% til 57.7% representerer en betydelig forbedring i den virkelige verden — hvert prosentpoeng tilsvarer dusinvis av ytterligere reelle GitHub-saker som er løst korrekt.
Resonnering og kunnskap
| Benchmark | GPT-5.2 (Thinking) | GPT-5.4 | Merknader |
|---|---|---|---|
| GPQA Diamond | 92.4% | 92.8% | Spørsmål og svar på masternivå |
| ARC-AGI-2 | 52.9% | 73.3% | Generell resonneringsevne |
| GDPval | 70.9% | 83.0% | Profesjonelt kunnskapsarbeid |
Hoppet i ARC-AGI-2 fra 52.9% til 73.3% er den mest signifikante enkeltforbedringen i en benchmark, noe som tyder på betydelige gevinster i abstrakt og generell resonnering.
Matematikk
| Benchmark | GPT-5.2 (Thinking) | GPT-5.4 | Merknader |
|---|---|---|---|
| AIME 2025 | 100% | 100% | Konkurransematematikk (taket nådd) |
| FrontierMath (T1-3) | 40.3% | -- | Matematikk på ekspertnivå |
Begge modellene oppnår perfekte skårer på AIME 2025. GPT-5.2 traff allerede taket for konkurransematematikk, så GPT-5.4 sine forbedringer i matematikk er mer synlige i vanskeligere, mindre mettede benchmarks.
Computer Use (Ny kategori)
| Benchmark | GPT-5.2 | GPT-5.4 | Merknader |
|---|---|---|---|
| OSWorld | N/A | 75.0% | Menneskelige eksperter: 72.4% |
Denne benchmark-kategorien eksisterte ikke for GPT-5.2 fordi modellen manglet Computer Use-kapabiliteter helt.
Sammenligning av priser
API-prising
| Nivå | GPT-5.2 | GPT-5.4 | Forskjell |
|---|---|---|---|
| Input (standard) | $1.75 / 1M tokens | $2.50 / 1M tokens | +43% |
| Output | $14.00 / 1M tokens | $15.00 / 1M tokens | +7% |
| Cached Input | $0.175 / 1M tokens | $1.25 / 1M tokens | Høyere |
| Lang-kontekst Input (>272K) | N/A | $5.00 / 1M tokens | Nytt tillegg |
| Pro Input | -- | $30.00 / 1M tokens | Premium-nivå |
| Pro Output | -- | $180.00 / 1M tokens | Premium-nivå |
GPT-5.4 er omtrent 1.1x dyrere per token. Men fordi GPT-5.4 genererer 47% færre tokens på komplekse oppgaver, kan den totale kostnaden per oppgave faktisk bli lavere. Hvis du kjører store volum, bør du teste din spesifikke arbeidsmengde før du antar at kostnadene vil øke.
Prising for ChatGPT-abonnement
| Plan | Pris | GPT-5.2 tilgang | GPT-5.4 tilgang |
|---|---|---|---|
| Free | $0/måned | Begrenset | Begrenset |
| Plus | $20/måned | Ja (legacy) | Ja (standard) |
| Team | $25/bruker/måned | Ja (legacy) | Ja (standard) |
| Pro | $200/måned | Ja (legacy) | Ja (standard, høyeste grenser) |
For ChatGPT-abonnenter er det ingen ekstra kostnad. GPT-5.4 erstatter GPT-5.2 som standardmodell. GPT-5.2 forblir tilgjengelig under Legacy Models frem til 5. juni 2026, hvoretter den vil bli pensjonert.
Migreringsguide: Hvordan bytte fra GPT-5.2 til GPT-5.4
Trinn 1: Endre modellnavnet
For grunnleggende Chat Completions API-kall, bytt ut modell-identifikatoren:
# Before
response = client.chat.completions.create(
model="gpt-5.2",
messages=[{"role": "user", "content": "Hello"}]
)
# After
response = client.chat.completions.create(
model="gpt-5.4",
messages=[{"role": "user", "content": "Hello"}]
)
Dette fungerer som en direkte erstatning. Din eksisterende kode vil gi resultater uten andre endringer.
Trinn 2: Ta i bruk Responses API for nye funksjoner
Computer Use, Tool Search og avanserte resonneringsfunksjoner krever Responses API. Hvis du vil ha disse kapabilitetene, må du migrere API-kallene dine:
# Responses API med Computer Use
response = client.responses.create(
model="gpt-5.4",
tools=[{"type": "computer_use_preview"}],
input="Navigate to github.com and star the repo"
)
OpenAI tilbyr en detaljert migreringsguide på platform.openai.com/docs/guides/migrate-to-responses.
Trinn 3: Juster Reasoning Effort
Test innstillingene dine for reasoning effort. GPT-5.4 kan gi andre avveininger for kvalitet på hvert nivå sammenlignet med GPT-5.2:
response = client.responses.create(
model="gpt-5.4",
reasoning={"effort": "high"},
input="Analyze this architecture for potential race conditions..."
)
Bruk low for enkle oppgaver (klassifisering, uttrekking), medium for generelle spørsmål, og high eller xhigh for komplekse resonneringsoppgaver.
Trinn 4: Bevar Phase Metadata
Dette er en kritisk detalj for produksjonssystemer. Når du bruker Responses API med GPT-5.4, må du bevare phase-feltet korrekt på assistant-meldinger når du rekonstruerer samtalehistorikk. Hvis man fjerner phase-metadata, fører det til betydelig dårligere ytelse. Dette var ikke et problem med GPT-5.2.
Trinn 5: Optimaliser token-budsjetter
GPT-5.4 er mer konsis. Du kan kanskje senke din max_completion_tokens og spare på utskostnader. Test med dine faktiske ledetekster og juster deretter.
Når bør man bli værende på GPT-5.2
Det er noen få legitime grunner til å utsette migrering:
- Produksjonskritisk kode uten budsjett for testing. Hvis du har systemer som er omfattende finjustert med ledetekster som kjører på GPT-5.2 og ikke har råd til regresjonstesting, bør du vente til du kan teste ordentlig. GPT-5.4 er en direkte erstatning for grunnleggende kall, men output-egenskapene vil variere.
- Kostnadsoptimalisering med eldre, billigere modeller. Hvis du kjører oppgaver med høyt volum og lav kompleksitet (klassifisering, uttrekking, oppsummering) og hver brøkdel av en cent teller, kan GPT-5.2 sin lavere input-pris ($1.75 vs $2.50 per 1M tokens) være foretrukket. Når det er sagt, veier ofte GPT-5.4 sin token-effektivitet opp for den høyere prisen per token.
- Håndtering av Phase-metadata. Hvis mellomvaren din fjerner eller endrer metadata i assistant-meldinger og du ikke kan oppdatere den raskt, vil ytelsen til GPT-5.4 falle. Fiks mellomvaren først, og migrer deretter.
- Stort tidspress. GPT-5.2 forsvinner ikke før 5. juni 2026. Hvis du er i et kritisk lanseringsvindu, er det ingen grunn til å introdusere risiko. Migrer etter tidsfristen din.
For alle andre er det ingen grunn til å bli værende på GPT-5.2. Den flyttes til Legacy Models og vil bli pensjonert i June 2026.
Konklusjon
GPT-5.4 er ikke en liten versjonsoppdatering. Den introduserer en helt ny kapabilitet (Computer Use), utvider konteksten betydelig (1M tokens), leverer målbare forbedringer i benchmarks for koding og resonnering, og forbedrer token-effektiviteten med nesten 50% på komplekse oppgaver.
For utviklere er migreringsveien ryddig: endre modellnavnet for umiddelbar kompatibilitet, ta i bruk Responses API for nye funksjoner, og juster reasoning effort for din arbeidsmengde. Prisøkningen er moderat (omtrent 1.1x per token) og blir sannsynligvis oppveid av gevinstene i token-effektivitet for de fleste bruksområder.
GPT-5.2 vil bli pensjonert 5. juni 2026. Spørsmålet er ikke om du skal migrere, men når. For de fleste team er svaret nå.