Klíčové poznatky
- Generalista vs specialista: GPT-5.4 spojuje kódování, uvažování a používání počítače do jediného modelu, zatímco GPT-5.3 Codex byl vytvořen přímo pro kód – tato specializace stále dává Codex náskok o 2.2 bodu v Terminal-Bench 2.0 (77.3% vs 75.1%).
- GPT-5.4 je efektivnější z hlediska tokens: o 47% méně tokens u komplexních úkolů může kompenzovat jeho vyšší cenu za token ($2.50 vs $1.75), díky čemuž je GPT-5.4 levnější na úkol pro komplexní pracovní postupy založené na uvažování.
- Codex je rychlejší a levnější pro malé úkoly: S propustností 61.9 tokens/sec a cenou $1.75 za milion input tokens Codex vítězí u velkoobjemových pracovních postupů náročných na terminál, kde záleží na rychlosti.
- Používání počítače na nadlidské úrovni: Skóre 75% v OSWorld u GPT-5.4 (oproti 64% u Codex) překonává základní úroveň lidského experta – pokud váš pracovní postup vyžaduje automatizaci plochy, upgrade je jasnou volbou.
- Trend konsolidace je jasný: OpenAI ukončuje podporu GPT-5.2 Thinking k 5. červnu 2026, což signalizuje, že GPT-5.4 je zamýšleným nástupcem pro všechny modely GPT-5.x.
GPT-5.4 vs GPT-5.3 Codex: Měli byste upgradovat?
March 9, 2026 — Před čtyřmi dny OpenAI vydala GPT-5.4. Měsíc předtím vydala GPT-5.3 Codex, specializovaný model pro kódování, který mnoho vývojářů právě dokončilo integrovat. Nyní vyvstává otázka: máte odstranit Codex a přejít na 5.4, nebo je Codex stále lepším nástrojem pro danou práci?
Odpověď není tak jednoduchá jako „novější je lepší“. GPT-5.4 sjednocuje kódování, uvažování a používání počítače do jediného modelu. GPT-5.3 Codex byl vytvořen přímo pro kód. Tato specializace stále hraje roli v určitých pracovních postupech.
Zde je plné srovnání s benchmarky, cenami a konkrétní příručkou pro migraci.
TL;DR: Který model kde vítězí?
| Use Case | Vítěz | Proč |
|---|---|---|
| Obecné kódování (SWE-bench) | Remíza | Oba dosahují ~80% na SWE-bench Verified |
| Úkoly založené na terminálu | GPT-5.3 Codex | 77.3% vs 75.1% na Terminal-Bench 2.0 |
| Automatizace plochy | GPT-5.4 | 75% OSWorld — překonává lidskou základní úroveň |
| Znalostní práce | GPT-5.4 | 83% GDPval napříč 44 profesemi |
| Analýza velkých kódových bází | GPT-5.4 | 1.05M kontext vs 400K tokens |
| Efektivita tokens | GPT-5.4 | o 47% méně tokens u komplexních úkolů |
| Čistá rychlost | GPT-5.3 Codex | Propustnost 61.9 tokens/sec |
| Nižší vstupní náklady | GPT-5.3 Codex | $1.75 vs $2.50 za milion input tokens |
| Používání nástrojů / agenti | GPT-5.4 | 54.6% vs 51.9% na Toolathlon |
Rychlý verdikt: Upgradujte na GPT-5.4, pokud potřebujete používání počítače, velký kontext nebo jediný model pro všechno. Zůstaňte u GPT-5.3 Codex, pokud je vaše práce náročná na terminál a citlivá na rychlost.
Hloubkový pohled na benchmarky
Zde jsou čísla vedle sebe. GPT-5.2 je zahrnut tam, kde existují data, protože mnoho vývojářů stále používá tento model.
| Benchmark | GPT-5.4 | GPT-5.3 Codex | GPT-5.2 | Co měří |
|---|---|---|---|---|
| SWE-Bench Pro | 57.7% | 56.8% | -- | Komplexní vícekrokové softwarové inženýrství |
| SWE-Bench Verified | ~80% | ~80% | -- | Řešení reálných problémů na GitHub |
| Terminal-Bench 2.0 | 75.1% | 77.3% | -- | Autonomní operace v terminálu |
| OSWorld-Verified | 75% | 64% | -- | Úkoly spojené s používáním stolního počítače |
| GDPval | 83% | netestováno | 70.9% | Profesionální znalostní práce (44 profesí) |
| Toolathlon | 54.6% | 51.9% | -- | Agentní úkoly využívající více nástrojů |
| Human baseline (OSWorld) | 72.4% | -- | -- | Výkon lidského experta |
Výklad čísel
SWE-Bench je v podstatě remíza. Oba modely vyřeší přibližně 80% ověřených GitHub problémů, což znamená, že u běžné vývojářské práce nezaznamenáte rozdíl v kvalitě kódování. GPT-5.4 mírně vede v náročnější variantě SWE-Bench Pro (57.7% vs 56.8%), ale rozdíl je malý.
Terminal-Bench 2.0 je oblast, kde GPT-5.3 Codex stále vítězí. Náskok o 2.2 bodu (77.3% vs 75.1%) hraje roli, pokud váš pracovní postup zahrnuje intenzivní interakci s terminálem – git operace, systémy sestavení, shell skriptování, ladění přes CLI. Zde se projevuje specializace Codex.
OSWorld je vynikající výsledek pro GPT-5.4. Se 75% překonává základní úroveň lidského experta, která činí 72.4%. Jedná se o nativní používání počítače: klikání na tlačítka, vyplňování formulářů, navigace v aplikacích pro plochu. GPT-5.3 Codex dosáhl 64% – je schopný, ale ne na lidské úrovni.
GDPval vypráví jasný příběh pro nekódovací úkoly. GPT-5.4 s 83% drtí výsledek 70.9% u GPT-5.2 v profesionální znalostní práci. Pokud vaši vývojáři píší dokumentaci, analyzují požadavky nebo vykonávají mezioborovou práci, je to důležité.
Ceny: Skutečné srovnání nákladů
Samotná cena za token neříká celý příběh. Musíte vzít v úvahu efektivitu tokens a příplatky za kontext.
Cena za token
| Model | Input (za 1M) | Output (za 1M) | Kontextové okno | Max Output |
|---|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | 1,050,000 tokens | 128K tokens |
| GPT-5.4 Pro | $30.00 | $180.00 | 1,050,000 tokens | 128K tokens |
| GPT-5.3 Codex | $1.75 | $14.00 | 400,000 tokens | -- |
Skrytá matematika
GPT-5.3 Codex vypadá na papíře levněji: $1.75 vs $2.50 za milion input tokens, $14 vs $15 za milion output tokens. Ale zvažte dva faktory:
-
Efektivita tokens. OpenAI uvádí, že GPT-5.4 spotřebuje o 47% méně tokens u komplexních úkolů. Pokud požadavek v Codex spotřebuje 10,000 tokens, stejný úkol v GPT-5.4 by mohl spotřebovat 5,300. Při tomto poměru může být GPT-5.4 levnější na úkol navzdory vyšší sazbě za token.
-
Příplatek za kontext. GPT-5.4 zdvojnásobuje cenu vstupu nad 272K tokens. Pokud běžně zaplňujete velké kontexty, vaše efektivní cena vstupu vzroste na $5.00 za milion tokens. Pro načítání masivních kódových bází se to nasčítá.
Odhad nákladů podle pracovní zátěže
| Typ zátěže | Levnější varianta | Poznámky |
|---|---|---|
| Malé úkoly (<10K tokens) | GPT-5.3 Codex | Vítězí nižší základní cena |
| Komplexní úkoly uvažování | GPT-5.4 | Úspora 47% tokens kompenzuje cenu |
| Velký kontext (>272K) | GPT-5.3 Codex | Vyhněte se příplatku GPT-5.4 |
| Kombinace kódování + znalostní práce | GPT-5.4 | Jeden model místo dvou |
V čem je GPT-5.4 lepší
1. Nativní používání počítače
Toto je hlavní funkce. GPT-5.4 může autonomně ovládat aplikace pro plochu – navigovat v uživatelských rozhraních, klikat na prvky, vyplňovat formuláře, přecházet mezi okny. Se 75% v OSWorld-Verified překonává základní úroveň lidského experta 72.4%.
Pro vývojáře to znamená:
- Automatizované QA testování, které interaguje se skutečnými rozhraními, nejen s headless browsers
- Automatizace pracovních postupů na ploše (Jira, Slack, tabulky) jako součást vývojových procesů
- End-to-end testování, které zrcadlí skutečné chování uživatelů
GPT-5.3 Codex dosáhl v OSWorld 64%. Funkční, ale ne dostatečně spolehlivý pro produkční automatizaci.
2. Znalostní práce nad rámec kódu
S 83% v GDPval (pokrývající 44 profesionálních profesí) GPT-5.4 zvládá nekódovací části vývoje mnohem lépe. Představte si: psaní technických specifikací, analýzu produktových požadavků, návrh dokumentů o architektuře, revizi zásad souladu.
GPT-5.2 dosáhl ve stejném benchmarku 70.9%. GPT-5.3 Codex zde nebyl testován vůbec – byl vytvořen pro kód, ne pro mezioborovou práci.
3. Masivní kontextové okno
GPT-5.4 podporuje 1,050,000 tokens kontextu s až 128K tokens výstupu. GPT-5.3 Codex má limit na 400K tokens.
V praxi může GPT-5.4 pojmout celou středně velkou kódovou bázi v rámci jediného promptu. Pro analýzu monorepo, refaktorování ve velkém měřítku nebo pochopení legacy systémů je to zásadní výhoda.
4. Efektivita tokens
GPT-5.4 spotřebuje o 47% méně tokens u komplexních úkolů. To znamená rychlejší odpovědi, nižší náklady na komplexní práci a méně kontextu vyplýtvaného na upovídané řetězce uvažování. Pokud jste někdy uprostřed konverzace s Codex narazili na limity kontextu, GPT-5.4 vám poskytne výrazně více prostoru.
5. Agentní používání nástrojů
GPT-5.4 dosahuje 54.6% v Toolathlon oproti 51.9% u GPT-5.3 Codex. Když váš AI agent potřebuje řetězit více nástrojů – prohledávat web, číst soubory, volat API, psát kód, spouštět testy – GPT-5.4 je spolehlivější při orchestraci celé sekvence.
Kde GPT-5.3 Codex stále vítězí
1. Vývoj založený na terminálu
Terminal-Bench 2.0: 77.3% pro Codex vs 75.1% pro GPT-5.4. Pokud je váš každodenní pracovní postup zaměřený na terminál – SSH relace, ladění přes CLI, operace s git, řešení problémů se systémy sestavení – Codex zůstává lepším modelem. Rozdíl 2.2 bodu je konzistentní napříč terminálovými podúkoly.
2. Čistá rychlost
GPT-5.3 Codex běží rychlostí 61.9 tokens za sekundu. Pro interaktivní kódování, kde čekáte na dokončování ve vašem IDE, je rychlost znatelná. Propustnost GPT-5.4 nebyla oficiálně testována na stejné úrovni, ale model optimalizuje pro kvalitu na úkor rychlosti.
3. Nižší cena vstupních tokens
Při ceně $1.75 za milion input tokens (oproti $2.50 u GPT-5.4) je Codex o 30% levnější na vstupu. Pro velkoobjemové procesy, které posílají velké prompty – CI/CD revize kódu, dávkové zpracování, automatizované refaktorování – se úspory sčítají.
Tato výhoda platí zejména tehdy, pokud se udržíte pod 272K tokens a zcela se vyhnete příplatku za kontext u GPT-5.4.
Průvodce migrací: Kdy upgradovat
Upgradujte na GPT-5.4 nyní, pokud:
- Potřebujete schopnosti používání počítače / automatizace plochy
- Vaše úkoly zahrnují kódování i nekódovací práci (specifikace, dokumenty, výzkum)
- Běžně pracujete s kódovými bázemi přesahujícími 400K tokens
- Chcete jeden model místo žonglování s Codex pro kód a jiným modelem pro uvažování
- Používáte GPT-5.2 (podpora končí 5. června 2026 – nečekejte)
Zůstaňte u GPT-5.3 Codex, pokud:
- Váš pracovní postup je téměř výhradně kódování v terminálu
- Na rychlosti záleží více než na šíři schopností
- Zpracováváte velké objemy vstupních tokens a chcete nejnižší cenu za token
- Jste uprostřed sprintu a nechcete riskovat regrese z výměny modelu
Kontrolní seznam pro migraci
- Zaměňte ID modelu ve vašich API voláních. Nejprve otestujte v testovacím prostředí (staging).
- Otestujte své konkrétní úkoly. Obecné benchmarky ne vždy předpovídají vaši pracovní zátěž. Spusťte svých 10 nejčastějších promptů v obou modelech a porovnejte je.
- Upravte strategii kontextu. S dostupnými 1.05M tokens můžete posílat více kontextu na požadavek – ale hlídejte prahovou hodnotu 272K pro příplatek.
- Zkontrolujte využití tokens. Úspora 47% tokens u GPT-5.4 může změnit vaše odhady nákladů. Během prvního týdne sledujte skutečné využití.
- Testujte používání počítače odděleně. Pokud plánujete používat automatizaci plochy, přistupujte k tomu jako k zavádění nové funkce, nikoli jen jako k výměně modelu.
Jak si GPT-5.4 a Codex stojí v porovnání s konkurencí
GPT-5.4 neexistuje ve vakuu. Zde je stav konkurenčního prostředí k březnu 2026:
| Model | SWE-Bench Verified | Nejlepší pro |
|---|---|---|
| Claude Opus 4.6 | 80.9% | Komplexní vícesouborové refaktorování, bezpečnostní audity |
| GPT-5.4 | ~80% | Generalista: kódování + uvažování + používání počítače |
| Claude Sonnet 4.6 | 79.6% | Vysoce kvalitní kódování za nižší cenu |
| GPT-5.3 Codex | ~80% | Kódování náročné na terminál, rychlost |
Claude Opus 4.6 stále drží korunu SWE-bench s 80.9%. Pokud je vaší primární potřebou komplexní softwarové inženýrství – velké refaktory, vícesouborové změny, hluboká architektonická analýza – Opus zůstává nejlepší volbou pro čisté kódování. Claude Sonnet 4.6 s 79.6% je také konkurenceschopný a nabízí nižší cenu.
Odlišení GPT-5.4 spočívá v šíři záběru. Žádný jiný samostatný model nekombinuje kódování na úrovni ~80% SWE-bench, používání počítače na 75% OSWorld (nad lidskou základní úrovní) a znalostní práci na 83% GDPval. Pokud chcete jeden model, který zvládne všechno, GPT-5.4 je aktuálně nejlepší volba.
Konečný verdikt
GPT-5.4 je správnou výchozí volbou pro většinu vývojářů. Vyrovná se GPT-5.3 Codex v kvalitě kódování, přidává používání počítače a znalostní práci a nabízí 2.5x větší kontextové okno. Zlepšení efektivity tokens o 47% znamená, že může být levnější na úkol navzdory vyšší ceně za token.
GPT-5.3 Codex si obhájí svou pozici ve dvou scénářích: v pracovních postupech náročných na terminál, kde stále vede o 2.2 bodu, a ve velkoobjemových vstupních procesech, kde sazba $1.75 za milion input šetří skutečné peníze.
Pokud stále používáte GPT-5.2, upgradujte hned. Jeho podpora končí 5. června 2026 a GPT-5.4 ho překonává v každém benchmarku, pro který existují data.
Pro nejlepší výsledky kódování bez ohledu na dodavatele zůstává lídrem v čistém softwarovém inženýrství Claude Opus 4.6 s 80.9% v SWE-bench. Zvažte strategii s více modely: GPT-5.4 pro všeobecné úkoly a používání počítače, Claude pro hloubkovou práci na kódu.