Klíčové poznatky
- SWE-Bench je remíza na ~80 %: Rozdíl 0.4 bodu mezi Codex (~80 %) a Sonnet 4.6 (79.6 %) je v rámci šumu -- agent scaffolding záleží více než výběr modelu pro standardní kódovací úkoly.
- Codex dominuje v terminálových pracovních postupech: S 77.3 % oproti 59.1 % na Terminal-Bench 2.0 má Codex náskok 18 bodů pro autonomní terminálové operace jako git, build systems a debugging.
- Sonnet vítězí v porozumění vágnímu záměru: Vývojáři preferovali Sonnet 4.6 před jeho předchůdcem v 70 % případů pro interpretaci nejednoznačných požadavků, výběr návrhových vzorů a předvídání okrajových případů.
- Codex používá 2-4x méně tokens na úkol: Nižší spotřeba tokens se sčítá s levnější cenou za vstup ($1.75 vs $3.00), díky čemuž je Codex výrazně levnější pro velkoobjemové terminálově náročné pracovní postupy.
- Agent harness záleží více než model: SWE-bench skóre se mohou lišit o 22+ bodů v závislosti na scaffolding, tool configuration a prompting strategy -- investujte do své agent architecture, nejen do výběru modelu.
GPT-5.3 Codex vs Claude Sonnet 4.6: Praktické srovnání kódování
March 9, 2026 -- Většina srovnání staví GPT-5.3 Codex proti Claude Opus 4.6 -- dvěma vlajkovým lodím. To ale uniká podstatě. Většina vývojářů neutrácí $15/$75 za milion tokens za Opus pro svou každodenní kódovací práci. Používají Claude Sonnet 4.6 za $3/$15, který zvládá 80 %+ kódovacích úkolů v kvalitě blízké Opus.
Toto je srovnání, na kterém skutečně záleží: GPT-5.3 Codex (vydán February 5, 2026) versus Claude Sonnet 4.6 (vydán February 17, 2026) -- dva modely, mezi kterými si většina vývojářů právě teď vybírá.
TL;DR: Tabulka pro rychlé rozhodování
| Případ použití | Vítěz | Proč |
|---|---|---|
| Kódování v terminálu | GPT-5.3 Codex | 77.3 % Terminal-Bench vs 59.1 % |
| Refaktorování více souborů | Claude Sonnet 4.6 | Lepší uvažování, porozumění záměru |
| Rychlost / propustnost | GPT-5.3 Codex | 61.9 tok/s, o 25 % rychlejší než předchůdce |
| Porozumění vágním požadavkům | Claude Sonnet 4.6 | Preferováno v 70 % případů před Sonnet 4.5 |
| Efektivita nákladů na tokens | GPT-5.3 Codex | 2-4x méně tokens na úkol |
| Computer use / úkoly v prohlížeči | Claude Sonnet 4.6 | 72.5 % OSWorld vs 64 % |
| Vibe coding (generování celých aplikací) | Claude Sonnet 4.6 | Vyhrál 11-6 v reálných testech |
| Code review | GPT-5.3 Codex | Nativní integrace GitHub Copilot |
| Kontextové okno | GPT-5.3 Codex | 400K tokens vs 200K (1M beta pouze u Opus) |
Rychlý verdikt: Zvolte GPT-5.3 Codex, pokud pracujete primárně v terminálu, oceňujete rychlost a chcete úzkou integraci s GitHub/VS Code. Zvolte Claude Sonnet 4.6, pokud potřebujete hlubší uvažování, řešíte komplexní refaktorování nebo generujete celé aplikace z promptů.
Srovnání benchmarků
Hlavní benchmarky vyprávějí příběh o dvou modelech, které jsou si v generování kódu blíže, než byste čekali -- ale ostře se rozcházejí ve stylu provádění.
| Benchmark | GPT-5.3 Codex | Claude Sonnet 4.6 | Claude Opus 4.6 (ref) | Vítěz |
|---|---|---|---|---|
| SWE-Bench Verified | ~80% | 79.6% | 80.8% | Remíza (v rámci šumu) |
| Terminal-Bench 2.0 | 77.3% | 59.1% | 65.4% | Codex o 18.2 bodu |
| OSWorld (Computer Use) | 64% | 72.5% | 72.7% | Sonnet o 8.5 bodu |
Co ta čísla znamenají
SWE-Bench Verified je hlavní benchmark kódování -- řešení reálných GitHub issues z populárních open-source projektů. Při ~80 % vs 79.6 % neexistuje žádný významný rozdíl. Oba modely řeší zhruba 4 z 5 reálných kódovacích úkolů. Rozdíl 0.4 bodu je zcela v rozmezí, které může ovlivnit agent configuration.
Terminal-Bench 2.0 měří autonomní kódování v terminálových prostředích: úpravy souborů, git operace, build systems, debugging. GPT-5.3 Codex zde dominuje s 77.3 %, čímž poráží 59.1 % u Sonnet 4.6 o více než 18 bodů. Toto je nejsilnější výhoda Codex -- pokud je váš pracovní postup zaměřen na terminál, na tomto rozdílu záleží.
OSWorld testuje computer use -- navigaci v GUI, používání prohlížečů, interakci s desktopovými aplikacemi. Sonnet 4.6 vede se 72.5 % oproti 64 % u Codex. Pozoruhodné je, že Sonnet se v tomto benchmarku téměř vyrovná Opus 4.6 (72.7 %), což z něj činí jasnou volbu z hlediska hodnoty pro computer use pracovní postupy.
Ceny a efektivita tokens
Samotná cena vypráví jen polovinu příběhu. Skutečný obraz nákladů se ukazuje v efektivitě tokens na úkol.
Cena za token
| GPT-5.3 Codex | Claude Sonnet 4.6 | |
|---|---|---|
| Vstup | $1.75 / 1M tokens | $3.00 / 1M tokens |
| Výstup | $14.00 / 1M tokens | $15.00 / 1M tokens |
| Kontextové okno | 400K tokens | 200K tokens (1M beta na Opus) |
| Rychlost | 61.9 tok/s | Standardní |
Codex je levnější na vstupu ($1.75 vs $3.00) a zhruba ekvivalentní na výstupu ($14 vs $15). Ale cena za token není úplný obrázek.
Efektivita tokens v reálném světě
Tady Codex v nákladech utíká dopředu. V praxi GPT-5.3 Codex používá 2-4x méně tokens na úkol ve srovnání s modely Claude. Codex má tendenci produkovat stručnější výstupy a vyžaduje méně interakcí tam a zpět.
Reálný příklad -- úkol klonování designu z Figma:
| GPT-5.3 Codex | Claude Opus 4.6 | Claude Sonnet 4.6 (odhadováno) | |
|---|---|---|---|
| Náklady na úkol | ~$54 | ~$187 | ~$40-50 |
Cena za token u Sonnet 4.6 je nižší než u Opus, což přibližuje jeho odhadované náklady na stejný úkol k Codex. Ale efektivita tokens u Codex mu stále dává výhodu v nákladech na úkol v mnoha pracovních postupech.
Sečteno a podtrženo u nákladů: Pro velkoobjemové kódování náročné na terminál je Codex levnější. Pro občasné komplexní úkoly, kde si ceníte kvality výstupu více než počtu tokens, je Sonnet 4.6 konkurenceschopný.
Kde GPT-5.3 Codex vyhrává
Terminálové a prováděcí úkoly
Codex byl vytvořen pro kódování primárně v terminálu. Jeho 77.3 % na Terminal-Bench 2.0 odráží skutečnou převahu v:
- Spouštění a debugging build systems
- Provádění vícekrokových git workflows
- Úprava souborů a spouštění testů v terminálových smyčkách
- Interaktivní debugging sessions
Pokud váš každodenní pracovní postup vypadá jako "otevřít terminál, spustit agent, iterovat na kódu," Codex je pro toto účelově vytvořen.
Rychlost
S 61.9 tokens za sekundu -- o 25 % rychlejší než GPT-5.2 -- Codex poskytuje znatelně svižnější odpovědi. V interaktivních kódovacích relacích, kde čekáte na každou odpověď před vydáním další instrukce, se tato rychlost sčítá. Během osmihodinového pracovního dne je rozdíl hmatatelný.
Efektivita tokens
Codex generuje stručnější řešení. Zatímco Sonnet může produkovat podrobná vysvětlení vedle kódu, Codex má tendenci vypisovat cílené změny kódu. To znamená:
- Nižší náklady na úkol (2-4x v některých pracovních postupech)
- Rychlejší časy dokončení
- Méně šumu k analýze ve výstupu
Integrace s GitHub a VS Code
Codex má nativní integraci s GitHub Copilot a VS Code. Pro vývojáře, kteří jsou již součástí ekosystému GitHub, to znamená:
- Inline code suggestions vázané na Codex
- Pull request review poháněné stejným modelem
- Bezproblémový kontext z vašeho repository
Kde Claude Sonnet 4.6 vyhrává
Uvažování a porozumění záměru
Sonnet 4.6 konzistentně překonává Codex, když úkol vyžaduje pochopení toho, co vývojář skutečně chce -- zejména z vágních nebo neúplných specifikací. V testování Claude Code vývojáři preferovali Sonnet 4.6 před předchozím Sonnet 4.5 v 70 % případů a před předchozí vlajkovou lodí Opus 4.5 v 59 % případů. Toto jsou čísla preferencí, nikoli skóre benchmarků -- odrážejí skutečnou zkušenost vývojářů.
Tato výhoda se projevuje v:
- Interpretaci nejednoznačných produktových požadavků
- Výběru vhodných návrhových vzorů bez nápovědy
- Předvídání okrajových případů, které vývojář výslovně nezmínil
- Produkci kódu, který častěji "prostě funguje" na první pokus
Refaktorování více souborů
Když se úkol dotýká 5-15 souborů napříč codebase, výhoda uvažování Sonnet 4.6 je ještě výraznější. Sleduje závislosti, rozumí řetězcům importů a provádí koordinované změny, které udržují konzistenci. Codex zvládá refaktorování schopně, ale u změn velkého rozsahu má Sonnet tendenci produkovat méně nefunkčních odkazů.
Computer Use
Výsledek Sonnet 4.6 72.5 % v OSWorld (oproti 64 % u Codex) z něj činí silnější volbu pro pracovní postupy, které zahrnují interakci s prohlížečem, testování GUI nebo jakýkoli úkol, kde model potřebuje "vidět" obrazovku a interagovat s ní. Tento rozdíl 8.5 bodu je významný -- je téměř identický s výsledkem Opus 4.6 (72.7 %), což ze Sonnet dělá jasnou volbu z hlediska hodnoty pro computer use.
Generování celých aplikací (Vibe Coding)
Sonnet 4.6 vyniká v generování kompletních, funkčních aplikací z jediného promptu -- pracovní postup často nazývaný "vibe coding."
Výsledky testů Vibe Coding v reálném světě
Benchmarky měří izolované schopnosti. Reálné testy z converge.run podrobily oba modely úkolům generování celých aplikací hodnoceným na stupnici 0-3:
| Úkol | Claude Sonnet 4.6 | GPT-5.3 Codex |
|---|---|---|
| Hra Tower Defense | 2/3 | 3/3 |
| Klon ChatGPT | 3/3 | 1/3 |
| Landing page | 3/3 | 1/3 |
| 3D simulace částic | 3/3 | 1/3 |
| Celkem | 11/12 | 6/12 |
Sonnet 4.6 vyhrál rozhodně, 11 ku 6. Vzorec je pozoruhodný: Codex vyhrál nejvíce strukturovaný úkol (hra tower defense s jasnými pravidly), zatímco Sonnet dominoval úkolům vyžadujícím kreativní implementaci, smysl pro design UI a celostní architekturu aplikace.
To odpovídá příběhu z benchmarků -- Codex vyniká v definovaném provádění, Sonnet vyniká v úkolech vyžadujících širší úsudek.
Poznatky: "Na agentovi záleží více než na modelu"
Zde je nejpodceňovanější zjištění ze současného výzkumu AI kódování: agent harness kolem modelu záleží více než model samotný.
Skóre SWE-bench se mohou lišit o 22+ bodů v závislosti na:
- Tool configuration (které nástroje může model volat)
- Strategii prompting a systémové instrukce
- Logice opakování a zpracování chyb
- Vyhledávání souborů a správě kontextu
To znamená, že dobře nakonfigurovaný agent Sonnet 4.6 může překonat špatně nakonfigurovanou sestavu Codex a naopak. Než se začnete trápit výběrem modelu, investujte do:
- Scaffolding -- Jak váš agent získává kontext, spravuje soubory a řeší chyby
- Tool integration -- Ke kterým nástrojům má model přístup (vyhledávání, terminál, prohlížeč)
- Prompt engineering -- Systémové prompty vyladěné pro vaši konkrétní codebase a konvence
- Evaluace -- Měřte to, co záleží pro VAŠE úkoly, ne SWE-bench
Model je jedna proměnná. Systém kolem něj je násobitel.
Rozhodovací rámec
Zvolte GPT-5.3 Codex, pokud:
- Váš primární pracovní postup je založen na terminálu (spouštění příkazů, debugging, git operace)
- Rychlost a odezva jsou pro váš flow kritické
- Pracujete v ekosystému GitHub/VS Code/Copilot
- Záleží na nákladech a provádíte velké objemy kódovacích úkolů
- Vaše úkoly jsou dobře definované s jasnými specifikacemi
Zvolte Claude Sonnet 4.6, pokud:
- Často pracujete s vágními nebo vyvíjejícími se požadavky
- Běžnými úkoly jsou refaktorování více souborů a komplexní uvažování
- Potřebujete schopnosti computer use (prohlížeč, interakce s GUI)
- Generujete celé aplikace z promptů (vibe coding)
- Chcete kvalitu na úrovni Opus bez ceny na úrovni Opus
- Vaše úkoly vyžadují pochopení kontextu a záměru, nikoli jen provádění instrukcí
Používejte oba, pokud:
- Můžete si dovolit dvě předplatné nebo API klíče
- Vaše práce zahrnuje jak terminálové provádění, tak komplexní uvažování
- Chcete Codex pro úkoly kritické na rychlost a Sonnet pro úkoly kritické na hloubku
- Váš tým používá nástroje jako Continue.dev, které podporují přepínání modelů
Závěrečný verdikt
GPT-5.3 Codex a Claude Sonnet 4.6 nesoutěží o stejné místo na trhu -- jsou optimalizovány pro různé pracovní postupy vývojářů.
Codex je prováděcí engine. Je rychlý, efektivní z hlediska tokens a dominantní v kódování založeném na terminálu. Pokud o AI kódování uvažujete jako o "zadej mu jasný úkol a nech ho provést," Codex je model pro vás.
Sonnet 4.6 je partner pro uvažování. Rozumí tomu, co myslíte, dobře zvládá nejednoznačnost a produkuje kvalitnější výstupy u komplexních úkolů. Pokud o AI kódování uvažujete jako o "spolupráci s inteligentním partnerem na těžkých problémech," Sonnet je model pro vás.
Skutečnost, že Sonnet 4.6 dosahuje 79.6 % v SWE-bench -- v rozmezí 1.2 bodu od Opus 4.6 při pětinových nákladech -- z něj v současnosti dělá nejpřesvědčivější hodnotu v AI kódování. Ale terminálová dominance Codex (77.3 % vs 59.1 %) a výhoda v rychlosti (61.9 tok/s) jsou stejně reálné.