Než začneme: Proč jsem to napsal jako deník
Většina článků o GPT-5.4 vs GPT-5.3 vám nabídne tabulku s benchmarky a tím to končí. To je užitečné pro rozhodování, zda upgradovat, ale naprosto k ničemu pro pochopení toho, co se během upgradu skutečně děje.
Během března 2026 jsem migroval produkční systém — interní platformu pro vývojářské nástroje — z GPT-5.3 Codex na GPT-5.4. Tento článek dokumentuje, co se dělo den po dni, co mě překvapilo, co se rozbilo a jak vypadá měsíční vyúčtování na druhé straně.
Pokud plánujete vlastní migraci, toto je průvodce, kterého bych si přál mít k dispozici já.
Před migrací: Co jsme provozovali na GPT-5.3 Codex
Naše nastavení před změnou:
- Aplikace: Interní asistent pro review kódu a refaktorování používaný inženýrským týmem o 14 lidech
- API integrace: Přímá volání OpenAI API, function calling pro použití nástrojů, strukturované JSON výstupy
- Průměrný denní objem: ~800 API volání, v průměru 12K input tokens a 4K output tokens na každé
- Měsíční náklady na API: Přibližně $1,400 při cenách GPT-5.3 Codex ($1.75 input / $14 output na MTok)
- Využití context window: Pravidelné dosahování 200-350K tokens; občasné ořezávání na limitu 400K
Původně jsme zvolili GPT-5.3 Codex kvůli jeho vysokému výkonu specifickému pro kódování a nižším nákladům na input tokens. Dobře nám sloužil šest měsíců.
Den 1: Výměna (March 8, 2026)
Mechanická část migrace byla triviální. Změnit model: "gpt-5.3-codex" na model: "gpt-5.4" v naší API konfiguraci. Deploy. Hotovo.
První dojem: Odpovědi působily kvalitativně jinak. Ne nutně lépe nebo hůře, ale jinak. GPT-5.4 byl upovídanější ve svém uvažování — poskytoval více vysvětlení svých voleb předtím, než dodal kód. Pro náš nástroj na review kódu to bylo ve skutečnosti zlepšení, protože revidující chtěli pochopit "proč" za danými návrhy.
Rychlost odezvy: Znatelně rychlejší u kratších promptů. Přibližně stejná u delších. Oficiální data ukazují GPT-5.4 na 73.4 tokens za sekundu ve srovnání s GPT-5.3 Codex v podobném rozsahu, takže rozdíl v rychlosti je reálný, ale nikoliv dramatický.
První problém: Během první hodiny se rozbil náš JSON parser. GPT-5.3 Codex vracel čistý JSON, když byl požádán o strukturovaný výstup. GPT-5.4 občas zabalil JSON do markdown code blocku (```json ... ```). To rozbilo naši parsing pipeline.
Oprava: Přidán krok předzpracování pro odstranění markdown code fences před parsováním. Oprava na 10 minut, ale způsobila by produkční chyby, kdybychom vše pozorně nesledovali.
Den 2-3: Rozdíly ve Function Calling
Náš nástroj využíval funkci OpenAI function calling, která modelu umožňovala vyvolávat nástroje pro analýzu kódu — linter, test runner, dependency checker. Na GPT-5.3 Codex to fungovalo bezchybně.
Na GPT-5.4 jsme narazili na dva problémy:
Problém 1: Zpracování volitelných parametrů. Když byl parametr funkce volitelný vnořený objekt, GPT-5.3 Codex ho vynechal, pokud nebyl potřeba. GPT-5.4 někdy místo toho poslal prázdný objekt {}, což způsobilo, že naše validace volání odmítla.
Problém 2: Chování Tool Search. GPT-5.4 zavádí Tool Search, který dynamicky objevuje dostupné nástroje namísto vyžadování definic všech nástrojů předem. Je to výkonná funkce — OpenAI uvádí, že snižuje využití tokens o 47% — ale změnila načasování vyvolávání nástrojů. Náš logovací systém očekával, že nástroje budou volány v určitém pořadí, a GPT-5.4 je občas přeuspořádal.
Oprava Problému 1: Aktualizovali jsme naše Zod validační schémata, aby přijímala prázdné objekty pro volitelné parametry. Dvě hodiny práce.
Oprava Problému 2: Přepsali jsme naše logování tak, aby bylo nezávislé na pořadí. Půl dne práce. Stálo to za to, protože nový přístup je robustnější bez ohledu na model.
Den 4-5: Context Window mění vše
Toto byl první skutečně vzrušující okamžik. GPT-5.3 Codex měl limit 400K tokens. Pro naše největší repozitáře jsme vyvinuli propracovaný systém chunkingu — rozdělování kódové báze na segmenty, spouštění analýzy na každém segmentu a následné spojování výsledků dohromady.
GPT-5.4 podporuje přes API až 1,050,000 tokens. Pro uživatele Codex je k dispozici plný 1M kontext.
Co to znamenalo v praxi: Náš největší repozitář — TypeScript monorepo s 280 soubory — mohl být nyní načten celý v jednom kontextu. Už žádný chunking. Už žádná spojovaná analýza s artefakty ve švech. Kvalita review kódu u tohoto repozitáře se dramaticky zlepšila, protože model viděl závislosti mezi moduly, které byly neviditelné, když byl kontext rozdělen.
Háček: Prompty přesahující 272K tokens jsou naceněny jako 2x input a 1.5x output. Takže odeslání celého našeho repozitáře s 280 soubory jako kontext znamenalo výrazně vyšší náklady na volání. Nakonec jsme vytvořili systém pro chytrou volbu kontextu, který načítá celé repo pro úkoly napříč moduly, ale používá cílený kontext pro úkoly týkající se jednoho souboru.
Shrnutí 1. týdne: Co se rozbilo
Na konci prvního týdne je zde kompletní seznam toho, co se rozbilo nebo vyžadovalo úpravu:
- Formátování JSON výstupu — Markdown code block wrapping (oprava na 10 minut)
- Validace function calling — Prázdné objekty pro volitelné parametry (oprava na 2 hodiny)
- Pořadí vyvolávání nástrojů — Logování předpokládalo sekvenční volání (oprava na půl dne)
- Počítání tokens — Náš odhad nákladů byl mimo, protože GPT-5.4 používá méně tokens na odpověď (aktualizované vzorce)
- Rate limiting — Náš rate limiter byl konfigurován pro limity GPT-5.3 Codex; GPT-5.4 má jiné prahové hodnoty úrovní (změna konfigurace)
Žádný z těchto problémů nebyl katastrofální. Všechny byly opravitelné za méně než den. Ale pokud migrujete produkční systém, vyhraďte si celý týden na testování a záplatování.
Týden 2: Začínají se projevovat zlepšení
Jakmile se migrační tření usadilo, zlepšení začala být jasná.
Computer Use otevřel nové pracovní postupy
GPT-5.4 je první univerzální model s nativními schopnostmi computer-use. Může přímo interagovat s desktopovými aplikacemi, prohlížeči a systémovými nástroji.
V našem případě to umožnilo něco, co jsme s GPT-5.3 Codex nemohli dělat: model mohl nyní spustit naši testovací sadu, sledovat výstup a upravit své návrhy na review kódu na základě skutečných výsledků testů, nikoliv pouze na základě statické analýzy. Dříve jsme museli výstup testů vkládat do kontextu ručně. Nyní model může spouštět i pozorovat.
Během asi tří dnů jsme vytvořili nový režim "review s vědomím testů" a ten okamžitě zachytil dvě chyby, které čistá statická analýza přehlédla.
Efektivita tokens byla reálná
OpenAI tvrdí, že GPT-5.4 používá méně output tokens na jeden úkol. Po dvou týdnech produkčních dat jsme to potvrdili: GPT-5.4 měl v průměru 3.1K output tokens na úkol ve srovnání s 4.0K u GPT-5.3 Codex u ekvivalentních úkolů. To je snížení output tokens o 22.5%.
V kombinaci s tool search, který snižuje input tokens, klesla celková spotřeba tokens na úkol zhruba o 30%.
Snížení chybovosti bylo znát
GPT-5.4 produkuje o 33% méně věcných chyb podle OpenAI. V kontextu našeho review kódu se to projevilo v menším počtu falešně pozitivních návrhů — model méně často označoval správný kód za problematický. Míra "zamítnutí návrhu" naším týmem klesla z 18% na 11%.
Týden 3: Cenový obraz se vyjasňuje
Tady je část, která zajímá každého. Po třech celých týdnech provozu GPT-5.4 v produkci vedle našich historických dat z GPT-5.3 Codex vypadá srovnání nákladů následovně:
Denní náklady na API (průměr)
| Metrika | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Denní volání | ~800 | ~800 |
| Průměr input tokens/volání | 12,000 | 11,200 |
| Průměr output tokens/volání | 4,000 | 3,100 |
| Sazba za input | $1.75/MTok | $2.50/MTok |
| Sazba za output | $14.00/MTok | $15.00/MTok |
| Denní náklady za input | $16.80 | $22.40 |
| Denní náklady za output | $44.80 | $37.20 |
| Denní celkem | $61.60 | $59.60 |
Měsíční projekce: GPT-5.3 Codex vycházel na ~$1,848. GPT-5.4 se projektuje na ~$1,788. Úspora přibližně $60/měsíc (3.2%) — skromná, ale pozoruhodná, protože nominální ceny GPT-5.4 jsou vyšší.
Úspory plynou výhradně z efektivity tokens. GPT-5.4 používá méně tokens ke splnění stejných úkolů, což více než kompenzuje jeho vyšší ceny za token pro naši pracovní zátěž.
Kde náklady vzrostly
Úkoly s dlouhým kontextem — ty, které přesahují 272K tokens — stojí na GPT-5.4 výrazně více kvůli příplatku za dlouhý kontext. Spouštíme jich asi 15 denně (review celých repozitářů). U těchto konkrétních volání se náklady zvýšily o přibližně 40%.
Kde náklady klesly
Standardní úkoly pod 100K tokens — které tvoří 95% našeho objemu — byly levnější díky nižšímu počtu output tokens. To více než kompenzovalo příplatek za dlouhý kontext u zbývajících 5%.
Věci, které jsem nečekal
1. GPT-5.4 je vyhraněnější ohledně stylu kódu
GPT-5.3 Codex byl ohledně stylu relativně neutrální — následoval jakékoliv vzorce, které ve vaší kódové bázi existovaly. GPT-5.4 má silnější názory. Bude navrhovat přejmenování proměnných pro větší přehlednost, restrukturalizaci podmínek a extrakci funkcí — i když jste žádali pouze o opravu chyby.
To je dobré i otravné zároveň. Dobré proto, že návrhy jsou obvykle validní. Otravné proto, že to přidává šum do review kódu, když tým chce pouze cílenou zpětnou vazbu.
Naše oprava: Přidali jsme instrukci do system prompt: "Zaměř se výhradně na správnost a bezpečnostní problémy. Nenavrhuj změny stylu, pokud neovlivňují čitelnost natolik, aby způsobovaly chyby."
2. Časová osa ukončení podpory vytváří naléhavost
GPT-5.2 Thinking končí June 5, 2026. Pokud jste stále na 5.2, máte tři měsíce. GPT-5.3 Codex má LTS podporu do February 2027, takže tam je naléhavost menší — ale konec je nevyhnutelný.
3. Tool Search je skrytý trumf
Původně jsem Tool Search považoval za detail optimalizace. Ukázalo se, že je to nejpůsobivější funkce pro náš workflow. Namísto posílání všech 12 definic nástrojů v každém API volání (což pokaždé spotřebuje ~3K tokens), GPT-5.4 dynamicky objevuje nástroje podle potřeby. Úspora tokens se při našem objemu sčítá.
Dokumentace OpenAI uvádí, že tool search snížil využití tokens při jejich testování o 47%. U našeho workflow náročného na nástroje jsme viděli asi 35% — stále významné.
4. Změnil se "vibe"
Je to subjektivní a těžko kvantifikovatelné, ale tým si toho všiml. GPT-5.4 působí spíše jako práce se seniorním inženýrem — zpochybňuje předpoklady, navrhuje alternativy a někdy odmítá přístupy, které považuje za suboptimální. GPT-5.3 Codex byl poslušnější. Zda to považujete za zlepšení, závisí na workflow vašeho týmu. Analýza Zvi Mowshowitze to nazývá "podstatným upgradem" v uvažování a obecných schopnostech, a my souhlasíme.
Kontrolní seznam pro migraci
Na základě našich zkušeností bych při opakované migraci postupoval takto:
Před přepnutím
- Auditujte svůj JSON parsing — zkontrolujte ošetření markdown code fences
- Zkontrolujte schémata function calling — otestujte volitelné a vnořené parametry
- Zkontrolujte logiku počítání tokens a odhadu nákladů
- Ověřte konfiguraci rate limitingu proti limitům úrovní GPT-5.4
- Identifikujte veškeré workflow, které předpokládají určité pořadí volání nástrojů
Během přepnutí
- Nejdříve nasaďte do staging prostředí
- Provozujte oba modely paralelně po dobu alespoň 48 hodin
- Sledujte rozdíly ve formátování JSON
- Kontrolujte úspěšnost function calling
- Porovnejte kvalitu výstupu u svých konkrétních úkolů
Po přepnutí
- Povolte tool search a změřte úsporu tokens
- Vyhodnoťte úkoly s dlouhým kontextem z hlediska cenového prahu 272K
- Upravte system prompts, pokud je GPT-5.4 pro váš workflow příliš vyhraněný
- Prozkoumejte schopnosti computer use pro nové pracovní postupy
- Aktualizujte projekce nákladů na základě skutečných dat o využití
Měli byste migrovat hned?
Zde je můj rozhodovací rámec:
Migrujte okamžitě, pokud:
- Jste na GPT-5.2 (končí June 5)
- Pravidelně narážíte na limit kontextu 400K
- Potřebujete schopnosti computer use
- Intenzivně využíváte volání nástrojů a chcete ušetřit tokens
Migrujte brzy (během měsíce), pokud:
- Chcete zlepšení kvality a snesete týden integračních prací
- Budujete nové funkce, které těží z 1M kontextu
- Chcete se zajistit do budoucna, než GPT-5.3 nakonec dosáhne konce životnosti
Zůstaňte na GPT-5.3 Codex, pokud:
- Vaše pracovní postupy jsou stabilní a nákladově optimalizované
- Spoléháte na jeho nižší cenu input tokens u workloadů náročných na prompty
- Chcete stabilitu LTS podpory do February 2027
- Jste v regulovaném prostředí, kde změny modelů vyžadují formální přezkum
Pro naše interní nástroje v ZBuild migrace stála za ten týden práce. Samotné 1M context window změnilo to, co náš nástroj dokáže. Pokud však vaše integrace s GPT-5.3 Codex funguje dobře a nenarážíte na její limity, nic nehoří — naplánujte migraci podle svého harmonogramu, nikoliv podle OpenAI.
Lekce pro týmy zvažující přechod
Kdybych měl celou migraci shrnout do rad pro ostatní inženýrské týmy, bylo by to těchto pět bodů.
1. Vyhraďte si celý týden na integraci, nejen na výměnu modelu
Výměna modelu trvá pět minut. Odhalení všech okrajových případů ve vaší integraci trvá týden. Náš problém s formátováním JSON, rozdíly ve function calling a předpoklady o logování se projevily až při reálném provozu, nikoliv během unit testů. Před úplným přepnutím provozujte oba modely paralelně alespoň 48 hodin.
2. Efektivita tokens kompenzuje vyšší ceny — ale ne vždy
U standardních úkolů pod 100K tokens je GPT-5.4 skutečně levnější navzdory vyšší ceně za token. Pokud je však vaše zátěž silně vychýlena směho k úkolům s dlouhým kontextem (nad 272K tokens), zaplatíte více. Modelujte náklady pro svůj konkrétní vzorec využití, než se k němu zavážete. Průvodce cenovými prahy Apiyi má užitečnou kalkulačku.
3. Tool Search není volitelný — povolte ho okamžitě
Pokud používáte function calling s více než 5 nástroji, povolte tool search hned první den. Úspora tokens se v měřítku sčítá. Pro naše nastavení s 12 nástroji to ušetřilo zhruba 3K tokens na volání — při více než 800 voláních denně to dělá 2.4 milionu tokens denně, tedy asi $6 denně na nákladech za input.
4. Upravte prompty pro osobnost GPT-5.4
GPT-5.4 je vyhraněnější než GPT-5.3 Codex. Pokud vaše aplikace spoléhá na to, že model přesně následuje instrukce bez redakčních komentářů, přidejte do svého system prompt explicitní omezení. Něco jako "Zaměř se pouze na požadovaný úkol. Nenavrhuj vylepšení ani alternativy, pokud o to nebudeš požádán." To našemu týmu ušetřilo značný šum ve výstupu review kódu.
5. Naplánujte si migraci z GPT-5.2 hned teď
Pokud máte systémy stále běžící na GPT-5.2 Thinking, ukončení k June 5, 2026 není k diskusi. Nečekejte s migrací až na květen. Integrační plocha mezi GPT-5.2 a GPT-5.4 je větší než rozdíl mezi GPT-5.3 a GPT-5.4, takže očekávejte více komplikací.
GPT-5.4 vs GPT-5.3 Codex: Rychlá referenční tabulka
Pro týmy, které chtějí shrnutí bez příběhu, jsou zde klíčová data na jednom místě:
| Funkce | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Datum vydání | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Cena za input | $1.75/MTok | $2.50/MTok |
| Cena za output | $14.00/MTok | $15.00/MTok |
| Příplatek za dlouhý kontext | Žádný | 2x input, 1.5x output nad 272K |
| Computer use | Ne | Ano, nativní |
| Tool search | Ne | Ano (šetří ~47% tokens) |
| Snížení chybovosti | Baseline | 33% méně věcných chyb |
| LTS podpora | Do Feb 2027 | Aktuální model |
| Nejlepší pro | Práce náročná na CLI, citlivá na cenu | Univerzální + agentické workflow |
Verdikt po měsíci
Nyní je to už celý měsíc na GPT-5.4. Problémy s integrací jsou vyřešeny, tým se přizpůsobil a čísla jsou stabilní.
Kvalita: Lepší. Méně falešně pozitivních výsledků v review kódu, lepší analýza napříč moduly a integrace computer use přidala workflow, které dříve nebylo možné.
Náklady: Zhruba ekvivalentní pro standardní úkoly, mírně vyšší pro úkoly s dlouhým kontextem, ale celkové měsíční vyúčtování bylo o 3-4% nižší díky efektivitě tokens.
Rychlost: Srovnatelná. Pro naši pracovní zátěž žádný významný rozdíl.
Stabilita: Po úvodním týdnu oprav nula produkčních problémů.
Upgrade nebyl transformativní — byl inkrementální, ale pozitivní. GPT-5.4 je v březnu 2026 lepším modelem pro většinu vývojářů. Otázkou je jen to, zda úsilí vynaložené na migraci stojí za to ve vaší konkrétní situaci.
Pokud vyvíjíte vývojářské nástroje — jako my v ZBuild — zůstat na aktuálním vlajkovém modelu je důležité pro udržení konkurenceschopnosti produktu. Pro interní nástroje, kde je prioritou stabilita, je GPT-5.3 Codex na LTS naprosto platnou volbou až do začátku roku 2027.
Zdroje
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex