Mielőtt elkezdenénk: Miért naplóként írtam meg ezt
A legtöbb GPT-5.4 vs GPT-5.3 cikk csak egy benchmark táblázatot ad, és ezzel lezártnak tekinti a témát. Ez hasznos annak eldöntéséhez, hogy érdemes-e frissíteni, de teljesen haszontalan annak megértéséhez, hogy mi történik valójában a frissítés során.
Egy éles rendszert — egy belső fejlesztői eszköztárat — migráltam GPT-5.3 Codex-ről GPT-5.4-re 2026 March folyamán. Ez a cikk dokumentálja, mi történt napról napra, mi okozott meglepetést, mi romlott el, és hogyan néz ki a havi számla a túloldalon.
Ha saját migrációt tervez, ez az az útmutató, amire vágytam volna, mielőtt elkezdtem.
Migráció előtt: Mit futtattunk GPT-5.3 Codex-en
A beállításaink a váltás előtt:
- Alkalmazás: Egy belső code review és refaktorálási asszisztens, amelyet egy 14 fős mérnökcsapat használ
- API integráció: Közvetlen OpenAI API hívások, function calling az eszközhasználathoz, strukturált JSON kimenetek
- Átlagos napi volumen: ~800 API hívás, átlagosan 12K input tokens és 4K output tokens hívásonként
- Havi API költség: Körülbelül $1,400 a GPT-5.3 Codex árazás mellett ($1.75 input / $14 output per MTok)
- Context window használat: Rendszeresen elértük a 200-350K tokens szintet; alkalmanként csonkolás a 400K limitnél
Eredetileg azért választottuk a GPT-5.3 Codex-et, mert erős kód-specifikus teljesítményt nyújtott és alacsonyabbak voltak az input tokens költségei. Hat hónapig jól szolgált minket.
1. nap: A csere (March 8, 2026)
A migráció mechanikai része triviális volt. Az API konfigurációban a model: "gpt-5.3-codex" értéket átírtuk model: "gpt-5.4"-re. Deploy. Kész.
Első benyomás: A válaszok minőségileg másnak tűntek. Nem feltétlenül jobbnak vagy rosszabbnak, hanem másnak. A GPT-5.4 bőbeszédűbb volt az érvelésben — több magyarázatot adott a döntéseihez, mielőtt átadta volna a kódot. A code review eszközünk esetében ez valójában javulást jelentett, mert a bírálók szerették volna érteni a javaslatok mögötti "miértet".
Válaszsebesség: Érezhetően gyorsabb rövidebb promptok esetén. Körülbelül ugyanolyan a hosszabbaknál. A hivatalos adatok szerint a GPT-5.4 73.4 tokens per second sebességet produkál, ami hasonló a GPT-5.3 Codex tartományához, így a sebességkülönbség valós, de nem drámai.
Az első probléma: Az első órán belül elromlott a JSON parser-ünk. A GPT-5.3 Codex nyers JSON-t adott vissza, amikor strukturált kimenetet kértünk. A GPT-5.4 alkalmanként markdown kódblokkba csomagolta a JSON-t (```json ... ```). Ez megszakította a feldolgozási folyamatunkat.
Javítás: Beiktattunk egy előfeldolgozási lépést, amely eltávolítja a markdown kódkereteket a parzolás előtt. 10 perces javítás, de éles hibákat okozott volna, ha nem figyeltünk volna szorosan.
2-3. nap: Különbségek a Function Calling használatában
Eszközünk az OpenAI function calling funkcióját használta kódanalizáló eszközök — linter, test runner, dependency checker — meghívására. GPT-5.3 Codex-en ez hibátlanul működött.
A GPT-5.4-nél két problémába ütköztünk:
1. probléma: Opcionális paraméterek kezelése. Amikor egy függvényparaméter egy opcionális beágyazott objektum volt, a GPT-5.3 Codex kihagyta azt, ha nem volt rá szükség. A GPT-5.4 néha üres objektumot {} küldött helyette, ami miatt a validációnk elutasította a hívást.
2. probléma: Tool search viselkedés. A GPT-5.4 bevezeti a Tool Search funkciót, amely dinamikusan fedezi fel az elérhető eszközöket, ahelyett, hogy minden eszközdefiníciót előre megkövetelne. Ez egy erőteljes funkció — az OpenAI jelentése szerint 47%-kal csökkenti a tokens használatot —, de megváltoztatta az eszközmeghívások időzítését. A naplózó rendszerünk elvárta, hogy az eszközöket meghatározott sorrendben hívják meg, a GPT-5.4 pedig néha átrendezte őket.
Javítás az 1. problémára: Frissítettük a Zod validációs sémáinkat, hogy elfogadják az üres objektumokat az opcionális paramétereknél. Két óra munka.
Javítás a 2. problémára: Átírtuk a naplózást, hogy sorrendfüggetlen legyen. Fél nap munka. Megérte, mert az új megközelítés robusztusabb, modelltől függetlenül.
4-5. nap: A Context Window mindent megváltoztat
Ez volt az első valóban izgalmas pillanat. A GPT-5.3 Codex 400K tokens limittel rendelkezett. A legnagyobb repository-jainkhoz egy bonyolult daraboló (chunking) rendszert építettünk — a kódbázisokat szegmensekre bontottuk, mindegyiken lefuttattuk az elemzést, majd összefűztük az eredményeket.
A GPT-5.4 akár 1,050,000 tokens-t is támogat az API-n keresztül. A Codex felhasználók számára a teljes 1M context elérhető.
Mit jelentett ez a gyakorlatban: A legnagyobb repository-nk — egy 280 fájlból álló TypeScript monorepo — most már teljes egészében betölthető volt egyetlen context-be. Nincs több darabolás. Nincs több összefűzött elemzés illesztési hibákkal. A kód review minősége ezen a repository-n drasztikusan javult, mert a modell látta a modulok közötti függőségeket, amelyek láthatatlanok voltak, amikor a context fel volt osztva.
A hátulütő: A 272K tokens-t meghaladó promptok 2x input és 1.5x output áron futnak. Így a teljes 280 fájlos repo context-ként való elküldése jelentősen magasabb hívásonkénti költséget jelentett. Végül egy okos context-választó rendszert építettünk, amely a teljes repót betölti a modulok közötti feladatokhoz, de célzott context-et használ az egyfájlos feladatokhoz.
1. hét összefoglaló: Amik elromlottak
Az első hét végére itt a teljes lista azokról a dolgokról, amik elromlottak vagy finomítást igényeltek:
- JSON kimeneti formázás — Markdown kódblokk csomagolás (10 perces javítás)
- Function calling validáció — Üres objektumok opcionális paraméterekhez (2 órás javítás)
- Tool hívási sorrend — A naplózás szekvenciális hívásokat feltételezett (fél napos javítás)
- Token számlálás — A költségbecslésünk pontatlan volt, mert a GPT-5.4 kevesebb tokens-t használ válaszonként (frissített képletek)
- Rate limiting — A sebességkorlátozónk a GPT-5.3 Codex limitjeire volt konfigurálva; a GPT-5.4 más tier küszöbértékekkel rendelkezik (konfigurációs módosítás)
Ezek egyike sem volt katasztrofális. Mindegyik javítható volt egy napon belül. De ha éles rendszert migrál, tervezzen be egy teljes hetet a tesztelésre és a javításokra.
2. hét: Megjelennek a javulás jelei
Amint a migrációs súrlódások elcsitultak, a javulás egyértelművé vált.
A Computer Use új munkafolyamatokat nyitott meg
A GPT-5.4 az első általános célú modell natív computer-use képességekkel. Közvetlenül tud interakcióba lépni asztali alkalmazásokkal, böngészőkkel és rendszereszközökkel.
A mi esetünkben ez olyasmit tett lehetővé, amit a GPT-5.3 Codex-szel nem tudtunk megtenni: a modell most már le tudta futtatni a tesztcsomagunkat, megfigyelhette a kimenetet, és a tényleges teszteredmények alapján módosíthatta a code review javaslatait, nem csak statikus elemzésre hagyatkozva. Korábban a tesztkimenetet manuálisan kellett a context-be csatornázni. Most a modell képes végrehajtani és megfigyelni.
Körülbelül három nap alatt építettünk egy új "teszt-tudatos bírálati" módot, és az azonnal elkapott két olyan bugot, amit a tiszta statikus elemzés elvétett.
A tokens hatékonyság valós volt
Az OpenAI állítása szerint a GPT-5.4 kevesebb output tokens-t használ feladatonként. Két hétnyi éles adat után ezt meg tudtuk erősíteni: a GPT-5.4 átlagosan 3.1K output tokens-t használt feladatonként, szemben a GPT-5.3 Codex 4.0K értékével egyenértékű feladatoknál. Ez 22.5%-os csökkenést jelent az output tokens számában.
A tool search input tokens csökkentő hatásával kombinálva a teljes feladatonkénti tokens fogyasztás nagyjából 30%-kal esett vissza.
A hibák csökkenése érezhető volt
A GPT-5.4 33%-kal kevesebb ténybeli hibát produkál az OpenAI szerint. Code review kontextusunkban ez kevesebb téves pozitív javaslatot jelentett — a modell kisebb valószínűséggel jelölt meg helyes kódot problémásként. A csapatunk "javaslat elvetése" aránya 18%-ról 11%-ra csökkent.
3. hét: Tisztul a költségvetési kép
Íme az a rész, amire mindenki kíváncsi. Három teljes hétnyi GPT-5.4 éles futtatás után, összevetve a korábbi GPT-5.3 Codex adatainkkal, íme a költség-összehasonlítás:
Napi API költségek (átlagos)
| Mutató | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Napi hívások | ~800 | ~800 |
| Átlagos input tokens/hívás | 12,000 | 11,200 |
| Átlagos output tokens/hívás | 4,000 | 3,100 |
| Input költség mértéke | $1.75/MTok | $2.50/MTok |
| Output költség mértéke | $14.00/MTok | $15.00/MTok |
| Napi input költség | $16.80 | $22.40 |
| Napi output költség | $44.80 | $37.20 |
| Napi összesen | $61.60 | $59.60 |
Havi előrejelzés: A GPT-5.3 Codex ~$1,848 volt. A GPT-5.4 ~$1,788-ra vetíthető előre. Ez körülbelül $60/hónap (3.2%) megtakarítás — szerény, de figyelemre méltó, mivel a GPT-5.4 nominális árazása magasabb.
A megtakarítás teljes egészében a tokens hatékonyságból adódik. A GPT-5.4 kevesebb tokens-t használ ugyanazon feladatok elvégzéséhez, ami több mint ellensúlyozza a magasabb tokens árakat a mi munkaterhelésünk mellett.
Hol emelkedtek a költségek
A hosszú context-et igénylő feladatok — amelyek meghaladják a 272K tokens értéket — jelentősen többe kerülnek a GPT-5.4-en a long-context pótdíj miatt. Naponta körülbelül 15 ilyen hívást indítunk (teljes repo review-k). Ezeknél a konkrét hívásoknál a költségek körülbelül 40%-kal nőttek.
Hol csökkentek a költségek
A 100K tokens alatti standard feladatok — amelyek volumenünk 95%-át teszik ki — olcsóbbak lettek az alacsonyabb output tokens szám miatt. Ez bőségesen kompenzálta a maradék 5%-nál jelentkező long-context pótdíjat.
Dolgok, amikre nem számítottam
1. A GPT-5.4 véleményesebb a kódstílussal kapcsolatban
A GPT-5.3 Codex viszonylag semleges volt a stílust illetően — követte a kódbázisban meglévő mintákat. A GPT-5.4-nek erősebb véleménye van. Javasolni fogja a változók átnevezését a tisztaság érdekében, a feltételes szerkezetek átalakítását és függvények kiemelését — még akkor is, ha csak egy bug javítását kértük.
Ez egyszerre jó és idegesítő. Jó, mert a javaslatok általában validak. Idegesítő, mert zajt ad a code review-khoz, amikor a csapat csak célzott visszajelzést szeretne.
Javításunk: Hozzáadtunk egy system prompt utasítást: "Fókuszálj kizárólag a helyességre és a biztonsági kérdésekre. Ne javasolj stílusbeli változtatásokat, hacsak nem befolyásolják annyira az olvashatóságot, hogy az bugokat okozhat."
2. A kivezetési ütemterv sürgetővé teszi a váltást
A GPT-5.2 Thinking 2026 June 5-én nyugdíjba vonul. Ha még 5.2-t használ, három hónapja van. A GPT-5.3 Codex 2027 February-ig rendelkezik LTS támogatással, így ott kisebb a sürgetés — de a végkifejlet már látszik.
3. A Tool Search a rejtett aduász
Kezdetben a Tool Search funkciót csak egy optimalizációs részletnek tekintettem. Kiderült, hogy ez a legmeghatározóbb funkció a munkafolyamatunkban. Ahelyett, hogy mind a 12 eszközdefiníciót elküldenénk minden API hívásban (alkalmanként ~3K tokens-t fogyasztva), a GPT-5.4 dinamikusan fedezi fel az eszközöket szükség szerint. A tokens megtakarítás összeadódik a mi volumenünk mellett.
Az OpenAI dokumentációja szerint a tool search 47%-kal csökkentette a tokens használatot a tesztjeik során. A mi eszköz-igényes munkafolyamatunkban körülbelül 35%-ot láttunk — ami még mindig jelentős.
4. A "vibe" megváltozott
Ez szubjektív és nehezen számszerűsíthető, de a csapat észrevette. A GPT-5.4 érzésre inkább olyan, mintha egy senior mérnökkel dolgoznánk — megkérdőjelezi a feltételezéseket, alternatívákat javasol, és néha ellenez olyan megközelítéseket, amelyeket szuboptimálisnak tart. A GPT-5.3 Codex engedelmesebb volt. Hogy ezt javulásnak tekinti-e, az a csapata munkafolyamatától függ. Zvi Mowshowitz elemzése "jelentős frissítésnek" nevezi az érvelés és az általános képességek terén, és ezzel egyetértünk.
A migrációs ellenőrzőlista
Tapasztalataink alapján ezt tenném, ha újra migrálnék:
Váltás előtt
- Auditálja a JSON parzolást — ellenőrizze a markdown kódkeret kezelését
- Tekintse át a function calling sémákat — tesztelje az opcionális és beágyazott paramétereket
- Ellenőrizze a tokens számláló és költségbecslő logikát
- Hitelesítse a rate limiting konfigurációt a GPT-5.4 tier limitekkel szemben
- Azonosítson minden olyan munkafolyamatot, amely feltételezi a tool call sorrendet
Váltás közben
- Először staging környezetben deploy-oljon
- Futtassa párhuzamosan mindkét modellt legalább 48 órán át
- Figyelje a JSON formázási különbségeket
- Ellenőrizze a function calling sikerességi arányait
- Hasonlítsa össze a kimeneti minőséget a specifikus feladatainál
Váltás után
- Engedélyezze a tool search funkciót és mérje a tokens megtakarítást
- Értékelje a long-context feladatokat a 272K árazási küszöb szempontjából
- Finomítsa a system promptokat, ha a GPT-5.4 túl véleményes a munkafolyamatához
- Fedezze fel a computer use képességeket az új munkafolyamatokhoz
- Frissítse a költségelőrejelzéseket a tényleges használati adatokkal
Érdemes most migrálni?
Itt az én döntési keretrendszerem:
Migráljon azonnal, ha:
- GPT-5.2-t használ (June 5-én kivezetik)
- Rendszeresen eléri a 400K context limitet
- Szüksége van computer use képességekre
- Intenzív tool calling-ot használ és tokens megtakarítást szeretne
Migráljon hamarosan (egy hónapon belül), ha:
- Szeretné a minőségi javulást és elvisel egy hétnyi integrációs munkát
- Új funkciókat épít, amelyek profitálnak az 1M context-ből
- Szeretne jövőbiztos lenni, mielőtt a GPT-5.3 végleg eléri életciklusa végét
Maradjon a GPT-5.3 Codex-en, ha:
- A munkafolyamatai stabilak és költségoptimalizáltak
- A prompt-igényes feladatoknál az alacsonyabb input tokens árazásra támaszkodik
- Szeretné a 2027 February-ig tartó LTS támogatás stabilitását
- Szabályozott környezetben van, ahol a modellváltások formális felülvizsgálatot igényelnek
A ZBuild belső eszközeinél a migráció megérte az egy hétnyi munkát. Az 1M context window önmagában megváltoztatta azt, mire képes az eszközünk. De ha a GPT-5.3 Codex integrációja jól működik, és nem éri el a határait, nincs ok a kapkodásra — tervezze meg a migrációt a saját ütemterve szerint, ne az OpenAI-é szerint.
Tanulságok a váltást fontolgató csapatoknak
Ha az egész migrációt öt tanácsba kellene sűrítenem más mérnökcsapatok számára, ezek lennének azok.
1. Tervezzen be egy teljes hetet az integrációra, ne csak a modellcserére
A modellcsere öt perc. Az integráció minden határesetének felfedezése egy hét. A JSON formázási problémánk, a function calling különbségek és a naplózási feltételezések mind a valós forgalom alatt derültek ki, nem az unit tesztek során. Futtassa párhuzamosan a két modellt legalább 48 órán át az éles átállás előtt.
2. A tokens hatékonyság ellensúlyozza a magasabb árakat — de nem mindig
A 100K tokens alatti standard feladatoknál a GPT-5.4 valóban olcsóbb a magasabb tokens árazás ellenére. De ha a munkaterhelése erősen a long-context feladatok felé hajlik (272K tokens felett), többet fog fizetni. Modellezze a költségeket a saját specifikus használati mintája alapján, mielőtt elköteleződik. Az Apiyi árazási küszöb útmutatója hasznos kalkulátort kínál.
3. A Tool Search nem opcionális — azonnal engedélyezze
Ha ötnél több eszközzel használ function calling-ot, az első napon engedélyezze a tool search-öt. A tokens megtakarítás skálázódva összeadódik. A mi 12 eszközös beállításunknál ez hívásonként nagyjából 3K tokens-t takarított meg — napi 800 hívásnál ez 2.4 millió tokens naponta, ami körülbelül napi $6 megtakarítás az input költségeken.
4. Igazítsa a promptokat a GPT-5.4 személyiségéhez
A GPT-5.4 véleményesebb, mint a GPT-5.3 Codex. Ha az alkalmazása arra támaszkodik, hogy a modell pontosan kövesse az utasításokat szerkesztői kommentár nélkül, adjon explicit korlátozásokat a system prompt-hoz. Valami ilyesmit: "Csak a kért feladatra fókuszálj. Ne javasolj fejlesztéseket vagy alternatívákat, hacsak nem kérik." Ez jelentős zajtól kímélte meg a csapatunkat a code review kimeneteknél.
5. Tervezze meg a GPT-5.2 migrációt most
Ha van olyan rendszere, amely még GPT-5.2 Thinking-en fut, a 2026 June 5-i kivezetés nem alku tárgya. Ne várjon May-ig a migráció megkezdésével. Az integrációs felület a GPT-5.2 és a GPT-5.4 között nagyobb, mint a GPT-5.3 és GPT-5.4 közötti szakadék, így több hibára számítson.
GPT-5.4 vs GPT-5.3 Codex: Gyors referenciatáblázat
Azon csapatok számára, akik a narratíva nélküli összefoglalót keresik, íme a kulcsfontosságú adatok egy helyen:
| Funkció | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Megjelenési dátum | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Input árazás | $1.75/MTok | $2.50/MTok |
| Output árazás | $14.00/MTok | $15.00/MTok |
| Long-context pótdíj | Nincs | 2x input, 1.5x output 272K felett |
| Computer use | Nem | Igen, natív |
| Tool search | Nem | Igen (~47% tokens megtakarítás) |
| Hibaarány csökkenése | Alapszint | 33%-kal kevesebb ténybeli hiba |
| LTS támogatás | 2027 Feb-ig | Aktuális modell |
| Legjobb terület | Terminál-központú, költségérzékeny munka | Általános célú + ágens alapú folyamatok |
Egy hónappal később: Végső ítélet
Már egy teljes hónapja használjuk a GPT-5.4-et élesben. Az integrációs problémák megoldódtak, a csapat alkalmazkodott, és a számok stabilak.
Minőség: Jobb. Kevesebb téves pozitív a code review során, jobb modulok közötti elemzés, és a computer use integráció olyan munkafolyamatot tett lehetővé, amely korábban nem volt kivitelezhető.
Költség: Nagyjából egyenértékű a standard feladatoknál, valamivel magasabb a long-context feladatoknál, de a teljes havi számla 3-4%-kal alacsonyabb lett a tokens hatékonyságnak köszönhetően.
Sebesség: Összehasonlítható. Nincs érdemi különbség a mi munkaterhelésünknél.
Stabilitás: A javítások kezdeti hete után nulla produkciós hiba.
A frissítés nem volt forradalmi — inkrementális volt, de pozitív. A GPT-5.4 a jobb modell a legtöbb fejlesztő számára 2026 March-ában. A kérdés csak az, hogy a migrációs erőfeszítés megéri-e az Ön specifikus helyzetében.
Ha fejlesztői eszközöket épít — mint mi a ZBuild-nél —, az aktuális zászlóshajó modellen maradás fontos a termék versenyképességének megőrzéséhez. Olyan belső eszközöknél, ahol a stabilitás az elsődleges, a GPT-5.3 Codex az LTS támogatással teljesen érvényes választás 2027 elejéig.
Források
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex