Enne kui alustame: miks ma kirjutasin selle päevikuna
Enamik GPT-5.4 vs GPT-5.3 artikleid pakuvad teile jõudlustesti tabelit ja lõpetavad sellega. See on kasulik uuendamise otsustamiseks, kuid täiesti kasutu mõistmaks, mis uuendamise käigus tegelikult juhtub.
Migreerisin märtsis 2026 ühe tootmissüsteemi — sisese arendustööriistade platvormi — GPT-5.3 Codex mudelilt GPT-5.4 mudelile. See artikkel dokumenteerib toimunut päev-päevalt, mis mind üllatas, mis katki läks ja milline näeb välja kuu arve teisel pool.
Kui plaanite oma migratsiooni, siis see on juhend, mida ma soovisin, et mul oleks olnud.
Enne migratsiooni: mida me kasutasime GPT-5.3 Codex platvormil
Meie seadistus enne vahetust:
- Rakendus: Sisekasutuseks mõeldud koodiülevaatuse ja refaktoreerimise assistent, mida kasutab 14-liikmeline insenerimeeskond
- API integratsioon: Otsesed OpenAI API kutsed, function calling tööriistade kasutamiseks, structured JSON väljundid
- Keskmine päevane maht: ~800 API kutset, keskmiselt 12K input tokens ja 4K output tokens igaühe kohta
- Igakuine API kulu: Umbes $1,400 GPT-5.3 Codex hinnakirja alusel ($1.75 input / $14 output per MTok)
- Context window kasutus: Regulaarselt 200-350K tokens; aeg-ajalt kärpimine 400K piirangul
Valisime algselt GPT-5.3 Codex selle tugeva koodispetsiifilise jõudluse ja madalamate input token kulude tõttu. See teenis meid hästi kuus kuud.
1. päev: vahetus (March 8, 2026)
Migratsiooni mehaaniline osa oli tühine. Muuda model: "gpt-5.3-codex" väärtuseks model: "gpt-5.4" meie API konfiguratsioonis. Deploy. Tehtud.
Esimene mulje: Vastused tundusid kvalitatiivselt teistsugused. Mitte tingimata paremad või halvemad, vaid teistsugused. GPT-5.4 oli oma argumentatsioonis jutukam — selgitades rohkem oma valikuid enne koodi esitamist. Meie koodiülevaatuse tööriista puhul oli see tegelikult parandus, sest ülevaatajad tahtsid mõista soovituste taga olevat "miks"-küsimust.
Vastamiskiirus: Märgatavalt kiirem lühemate promptide puhul. Umbes sama pikkade puhul. Ametlikud andmed näitavad GPT-5.4 kiiruseks 73.4 tokens per second võrreldes GPT-5.3 Codex sarnase vahemikuga, seega kiiruse erinevus on reaalne, kuid mitte dramaatiline.
Esimene probleem: Esimese tunni jooksul lakkas meie JSON parser töötamast. GPT-5.3 Codex oli tagastanud puhast JSON-it, kui küsiti structured väljundit. GPT-5.4 mähkis JSON-i aeg-ajalt markdown koodiplokki (```json ... ```). See katkestas meie parsimise konveieri.
Lahendus: Lisasime eeltöötluse sammu, et eemaldada markdown koodi piirded enne parsimist. 10-minutiline parandus, kuid see oleks põhjustanud tootmisvigu, kui me poleks tähelepanelikult jälginud.
2.-3. päev: Function Calling erinevused
Meie tööriist kasutas OpenAI function calling funktsiooni, et lasta mudelil kutsuda koodianalüüsi tööriistu — linter, test runner, dependency checker. GPT-5.3 Codex puhul töötas see laitmatult.
GPT-5.4 puhul põrkasime kahele probleemile:
Probleem 1: Valikuliste parameetrite käsitlemine. Kui funktsiooni parameeter oli valikuline pesastatud objekt, siis GPT-5.3 Codex jättis selle vajadusel välja. GPT-5.4 saatis mõnikord selle asemel tühja objekti {} , mis põhjustas meie valideerimise kutse tagasilükkamise.
Probleem 2: Tool search käitumine. GPT-5.4 tutvustab Tool Search funktsiooni, mis avastab saadaolevad tööriistad dünaamiliselt, selle asemel et nõuda kõigi tööriistade definitsioone ette. See on võimas funktsioon — OpenAI teatab, et see vähendab token kasutust 47% võrra — kuid see muutis tööriistade kutsumise ajastust. Meie logimissüsteem ootas tööriistade kutsumist kindlas järjekorras ja GPT-5.4 muutis vahel nende järjestust.
Lahendus Probleemile 1: Uuendasime oma Zod valideerimisskeeme, et aktsepteerida tühje objekte valikuliste parameetrite puhul. Kaks tundi tööd.
Lahendus Probleemile 2: Kirjutasime oma logimise ümber nii, et see ei sõltuks järjekorrast. Pool päeva tööd. Väärt pingutus, sest uus lähenemine on töökindlam olenemata mudelist.
4.-5. päev: The Context Window muudab kõike
See oli esimene tõeliselt põnev hetk. GPT-5.3 Codex limiit oli 400K tokens. Meie suurimate hoidlate jaoks olime ehitanud keeruka tükeldamissüsteemi — koodibaaside jagamine segmentideks, iga segmendi analüüsimine ja seejärel tulemuste kokkuõmblemine.
GPT-5.4 toetab kuni 1,050,000 tokens API kaudu. Codex kasutajate jaoks on saadaval täielik 1M kontekst.
Mida see praktikas tähendas: Meie suurim hoidla — 280 failiga TypeScript monorepo — sai nüüd laadida täielikult ühte konteksti. Ei mingit tükeldamist enam. Ei mingit kokkuõmmeldud analüüsi koos liitekohtade defektidega. Koodiülevaatuse kvaliteet selles hoidlas paranes dramaatiliselt, sest mudel nägi moodulitevahelisi sõltuvusi, mis olid varem nähtamatud, kui kontekst oli jagatud.
Konksukoht: Promptid, mis ületavad 272K tokens, on hinnastatud 2x input ja 1.5x output määraga. Seega meie täieliku 280 failiga repo saatmine kontekstina tähendas oluliselt kõrgemaid kulusid kutse kohta. Lõpetasime sellega, et ehitasime nutika kontekstivaliku süsteemi, mis laeb kogu repo moodulitevaheliste ülesannete jaoks, kuid kasutab sihitud konteksti ühe faili ülesannete puhul.
1. nädala kokkuvõte: asjad, mis katki läksid
Esimese nädala lõpuks on siin täielik nimekiri asjadest, mis katki läksid või vajasid kohandamist:
- JSON väljundi vormindamine — Markdown koodiploki mähkimine (10-minutiline parandus)
- Function calling valideerimine — Tühjad objektid valikuliste parameetrite jaoks (2-tunnine parandus)
- Tööriistade kutsumise järjekord — Logimine eeldas järjestikuseid kutseid (poolepäevane parandus)
- Token loendamine — Meie kuluhinnang oli vale, sest GPT-5.4 kasutab vähem tokens vastuse kohta (uuendatud valemid)
- Rate limiting — Meie rate limiter oli konfigureeritud GPT-5.3 Codex limiitidele; GPT-5.4 on teistsugused tasemete künnised (konfiguratsiooni muudatus)
Ükski neist ei olnud katastroofiline. Kõik olid parandatavad vähem kui päevaga. Kuid kui migreerite tootmissüsteemi, arvestage testimiseks ja paikamiseks terve nädal.
2. nädal: parandused hakkavad ilmnema
Kui migratsiooniga seotud hõõrdumine vaibus, tulid parandused selgelt esile.
Computer Use avas uued töövood
GPT-5.4 on esimene üldotstarbeline mudel, millel on natiivsed computer-use võimekused. See suudab vahetult suhelda töölauarakenduste, brauserite ja süsteemitööriistadega.
Meie kasutusjuhu puhul võimaldas see midagi, mida me ei saanud teha GPT-5.3 Codex mudeliga: mudel sai nüüd käivitada meie testikomplekti, jälgida väljundit ja kohandada oma koodiülevaatuse soovitusi tegelike testitulemuste, mitte ainult staatilise analüüsi põhjal. Varem pidime testiväljundi käsitsi konteksti suunama. Nüüd saab mudel ise käivitada ja jälgida.
Ehitasime uue "testiteadliku ülevaatuse" režiimi umbes kolme päevaga ja see tabas kohe kaks viga, mida puhas staatiline analüüs oli märkamata jätnud.
Token Efficiency oli reaalne
OpenAI väidab, et GPT-5.4 kasutab vähem output tokens ülesande kohta. Pärast kahte nädalat tootmisandmeid kinnitasime seda: GPT-5.4 keskmine oli 3.1K output tokens ülesande kohta võrreldes GPT-5.3 Codex 4.0K-ga samaväärsete ülesannete puhul. See on 22.5% vähenemine output tokens osas.
Kombineerituna tool search-iga, mis vähendab input tokens, langes kogu token tarbimine ülesande kohta umbes 30%.
Vigade vähenemine oli märgatav
GPT-5.4 teeb OpenAI andmetel 33% vähem faktivigu. Meie koodiülevaatuse kontekstis tähendas see vähem valepositiivseid soovitusi — mudel märkis väiksema tõenäosusega korrektset koodi probleemseks. Meie meeskonna "dismiss suggestion" määr langes 18%-lt 11%-le.
3. nädal: kulupilt muutub selgeks
Siin on osa, mida kõik teada tahavad. Pärast kolme täisnädalat GPT-5.4 kasutamist tootmises kõrvuti meie ajalooliste GPT-5.3 Codex andmetega, on siin kulude võrdlus:
Päevased API kulud (keskmine)
| Meetrik | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Päevased kutsed | ~800 | ~800 |
| Keskmine input tokens/kutse | 12,000 | 11,200 |
| Keskmine output tokens/kutse | 4,000 | 3,100 |
| Input kulu määr | $1.75/MTok | $2.50/MTok |
| Output kulu määr | $14.00/MTok | $15.00/MTok |
| Päevane input kulu | $16.80 | $22.40 |
| Päevane output kulu | $44.80 | $37.20 |
| Päevane kokku | $61.60 | $59.60 |
Igakuine prognoos: GPT-5.3 Codex oli ~$1,848. GPT-5.4 prognoos on ~$1,788. Sääst umbes $60/kuu (3.2%) — tagasihoidlik, kuid märkimisväärne, kuna GPT-5.4 nominaalne hind on kõrgem.
Sääst tuleneb täielikult token efficiency-st. GPT-5.4 kasutab samade ülesannete täitmiseks vähem tokens, mis korvab enam kui küllalt selle kõrgemad hinnad tokeni kohta meie töökoormuse puhul.
Kus kulud tõusid
Pika kontekstiga ülesanded — need, mis ületavad 272K tokens — maksavad GPT-5.4 puhul märnatavalt rohkem long-context surcharge tõttu. Teeme neid umbes 15 tükki päevas (kogu repo ülevaatused). Nende konkreetsete kutsete puhul tõusid kulud umbes 40%.
Kus kulud langesid
Standardsed ülesanded alla 100K tokens — mis moodustavad 95% meie mahust — olid odavamad tänu madalamale output token arvule. See kompenseeris enam kui küllalt pika konteksti lisatasu ülejäänud 5% puhul.
Asjad, mida ma ei oodanud
1. GPT-5.4 on koodistiili osas enesekindlam
GPT-5.3 Codex oli stiili suhtes suhteliselt neutraalne — see järgis mis tahes mustreid, mis teie koodibaasis eksisteerisid. GPT-5.4-l on tugevamad arvamused. See soovitab muutujate ümbernimetamist selguse huvides, tingimuslausete ümberstruktureerimist ja funktsioonide eraldamist — isegi kui palusite ainult vea parandust.
See on nii hea kui ka tüütu. Hea, sest soovitused on tavaliselt asjakohased. Tüütu, sest see tekitab koodiülevaatustes müra, kui meeskond soovib ainult konkreetset tagasisidet.
Meie lahendus: Lisasime system prompt juhise: "Keskendu eranditult korrektsusele ja turvaküsimustele. Ära soovita stiilimuudatusi, v.a juhul, kui need mõjutavad loetavust piisavalt, et põhjustada vigu."
2. Aegumise ajakava tekitab kiireloomulisust
GPT-5.2 Thinking eemaldatakse June 5, 2026. Kui olete ikka 5.2 peal, on teil kolm kuud aega. GPT-5.3 Codex-il on LTS support kuni February 2027, seega seal on vähem kiiret — kuid märk on seinal.
3. Tool Search on varjatud pärl
Algselt pidasin Tool Search-i optimeerimise detailiks. Selgus, et see on meie töövoo kõige mõjukam funktsioon. Selle asemel, et saata kõik 12 tööriista definitsiooni igas API kutses (tarbides iga kord ~3K tokens), avastab GPT-5.4 tööriistad dünaamiliselt vastavalt vajadusele. Tokenite sääst kuhjub meie mahu juures märgatavalt.
OpenAI dokumentatsioon ütleb, et tool search vähendas nende testimisel tokenite kasutust 47% võrra. Meie tööriistamahuka töövoo puhul nägime umbes 35% suurust vähenemist — siiski märkimisväärne.
4. "Vibe" muutus
See on subjektiivne ja raskesti mõõdetav, kuid meeskond märkas seda. GPT-5.4 tundub rohkem nagu koostöö vaneminseneriga — see seab kahtluse alla eeldusi, pakub alternatiive ja mõnikord vaidleb vastu lähenemisviisidele, mida peab ebaoptimaalseks. GPT-5.3 Codex oli kuulekam. Kas peate seda paranduseks, sõltub teie meeskonna töövoost. Zvi Mowshowitz'i analüüs nimetab seda "oluliseks uuenduseks" argumentatsioonis ja üldises võimekuses ning me nõustume sellega.
Migratsiooni kontrollnimekiri
Meie kogemuse põhjal on siin see, mida ma teeksin, kui migreeriksin uuesti:
Enne vahetust
- Auditeeri oma JSON parsimist — kontrolli markdown koodi piirete käsitlemist
- Vaata üle function calling skeemid — testi valikulisi ja pesastatud parameetreid
- Kontrolli oma token loendamise ja kuluprognoosi loogikat
- Verifitseeri rate limiting konfiguratsiooni GPT-5.4 tier limits vastu
- Tuvasta kõik töövood, mis eeldavad tööriistade kutsete järjekorda
Vahetuse ajal
- Deploy esmalt staging keskkonda
- Käivita mõlemad mudelid paralleelselt vähemalt 48 tundi
- Jälgi JSON vormindamise erinevusi
- Kontrolli function calling edukuse määrasid
- Võrdle väljundi kvaliteeti oma konkreetsetes ülesannetes
Pärast vahetust
- Luba tool search ja mõõda tokenite säästu
- Hinda pika kontekstiga ülesandeid 272K hinnakünnise suhtes
- Kohanda system prompts, kui GPT-5.4 on teie töövoo jaoks liiga enesekindel
- Uuri computer use võimekusi uute töövoogude jaoks
- Uuenda kuluprognoose tegelike kasutusandmetega
Kas peaksite kohe migreeruma?
Minu raamistik on järgmine:
Migreeru kohe, kui:
- Kasutate GPT-5.2 (see aegub June 5)
- Jõuate regulaarselt 400K context limit piirini
- Vajate computer use võimekusi
- Kasutate ohtralt tool calling funktsiooni ja soovite tokenite säästu
Migreeru varsti (kuu jooksul), kui:
- Soovite kvaliteedi parandusi ja talute nädalast integratsioonitööd
- Ehitate uusi funktsioone, mis saavad kasu 1M kontekstist
- Soovite oma süsteemi tulevikukindlaks muuta enne GPT-5.3 eluea lõppu
Jää GPT-5.3 Codex juurde, kui:
- Teie töövood on stabiilsed ja kuludimeeritud
- Sõltute selle madalamast input token hinnast prompti-mahukate töökoormuste puhul
- Soovite stabiilsust, mida pakub LTS support kuni February 2027
- Olete reguleeritud keskkonnas, kus mudeli muudatused nõuavad ametlikku ülevaatust
Meie sisekasutuse tööriistade puhul ettevõttes ZBuild oli migratsioon väärt seda nädalat tööd. Ainuüksi 1M context window muutis seda, mida meie tööriist suutis teha. Kuid kui teie GPT-5.3 Codex integratsioon töötab hästi ja te ei põrka vastu selle limiite, siis pole kiiret — planeerige migratsioon oma graafiku, mitte OpenAI oma järgi.
Õppetunnid meeskondadele, kes kaaluvad vahetust
Kui ma saaksin kogu migratsiooni kokku võtta soovitusteks teistele insenerimeeskondadele, oleksid need järgmised viis punkti.
1. Arvesta tervelt nädalaga integratsiooniks, mitte ainult mudeli vahetamiseks
Mudeli vahetus võtab viis minutit. Iga erijuhu avastamine oma integratsioonis võtab nädal aega. Meie JSON vormindamise probleem, function calling erinevused ja logimise eeldused tulid kõik esile tegeliku liikluse all, mitte ühiktestide käigus. Käivitage mõlemad mudelid paralleelselt vähemalt 48 tundi enne täielikku üleminekut.
2. Token efficiency korvab kõrgema hinna — kuid mitte alati
Standardses ülesannetes alla 100K tokens on GPT-5.4 tegelikult odavam vaatamata kõrgemale tokeni-hinnale. Kuid kui teie töökoormus on tugevalt kaldu pika kontekstiga ülesannete poole (üle 272K tokens), maksate rohkem. Mudeldage kulu vastavalt oma konkreetsele kasutusmustrile enne pühendumist. Apiyi hinnakünnise juhendis on kasulik kalkulaator.
3. Tool Search ei ole valikuline — luba see kohe
Kui kasutate function calling funktsiooni rohkem kui 5 tööriistaga, lülitage tool search sisse esimesel päeval. Tokenite sääst kuhjub mastaabis. Meie 12 tööriistaga seadistuses säästis see umbes 3K tokens kutse kohta — üle 800 kutse päevas tähendab see 2.4 miljonit tokenit päevas ehk umbes $6 säästu päevas input kuludelt.
4. Kohanda oma prompte GPT-5.4 isiksuse jaoks
GPT-5.4 on enesekindlam ja arvamust avaldavam kui GPT-5.3 Codex. Kui teie rakendus tugineb sellele, et mudel järgib juhiseid täpselt ilma toimetuslike kommentaarideta, lisage oma system prompt-ile selged piirangud. Midagi sellist nagu "Keskendu ainult küsitud ülesandele. Ära paku parandusi ega alternatiive, kui pole palutud." See säästis meie meeskonnale märkimisväärselt müra koodiülevaatuse väljundis.
5. Planeeri oma GPT-5.2 migratsioon kohe
Kui teil on süsteeme, mis töötavad endiselt GPT-5.2 Thinking peal, siis June 5, 2026 aegumistähtaeg ei ole läbiräägitav. Ärge oodake maikuuni migratsiooniga alustamiseks. GPT-5.2 ja GPT-5.4 vaheline integratsioonipind on suurem kui GPT-5.3 ja GPT-5.4 vahel, seega oodake rohkem tõrkeid.
GPT-5.4 vs GPT-5.3 Codex: Kiire võrdlustabel
Meeskondadele, kes soovivad kokkuvõtet ilma jutustuseta, on siin olulised andmed ühes kohas:
| Funktsioon | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Väljalaskekuupäev | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Input hinnakiri | $1.75/MTok | $2.50/MTok |
| Output hinnakiri | $14.00/MTok | $15.00/MTok |
| Long-context lisatasu | Puudub | 2x input, 1.5x output üle 272K |
| Computer use | Ei | Jah, natiivne |
| Tool search | Ei | Jah (säästab ~47% tokens) |
| Vigade vähenemine | Baastase | 33% vähem faktivigu |
| LTS support | Kuni Feb 2027 | Praegune mudel |
| Parim valik... | Terminali-mahukas, kulutundlik töö | Üldotstarbelised + agent-põhised töövood |
Üks kuu hiljem: lõplik otsus
Nüüd on möödunud täiskuu GPT-5.4 peal. Integratsiooniprobleemid on lahendatud, meeskond on kohanenud ja numbrid on stabiilsed.
Kvaliteet: Parem. Vähem valepositiivseid tulemusi koodiülevaatusel, parem moodulitevaheline analüüs ja computer use integratsioon lisas töövoo, mis varem polnud võimalik.
Kulu: Standardses ülesannetes umbes samaväärne, pika kontekstiga ülesannete puhul veidi kõrgem, kuid üldine igakuine arve oli 3-4% madalam tänu token efficiency-le.
Kiirus: Võrreldav. Meie töökoormuse puhul pole olulist erinevust.
Stabiilsus: Pärast esimest nädalat parandusi null tootmisprobleemi.
Uuendus ei olnud transformatiivne — see oli järkjärguline, kuid positiivne. GPT-5.4 on märtsis 2026 enamiku arendajate jaoks parem mudel. Küsimus on vaid selles, kas migreerimise vaev on teie konkreetse olukorra puhul seda väärt.
Kui ehitate arendustööriistu — nagu me teeme ZBuild puhul —, on praeguse lipulaeva kasutamine oluline toote konkurentsivõime säilitamiseks. Sisetööriistade puhul, kus prioriteediks on stabiilsus, on GPT-5.3 Codex LTS toega täiesti pädev valik kuni 2027. aasta alguseni.
Allikad
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex