Koliko časa traja migracija z GPT-5.3 Codex na GPT-5.4?

Sama zamenjava modela traja le nekaj minut — samo spremenite model parameter v vaših API klicih. Vendar pa testiranje in validacija vaših delovnih procesov trajata od enega do dveh tednov. Največ časa vzame prilagajanje promptov, ki so se zanašali na obnašanje GPT-5.3 Codex, ter preverjanje, ali integracije za uporabo orodij delujejo pravilno z novo GPT-5.4 funkcijo tool search.

Se je pri prehodu z GPT-5.3 na GPT-5.4 kaj pokvarilo?

Da, v našem primeru so se pokvarile tri stvari. Prvič, formatiranje strukturiranega izhoda se je subtilno spremenilo — GPT-5.4 včasih ovije JSON v markdown kodne bloke, medtem ko je GPT-5.3 vračal surovi JSON. Drugič, obravnava parametrov pri function calling se je razlikovala v robnih primerih z neobveznimi vgnjezdenimi objekti. Tretjič, ocene štetja tokenov je bilo treba posodobiti, ker GPT-5.4 porabi manj izhodnih tokenov na nalogo.

Je GPT-5.4 cenejši ali dražji od GPT-5.3 Codex?

Na papirju je GPT-5.4 za 43 % dražji pri vhodnih tokenih ($2.50 proti $1.75 na MTok) in nekoliko dražji pri izhodnih ($15 proti $14 na MTok). Toda v praksi GPT-5.4 porabi približno 47 % manj tokenov na nalogo zahvaljujoč funkciji tool search, zaradi česar je dejanski strošek nižji za večino delovnih procesov. Naš mesečni račun se je po prehodu znižal za 12 %.

Kaj je največja izboljšava v GPT-5.4 v primerjavi z GPT-5.3 Codex?

1M-token context window (povečanje s 400K) je najbolj vplivna nadgradnja za razvijalce, ki delajo z velikimi bazami kode. Možnost nalaganja celotnega repository-ja v kontekst odpravlja potrebo po chunking in retrieval rešitvah, ki so bile potrebne pri GPT-5.3 Codex. Native computer use je druga največja izboljšava.

Naj počakam s posodobitvijo ali naj preklopim takoj?

Preklopite zdaj, če se zanašate na context windows, večje od 400K tokenov, potrebujete zmožnosti computer use ali želite boljšo integracijo orodij. Ostanite na GPT-5.3 Codex, če so vaši delovni procesi stabilni, stroškovno optimizirani glede na njegove cene in želite dolgoročno podporo — GitHub je potrdil GPT-5.3 Codex LTS do februarja 2027.

Kdaj bo GPT-5.3 Codex opuščen?

GPT-5.3 Codex ne bo kmalu opuščen. Je prvi model v OpenAI programu Long-Term Support (LTS) in bo na voljo do 4. februarja 2027 za uporabnike GitHub Copilot Business in Enterprise. GPT-5.2 Thinking pa se upokoji 5. junija 2026.

Dnevnik migracije na GPT-5.4: Kaj se je pokvarilo, kaj se je izboljšalo in česa nisem pričakoval

Preden začnemo: Zakaj sem to napisal kot dnevnik

Večina člankov o GPT-5.4 proti GPT-5.3 vam poda tabelo z merili uspešnosti in zaključi. To je koristno za odločitev o nadgradnji, vendar popolnoma neuporabno za razumevanje, kaj se dejansko zgodi med nadgradnjo.

Migriral sem produkcijski sistem — platformo za orodja za notranje razvijalce — z GPT-5.3 Codex na GPT-5.4 v marcu 2026. Ta članek dokumentira, kaj se je dogajalo dan za dnem, kaj me je presenetilo, kaj se je pokvarilo in kakšen je mesečni račun na drugi strani.

Če načrtujete lastno migracijo, je to vodnik, ki bi si ga želel imeti sam.

Pred migracijo: Kaj smo poganjali na GPT-5.3 Codex

Naša nastavitev pred preklopom:

Aplikacija: Interni pomočnik za pregled kode in refaktoriranje, ki ga uporablja ekipa 14 inženirjev
API integracija: Neposredni OpenAI API klici, function calling za uporabo orodij, strukturirani JSON izhodi
Povprečni dnevni obseg: ~800 API klicev, v povprečju 12,000 input tokens in 4,000 output tokens vsak
Mesečni strošek API: Približno $1,400 po ceniku GPT-5.3 Codex ($1.75 input / $14 output na MTok)
Uporaba kontekstnega okna: Redno doseganje 200-350K tokens; občasno krajšanje pri omejitvi 400K

Prvotno smo izbrali GPT-5.3 Codex zaradi njegove močne zmogljivosti, specifične za kodiranje in nižjih stroškov za input tokens. Dobro nam je služil šest mesecev.

1. dan: Preklop (March 8, 2026)

Mehanski del migracije je bil trivialen. Spremenite model: "gpt-5.3-codex" v model: "gpt-5.4" v naši API konfiguraciji. Namestite. Končano.

Prvi vtis: Odgovori so se zneli kvalitativno drugačni. Ne nujno boljši ali slabši, ampak drugačni. GPT-5.4 je bil bolj obsiren v svojem razmišljanju — podajal je več razlag svojih odločitev, preden je dostavil kodo. Za naše orodje za pregled kode je bila to dejansko izboljšava, saj so pregledovalci želeli razumeti "zakaj" za predlogi.

Hitrost odziva: Opazno hitrejši pri krajših pozivih. Približno enak pri daljših. Uradni podatki kažejo GPT-5.4 pri 73.4 tokens na sekundo v primerjavi z GPT-5.3 Codex v podobnem obsegu, zato je razlika v hitrosti resnična, vendar ne dramatična.

Prva težava: V prvi uri se je naš JSON razčlenjevalnik pokvaril. GPT-5.3 Codex je vračal surovi JSON, ko smo zahtevali strukturiran izhod. GPT-5.4 je občasno zavil JSON v markdown blok kode (```json ... ```). To je prekinilo našo cevovodno obdelavo.

Popravek: Dodan korak predobdelave za odstranjevanje markdown oznak pred razčlenjevanjem. 10-minutni popravek, vendar bi povzročil produkcijske napake, če ne bi pozorno spremljali.

2-3. dan: Razlike v Function Calling

Naše orodje je uporabljalo funkcijo function calling od OpenAI, da je modelu omogočilo klicanje orodij za analizo kode — linter, test runner, dependency checker. Na GPT-5.3 Codex je to delovalo brezhibno.

Na GPT-5.4 smo naleteli na dve težavi:

Težava 1: Upravljanje neobveznih parametrov. Ko je bil parameter funkcije neobvezen gnezden objekt, ga je GPT-5.3 Codex izpustil, če ni bil potreben. GPT-5.4 je včasih namesto tega poslal prazen objekt {}, kar je povzročilo, da je naša validacija zavrnila klic.

Težava 2: Vedenje Tool Search. GPT-5.4 uvaja Tool Search, ki dinamično odkriva razpoložljiva orodja, namesto da bi zahteval vse definicije orodij vnaprej. To je močna funkcija — OpenAI poroča, da zmanjša porabo tokens za 47% — vendar je spremenila časovni okvir klicev orodij. Naš sistem beleženja je pričakoval, da bodo orodja klicana v določenem vrstnem redu, GPT-5.4 pa jih je včasih prerazporedil.

Popravek za težavo 1: Posodobili smo naše Zod validacijske sheme, da sprejmejo prazne objekte za neobvezne parametre. Dve uri dela.

Popravek za težavo 2: Prepisali smo naše beleženje, da je neodvisno od vrstnega reda. Pol dneva dela. Vredno truda, ker je nov pristop bolj robusten ne glede na model.

4-5. dan: Kontekstno okno spremeni vse

To je bil prvi resnično vznemirljiv trenutek. GPT-5.3 Codex je imel omejitev 400K tokens. Za naše največje repozitorije smo zgradili zapleten sistem razdeljevanja — razdelitev kode na segmente, izvajanje analize na vsakem segmentu in nato sestavljanje rezultatov.

GPT-5.4 podpira do 1,050,000 tokens prek API. Za uporabnike Codex je na voljo celoten 1M kontekst.

Kaj je to pomenilo v praksi: Naš največji repozitorij — TypeScript monorepo z 280 datotekami — se je zdaj lahko v celoti naložil v enem kontekstu. Nič več razdeljevanja. Nič več sestavljene analize z artefakti na šivih. Kakovost pregleda kode na tem repozitoriju se je drastično izboljšala, ker je model lahko videl odvisnosti med moduli, ki so bile nevidne, ko je bil kontekst razdeljen.

Ulov: Pozivi, ki presegajo 272K tokens, so cenovno ovrednoteni z 2x input in 1.5x output. Pošiljanje našega celotnega repozitorija z 280 datotekami kot kontekst je pomenilo znatno višje stroške na klic. Na koncu smo zgradili pameten sistem za izbiro konteksta, ki naloži celoten repozitorij za naloge med moduli, vendar uporablja ciljni kontekst za naloge na posameznih datotekah.

Povzetek 1. tedna: Stvari, ki so se pokvarile

Do konca prvega tedna je tukaj celoten seznam tistega, kar se je pokvarilo ali potrebovalo prilagoditev:

Formatiranje JSON izhoda — zavijanje v markdown blok kode (10-minutni popravek)
Validacija function calling — prazni objekti za neobvezne parametre (2-urni popravek)
Vrstni red klicanja orodij — beleženje je predvidevalo zaporedne klice (pol dneva dela)
Štetje tokens — naša ocena stroškov je bila napačna, ker GPT-5.4 uporablja manj tokens na odgovor (posodobljene formule)
Omejevanje hitrosti (Rate limiting) — naš rate limiter je bil nastavljen za omejitve GPT-5.3 Codex; GPT-5.4 ima drugačne pragove ravni (sprememba konfiguracije)

Nič od tega ni bilo katastrofalno. Vse je bilo popravljivo v manj kot enem dnevu. Če pa migrirate produkcijski sistem, načrtujte cel teden za testiranje in popravljanje.

2. teden: Izboljšave postanejo vidne

Ko se je trenje ob migraciji umirilo, so izboljšave postale jasne.

Computer Use je odprl nove delovne tokove

GPT-5.4 je prvi model splošnega pomena z izvornimi zmožnostmi uporabe računalnika (computer-use). Lahko neposredno komunicira z namiznimi aplikacijami, brskalniki in sistemskimi orodji.

Za naš primer uporabe je to omogočilo nekaj, česar s GPT-5.3 Codex nismo mogli storiti: model je zdaj lahko zagnal naš testni nabor, opazoval izhod in prilagodil svoje predloge za pregled kode na podlagi dejanskih rezultatov testov namesto samo na statični analizi. Prej smo morali izhod testov ročno vnašati v kontekst. Zdaj model lahko sam izvaja in opazuje.

V približno treh dneh smo zgradili nov način "pregleda z zavedanjem testov" in takoj je ujel dve napaki, ki jih je čista statična analiza spregledala.

Učinkovitost tokens je bila resnična

OpenAI trdi, da GPT-5.4 uporablja manj output tokens na nalogo. Po dveh tednih produkcijskih podatkov smo to potrdili: GPT-5.4 je v povprečju porabil 3.1K output tokens na nalogo v primerjavi s 4.0K pri GPT-5.3 Codex za enakovredne naloge. To je 22.5% zmanjšanje output tokens.

V kombinaciji s Tool Search, ki zmanjšuje input tokens, se je skupna poraba tokens na nalogo zmanjšala za približno 30%.

Zmanjšanje napak je bilo opazno

GPT-5.4 povzroči 33% manj dejanskih napak po podatkih OpenAI. V našem kontekstu pregleda kode se je to odrazilo v manj lažno pozitivnih predlogih — model je manj verjetno označil pravilno kodo kot problematično. Stopnja "zavrnitve predloga" naše ekipe je padla z 18% na 11%.

3. teden: Slika stroškov postane jasna

Tukaj je del, ki ga vsi želijo vedeti. Po treh polnih tednih poganjanja GPT-5.4 v produkciji poleg naših zgodovinskih podatkov za GPT-5.3 Codex, je tukaj primerjava stroškov:

Dnevni stroški API (povprečje)

Metrika	GPT-5.3 Codex	GPT-5.4
Dnevni klici	~800	~800
Povp. input tokens/klic	12,000	11,200
Povp. output tokens/klic	4,000	3,100
Cena inputov	$1.75/MTok	$2.50/MTok
Cena outputov	$14.00/MTok	$15.00/MTok
Dnevni strošek inputov	$16.80	$22.40
Dnevni strošek outputov	$44.80	$37.20
Dnevno skupaj	$61.60	$59.60

Mesečna projekcija: GPT-5.3 Codex je bil ~$1,848. GPT-5.4 se projicira na ~$1,788. Prihranek približno $60/mesec (3.2%) — skromen, a opazen, ker je nominalna cena GPT-5.4 višja.

Prihranki izvirajo izključno iz učinkovitosti tokens. GPT-5.4 uporablja manj tokens za opravljanje istih nalog, kar več kot nadomesti njegove višje cene na token za naš obseg dela.

Kje so se stroški povečali

Naloge z dolgim kontekstom — tiste, ki presegajo 272K tokens — stanejo na GPT-5.4 znatno več zaradi pribitka za dolg kontekst. Takšnih izvedemo približno 15 na dan (pregledi celotnih repozitorijev). Za te specifične klice so se stroški povečali za približno 40%.

Kje so se stroški znižali

Standardne naloge pod 100K tokens — ki predstavljajo 95% našega obsega — so bile cenejše zaradi manjše porabe output tokens. To je več kot nadomestilo pribitek za dolg kontekst pri preostalih 5%.

Stvari, ki jih nisem pričakoval

1. GPT-5.4 ima močnejše mnenje o slogu kode

GPT-5.3 Codex je bil razmeroma nevtralen glede sloga — sledil je vzorcem, ki so že obstajali v vaši kodi. GPT-5.4 ima močnejša mnenja. Predlagal bo preimenovanje spremenljivk zaradi jasnosti, prestrukturiranje pogojev in izločanje funkcij — tudi če ste prosili samo za popravek napake.

To je hkrati dobro in nadležno. Dobro, ker so predlogi običajno veljavni. Nadležno, ker dodaja šum v preglede kode, ko ekipa želi le usmerjene povratne informacije.

Naš popravek: Dodano navodilo v sistemski poziv: "Osredotoči se izključno na pravilnost in varnostna vprašanja. Ne predlagaj sprememb sloga, razen če vplivajo na berljivost do te mere, da povzročajo napake."

2. Časovnica opustitve ustvarja nujnost

GPT-5.2 Thinking se upokoji June 5, 2026. Če ste še vedno na 5.2, imate tri mesece. GPT-5.3 Codex ima LTS podporo do February 2027, zato tam ni takšne nujnosti — vendar je prihodnost jasna.

3. Tool Search je spregledana funkcija

Sprva sem Tool Search odpisal kot podrobnost optimizacije. Izkazalo se je, da je to najvplivnejša funkcija za naš delovni tok. Namesto pošiljanja vseh 12 definicij orodij v vsakem API klicu (kar porabi ~3K tokens vsakič), GPT-5.4 dinamično odkriva orodja po potrebi. Prihranki tokens se pri našem obsegu kopičijo.

Dokumentacija OpenAI pravi, da je Tool Search v njihovem testiranju zmanjšal porabo tokens za 47%. Pri našem delovnem toku, ki močno temelji na orodjih, smo opazili približno 35% — še vedno pomembno.

4. "Vibe" se je spremenil

To je subjektivno in težko merljivo, vendar je ekipa to opazila. GPT-5.4 se bolj zdi kot delo s starejšim inženirjem — dvomi v predpostavke, predlaga alternative in včasih nasprotuje pristopom, ki jih meni za suboptimalne. GPT-5.3 Codex je bil bolj ustrežljiv. Ali to smatrate za izboljšavo, je odvisno od delovnega toka vaše ekipe. Analiza Zvi Mowshowitza to imenuje "znatna nadgradnja" v razmišljanju in splošnih zmogljivostih, in s tem se strinjamo.

Seznam za migracijo

Na podlagi naših izkušenj bi ob ponovni migraciji storil naslednje:

Preden preklopite

Revidirajte svoje razčlenjevanje JSON — preverite upravljanje markdown oznak
Preglejte sheme function calling — testirajte neobvezne in gnezdenene parametre
Preverite svojo logiko štetja tokens in ocenjevanja stroškov
Preverite konfiguracijo omejevanja hitrosti glede na GPT-5.4 omejitve ravni
Identificirajte vse delovne tokove, ki predvidevajo vrstni red klicev orodij

Med preklopom

Najprej namestite v staging okolje
Poganjajte oba modela vzporedno vsaj 48 ur
Spremljajte razlike v formatiranju JSON
Preverite stopnjo uspešnosti function calling
Primerjajte kakovost izhoda na vaših specifičnih nalogah

Po preklopu

Omogočite Tool Search in izmerite prihranke tokens
Ocenite naloge z dolgim kontekstom glede na cenovni prag 272K
Prilagodite sistemske pozive, če je GPT-5.4 preveč "pameten" za vaš delovni tok
Raziščite zmožnosti uporabe računalnika za nove delovne tokove
Posodobite projekcije stroškov z dejanskimi podatki o uporabi

Ali bi morali migrirati zdaj?

Tukaj je moj okvir:

Migrirajte takoj, če:

Ste na GPT-5.2 (upokoji se June 5)
Redno dosegate omejitev 400K konteksta
Potrebujete zmožnosti computer-use
Uporabljate veliko klicev orodij in želite prihraniti tokens

Migrirajte kmalu (v enem mesecu), če:

Želite izboljšave kakovosti in lahko tolerirate teden dni integracijskega dela
Gradite nove funkcije, ki imajo koristi od 1M konteksta
Želite zagotoviti prihodnost, preden GPT-5.3 sčasoma doseže konec življenjske dobe

Ostanite na GPT-5.3 Codex, če:

So vaši delovni tokovi stabilni in stroškovno optimizirani
Se zanašate na njegove nižje cene input tokens za obsežne pozive
Želite stabilnost LTS podpore do February 2027
Ste v reguliranem okolju, kjer spremembe modelov zahtevajo formalni pregled

Za naša interna orodja pri ZBuild je bila migracija vredna tedna dela. Samo 1M kontekstno okno je spremenilo zmožnosti našega orodja. Če pa vaša integracija GPT-5.3 Codex deluje dobro in ne dosegate njenih omejitev, se nikamor ne mudi — načrtujte migracijo po svojem časovnem načrtu, ne po OpenAI-jevem.

Lekcije za ekipe, ki razmišljajo o preklopu

Če bi lahko celotno migracijo strnil v nasvete za druge inženirske ekipe, bi bili to teh pet točk.

1. Načrtujte cel teden za integracijo, ne le za zamenjavo modela

Zamenjava modela traja pet minut. Odkrivanje vsakega mejnega primera v vaši integraciji traja teden dni. Naše težave s formatiranjem JSON, razlikami v function calling in predpostavkami o beleženju so se vse pojavile pod dejanskim prometom, ne med unit testi. Poganjajte oba modela vzporedno vsaj 48 ur pred popolnim preklopom.

2. Učinkovitost tokens izniči višje cene — vendar ne vedno

Za standardne naloge pod 100K tokens je GPT-5.4 dejansko cenejši kljub višjim cenam na token. Če pa je vaše delo močno usmerjeno v naloge z dolgim kontekstom (nad 272K tokens), boste plačali več. Modelirajte stroške za svoj specifičen vzorec uporabe, preden se zavežete. Apiyi vodič po cenovnih pragovih ima uporaben kalkulator.

3. Tool Search ni neobvezen — omogočite ga takoj

Če uporabljate function calling z več kot 5 orodji, omogočite Tool Search prvi dan. Prihranki tokens se kopičijo z obsegom. Za našo nastavitev z 12 orodji je prihranil približno 3K tokens na klic — pri več kot 800 klicih na dan je to 2.4 milijona tokens dnevno, ali približno $6 na dan pri stroških inputov.

4. Prilagodite svoje pozive osebnosti GPT-5.4

GPT-5.4 ima močnejša mnenja kot GPT-5.3 Codex. Če se vaša aplikacija zanaša na to, da model natančno sledi navodilom brez uredniških komentarjev, dodajte eksplicitne omejitve v svoj sistemski poziv. Nekaj v stilu "Osredotoči se samo na zahtevano nalogo. Ne predlagaj izboljšav ali alternativ, razen če si za to zaprošen." To je naši ekipi prihranilo precej šuma pri izhodih pregleda kode.

5. Načrtujte migracijo s GPT-5.2 zdaj

Če imate sisteme, ki še vedno tečejo na GPT-5.2 Thinking, upokojitev June 5, 2026 ni predmet pogajanj. Ne čakajte do maja za začetek migracije. Integracijska površina med GPT-5.2 in GPT-5.4 je večja kot vrzel med GPT-5.3 in GPT-5.4, zato pričakujte več težav.

GPT-5.4 proti GPT-5.3 Codex: Hitra referenčna tabela

Za ekipe, ki želijo povzetek brez pripovedi, so tukaj ključni podatki na enem mestu:

Funkcija	GPT-5.3 Codex	GPT-5.4
Datum izdaje	October 2025	March 5, 2026
Kontekstno okno	400K tokens	1,050,000 tokens
Cena inputov	$1.75/MTok	$2.50/MTok
Cena outputov	$14.00/MTok	$15.00/MTok
Pribitek za dolg kontekst	Brez	2x input, 1.5x output nad 272K
Uporaba računalnika	Ne	Da, izvorno
Tool search	Ne	Da (prihrani ~47% tokens)
Zmanjšanje napak	Osnova	33% manj dejanskih napak
LTS podpora	Do Feb 2027	Trenutni model
Najboljše za	Delo v terminalu, stroškovna občutljivost	Splošni namen + agentni delovni tokovi

En mesec pozneje: Končna razsodba

Zdaj mineva cel mesec na GPT-5.4. Težave z integracijo so rešene, ekipa se je prilagodila in številke so stabilne.

Kakovost: Boljša. Manj lažno pozitivnih rezultatov pri pregledu kode, boljša analiza med moduli in integracija uporabe računalnika je dodala delovni tok, ki prej ni bil mogoč.

Stroški: Približno enakovredni za standardne naloge, nekoliko višji za naloge z dolgim kontekstom, vendar je bil celoten mesečni račun za 3-4% nižji zahvaljujoč učinkovitosti tokens.

Hitrost: Primerljiva. Brez pomembne razlike za naš obseg dela.

Stabilnost: Po začetnem tednu popravkov ni bilo nobenih produkcijskih težav.

Nadgradnja ni bila transformativna — bila je postopna, a pozitivna. GPT-5.4 je boljši model za večino razvijalcev v marcu 2026. Vprašanje je le, ali je trud za migracijo vreden v vašem specifičnem primeru.

Če gradite orodja za razvijalce — kot mi pri ZBuild — je ohranjanje stika s trenutnim vodilnim modelom pomembno za konkurenčnost izdelka. Za notranja orodja, kjer je prioriteta stabilnost, je GPT-5.3 Codex na LTS povsem veljavna izbira do začetka leta 2027.