Ennen kuin aloitamme: Miksi kirjoitin tämän päiväkirjana
Useimmat GPT-5.4 vs GPT-5.3 -artikkelit antavat sinulle vertailutaulukon ja jättävät asian siihen. Se on hyödyllistä päivityspäätöstä tehtäessä, mutta täysin hyödytöntä sen ymmärtämiseksi, mitä päivityksen aikana todella tapahtuu.
Siirsin tuotantojärjestelmän — sisäisen kehittäjätyökaluympäristön — GPT-5.3 Codex -mallista GPT-5.4-malliin maaliskuun 2026 aikana. Tämä artikkeli dokumentoi päivä päivältä mitä tapahtui, mikä yllätti minut, mikä hajosi ja miltä kuukausittainen lasku näyttää toisella puolella.
Jos suunnittelet omaa migraatiota, tämä on opas, jonka olisin itse halunnut saada.
Ennen migraatiota: Mitä ajoimme GPT-5.3 Codex -mallilla
Kokoonpanomme ennen vaihtoa:
- Sovellus: Sisäinen koodinkatselmointi- ja refaktorointiavustaja, jota käyttää 14 hengen insinööritiimi
- API-integraatio: Suorat OpenAI API -kutsut, function calling työkalujen käyttöön, rakenteiset JSON-tulosteet
- Keskimääräinen päivittäinen volyymi: ~800 API-kutsua, keskimäärin 12K input tokens ja 4K output tokens kukin
- Kuukausittainen API-kustannus: Noin $1,400 GPT-5.3 Codex -hinnoittelulla ($1.75 input / $14 output per MTok)
- Context window -käyttö: Säännöllisesti 200-350K tokens; ajoittain typistys 400K rajalla
Valitsimme alun perin GPT-5.3 Codex -mallin sen vahvan koodauskohtaisen suorituskyvyn ja halvempien input tokens -kustannusten vuoksi. Se palveli meitä hyvin kuuden kuukauden ajan.
Päivä 1: Vaihto (March 8, 2026)
Migraation tekninen osa oli mitätön. Muuta model: "gpt-5.3-codex" muotoon model: "gpt-5.4" API-konfiguraatiossamme. Deployaus. Valmis.
Ensivaikutelma: Vastaukset tuntuivat laadullisesti erilaisilta. Ei välttämättä paremmilta tai huonommilta, vaan erilaisilta. GPT-5.4 oli puheliaampi päättelyssään — se antoi enemmän selityksiä valinnoistaan ennen koodin toimittamista. Koodinkatselmointityökalullemme tämä oli itse asiassa parannus, koska tarkastajat halusivat ymmärtää ehdotusten taustalla olevat "miksi"-syyt.
Vastausnopeus: Huomattavasti nopeampi lyhyemmillä prompteilla. Suunnilleen sama pidemmillä. Viralliset tiedot osoittavat GPT-5.4:n nopeudeksi 73.4 tokens per second verrattuna GPT-5.3 Codexiin vastaavalla alueella, joten nopeusero on todellinen mutta ei dramaattinen.
Ensimmäinen ongelma: Ensimmäisen tunnin aikana JSON-parserimme hajosi. GPT-5.3 Codex oli palauttanut puhdasta JSON-muotoa, kun rakenteista tulostetta pyydettiin. GPT-5.4 kääri JSONin toisinaan markdown-koodilohkoon (```json ... ```). Tämä rikkoi parsin-putkemme.
Korjaus: Lisäsimme esikäsittelyvaiheen, joka poistaa markdown-koodiaidat ennen parsimista. 10 minuutin korjaus, mutta se olisi aiheuttanut tuotantovirheitä, ellemme olisi seuranneet tilannetta tarkasti.
Päivä 2-3: Function Calling -erot
Työkalumme käytti OpenAI:n function calling -ominaisuutta salliakseen mallin kutsua koodianalyysityökaluja — linteriä, testiajuria ja riippuvuustarkistinta. GPT-5.3 Codex -mallilla tämä toimi moitteettomasti.
GPT-5.4-mallilla törmäsimme kahteen ongelmaan:
Ongelma 1: Valinnaisten parametrien käsittely. Kun funktion parametri oli valinnainen sisäkkäinen objekti, GPT-5.3 Codex jätti sen pois tarvittaessa. GPT-5.4 lähetti joskus sen sijaan tyhjän objektin {} , mikä sai validaatiomme hylkäämään kutsun.
Ongelma 2: Tool search -toiminta. GPT-5.4 esittelee Tool Search -ominaisuuden, joka löytää käytettävissä olevat työkalut dynaamisesti sen sijaan, että kaikki työkalumääritykset vaadittaisiin etukäteen. Tämä on tehokas ominaisuus — OpenAI raportoi sen vähentävän token usagea 47% — mutta se muutti työkalukutsujen ajoitusta. Lokitusjärjestelmämme odotti työkalujen tulevan kutsutuksi tietyssä järjestyksessä, ja GPT-5.4 toisinaan muutti järjestystä.
Korjaus ongelmaan 1: Päivitimme Zod-validaatioskeemamme hyväksymään tyhjät objektit valinnaisille parametreille. Kaksi tuntia työtä.
Korjaus ongelmaan 2: Kirjoitimme lokituksen uusiksi siten, ettei se ole riippuvainen järjestyksestä. Puoli päivää työtä. Sen arvoista, koska uusi lähestymistapa on vankempi mallista riippumatta.
Päivä 4-5: Context Window muuttaa kaiken
Tämä oli ensimmäinen todella jännittävä hetki. GPT-5.3 Codex -mallilla oli 400K tokenin raja. Suurimmille repoillemme olimme rakentaneet monimutkaisen pilkkomisjärjestelmän — koodikantojen jakaminen segmentteihin, analyysin ajaminen jokaiselle segmentille ja tulosten yhdistäminen.
GPT-5.4 tukee jopa 1,050,000 tokens API:n kautta. Codex-käyttäjille koko 1M konteksti on käytettävissä.
Mitä tämä tarkoitti käytännössä: Suurin repomme — 280 tiedoston TypeScript monorepo — voitiin nyt ladata kokonaisuudessaan yhteen kontekstiin. Ei enää pilkkomista. Ei enää yhdistettyä analyysia saumavirheillä. Koodinkatselmoinnin laatu tässä repossa parani dramaattisesti, koska malli näki moduulien väliset riippuvuudet, jotka olivat näkymättömiä kontekstin ollessa jaettuna.
Sudenkuoppa: Prompteista, jotka ylittävät 272K tokens, veloitetaan 2x input ja 1.5x output -hinta. Joten koko 280 tiedoston repon lähettäminen kontekstina tarkoitti merkittävästi korkeampia kutsuittaisia kustannuksia. Päädyimme rakentamaan älykkään kontekstinvalintajärjestelmän, joka lataa koko repon moduulien välisiin tehtäviin, mutta käyttää kohdistettua kontekstia yksittäisten tiedostojen tehtäviin.
Viikko 1 yhteenveto: Asiat jotka hajosivat
Ensimmäisen viikon loppuun mennessä tässä on täydellinen lista siitä, mikä hajosi tai vaati säätöä:
- JSON-tulosteen muotoilu — Markdown-koodilohkoon kääriminen (10 minuutin korjaus)
- Function calling -validaatio — Tyhjät objektit valinnaisille parametreille (2 tunnin korjaus)
- Työkalukutsujen järjestys — Lokitus oletti peräkkäiset kutsut (puolen päivän korjaus)
- Token counting — Kustannusarviomme heitti, koska GPT-5.4 käyttää vähemmän tokens vastausta kohden (päivitetyt kaavat)
- Rate limiting — Rate limiterimme oli konfiguroitu GPT-5.3 Codex -rajoille; GPT-5.4:llä on erilaiset tier-kynnysarvot (konfiguraatiomuutos)
Mikään näistä ei ollut katastrofaalinen. Kaikki olivat korjattavissa alle päivässä. Mutta jos olet siirtämässä tuotantojärjestelmää, varaa täysi viikko testaamiseen ja paikkaamiseen.
Viikko 2: Parannukset alkavat näkyä
Kun migraation kitka helpotti, parannukset tulivat selviksi.
Computer Use avasi uusia työnkulkuja
GPT-5.4 on ensimmäinen yleiskäyttöinen malli, jossa on natiivit computer-use -ominaisuudet. Se voi olla vuorovaikutuksessa työpöytäsovellusten, selaimen ja järjestelmätyökalujen kanssa suoraan.
Meidän tapauksessamme tämä mahdollisti jotain, mihin emme pystyneet GPT-5.3 Codexilla: malli pystyi nyt ajamaan testisarjamme, tarkkailemaan tulosteita ja muokkaamaan koodinkatselmointiehdotuksiaan todellisten testitulosten perusteella pelkän staattisen analyysin sijaan. Aiemmin meidän piti putkittaa testitulosteet manuaalisesti kontekstiin. Nyt malli voi suorittaa ja havainnoida.
Rakensimme uuden "testitietoisen katselmointitilan" noin kolmessa päivässä, ja se löysi välittömästi kaksi bugia, jotka puhdas staattinen analyysi oli ohittanut.
Token-tehokkuus oli todellista
OpenAI väittää, että GPT-5.4 käyttää vähemmän output tokens per tehtävä. Kahden viikon tuotantodatan jälkeen vahvistimme tämän: GPT-5.4 käytti keskimäärin 3.1K output tokens per tehtävä verrattuna GPT-5.3 Codexin 4.0K vastaaviin tehtäviin. Se on 22.5% vähennys output tokens -määrässä.
Yhdistettynä tool search -ominaisuuteen, joka vähentää input tokens -määrää, kokonaiskulutus per tehtävä putosi noin 30%.
Virheiden väheneminen oli huomattavaa
GPT-5.4 tuottaa 33% vähemmän asiavirheitä OpenAI:n mukaan. Koodinkatselmoinnissamme tämä tarkoitti vähemmän vääriä hälytyksiä — malli oli epätodennäköisempi merkitsemään oikeaa koodia ongelmalliseksi. Tiimimme "hylkää ehdotus" -aste putosi 18%:sta 11%:iin.
Viikko 3: Kustannuskuva selkeytyy
Tässä on osa, josta kaikki haluavat tietää. Kolmen viikon tuotantokäytön jälkeen rinnakkain historiallisen GPT-5.3 Codex -datamme kanssa, tässä on kustannusvertailu:
Päivittäiset API-kustannukset (Keskiarvo)
| Metriikka | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Päivittäiset kutsut | ~800 | ~800 |
| Keskimääräiset input tokens/kutsu | 12,000 | 11,200 |
| Keskimääräiset output tokens/kutsu | 4,000 | 3,100 |
| Input-kustannustaso | $1.75/MTok | $2.50/MTok |
| Output-kustannustaso | $14.00/MTok | $15.00/MTok |
| Päivittäinen input-kustannus | $16.80 | $22.40 |
| Päivittäinen output-kustannus | $44.80 | $37.20 |
| Päivittäinen yhteensä | $61.60 | $59.60 |
Kuukausiennuste: GPT-5.3 Codex oli ~$1,848. GPT-5.4 ennustetaan olevan ~$1,788. Säästöä noin $60/kuukausi (3.2%) — vaatimaton mutta huomionarvoinen, koska GPT-5.4:n nimellinen hinnoittelu on korkeampi.
Säästöt tulevat kokonaan token-tehokkuudesta. GPT-5.4 käyttää vähemmän tokens samojen tehtävien suorittamiseen, mikä enemmän kuin kompensoi sen korkeammat token-kohtaiset hinnat työmäärässämme.
Missä kustannukset nousivat
Pitkän kontekstin tehtävät — ne, jotka ylittävät 272K tokens — maksavat huomattavasti enemmän GPT-5.4:llä long-context surcharge -lisämaksun vuoksi. Ajame noin 15 tällaista päivässä (koko repon katselmoinnit). Näissä tietyissä kutsuissa kustannukset nousivat noin 40%.
Missä kustannukset laskivat
Standarditehtävät alle 100K tokens — jotka muodostavat 95% volyymistamme — olivat halvempia alhaisempien output tokens -määrien vuoksi. Tämä kompensoi enemmän kuin hyvin long-context surcharge -lisämaksun lopuissa 5%:ssa.
Asioita, joita en odottanut
1. GPT-5.4 on mielipidekkäämpi koodityylistä
GPT-5.3 Codex oli suhteellisen neutraali tyylin suhteen — se seurasi mitä tahansa koodikannassa olevia malleja. GPT-5.4:llä on vahvempia mielipiteitä. Se ehdottaa muuttujien nimeämistä uudelleen selkeyden vuoksi, ehtolauseiden uudelleenjärjestelyä ja funktioiden erottamista — vaikka pyysit vain bugikorjausta.
Tämä on sekä hyvä että ärsyttävä asia. Hyvä, koska ehdotukset ovat yleensä päteviä. Ärsyttävä, koska se lisää kohinaa koodinkatselmointiin, kun tiimi haluaa vain kohdennettua palautetta.
Meidän korjaus: Lisäsimme system prompt -ohjeen: "Keskity yksinomaan oikeellisuus- ja tietoturvaongelmiin. Älä ehdotta tyylimuutoksia, elleivät ne vaikuta luettavuuteen niin paljon, että ne aiheuttavat bugeja."
2. Käytöstäpoiston aikataulu luo kiirettä
GPT-5.2 Thinking poistuu käytöstä June 5, 2026. Jos olet vielä 5.2-versiossa, sinulla on kolme kuukautta. GPT-5.3 Codexilla on LTS support February 2027 asti, joten siinä on vähemmän kiire — mutta merkkejä on ilmassa.
3. Tool Search on "nukkuva" hittiominaisuus
Aluksi sivuutin Tool Searchin pelkkänä optimointiyksityiskohtana. Se osoittautuikin vaikuttavimmaksi ominaisuudeksi työnkulullemme. Sen sijaan, että lähettäisimme kaikki 12 työkalumääritystä jokaisessa API-kutsussa (kuluttaen ~3K tokens joka kerta), GPT-5.4 löytää työkalut dynaamisesti tarvittaessa. Token-säästöt kumuloituvat meidän volyymillämme.
OpenAI:n dokumentaatio sanoo, että tool search vähensi token usagea 47% heidän testeissään. Meidän työkalupainotteisessa työnkulussamme näimme noin 35% vähennyksen — silti merkittävää.
4. "Vibe" muuttui
Tämä on subjektiivista ja vaikeasti mitattavaa, mutta tiimi huomasi sen. GPT-5.4 tuntuu enemmän senior-insinöörin kanssa työskentelyltä — se kyseenalaistaa oletuksia, ehdottaa vaihtoehtoja ja toisinaan vastustaa lähestymistapoja, joita se pitää epäoptimaalisina. GPT-5.3 Codex oli myöntyväisempi. Pidätkö tätä parannuksena, riippuu tiimisi työnkulusta. Zvi Mowshowitzin analyysi kutsuu sitä "merkittäväksi päivitykseksi" päättelyssä ja yleisessä kyvykkyydessä, ja olemme samaa mieltä.
Migraation muistilista
Kokemuksemme perusteella tässä on, mitä tekisin, jos migroisin uudelleen:
Ennen vaihtoa
- Auditoi JSON-parsimisesi — tarkista markdown-koodiaitojen käsittely
- Tarkista function calling -skeemat — testaa valinnaiset ja sisäkkäiset parametrit
- Tarkista token counting ja kustannusarviologiikkasi
- Varmista rate limiting -konfiguraatio suhteessa GPT-5.4 tier-rajoihin
- Tunnista työnkulut, jotka olettavat työkalukutsujen järjestyksen
Vaihdon aikana
- Deployaa ensin staging-ympäristöön
- Aja molempia malleja rinnakkain vähintään 48 tuntia
- Tarkkaile JSON-muotoilun eroja
- Tarkista function calling -onnistumisasteet
- Vertaa tulosten laatua erityistehtävissäsi
Vaihdon jälkeen
- Ota tool search käyttöön ja mittaa token-säästöt
- Arvioi pitkän kontekstin tehtävät 272K hinnoittelukynnyksen osalta
- Säädä system prompteja, jos GPT-5.4 on liian mielipidekäs työnkulullesi
- Tutki computer use -ominaisuuksia uusille työnkuluille
- Päivitä kustannusennusteet todellisella käyttödatalla
Pitäisikö sinun migroida nyt?
Tässä on viitekehykseni:
Migroi välittömästi jos:
- Olet GPT-5.2-mallissa (se poistuu June 5)
- Saavutat säännöllisesti 400K kontekstirajan
- Tarvitset computer use -ominaisuuksia
- Käytät paljon työkalukutsuja ja haluat token-säästöjä
Migroi pian (kuukauden sisällä) jos:
- Haluat laatuparannuksia ja kestät viikon integraatiotyön
- Rakennat uusia ominaisuuksia, jotka hyötyvät 1M kontekstista
- Haluat varmistaa tulevaisuuden ennen kuin GPT-5.3 saavuttaa elinkaarensa pään
Pysy GPT-5.3 Codexissa jos:
- Työnkulkusi ovat vakaita ja kustannusoptimoituja
- Luotat sen halvempaan input tokens -hinnoitteluun prompt-painotteisissa töissä
- Haluat vakaata LTS-tukea February 2027 asti
- Olet säädellyssä ympäristössä, jossa mallimuutokset vaativat virallisen katselmoinnin
Sisäisille työkaluillemme ZBuild -yrityksessä migraatio oli viikon työn arvoinen. Pelkkä 1M context window muutti sen, mitä työkalumme pystyi tekemään. Mutta jos GPT-5.3 Codex -integraatiosi toimii hyvin etkä saavuta sen rajoja, kiirettä ei ole — suunnittele migraatio oman aikataulusi, älä OpenAI:n mukaan.
Oppitunteja vaihtoa harkitseville tiimeille
Jos voisin tiivistää koko migraation neuvoksi muille insinööritiimeille, ne olisivat nämä viisi pistettä.
1. Varaa täysi viikko integraatioon, ei vain mallin vaihtoon
Mallin vaihto vie viisi minuuttia. Jokaisen integraation reunatapauksen löytäminen vie viikon. JSON-muotoiluongelma, function calling -erot ja lokitus-oletukset nousivat kaikki esiin todellisessa liikenteessä, eivät yksikkötesteissä. Aja molempia malleja rinnakkain vähintään 48 tuntia ennen lopullista siirtymistä.
2. Token-tehokkuus kompensoi korkeampaa hinnoittelua — muttei aina
Standarditehtäville alle 100K tokens, GPT-5.4 on todella halvempi korkeammasta token-kohtaisesta hinnasta huolimatta. Mutta jos työmääräsi painottuu vahvasti pitkiin konteksteihin (yli 272K tokens), maksat enemmän. Mallinna kustannukset omalla käyttötavallasi ennen sitoutumista. Apiyi hinnoittelukynnysopas sisältää hyödyllisen laskimen.
3. Tool Search ei ole valinnainen — ota se käyttöön heti
Jos käytät function callingia yli 5 työkalulla, ota tool search käyttöön ensimmäisenä päivänä. Token-säästöt kumuloituvat mittakaavassa. Meidän 12 työkalun asetuksessamme se säästi noin 3K tokens per kutsu — yli 800 kutsulla päivässä se on 2.4 miljoonaa tokens päivittäin, eli noin $6 päivässä input-kustannuksissa.
4. Säädä prompteja GPT-5.4:n persoonallisuuden mukaan
GPT-5.4 on mielipidekkäämpi kuin GPT-5.3 Codex. Jos sovelluksesi luottaa siihen, että malli seuraa ohjeita tarkasti ilman toimituksellisia kommentteja, lisää selkeät rajoitteet system promptiin. Esimerkiksi: "Keskity vain pyydettyyn tehtävään. Älä ehdota parannuksia tai vaihtoehtoja, ellei niitä pyydetä." Tämä säästi tiimiltämme merkittävästi kohinaa koodinkatselmointituloksissa.
5. Suunnittele GPT-5.2-migraatiosi nyt
Jos sinulla on vielä järjestelmiä ajossa GPT-5.2 Thinking -mallilla, June 5, 2026 poistuminen ei ole neuvoteltavissa. Älä odota toukokuuhun migraation aloittamista. Integraatiopinta GPT-5.2:n ja GPT-5.4:n välillä on suurempi kuin GPT-5.3:n ja GPT-5.4:n välinen ero, joten odota enemmän rikkoutuvia asioita.
GPT-5.4 vs GPT-5.3 Codex: Pikaopastaulukko
Tiimeille, jotka haluavat yhteenvedon ilman kerrontaa, tässä on keskeiset tiedot yhdessä paikassa:
| Ominaisuus | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Julkaisupäivämäärä | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Input-hinnoittelu | $1.75/MTok | $2.50/MTok |
| Output-hinnoittelu | $14.00/MTok | $15.00/MTok |
| Long-context surcharge | Ei ole | 2x input, 1.5x output yli 272K |
| Computer use | Ei | Kyllä, natiivi |
| Tool search | Ei | Kyllä (säästää ~47% tokens) |
| Virheiden väheneminen | Perustaso | 33% vähemmän asiavirheitä |
| LTS-tuki | Feb 2027 asti | Nykyinen malli |
| Paras valinta | Terminal-painotteinen, kustannustietoinen työ | Yleiskäyttöiset + agentic työnkulut |
Kuukausi myöhemmin: Lopullinen tuomio
Nyt on kulunut täysi kuukausi GPT-5.4:n parissa. Integraatio-ongelmat on ratkaistu, tiimi on sopeutunut ja luvut ovat vakaita.
Laatu: Parempi. Vähemmän vääriä hälytyksiä koodinkatselmoinnissa, parempi moduulien välinen analyysi, ja computer use -integraatio lisäsi työnkulun, joka ei ollut aiemmin mahdollinen.
Kustannukset: Suunnilleen samat standarditehtävissä, hieman korkeammat pitkän kontekstin tehtävissä, mutta kokonaiskuukausilasku oli 3-4% pienempi token-tehokkuuden ansiosta.
Nopeus: Verrattavissa. Ei merkittävää eroa meidän työmäärässämme.
Stabiilius: Alun viikon korjausten jälkeen nolla tuotanto-ongelmaa.
Päivitys ei ollut mullistava — se oli asteittainen mutta positiivinen. GPT-5.4 on parempi malli useimmille kehittäjille maaliskuussa 2026. Kysymys on vain siitä, onko migraatiovaiva sen arvoinen juuri sinun tilanteessasi.
Jos rakennat kehittäjätyökaluja — kuten me teemme ZBuild -yrityksessä — pysyminen nykyisessä lippulaivamallissa on tärkeää tuotteen kilpailukyvyn säilyttämiseksi. Sisäisissä työkaluissa, joissa vakaus on prioriteetti, GPT-5.3 Codex LTS-tuella on täysin pätevä valinta alkuvuoteen 2027 asti.
Lähteet
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex