Før vi starter: Hvorfor jeg skrev dette som en dagbok
De fleste artikler om GPT-5.4 vs GPT-5.3 gir deg en benchmark-tabell og anser seg som ferdige. Det er nyttig for å bestemme om man skal oppgradere, men helt ubrukelig for å forstå hva som faktisk skjer under oppgraderingen.
Jeg migrerte et produksjonssystem — en intern plattform for utviklerverktøy — fra GPT-5.3 Codex til GPT-5.4 i løpet av mars 2026. Denne artikkelen dokumenterer hva som skjedde dag for dag, hva som overrasket meg, hva som gikk i stykker, og hvordan den månedlige regningen ser ut på den andre siden.
Hvis du planlegger din egen migrering, er dette guiden jeg skulle ønske jeg hadde.
Før migrering: Hva vi kjørte på GPT-5.3 Codex
Vårt oppsett før byttet:
- Applikasjon: En intern assistent for kodegjennomgang og refaktorering brukt av et ingeniørteam på 14 personer
- API-integrasjon: Direkte OpenAI API-kall, function calling for verktøybruk, strukturert JSON-output
- Gjennomsnittlig daglig volum: ~800 API-kall, med et gjennomsnitt på 12K input tokens og 4K output tokens hver
- Månedlig API-kostnad: Omtrent $1,400 med GPT-5.3 Codex-prising ($1.75 input / $14 output per MTok)
- Bruk av context window: Traff regelmessig 200-350K tokens; avkortet av og til ved grensen på 400K
Vi valgte opprinnelig GPT-5.3 Codex på grunn av dens sterke kodespesifikke ytelse og lavere kostnader for input tokens. Den tjente oss godt i seks måneder.
Dag 1: Byttet (March 8, 2026)
Den mekaniske delen av migreringen var triviell. Endre model: "gpt-5.3-codex" til model: "gpt-5.4" i vår API-konfigurasjon. Deploy. Ferdig.
Førsteinntrykk: Responsene føltes kvalitativt annerledes. Ikke nødvendigvis bedre eller dårligere, men annerledes. GPT-5.4 var mer pratsom i resonneringen sin — den ga mer forklaring på valgene sine før den leverte kode. For vårt verktøy for kodegjennomgang var dette faktisk en forbedring, fordi utviklerne ønsket å forstå "hvorfor" bak forslagene.
Responshastighet: Merkbart raskere på kortere prompts. Omtrent det samme på lengre. Offisielle data viser GPT-5.4 på 73.4 tokens per sekund sammenlignet med GPT-5.3 Codex i et lignende område, så hastighetsforskjellen er reell, men ikke dramatisk.
Første problem: I løpet av den første timen knakk vår JSON-parser. GPT-5.3 Codex hadde returnert rå JSON når den ble bedt om strukturert output. GPT-5.4 pakket av og til JSON inn i en markdown-kodeblokk (```json ... ```). Dette ødela vår parsing-pipeline.
Løsning: La til et pre-prosesseringstrinn for å fjerne markdown code fences før parsing. En 10-minutters fiks, men det ville ha forårsaket produksjonsfeil hvis vi ikke hadde overvåket nøye.
Dag 2-3: Forskjeller i Function Calling
Vårt verktøy brukte OpenAI sin function calling-funksjon for å la modellen kalle på kodeanalyseverktøy — en linter, en test runner, en avhengighetskontroll. På GPT-5.3 Codex fungerte dette feilfritt.
På GPT-5.4 støtte vi på to problemer:
Problem 1: Håndtering av valgfrie parametere. Når en funksjonsparameter var et valgfritt nøstet objekt, ville GPT-5.3 Codex utelate det hvis det var unødvendig. GPT-5.4 sendte noen ganger et tomt objekt {} i stedet, noe som førte til at vår validering avviste kallet.
Problem 2: Oppførsel ved Tool Search. GPT-5.4 introduserer Tool Search, som dynamisk oppdager tilgjengelige verktøy i stedet for å kreve alle verktøydefinisjoner på forhånd. Dette er en kraftfull funksjon — OpenAI rapporterer at den reduserer token-bruk med 47% — men den endret tidspunktet for verktøykall. Vårt loggsystem forventet at verktøy ble kalt i en spesifikk rekkefølge, og GPT-5.4 endret noen ganger på denne rekkefølgen.
Løsning for Problem 1: Oppdaterte våre Zod-valideringsskjemaer til å akseptere tomme objekter for valgfrie parametere. To timers arbeid.
Løsning for Problem 2: Skrev om loggingen vår til å være uavhengig av rekkefølge. En halv dags arbeid. Verdt det, fordi den nye tilnærmingen er mer robust uavhengig av modell.
Dag 4-5: Context Window endrer alt
Dette var det første virkelig spennende øyeblikket. GPT-5.3 Codex hadde en grense på 400K tokens. For våre største repositorier hadde vi bygget et komplisert chunking-system — vi delte kodebasen i segmenter, kjørte analyse på hvert segment, og sydde deretter resultatene sammen.
GPT-5.4 støtter opptil 1,050,000 tokens via API. For Codex-brukere er hele 1M context tilgjengelig.
Hva dette betydde i praksis: Vårt største repositorium — et TypeScript monorepo med 280 filer — kunne nå lastes i sin helhet i én context. Ingen mer chunking. Ingen mer sammensydd analyse med skjøtefeil. Kvaliteten på kodegjennomgangen på dette repositoriet ble dramatisk forbedret fordi modellen kunne se avhengigheter på tvers av moduler som var usynlige når context var delt opp.
Haken: Prompts som overstiger 272K tokens er priset til 2x input og 1.5x output. Så det å sende hele vårt 280-filers repo som context betydde betydelig høyere kostnader per kall. Vi endte opp med å bygge et smart system for context-valg som laster hele repoet for oppgaver på tvers av moduler, men bruker målrettet context for oppgaver på enkeltfiler.
Oppsummering av uke 1: Tingene som gikk galt
Ved slutten av uke én, her er en komplett liste over hva som gikk galt eller trengte justering:
- JSON-outputformatering — Innpakking i markdown-kodeblokker (10-minutters fiks)
- Validering av function calling — Tomme objekter for valgfrie parametere (2-timers fiks)
- Rekkefølge på verktøykall — Logging antok sekvensielle kall (halv dags fiks)
- Token-telling — Vårt kostnadsestimat stemte ikke fordi GPT-5.4 bruker færre tokens per respons (oppdaterte formler)
- Rate limiting — Vår rate limiter var konfigurert for GPT-5.3 Codex sine grenser; GPT-5.4 har andre tier-terskler (konfigurasjonsendring)
Ingen av disse var katastrofale. Alle kunne fikses på under en dag. Men hvis du migrerer et produksjonssystem, bør du budsjettere en full uke til testing og feilretting.
Uke 2: Forbedringene begynner å vise seg
Da migreringsfriksjonen hadde lagt seg, ble forbedringene tydelige.
Computer Use åpnet nye arbeidsflyter
GPT-5.4 er den første generelle modellen med medfødte computer-use-funksjoner. Den kan interagere direkte med skrivebordsprogrammer, nettlesere og systemverktøy.
For vårt bruksområde muliggjorde dette noe vi ikke kunne gjøre med GPT-5.3 Codex: modellen kunne nå kjøre test-suiten vår, observere output, og justere sine forslag til kodegjennomgang basert på faktiske testresultater i stedet for bare statisk analyse. Tidligere måtte vi manuelt sende test-output inn i context. Nå kan modellen utføre og observere selv.
Vi bygde en ny "test-aware review"-modus på omtrent tre dager, og den fant umiddelbart to bugs som ren statisk analyse hadde oversett.
Token-effektivitet var reell
OpenAI hevder at GPT-5.4 bruker færre output tokens per oppgave. Etter to uker med produksjonsdata bekreftet vi dette: GPT-5.4 hadde et gjennomsnitt på 3.1K output tokens per oppgave sammenlignet med GPT-5.3 Codex sitt gjennomsnitt på 4.0K for tilsvarende oppgaver. Det er en reduksjon på 22.5% i output tokens.
Kombinert med at tool search reduserte input tokens, sank det totale token-forbruket per oppgave med omtrent 30%.
Feilreduksjon var merkbar
GPT-5.4 produserer 33% færre faktiske feil ifølge OpenAI. I vår sammenheng med kodegjennomgang oversatt dette seg til færre falske positive forslag — det var mindre sannsynlig at modellen markerte korrekt kode som problematisk. Teamets rate for "avvis forslag" sank fra 18% til 11%.
Uke 3: Kostnadsbildet blir tydelig
Her er delen alle vil vite om. Etter tre hele uker med kjøring av GPT-5.4 i produksjon ved siden av våre historiske data fra GPT-5.3 Codex, er her kostnadssammenligningen:
Daglige API-kostnader (Gjennomsnitt)
| Metrikk | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Daglige kall | ~800 | ~800 |
| Gj.snitt input tokens/kall | 12,000 | 11,200 |
| Gj.snitt output tokens/kall | 4,000 | 3,100 |
| Prisrate input | $1.75/MTok | $2.50/MTok |
| Prisrate output | $14.00/MTok | $15.00/MTok |
| Daglig input-kostnad | $16.80 | $22.40 |
| Daglig output-kostnad | $44.80 | $37.20 |
| Daglig total | $61.60 | $59.60 |
Månedlig anslag: GPT-5.3 Codex var ~$1,848. GPT-5.4 anslås til ~$1,788. En besparelse på omtrent $60/måned (3.2%) — beskjedent, men bemerkelsesverdig fordi GPT-5.4 sin nominelle prising er høyere.
Besparelsene kommer utelukkende fra token-effektivitet. GPT-5.4 bruker færre tokens for å utføre de samme oppgavene, noe som mer enn oppveier de høyere prisene per token for vår arbeidsmengde.
Hvor kostnadene gikk opp
Oppgaver med lang context — de som overstiger 272K tokens — koster betydelig mer på GPT-5.4 på grunn av tilleggsavgiften for lang context. Vi kjører omtrent 15 av disse per dag (full-repo gjennomganger). For disse spesifikke kallene økte kostnadene med omtrent 40%.
Hvor kostnadene gikk ned
Standardoppgaver under 100K tokens — som utgjør 95% av vårt volum — var billigere på grunn av lavere antall output tokens. Dette kompenserte mer enn nok for tilleggsavgiften for lang context på de resterende 5%.
Ting jeg ikke forventet
1. GPT-5.4 er mer bastant når det gjelder kodestil
GPT-5.3 Codex var relativt nøytral til stil — den fulgte de mønstrene som fantes i kodebasen din. GPT-5.4 har sterkere meninger. Den vil foreslå å gi variabler nye navn for klarhet, omstrukturere betingelser og trekke ut funksjoner — selv når du bare ba om en feilretting.
Dette er både bra og irriterende. Bra fordi forslagene vanligvis er gode. Irriterende fordi det skaper støy i kodegjennomganger når teamet bare vil ha målrettet tilbakemelding.
Vår løsning: La til en instruksjon i system prompt: "Fokuser utelukkende på korrekthet og sikkerhetsproblemer. Ikke foreslå stilendringer med mindre de påvirker lesbarheten nok til å forårsake bugs."
2. Tidslinjen for avvikling skaper hastverk
GPT-5.2 Thinking pensjoneres June 5, 2026. Hvis du fortsatt er på 5.2, har du tre måneder på deg. GPT-5.3 Codex har LTS-støtte frem til februar 2027, så det haster mindre der — men skriften er på veggen.
3. Tool Search er den skjulte perlen
Jeg avfeide i utgangspunktet Tool Search som en optimaliseringsdetalj. Det viste seg å være den mest virkningsfulle funksjonen for vår arbeidsflyt. I stedet for å sende alle 12 verktøydefinisjonene i hvert API-kall (som forbruker ~3K tokens hver gang), oppdager GPT-5.4 verktøy dynamisk etter behov. Token-besparelsene akkumuleres raskt ved vårt volum.
OpenAI sin dokumentasjon sier at tool search reduserte token-bruk med 47% i deres tester. For vår verktøy-tunge arbeidsflyt så vi omtrent 35% — fortsatt betydelig.
4. "Viben" endret seg
Dette er subjektivt og vanskelig å kvantifisere, men teamet la merke til det. GPT-5.4 føles mer som å jobbe med en seniorutvikler — den stiller spørsmål ved antakelser, foreslår alternativer og gir av og til motstand mot tilnærminger den anser som suboptimale. GPT-5.3 Codex var mer ettergivende. Om du anser dette som en forbedring avhenger av teamets arbeidsflyt. Zvi Mowshowitz sin analyse kaller det "en betydelig oppgradering" i resonnering og generelle evner, og vi er enige.
Sjekkliste for migrering
Basert på vår erfaring, her er hva jeg ville gjort hvis jeg skulle migrert på nytt:
Før du bytter
- Gjennomgå din JSON-parsing — sjekk håndtering av markdown code fences
- Se over skjemaer for function calling — test valgfrie og nøstede parametere
- Sjekk logikken for token-telling og kostnadsestimering
- Verifiser konfigurasjon for rate limiting mot GPT-5.4 tier limits
- Identifiser arbeidsflyter som antar en bestemt rekkefølge på verktøykall
Under byttet
- Deploy til et staging-miljø først
- Kjør begge modellene i parallell i minst 48 timer
- Overvåk for forskjeller i JSON-formatering
- Sjekk suksessrate for function calling
- Sammenlign output-kvalitet på dine spesifikke oppgaver
Etter byttet
- Aktiver tool search og mål token-besparelser
- Evaluer oppgaver med lang context mot prisgrensen på 272K
- Juster system prompts hvis GPT-5.4 er for bastant for din arbeidsflyt
- Utforsk computer use-muligheter for nye arbeidsflyter
- Oppdater kostnadsprognoser med faktiske bruksdata
Bør du migrere nå?
Her er mitt rammeverk:
Migrer umiddelbart hvis:
- Du er på GPT-5.2 (den pensjoneres June 5)
- Du treffer 400K-grensen for context jevnlig
- Du trenger computer use-funksjonalitet
- Du bruker mye tool calling og ønsker token-besparelser
Migrer snart (innen en måned) hvis:
- Du ønsker kvalitetsforbedringene og tåler en uke med integrasjonsarbeid
- Du bygger nye funksjoner som drar nytte av 1M context
- Du ønsker å fremtidssikre før GPT-5.3 til slutt når slutten av sin levetid
Bli på GPT-5.3 Codex hvis:
- Arbeidsflytene dine er stabile og kostnadsoptimaliserte
- Du er avhengig av dens lavere priser på input tokens for prompt-tunge oppgaver
- Du ønsker stabiliteten med LTS-støtte frem til februar 2027
- Du er i et regulert miljø der modellendringer krever formell vurdering
For våre interne verktøy hos ZBuild, var migreringen verdt uken med arbeid. 1M context window alene endret hva verktøyet vårt kunne gjøre. Men hvis din GPT-5.3 Codex-integrasjon fungerer godt og du ikke treffer grensene, er det ingen hast — planlegg migreringen etter din egen tidslinje, ikke OpenAI sin.
Lærdommer for team som vurderer byttet
Hvis jeg kunne oppsummert hele migreringen til fem råd for andre ingeniørteam, ville det vært disse punktene.
1. Budsjett en full uke til integrasjon, ikke bare modellbytte
Selve modellbyttet tar fem minutter. Å oppdage alle spesialtilfeller i integrasjonen din tar en uke. Vårt problem med JSON-formatering, forskjeller i function calling og antakelser i loggingen dukket alle opp under reell trafikk, ikke under enhetstester. Kjør begge modellene i parallell i minst 48 timer før du bytter helt over.
2. Token-effektivitet oppveier høyere priser — men ikke alltid
For standardoppgaver under 100K tokens er GPT-5.4 faktisk billigere til tross for høyere pris per token. Men hvis arbeidsmengden din er tungt vektet mot oppgaver med lang context (over 272K tokens), vil du betale mer. Modeller kostnaden for ditt spesifikke bruksmønster før du binder deg. Apiyi sin guide for prisgrenser har en nyttig kalkulator.
3. Tool Search er ikke valgfritt — aktiver det umiddelbart
Hvis du bruker function calling med mer enn 5 verktøy, aktiver tool search fra dag én. Token-besparelsene akkumuleres i stor skala. For vårt oppsett med 12 verktøy sparte det omtrent 3K tokens per kall — over 800 kall per dag betyr det 2.4 millioner tokens daglig, eller omtrent $6 per dag i input-kostnader.
4. Juster dine prompts for GPT-5.4 sin personlighet
GPT-5.4 er mer bastant enn GPT-5.3 Codex. Hvis applikasjonen din avhenger av at modellen følger instruksjoner nøyaktig uten redaksjonelle kommentarer, legg til eksplisitte begrensninger i din system prompt. Noe som "Fokuser kun på den forespurte oppgaven. Ikke foreslå forbedringer eller alternativer med mindre du blir spurt." Dette sparte teamet vårt for betydelig støy i kodegjennomgangene.
5. Planlegg din GPT-5.2-migrering nå
Hvis du har systemer som fortsatt kjører på GPT-5.2 Thinking, er avviklingen June 5, 2026 ikke til å komme utenom. Ikke vent til mai med å starte migreringen. Integrasjonsflaten mellom GPT-5.2 og GPT-5.4 er større enn gapet mellom GPT-5.3 og GPT-5.4, så forvent at mer vil gå i stykker.
GPT-5.4 vs GPT-5.3 Codex: Hurtigreferansetabell
For team som vil ha oppsummeringen uten historien, er her nøkkeldataene på ett sted:
| Funksjon | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Lanseringsdato | Oktober 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Input-prising | $1.75/MTok | $2.50/MTok |
| Output-prising | $14.00/MTok | $15.00/MTok |
| Tillegg for lang context | Ingen | 2x input, 1.5x output over 272K |
| Computer use | Nei | Ja, medfødt |
| Tool search | Nei | Ja (sparer ~47% tokens) |
| Feilreduksjon | Baseline | 33% færre faktiske feil |
| LTS-støtte | Til feb 2027 | Nåværende modell |
| Best for | Terminal-tungt, kostnadssensitivt arbeid | Generelle + agentiske arbeidsflyter |
En måned senere: Endelig dom
Det har nå gått en hel måned på GPT-5.4. Integrasjonsproblemene er løst, teamet har tilpasset seg, og tallene er stabile.
Kvalitet: Bedre. Færre falske positive i kodegjennomgang, bedre analyse på tvers av moduler, og computer use-integrasjonen la til en arbeidsflyt som ikke var mulig før.
Kostnad: Omtrent tilsvarende for standardoppgaver, noe høyere for oppgaver med lang context, men den totale månedlige regningen ble 3-4% lavere takket være token-effektivitet.
Hastighet: Sammenlignbar. Ingen betydelig forskjell for vår arbeidsmengde.
Stabilitet: Etter den første uken med feilrettinger, null produksjonsproblemer.
Oppgraderingen var ikke transformativ — den var inkrementell, men positiv. GPT-5.4 er den beste modellen for de fleste utviklere i mars 2026. Spørsmålet er bare om migreringsinnsatsen er verdt det for din spesifikke situasjon.
Hvis du bygger utviklerverktøy — som vi gjør hos ZBuild — er det viktig å være på den nåværende flaggskipmodellen for å holde produktet konkurransedyktig. For interne verktøy der stabilitet er prioritet, er GPT-5.3 Codex på LTS et helt gyldig valg ut tidlig 2027.
Kilder
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex