Før vi starter: Hvorfor jeg skrev dette som en dagbog
De fleste GPT-5.4 vs GPT-5.3 artikler giver dig en benchmark-tabel og lader det være ved det. Det er nyttigt til at beslutte, om man skal opgradere, men fuldstændig ubrugeligt til at forstå, hvad der rent faktisk sker under opgraderingen.
Jeg migrerede et produktionssystem — en intern platform til developer tooling — fra GPT-5.3 Codex til GPT-5.4 i løbet af March 2026. Denne artikel dokumenterer, hvad der skete dag for dag, hvad der overraskede mig, hvad der gik i stykker, og hvordan den månedlige regning ser ud på den anden side.
Hvis du planlægger din egen migration, er dette den guide, jeg ønsker, jeg selv havde haft.
Før migrationen: Det kørte vi på GPT-5.3 Codex
Vores setup før skiftet:
- Applikation: En intern assistent til code review og refactoring brugt af et engineering-team på 14 personer
- API-integration: Direkte OpenAI API-kald, function calling til brug af værktøjer, strukturerede JSON-outputs
- Gennemsnitlig daglig volumen: ~800 API-kald, med et gennemsnit på 12K input tokens og 4K output tokens hver
- Månedlig API-omkostning: Cirka $1,400 med GPT-5.3 Codex prissætning ($1.75 input / $14 output pr. MTok)
- Context window brug: Ramte jævnligt 200-350K tokens; lejlighedsvis trunkering ved 400K grænsen
Vi valgte oprindeligt GPT-5.3 Codex på grund af dens stærke kodningsspecifikke ydeevne og lavere input token omkostninger. Den tjente os godt i seks måneder.
Dag 1: Skiftet (March 8, 2026)
Den mekaniske del af migrationen var trivial. Skift model: "gpt-5.3-codex" til model: "gpt-5.4" i vores API-konfiguration. Deploy. Færdig.
Første indtryk: Svarene føltes kvalitativt anderledes. Ikke nødvendigvis bedre eller værre, men anderledes. GPT-5.4 var mere ordrig i sin ræsonnering — den gav mere forklaring på sine valg, før den leverede kode. For vores code review værktøj var dette faktisk en forbedring, fordi reviewere ønskede at forstå "hvorfor" bag forslagene.
Responshastighed: Mærkbart hurtigere på kortere prompts. Omkring det samme på længere. De officielle data viser GPT-5.4 på 73.4 tokens per second sammenlignet med GPT-5.3 Codex i et lignende område, så hastighedsforskellen er reel, men ikke dramatisk.
Første problem: Inden for den første time gik vores JSON-parser i stykker. GPT-5.3 Codex havde returneret rå JSON, når der blev bedt om struktureret output. GPT-5.4 pakkede lejlighedsvis JSON ind i en markdown kodeblok (```json ... ```). Dette ødelagde vores parsing-pipeline.
Løsning: Tilføjede et preprocessing-trin for at fjerne markdown code fences før parsing. En 10-minutters løsning, men det ville have forårsaget produktionsfejl, hvis vi ikke havde overvåget det tæt.
Dag 2-3: Forskelle i Function Calling
Vores værktøj brugte OpenAIs function calling-funktion til at lade modellen aktivere kodeanalyseværktøjer — en linter, en test runner, en dependency checker. På GPT-5.3 Codex fungerede dette fejlfrit.
På GPT-5.4 stødte vi på to problemer:
Problem 1: Håndtering af valgfrie parametre. Når en funktionsparameter var et valgfrit indlejret objekt, ville GPT-5.3 Codex udelade det, hvis det var unødvendigt. GPT-5.4 sendte nogle gange et tomt objekt {} i stedet, hvilket fik vores validering til at afvise kaldet.
Problem 2: Tool search adfærd. GPT-5.4 introducerer Tool Search, som dynamisk opdager tilgængelige værktøjer i stedet for at kræve alle værktøjsdefinitioner på forhånd. Dette er en kraftfuld funktion — OpenAI rapporterer, at det reducerer token-brug med 47% — men det ændrede timingen af værktøjsinvokationer. Vores logningssystem forventede, at værktøjer blev kaldt i en bestemt rækkefølge, og GPT-5.4 omorganiserede dem nogle gange.
Løsning på Problem 1: Opdaterede vores Zod validerings-schemas til at acceptere tomme objekter for valgfrie parametre. To timers arbejde.
Løsning på Problem 2: Omskrev vores logning til at være uafhængig af rækkefølge. En halv dags arbejde. Det var det værd, fordi den nye tilgang er mere robust uanset model.
Dag 4-5: Context Window ændrer alt
Dette var det første virkelig spændende øjeblik. GPT-5.3 Codex havde en grænse på 400K tokens. For vores største repositories havde vi bygget et komplekst chunking-system — vi opdelte codebases i segmenter, kørte analyse på hvert segment og samlede derefter resultaterne.
GPT-5.4 understøtter op til 1,050,000 tokens via API. For Codex brugere er det fulde 1M context tilgængeligt.
Hvad dette betød i praksis: Vores største repository — en 280-filer stor TypeScript monorepo — kunne nu indlæses helt i ét context. Slut med chunking. Slut med sammensyet analyse med overgangsfejl. Kvaliteten af code review på dette repository forbedredes dramatisk, fordi modellen kunne se afhængigheder på tværs af moduler, som var usynlige, da context var delt.
Hagen ved det: Prompts, der overstiger 272K tokens, prissættes til 2x input og 1.5x output. Så at sende hele vores 280-filer repo som context betød betydeligt højere omkostninger per kald. Vi endte med at bygge et smart system til valg af context, der indlæser hele repoet til tværgående opgaver, men bruger målrettet context til opgaver i enkeltfiler.
Oversigt over uge 1: Tingene der gik i stykker
Ved slutningen af uge ét er her en komplet liste over, hvad der gik i stykker eller krævede justering:
- JSON output formatering — Markdown kodeblok-indpakning (10-minutters løsning)
- Function calling validering — Tomme objekter for valgfrie parametre (2-timers løsning)
- Værktøjsinvokations rækkefølge — Logning antog sekventielle kald (halv dags løsning)
- Token-optælling — Vores omkostningsestimering var forkert, fordi GPT-5.4 bruger færre tokens per svar (opdaterede formler)
- Rate limiting — Vores rate limiter var konfigureret til GPT-5.3 Codex' grænser; GPT-5.4 har andre tier-tærskler (konfigurationsændring)
Ingen af disse var katastrofale. Alle kunne løses på under en dag. Men hvis du migrerer et produktionssystem, så afsæt en hel uge til test og fejlretning.
Uge 2: Forbedringerne begynder at vise sig
Da migrationsgnidningerne havde lagt sig, blev forbedringerne tydelige.
Computer Use åbnede nye workflows
GPT-5.4 er den første generelle model med indbyggede computer-use evner. Den kan interagere direkte med desktop-applikationer, browsere og systemværktøjer.
For vores use case muliggjorde dette noget, vi ikke kunne med GPT-5.3 Codex: modellen kunne nu køre vores test-suite, observere outputtet og justere sine code review forslag baseret på faktiske testresultater i stedet for statisk analyse alene. Tidligere var vi nødt til manuelt at føre test-output ind i context. Nu kan modellen eksekvere og observere.
Vi byggede en ny "test-aware review" tilstand på cirka tre dage, og den fangede med det samme to bugs, som ren statisk analyse havde overset.
Token-effektivitet var reel
OpenAI hævder, at GPT-5.4 bruger færre output tokens per opgave. Efter to ugers produktionsdata bekræftede vi dette: GPT-5.4 havde et gennemsnit på 3.1K output tokens per opgave sammenlignet med GPT-5.3 Codex' 4.0K for tilsvarende opgaver. Det er en reduktion på 22.5% i output tokens.
Kombineret med tool search, der reducerer input tokens, faldt det samlede token-forbrug per opgave med cirka 30%.
Fejlreduktion var mærkbar
GPT-5.4 producerer 33% færre faktuelle fejl ifølge OpenAI. I vores code review kontekst betød dette færre falske positive forslag — modellen var mindre tilbøjelig til at markere korrekt kode som problematisk. Vores teams rate for "afvis forslag" faldt fra 18% til 11%.
Uge 3: Omkostningsbilledet bliver tydeligt
Her er den del, alle gerne vil vide noget om. Efter tre hele uger med GPT-5.4 i produktion ved siden af vores historiske GPT-5.3 Codex data, er her omkostningssammenligningen:
Daglige API-omkostninger (Gennemsnit)
| Metrik | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Daglige kald | ~800 | ~800 |
| Gns. input tokens/kald | 12,000 | 11,200 |
| Gns. output tokens/kald | 4,000 | 3,100 |
| Input omkostningsrate | $1.75/MTok | $2.50/MTok |
| Output omkostningsrate | $14.00/MTok | $15.00/MTok |
| Daglig input omkostning | $16.80 | $22.40 |
| Daglig output omkostning | $44.80 | $37.20 |
| Daglig total | $61.60 | $59.60 |
Månedlig fremskrivning: GPT-5.3 Codex var ~$1,848. GPT-5.4 fremskrives til ~$1,788. En besparelse på omkring $60/måned (3.2%) — beskedent, men bemærkelsesværdigt, da GPT-5.4's nominelle prissætning er højere.
Besparelserne kommer udelukkende fra token-effektivitet. GPT-5.4 bruger færre tokens til at udføre de samme opgaver, hvilket mere end opvejer dens højere priser per token for vores arbejdsbyrde.
Hvor omkostningerne steg
Opgaver med long-context — dem, der overstiger 272K tokens — koster betydeligt mere på GPT-5.4 på grund af long-context tillægget. Vi kører omkring 15 af disse om dagen (full-repo reviews). For de specifikke kald steg omkostningerne med omkring 40%.
Hvor omkostningerne faldt
Standardopgaver under 100K tokens — som udgør 95% af vores volumen — var billigere på grund af lavere antal output tokens. Dette kompenserede mere end rigeligt for long-context tillægget på de resterende 5%.
Ting jeg ikke havde forventet
1. GPT-5.4 er mere holdningspræget omkring kodestil
GPT-5.3 Codex var relativt neutral omkring stil — den fulgte de mønstre, der fandtes i din codebase. GPT-5.4 har stærkere holdninger. Den vil foreslå omdøbning af variabler for klarhed, omstrukturering af betingelser og udtrækning af funktioner — selv når du kun bad om et bug fix.
Dette er både godt og irriterende. Godt fordi forslagene normalt er valide. Irriterende fordi det tilføjer støj til code reviews, når teamet bare vil have målrettet feedback.
Vores løsning: Tilføjede en instruktion i system prompt: "Fokuser udelukkende på korrekthed og sikkerhedsproblemer. Foreslå ikke stilændringer, medmindre de påvirker læsbarheden nok til at forårsage bugs."
2. Tidslinjen for udfasning skaber hastværk
GPT-5.2 Thinking går på pension June 5, 2026. Hvis du stadig er på 5.2, har du tre måneder. GPT-5.3 Codex har LTS support frem til February 2027, så der er mindre hastværk der — men skriften på væggen er tydelig.
3. Tool Search er den oversete superfeature
Jeg affejede oprindeligt Tool Search som en optimeringsdetalje. Det viste sig at være den mest betydningsfulde funktion for vores workflow. I stedet for at sende alle 12 værktøjsdefinitioner i hvert API-kald (hvilket brugte ~3K tokens hver gang), opdager GPT-5.4 dynamisk værktøjer efter behov. Token-besparelserne akkumuleres ved vores volumen.
OpenAIs dokumentation siger, at tool search reducerede token-brug med 47% i deres test. For vores værktøjstunge workflow så vi omkring 35% — stadig betydeligt.
4. "Viben" ændrede sig
Dette er subjektivt og svært at kvantificere, men teamet lagde mærke til det. GPT-5.4 føles mere som at arbejde med en senior engineer — den stiller spørgsmålstegn ved antagelser, foreslår alternativer og skubber nogle gange tilbage på tilgange, den anser for suboptimalle. GPT-5.3 Codex var mere eftergivende. Om du anser dette for en forbedring, afhænger af dit teams workflow. Zvi Mowshowitz' analyse kalder det "en væsentlig opgradering" i ræsonnering og generel formåen, og vi er enige.
Tjekliste til migration
Baseret på vores erfaring er her, hvad jeg ville gøre, hvis jeg skulle migrere igen:
Før du skifter
- Gennemgå din JSON parsing — tjek håndtering af markdown code fences
- Gennemse function calling schemas — test valgfrie og indlejrede parametre
- Tjek din logik for token-optælling og omkostningsestimering
- Bekræft rate limiting konfiguration mod GPT-5.4 tier grænser
- Identificer eventuelle workflows, der antager en bestemt rækkefølge af værktøjskald
Under skiftet
- Deploy til et staging-miljø først
- Kør begge modeller parallelt i mindst 48 timer
- Overvåg for forskelle i JSON formatering
- Tjek succesrater for function calling
- Sammenlign output-kvalitet på dine specifikke opgaver
Efter skiftet
- Aktivér tool search og mål token-besparelser
- Evaluer long-context opgaver i forhold til 272K prisgrænsen
- Juster system prompts, hvis GPT-5.4 er for holdningspræget til dit workflow
- Udforsk computer use muligheder for nye workflows
- Opdater omkostningsprognoser med faktiske brugsdata
Bør du migrere nu?
Her er min ramme for beslutningen:
Migrer med det samme hvis:
- Du er på GPT-5.2 (den udgår June 5)
- Du jævnligt rammer 400K context-grænsen
- Du har brug for computer use evner
- Du bruger tungt tool calling og ønsker token-besparelser
Migrer snart (inden for en måned) hvis:
- Du ønsker kvalitetsforbedringerne og kan tolerere en uges integrationsarbejde
- Du bygger nye funktioner, der nyder godt af 1M context
- Du ønsker at fremtidssikre, før GPT-5.3 på et tidspunkt når end-of-life
Bliv på GPT-5.3 Codex hvis:
- Dine workflows er stabile og omkostningsoptimerede
- Du afhænger af dens lavere input token prissætning for prompt-tunge arbejdsbyrder
- Du ønsker stabiliteten ved LTS support frem til February 2027
- Du er i et reguleret miljø, hvor modelændringer kræver formel gennemgang
For vores interne værktøjer hos ZBuild var migrationen ugen med arbejde værd. Alene 1M context vinduet ændrede, hvad vores værktøj kunne gøre. Men hvis din GPT-5.3 Codex integration fungerer godt, og du ikke rammer dens grænser, er der ingen panik — planlæg migrationen efter din tidsplan, ikke OpenAIs.
Lektioner til teams der overvejer skiftet
Hvis jeg kunne koge hele migrationen ned til gode råd til andre engineering-teams, ville det være disse fem punkter.
1. Afsæt en hel uge til integration, ikke kun modelskiftet
Selve modelskiftet tager fem minutter. At opdage alle kanttilfælde i din integration tager en uge. Vores problem med JSON formatering, forskelle i function calling og logningsantagelser dukkede alle op under rigtig trafik, ikke under unit tests. Kør begge modeller parallelt i mindst 48 timer, før du skifter helt over.
2. Token-effektivitet opvejer højere priser — men ikke altid
For standardopgaver under 100K tokens er GPT-5.4 reelt billigere trods højere priser per token. Men hvis din arbejdsbyrde er tungt vægtet mod long-context opgaver (over 272K tokens), vil du betale mere. Modelér omkostningerne for dit specifikke brugsmønster, før du committer. Apiyi guidem til prisgrænser har en nyttig beregner.
3. Tool Search er ikke valgfrit — aktivér det med det samme
Hvis du bruger function calling med mere end 5 værktøjer, så aktivér tool search på dag ét. Token-besparelserne akkumuleres i stor skala. For vores setup med 12 værktøjer sparede det cirka 3K tokens per kald — over 800 kald om dagen er det 2.4 millioner tokens dagligt, eller omkring $6 om dagen i input-omkostninger.
4. Juster dine prompts til GPT-5.4's personlighed
GPT-5.4 er mere holdningspræget end GPT-5.3 Codex. Hvis din applikation er afhængig af, at modellen følger instruktioner præcist uden redaktionelle kommentarer, så tilføj eksplicitte begrænsninger til din system prompt. Noget i retning af "Fokuser kun på den anmodede opgave. Foreslå ikke forbedringer eller alternativer, medmindre du bliver spurgt." Dette sparede vores team for betydelig støj i code review output.
5. Planlæg din GPT-5.2 migration nu
Hvis du har systemer, der stadig kører på GPT-5.2 Thinking, er pensioneringen den June 5, 2026 ikke til forhandling. Vent ikke til May med at starte migrationen. Integrationsfladen mellem GPT-5.2 og GPT-5.4 er større end gabet mellem GPT-5.3 og GPT-5.4, så forvent flere fejl.
GPT-5.4 vs GPT-5.3 Codex: Hurtig referencetabel
For teams der ønsker overblikket uden fortællingen, er her de vigtigste data samlet ét sted:
| Funktion | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Udgivelsesdato | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Input prissætning | $1.75/MTok | $2.50/MTok |
| Output prissætning | $14.00/MTok | $15.00/MTok |
| Long-context tillæg | Ingen | 2x input, 1.5x output over 272K |
| Computer use | Nej | Ja, indbygget |
| Tool search | Nej | Ja (sparer ~47% tokens) |
| Fejlreduktion | Baseline | 33% færre faktuelle fejl |
| LTS support | Til Feb 2027 | Nuværende model |
| Bedst til | Terminal-tungt, prisbevidst arbejde | Generelle + agent-baserede workflows |
En måned senere: Den endelige dom
Det er nu en hel måned siden skiftet til GPT-5.4. Integrationsproblemerne er løst, teamet har vænnet sig til det, og tallene er stabile.
Kvalitet: Bedre. Færre falske positive i code review, bedre analyse på tværs af moduler, og computer use integrationen tilføjede et workflow, som ikke var muligt før.
Omkostninger: Stort set det samme for standardopgaver, en smule højere for long-context opgaver, men den samlede månedlige regning endte 3-4% lavere takket være token-effektivitet.
Hastighed: Sammenlignelig. Ingen betydelig forskel for vores arbejdsbyrde.
Stabilitet: Efter den indledende uge med rettelser har der været nul produktionsproblemer.
Opgraderingen var ikke transformativ — den var inkrementel men positiv. GPT-5.4 er den bedre model for de fleste udviklere i March 2026. Spørgsmålet er bare, om migrationsindsatsen er det værd for din specifikke situation.
Hvis du bygger værktøjer til udviklere — som vi gør hos ZBuild — betyder det noget at være på den nuværende topmodel for at holde dit produkt konkurrencedygtigt. For interne værktøjer, hvor stabilitet er prioriteten, er GPT-5.3 Codex på LTS et helt legitimt valg frem til starten af 2027.
Kilder
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex