Voordat We Beginnen: Waarom Ik Dit Als Een Dagboek Schreef
De meeste GPT-5.4 vs GPT-5.3 artikelen geven je een benchmark-tabel en laten het daarbij. Dat is nuttig om te beslissen of je moet upgraden, maar volkomen nutteloos om te begrijpen wat er feitelijk gebeurt tijdens de upgrade.
Ik heb in de loop van maart 2026 een productiesysteem — een intern platform voor developer tooling — gemigreerd van GPT-5.3 Codex naar GPT-5.4. Dit artikel documenteert van dag tot dag wat er gebeurde, wat me verraste, wat er stuk ging en hoe de maandelijkse factuur er aan de andere kant uitziet.
Als je je eigen migratie plant, is dit de gids die ik had willen hebben.
Pre-Migratie: Wat We Draaiden op GPT-5.3 Codex
Onze opzet voor de overstap:
- Applicatie: Een interne code-review en refactoring-assistent gebruikt door een 14-koppig engineering-team
- API integratie: Directe OpenAI API aanroepen, function calling voor tool-gebruik, gestructureerde JSON outputs
- Gemiddeld dagelijks volume: ~800 API aanroepen, gemiddeld 12K input tokens en 4K output tokens per stuk
- Maandelijkse API kosten: Ongeveer $1,400 op GPT-5.3 Codex prijsstelling ($1.75 input / $14 output per MTok)
- Context window gebruik: Regelmatig het raken van 200-350K tokens; af en toe afkappen bij de 400K limiet
We kozen oorspronkelijk voor GPT-5.3 Codex vanwege de sterke coderingsspecifieke prestaties en lagere input tokens kosten. Het heeft ons zes maanden lang goed gediend.
Dag 1: De Wissel (8 maart 2026)
Het mechanische gedeelte van de migratie was triviaal. Verander model: "gpt-5.3-codex" naar model: "gpt-5.4" in onze API configuratie. Deployen. Klaar.
Eerste indruk: De antwoorden voelden kwalitatief anders aan. Niet noodzakelijkerwijs beter of slechter, maar anders. GPT-5.4 was breedsprakiger in zijn redenering — het gaf meer uitleg over zijn keuzes voordat het de code afleverde. Voor onze code-review tool was dit feitelijk een verbetering, omdat reviewers de "waarom" achter suggesties wilden begrijpen.
Responssnelheid: Merkbaar sneller bij kortere prompts. Ongeveer hetzelfde bij langere. De officiële data laat GPT-5.4 zien op 73.4 tokens per seconde vergeleken met GPT-5.3 Codex in een vergelijkbaar bereik, dus het snelheidsverschil is reëel maar niet dramatisch.
Eerste probleem: Binnen het eerste uur ging onze JSON parser stuk. GPT-5.3 Codex retourneerde ruwe JSON wanneer er om gestructureerde output werd gevraagd. GPT-5.4 wikkelde de JSON af en toe in een markdown codeblok (```json ... ```). Dit brak onze parsing-pipeline.
Oplossing: Een preprocessing-stap toegevoegd om markdown code fences te verwijderen voor het parsen. Een oplossing van 10 minuten, maar het had productiefouten veroorzaakt als we niet nauwlettend hadden gemonitord.
Dag 2-3: Verschillen in Function Calling
Onze tool gebruikte de function calling functie van OpenAI om het model code-analysetools te laten aanroepen — een linter, een test runner, een dependency checker. Op GPT-5.3 Codex werkte dit feilloos.
Op GPT-5.4 liepen we tegen twee problemen aan:
Probleem 1: Afhandeling van optionele parameters. Wanneer een functieparameter een optioneel genest object was, liet GPT-5.3 Codex dit weg als het onnodig was. GPT-5.4 stuurde soms in plaats daarvan een leeg object {} , wat ervoor zorgde dat onze validatie de aanroep weigerde.
Probleem 2: Tool search gedrag. GPT-5.4 introduceert Tool Search, waarmee beschikbare tools dynamisch worden ontdekt in plaats van dat alle tool-definities vooraf vereist zijn. Dit is een krachtige functie — OpenAI meldt dat het het gebruik van tokens met 47% vermindert — maar het veranderde de timing van tool-aanroepen. Ons logging-systeem verwachtte dat tools in een specifieke volgorde werden aangeroepen, en GPT-5.4 veranderde deze volgorde soms.
Oplossing voor Probleem 1: Onze Zod validatie-schema's bijgewerkt om lege objecten te accepteren voor optionele parameters. Twee uur werk.
Oplossing voor Probleem 2: Onze logging herschreven om volgorde-onafhankelijk te zijn. Een halve dag werk. De moeite waard, want de nieuwe aanpak is robuuster, ongeacht het model.
Dag 4-5: Het Context Window Verandert Alles
Dit was het eerste oprecht spannende moment. GPT-5.3 Codex had een limiet van 400K tokens. Voor onze grootste repositories hadden we een uitgebreid chunking-systeem gebouwd — codebases opsplitsen in segmenten, analyse uitvoeren op elk segment en vervolgens de resultaten aan elkaar hechten.
GPT-5.4 ondersteunt tot 1,050,000 tokens via de API. Voor Codex gebruikers is de volledige 1M context beschikbaar.
Wat dit in de praktijk betekende: Onze grootste repository — een TypeScript monorepo met 280 bestanden — kon nu volledig in één context worden geladen. Geen chunking meer. Geen aan elkaar gehechte analyses met artefacten op de naden meer. De kwaliteit van de code-review op deze repository verbeterde aanzienlijk omdat het model cross-module afhankelijkheden kon zien die onzichtbaar waren toen de context werd opgesplitst.
De keerzijde: Prompts die meer dan 272K tokens bevatten, worden geprijsd tegen 2x input en 1.5x output. Dus het verzenden van onze volledige repo van 280 bestanden als context betekende aanzienlijk hogere kosten per aanroep. We hebben uiteindelijk een slim context-selectiesysteem gebouwd dat de volledige repo laadt voor cross-module taken, maar gerichte context gebruikt voor taken in één bestand.
Samenvatting Week 1: De Dingen Die Stuk Gingen
Aan het einde van week één is hier een volledige lijst van wat er stuk ging of aangepast moest worden:
- JSON output opmaak — Markdown codeblok wrapping (10 minuten fix)
- Function calling validatie — Lege objecten voor optionele parameters (2 uur fix)
- Volgorde van tool-aanroepen — Logging veronderstelde sequentiële aanroepen (halve dag fix)
- Tellen van tokens — Onze kostenraming klopte niet omdat GPT-5.4 minder tokens per antwoord gebruikt (formules bijgewerkt)
- Rate limiting — Onze rate limiter was geconfigureerd voor de limieten van GPT-5.3 Codex; GPT-5.4 heeft andere tier-drempels (configuratie wijziging)
Geen van deze zaken was catastrofaal. Alles was binnen een dag te herstellen. Maar als je een productiesysteem migreert, reserveer dan een volledige week voor testen en patchen.
Week 2: De Verbeteringen Worden Zichtbaar
Zodra de migratiewrijving was weggeëbd, werden de verbeteringen duidelijk.
Computer Use Opende Nieuwe Workflows
GPT-5.4 is het eerste model voor algemeen gebruik met native computer-use mogelijkheden. Het kan rechtstreeks communiceren met desktopapplicaties, browsers en systeemtools.
Voor onze use-case maakte dit iets mogelijk wat we met GPT-5.3 Codex niet konden: het model kon nu onze testsuite draaien, de output observeren en zijn suggesties voor code-review aanpassen op basis van werkelijke testresultaten in plaats van alleen op statische analyse. Voorheen moesten we de testoutput handmatig in de context pipen. Nu kan het model uitvoeren en observeren.
We bouwden in ongeveer drie dagen een nieuwe "test-aware review" modus, en deze vond onmiddellijk twee bugs die puur statische analyse had gemist.
Token-efficiëntie was echt
OpenAI beweert dat GPT-5.4 minder output tokens per taak gebruikt. Na twee weken productiedata hebben we dit bevestigd: GPT-5.4 verbruikte gemiddeld 3.1K output tokens per taak vergeleken met de 4.0K van GPT-5.3 Codex voor gelijkwaardige taken. Dat is een vermindering van 22.5% in output tokens.
Gecombineerd met tool search die input tokens vermindert, daalde het totale verbruik van tokens per taak met ongeveer 30%.
Foutreductie was merkbaar
GPT-5.4 produceert 33% minder feitelijke fouten volgens OpenAI. In onze code-review context vertaalde dit zich in minder fout-positieve suggesties — het model was minder geneigd om correcte code als problematisch te markeren. Het "suggestie negeren" percentage van ons team daalde van 18% naar 11%.
Week 3: Het Kostenplaatje Wordt Duidelijk
Hier is het gedeelte waar iedereen naar benieuwd is. Na drie volledige weken GPT-5.4 in productie te hebben gedraaid naast onze historische GPT-5.3 Codex data, is hier de kostenvergelijking:
Dagelijkse API Kosten (Gemiddelde)
| Metriek | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Dagelijkse aanroepen | ~800 | ~800 |
| Gem. input tokens/aanroep | 12,000 | 11,200 |
| Gem. output tokens/aanroep | 4,000 | 3,100 |
| Input kostentarief | $1.75/MTok | $2.50/MTok |
| Output kostentarief | $14.00/MTok | $15.00/MTok |
| Dagelijkse input kosten | $16.80 | $22.40 |
| Dagelijkse output kosten | $44.80 | $37.20 |
| Dagelijks totaal | $61.60 | $59.60 |
Maandelijkse projectie: GPT-5.3 Codex was ~$1,848. GPT-5.4 projecteert op ~$1,788. Een besparing van ongeveer $60/maand (3.2%) — bescheiden maar opmerkelijk omdat de nominale prijsstelling van GPT-5.4 hoger is.
De besparingen komen volledig voort uit token-efficiëntie. GPT-5.4 gebruikt minder tokens om dezelfde taken te voltooien, wat de hogere prijzen per token voor onze werklast meer dan compenseert.
Waar de kosten stegen
Taken met een lange context — degene die de 272K tokens overschrijden — kosten aanzienlijk meer op GPT-5.4 vanwege de long-context toeslag. We voeren er ongeveer 15 per dag uit (volledige repo reviews). Voor die specifieke aanroepen stegen de kosten met ongeveer 40%.
Waar de kosten daalden
Standaardtaken onder de 100K tokens — die 95% van ons volume uitmaken — waren goedkoper vanwege lagere aantallen output tokens. Dit compenseerde de long-context toeslag op de resterende 5% ruimschoots.
Dingen Die Ik Niet Had Verwacht
1. GPT-5.4 Is Meer Uitgesproken Over Codestijl
GPT-5.3 Codex was relatief neutraal over stijl — het volgde de patronen die in je codebase aanwezig waren. GPT-5.4 heeft sterkere meningen. Het zal voorstellen om variabelen te hernoemen voor de duidelijkheid, conditionals te herstructureren en functies te extraheren — zelfs wanneer je alleen om een bugfix vroeg.
Dit is zowel goed als irritant. Goed omdat de suggesties meestal valide zijn. Irritant omdat het ruis toevoegt aan code-reviews wanneer het team alleen gerichte feedback wil.
Onze oplossing: Een system prompt instructie toegevoegd: "Focus exclusively on correctness and security issues. Do not suggest style changes unless they impact readability enough to cause bugs."
2. De Uitfaserings-tijdlijn Creëert Urgentie
GPT-5.2 Thinking gaat met pensioen op 5 juni 2026. Als je nog op 5.2 zit, heb je drie maanden. GPT-5.3 Codex heeft LTS ondersteuning tot februari 2027, dus daar is minder haast bij — maar het einde is in zicht.
3. Tool Search Is de "Sleeper Feature"
Ik deed Tool Search aanvankelijk af als een optimalisatiedetail. Het bleek de meest impactvolle functie voor onze workflow te zijn. In plaats van alle 12 tool-definities in elke API aanroep te verzenden (wat telkens ~3K tokens verbruikt), ontdekt GPT-5.4 tools dynamisch wanneer dat nodig is. De token-besparingen stapelen zich op bij ons volume.
De documentatie van OpenAI zegt dat tool search het gebruik van tokens met 47% verminderde in hun tests. Voor onze tool-zware workflow zagen we ongeveer 35% — nog steeds aanzienlijk.
4. De "Vibe" Veranderde
Dit is subjectief en moeilijk te kwantificeren, maar het team merkte het op. Werken met GPT-5.4 voelt meer als samenwerken met een senior engineer — het stelt aannames ter discussie, suggereert alternatieven en biedt soms weerstand tegen benaderingen die het als suboptimaal beschouwt. GPT-5.3 Codex was volgzamer. Of je dit als een verbetering beschouwt, hangt af van de workflow van je team. De analyse van Zvi Mowshowitz noemt het "een aanzienlijke upgrade" in redenering en algemene capaciteit, en daar zijn we het mee eens.
De Migratie-Checklist
Op basis van onze ervaring is dit wat ik zou doen als ik opnieuw zou migreren:
Voordat Je Overstapt
- Audit je JSON parsing — controleer op de afhandeling van markdown code fences
- Beoordeel function calling schema's — test optionele en geneste parameters
- Controleer je logica voor het tellen van tokens en kostenraming
- Verifieer de rate limiting configuratie tegen de GPT-5.4 tier limieten
- Identificeer workflows die uitgaan van een specifieke volgorde van tool-aanroepen
Tijdens de Overstap
- Deploy eerst naar een staging-omgeving
- Draai beide modellen minimaal 48 uur parallel
- Monitor op verschillen in JSON opmaak
- Controleer succespercentages van function calling
- Vergelijk de kwaliteit van de output voor jouw specifieke taken
Na de Overstap
- Schakel tool search in en meet de token-besparingen
- Evalueer long-context taken voor de 272K prijsdrempel
- Pas system prompts aan als GPT-5.4 te eigenwijs is voor je workflow
- Verken computer use mogelijkheden voor nieuwe workflows
- Werk kostenprognoses bij met werkelijke gebruiksgegevens
Moet Je Nu Migreren?
Hier is mijn afwegingskader:
Migreer onmiddellijk als:
- Je op GPT-5.2 zit (het gaat op 5 juni met pensioen)
- Je regelmatig de 400K contextlimiet raakt
- Je computer use mogelijkheden nodig hebt
- Je veel gebruikmaakt van tool calling en token-besparingen wilt
Migreer binnenkort (binnen een maand) als:
- Je kwaliteitsverbeteringen wilt en een week integratiewerk kunt tolereren
- Je nieuwe functies bouwt die profiteren van 1M context
- Je toekomstbestendig wilt zijn voordat GPT-5.3 uiteindelijk het einde van zijn levensduur bereikt
Blijf op GPT-5.3 Codex als:
- Je workflows stabiel en kostengeoptimaliseerd zijn
- Je vertrouwt op de lagere input token prijzen voor prompt-zware werklasten
- Je de stabiliteit wilt van LTS ondersteuning tot februari 2027
- Je in een gereguleerde omgeving werkt waar modelwijzigingen een formele beoordeling vereisen
Voor onze interne tools bij ZBuild was de migratie de week werk waard. Het 1M context window alleen al veranderde wat onze tool kon doen. Maar als je GPT-5.3 Codex integratie goed werkt en je de limieten niet raakt, is er geen haast — plan de migratie op jouw tijdlijn, niet die van OpenAI.
Lessen voor Teams die de Overstap Overwegen
Als ik de hele migratie zou kunnen distilleren in advies voor andere engineering-teams, dan zouden het deze vijf punten zijn.
1. Begroot een Volledige Week voor Integratie, Niet Alleen de Wissel van het Model
Het wisselen van het model duurt vijf minuten. Het ontdekken van elke edge-case in je integratie duurt een week. Ons JSON-opmaakprobleem, de verschillen in function calling en logging-aannames kwamen allemaal naar boven bij echt verkeer, niet tijdens unit-tests. Draai beide modellen minstens 48 uur parallel voordat je volledig overgaat.
2. Token-efficiëntie Compenseert Hogere Prijzen — Maar Niet Altijd
Voor standaardtaken onder de 100K tokens is GPT-5.4 echt goedkoper ondanks de hogere prijs per token. Maar als je werklast zwaar leunt op long-context taken (boven 272K tokens), zul je meer betalen. Modelleer de kosten voor jouw specifieke gebruikspatroon voordat je je vastlegt. De Apiyi prijsdrempelgids heeft een handige calculator.
3. Tool Search Is Niet Optioneel — Schakel Het Onmiddellijk In
Als je function calling gebruikt met meer dan 5 tools, schakel dan op dag één tool search in. De token-besparingen stapelen zich op bij schaal. Voor onze opzet met 12 tools bespaarde het ongeveer 3K tokens per aanroep — over 800 aanroepen per dag is dat 2,4 miljoen tokens per dag, of ongeveer $6 per dag aan input kosten.
4. Pas Je Prompts Aan voor de Persoonlijkheid van GPT-5.4
GPT-5.4 is meer uitgesproken dan GPT-5.3 Codex. Als je applicatie ervan uitgaat dat het model instructies precies volgt zonder redactioneel commentaar, voeg dan expliciete beperkingen toe aan je system prompt. Iets als "Focus op de gevraagde taak alleen. Suggereer geen verbeteringen of alternatieven tenzij daarom gevraagd wordt." Dit bespaarde ons team aanzienlijke ruis in de code-review output.
5. Plan Je GPT-5.2 Migratie Nu
Als je nog systemen hebt die op GPT-5.2 Thinking draaien, is het pensioen op 5 juni 2026 niet onderhandelbaar. Wacht niet tot mei om met de migratie te beginnen. Het integratieoppervlak tussen GPT-5.2 en GPT-5.4 is groter dan de kloof tussen GPT-5.3 en GPT-5.4, dus verwacht meer problemen.
GPT-5.4 vs GPT-5.3 Codex: Snelnaslag-tabel
Voor teams die de samenvatting willen zonder het verhaal, zijn hier de belangrijkste gegevens op één plek:
| Functie | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Releasedatum | Oktober 2025 | 5 maart 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Input prijsstelling | $1.75/MTok | $2.50/MTok |
| Output prijsstelling | $14.00/MTok | $15.00/MTok |
| Long-context toeslag | Geen | 2x input, 1.5x output boven 272K |
| Computer use | Nee | Ja, native |
| Tool search | Nee | Ja (bespaart ~47% tokens) |
| Foutreductie | Basislijn | 33% minder feitelijke fouten |
| LTS ondersteuning | Tot feb 2027 | Huidig model |
| Beste voor | Terminal-intensief, kostengevoelig werk | Algemeen gebruik + agentic workflows |
Eén Maand Later: Eindoordeel
Het is nu een volledige maand op GPT-5.4. De integratieproblemen zijn opgelost, het team is aangepast en de cijfers zijn stabiel.
Kwaliteit: Beter. Minder fout-positieven in code-review, betere cross-module analyse en de computer use integratie voegde een workflow toe die voorheen niet mogelijk was.
Kosten: Ruwweg gelijkwaardig voor standaardtaken, iets hoger voor long-context taken, maar de totale maandelijkse factuur viel 3-4% lager uit dankzij token-efficiëntie.
Snelheid: Vergelijkbaar. Geen betekenisvol verschil voor onze werklast.
Stabiliteit: Na de eerste week van oplossingen, nul productieproblemen.
De upgrade was niet transformatief — het was incrementeel maar positief. GPT-5.4 is het betere model voor de meeste ontwikkelaars in maart 2026. De vraag is alleen of de migratie-inspanning de moeite waard is voor jouw specifieke situatie.
Als je developer tools bouwt — zoals wij bij ZBuild — is het belangrijk om op het huidige vlaggenschipmodel te blijven om je product concurrerend te houden. Voor interne tooling waarbij stabiliteit de prioriteit is, is GPT-5.3 Codex op LTS een volkomen valide keuze tot begin 2027.
Bronnen
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex