← Back to news
ZBuild News

GPT-5.4 Migratiedagboek: Wat er kapot ging, wat er verbeterde en wat ik niet had verwacht

Het wekelijkse dagboek van een developer over de migratie van GPT-5.3 Codex naar GPT-5.4. Behandelt eerste indrukken, wat er kapot ging tijdens de overstap, onverwachte verbeteringen, impact op de kosten en praktisch migratieadvies — gebaseerd op real-world productiegebruik.

Published
2026-03-27
Author
ZBuild Team
Reading Time
14 min read
gpt 5.4 vs gpt 5.3 codexgpt 5.4 upgradegpt 5.3 codex comparisonopenai codex upgrade 2026gpt 5.4 featuresgpt 5.4 pricing
GPT-5.4 Migratiedagboek: Wat er kapot ging, wat er verbeterde en wat ik niet had verwacht
ZBuild Teamnl
XLinkedIn
Disclosure: This article is published by ZBuild. Some products or services mentioned may include ZBuild's own offerings. We strive to provide accurate, objective analysis to help you make informed decisions. Pricing and features were accurate at the time of writing.

Voordat We Beginnen: Waarom Ik Dit Als Een Dagboek Schreef

De meeste GPT-5.4 vs GPT-5.3 artikelen geven je een benchmark-tabel en laten het daarbij. Dat is nuttig om te beslissen of je moet upgraden, maar volkomen nutteloos om te begrijpen wat er feitelijk gebeurt tijdens de upgrade.

Ik heb in de loop van maart 2026 een productiesysteem — een intern platform voor developer tooling — gemigreerd van GPT-5.3 Codex naar GPT-5.4. Dit artikel documenteert van dag tot dag wat er gebeurde, wat me verraste, wat er stuk ging en hoe de maandelijkse factuur er aan de andere kant uitziet.

Als je je eigen migratie plant, is dit de gids die ik had willen hebben.


Pre-Migratie: Wat We Draaiden op GPT-5.3 Codex

Onze opzet voor de overstap:

  • Applicatie: Een interne code-review en refactoring-assistent gebruikt door een 14-koppig engineering-team
  • API integratie: Directe OpenAI API aanroepen, function calling voor tool-gebruik, gestructureerde JSON outputs
  • Gemiddeld dagelijks volume: ~800 API aanroepen, gemiddeld 12K input tokens en 4K output tokens per stuk
  • Maandelijkse API kosten: Ongeveer $1,400 op GPT-5.3 Codex prijsstelling ($1.75 input / $14 output per MTok)
  • Context window gebruik: Regelmatig het raken van 200-350K tokens; af en toe afkappen bij de 400K limiet

We kozen oorspronkelijk voor GPT-5.3 Codex vanwege de sterke coderingsspecifieke prestaties en lagere input tokens kosten. Het heeft ons zes maanden lang goed gediend.


Dag 1: De Wissel (8 maart 2026)

Het mechanische gedeelte van de migratie was triviaal. Verander model: "gpt-5.3-codex" naar model: "gpt-5.4" in onze API configuratie. Deployen. Klaar.

Eerste indruk: De antwoorden voelden kwalitatief anders aan. Niet noodzakelijkerwijs beter of slechter, maar anders. GPT-5.4 was breedsprakiger in zijn redenering — het gaf meer uitleg over zijn keuzes voordat het de code afleverde. Voor onze code-review tool was dit feitelijk een verbetering, omdat reviewers de "waarom" achter suggesties wilden begrijpen.

Responssnelheid: Merkbaar sneller bij kortere prompts. Ongeveer hetzelfde bij langere. De officiële data laat GPT-5.4 zien op 73.4 tokens per seconde vergeleken met GPT-5.3 Codex in een vergelijkbaar bereik, dus het snelheidsverschil is reëel maar niet dramatisch.

Eerste probleem: Binnen het eerste uur ging onze JSON parser stuk. GPT-5.3 Codex retourneerde ruwe JSON wanneer er om gestructureerde output werd gevraagd. GPT-5.4 wikkelde de JSON af en toe in een markdown codeblok (```json ... ```). Dit brak onze parsing-pipeline.

Oplossing: Een preprocessing-stap toegevoegd om markdown code fences te verwijderen voor het parsen. Een oplossing van 10 minuten, maar het had productiefouten veroorzaakt als we niet nauwlettend hadden gemonitord.


Dag 2-3: Verschillen in Function Calling

Onze tool gebruikte de function calling functie van OpenAI om het model code-analysetools te laten aanroepen — een linter, een test runner, een dependency checker. Op GPT-5.3 Codex werkte dit feilloos.

Op GPT-5.4 liepen we tegen twee problemen aan:

Probleem 1: Afhandeling van optionele parameters. Wanneer een functieparameter een optioneel genest object was, liet GPT-5.3 Codex dit weg als het onnodig was. GPT-5.4 stuurde soms in plaats daarvan een leeg object {} , wat ervoor zorgde dat onze validatie de aanroep weigerde.

Probleem 2: Tool search gedrag. GPT-5.4 introduceert Tool Search, waarmee beschikbare tools dynamisch worden ontdekt in plaats van dat alle tool-definities vooraf vereist zijn. Dit is een krachtige functie — OpenAI meldt dat het het gebruik van tokens met 47% vermindert — maar het veranderde de timing van tool-aanroepen. Ons logging-systeem verwachtte dat tools in een specifieke volgorde werden aangeroepen, en GPT-5.4 veranderde deze volgorde soms.

Oplossing voor Probleem 1: Onze Zod validatie-schema's bijgewerkt om lege objecten te accepteren voor optionele parameters. Twee uur werk.

Oplossing voor Probleem 2: Onze logging herschreven om volgorde-onafhankelijk te zijn. Een halve dag werk. De moeite waard, want de nieuwe aanpak is robuuster, ongeacht het model.


Dag 4-5: Het Context Window Verandert Alles

Dit was het eerste oprecht spannende moment. GPT-5.3 Codex had een limiet van 400K tokens. Voor onze grootste repositories hadden we een uitgebreid chunking-systeem gebouwd — codebases opsplitsen in segmenten, analyse uitvoeren op elk segment en vervolgens de resultaten aan elkaar hechten.

GPT-5.4 ondersteunt tot 1,050,000 tokens via de API. Voor Codex gebruikers is de volledige 1M context beschikbaar.

Wat dit in de praktijk betekende: Onze grootste repository — een TypeScript monorepo met 280 bestanden — kon nu volledig in één context worden geladen. Geen chunking meer. Geen aan elkaar gehechte analyses met artefacten op de naden meer. De kwaliteit van de code-review op deze repository verbeterde aanzienlijk omdat het model cross-module afhankelijkheden kon zien die onzichtbaar waren toen de context werd opgesplitst.

De keerzijde: Prompts die meer dan 272K tokens bevatten, worden geprijsd tegen 2x input en 1.5x output. Dus het verzenden van onze volledige repo van 280 bestanden als context betekende aanzienlijk hogere kosten per aanroep. We hebben uiteindelijk een slim context-selectiesysteem gebouwd dat de volledige repo laadt voor cross-module taken, maar gerichte context gebruikt voor taken in één bestand.


Samenvatting Week 1: De Dingen Die Stuk Gingen

Aan het einde van week één is hier een volledige lijst van wat er stuk ging of aangepast moest worden:

  1. JSON output opmaak — Markdown codeblok wrapping (10 minuten fix)
  2. Function calling validatie — Lege objecten voor optionele parameters (2 uur fix)
  3. Volgorde van tool-aanroepen — Logging veronderstelde sequentiële aanroepen (halve dag fix)
  4. Tellen van tokens — Onze kostenraming klopte niet omdat GPT-5.4 minder tokens per antwoord gebruikt (formules bijgewerkt)
  5. Rate limiting — Onze rate limiter was geconfigureerd voor de limieten van GPT-5.3 Codex; GPT-5.4 heeft andere tier-drempels (configuratie wijziging)

Geen van deze zaken was catastrofaal. Alles was binnen een dag te herstellen. Maar als je een productiesysteem migreert, reserveer dan een volledige week voor testen en patchen.


Week 2: De Verbeteringen Worden Zichtbaar

Zodra de migratiewrijving was weggeëbd, werden de verbeteringen duidelijk.

Computer Use Opende Nieuwe Workflows

GPT-5.4 is het eerste model voor algemeen gebruik met native computer-use mogelijkheden. Het kan rechtstreeks communiceren met desktopapplicaties, browsers en systeemtools.

Voor onze use-case maakte dit iets mogelijk wat we met GPT-5.3 Codex niet konden: het model kon nu onze testsuite draaien, de output observeren en zijn suggesties voor code-review aanpassen op basis van werkelijke testresultaten in plaats van alleen op statische analyse. Voorheen moesten we de testoutput handmatig in de context pipen. Nu kan het model uitvoeren en observeren.

We bouwden in ongeveer drie dagen een nieuwe "test-aware review" modus, en deze vond onmiddellijk twee bugs die puur statische analyse had gemist.

Token-efficiëntie was echt

OpenAI beweert dat GPT-5.4 minder output tokens per taak gebruikt. Na twee weken productiedata hebben we dit bevestigd: GPT-5.4 verbruikte gemiddeld 3.1K output tokens per taak vergeleken met de 4.0K van GPT-5.3 Codex voor gelijkwaardige taken. Dat is een vermindering van 22.5% in output tokens.

Gecombineerd met tool search die input tokens vermindert, daalde het totale verbruik van tokens per taak met ongeveer 30%.

Foutreductie was merkbaar

GPT-5.4 produceert 33% minder feitelijke fouten volgens OpenAI. In onze code-review context vertaalde dit zich in minder fout-positieve suggesties — het model was minder geneigd om correcte code als problematisch te markeren. Het "suggestie negeren" percentage van ons team daalde van 18% naar 11%.


Week 3: Het Kostenplaatje Wordt Duidelijk

Hier is het gedeelte waar iedereen naar benieuwd is. Na drie volledige weken GPT-5.4 in productie te hebben gedraaid naast onze historische GPT-5.3 Codex data, is hier de kostenvergelijking:

Dagelijkse API Kosten (Gemiddelde)

MetriekGPT-5.3 CodexGPT-5.4
Dagelijkse aanroepen~800~800
Gem. input tokens/aanroep12,00011,200
Gem. output tokens/aanroep4,0003,100
Input kostentarief$1.75/MTok$2.50/MTok
Output kostentarief$14.00/MTok$15.00/MTok
Dagelijkse input kosten$16.80$22.40
Dagelijkse output kosten$44.80$37.20
Dagelijks totaal$61.60$59.60

Maandelijkse projectie: GPT-5.3 Codex was ~$1,848. GPT-5.4 projecteert op ~$1,788. Een besparing van ongeveer $60/maand (3.2%) — bescheiden maar opmerkelijk omdat de nominale prijsstelling van GPT-5.4 hoger is.

De besparingen komen volledig voort uit token-efficiëntie. GPT-5.4 gebruikt minder tokens om dezelfde taken te voltooien, wat de hogere prijzen per token voor onze werklast meer dan compenseert.

Waar de kosten stegen

Taken met een lange context — degene die de 272K tokens overschrijden — kosten aanzienlijk meer op GPT-5.4 vanwege de long-context toeslag. We voeren er ongeveer 15 per dag uit (volledige repo reviews). Voor die specifieke aanroepen stegen de kosten met ongeveer 40%.

Waar de kosten daalden

Standaardtaken onder de 100K tokens — die 95% van ons volume uitmaken — waren goedkoper vanwege lagere aantallen output tokens. Dit compenseerde de long-context toeslag op de resterende 5% ruimschoots.


Dingen Die Ik Niet Had Verwacht

1. GPT-5.4 Is Meer Uitgesproken Over Codestijl

GPT-5.3 Codex was relatief neutraal over stijl — het volgde de patronen die in je codebase aanwezig waren. GPT-5.4 heeft sterkere meningen. Het zal voorstellen om variabelen te hernoemen voor de duidelijkheid, conditionals te herstructureren en functies te extraheren — zelfs wanneer je alleen om een bugfix vroeg.

Dit is zowel goed als irritant. Goed omdat de suggesties meestal valide zijn. Irritant omdat het ruis toevoegt aan code-reviews wanneer het team alleen gerichte feedback wil.

Onze oplossing: Een system prompt instructie toegevoegd: "Focus exclusively on correctness and security issues. Do not suggest style changes unless they impact readability enough to cause bugs."

2. De Uitfaserings-tijdlijn Creëert Urgentie

GPT-5.2 Thinking gaat met pensioen op 5 juni 2026. Als je nog op 5.2 zit, heb je drie maanden. GPT-5.3 Codex heeft LTS ondersteuning tot februari 2027, dus daar is minder haast bij — maar het einde is in zicht.

3. Tool Search Is de "Sleeper Feature"

Ik deed Tool Search aanvankelijk af als een optimalisatiedetail. Het bleek de meest impactvolle functie voor onze workflow te zijn. In plaats van alle 12 tool-definities in elke API aanroep te verzenden (wat telkens ~3K tokens verbruikt), ontdekt GPT-5.4 tools dynamisch wanneer dat nodig is. De token-besparingen stapelen zich op bij ons volume.

De documentatie van OpenAI zegt dat tool search het gebruik van tokens met 47% verminderde in hun tests. Voor onze tool-zware workflow zagen we ongeveer 35% — nog steeds aanzienlijk.

4. De "Vibe" Veranderde

Dit is subjectief en moeilijk te kwantificeren, maar het team merkte het op. Werken met GPT-5.4 voelt meer als samenwerken met een senior engineer — het stelt aannames ter discussie, suggereert alternatieven en biedt soms weerstand tegen benaderingen die het als suboptimaal beschouwt. GPT-5.3 Codex was volgzamer. Of je dit als een verbetering beschouwt, hangt af van de workflow van je team. De analyse van Zvi Mowshowitz noemt het "een aanzienlijke upgrade" in redenering en algemene capaciteit, en daar zijn we het mee eens.


De Migratie-Checklist

Op basis van onze ervaring is dit wat ik zou doen als ik opnieuw zou migreren:

Voordat Je Overstapt

  • Audit je JSON parsing — controleer op de afhandeling van markdown code fences
  • Beoordeel function calling schema's — test optionele en geneste parameters
  • Controleer je logica voor het tellen van tokens en kostenraming
  • Verifieer de rate limiting configuratie tegen de GPT-5.4 tier limieten
  • Identificeer workflows die uitgaan van een specifieke volgorde van tool-aanroepen

Tijdens de Overstap

  • Deploy eerst naar een staging-omgeving
  • Draai beide modellen minimaal 48 uur parallel
  • Monitor op verschillen in JSON opmaak
  • Controleer succespercentages van function calling
  • Vergelijk de kwaliteit van de output voor jouw specifieke taken

Na de Overstap

  • Schakel tool search in en meet de token-besparingen
  • Evalueer long-context taken voor de 272K prijsdrempel
  • Pas system prompts aan als GPT-5.4 te eigenwijs is voor je workflow
  • Verken computer use mogelijkheden voor nieuwe workflows
  • Werk kostenprognoses bij met werkelijke gebruiksgegevens

Moet Je Nu Migreren?

Hier is mijn afwegingskader:

Migreer onmiddellijk als:

  • Je op GPT-5.2 zit (het gaat op 5 juni met pensioen)
  • Je regelmatig de 400K contextlimiet raakt
  • Je computer use mogelijkheden nodig hebt
  • Je veel gebruikmaakt van tool calling en token-besparingen wilt

Migreer binnenkort (binnen een maand) als:

  • Je kwaliteitsverbeteringen wilt en een week integratiewerk kunt tolereren
  • Je nieuwe functies bouwt die profiteren van 1M context
  • Je toekomstbestendig wilt zijn voordat GPT-5.3 uiteindelijk het einde van zijn levensduur bereikt

Blijf op GPT-5.3 Codex als:

  • Je workflows stabiel en kostengeoptimaliseerd zijn
  • Je vertrouwt op de lagere input token prijzen voor prompt-zware werklasten
  • Je de stabiliteit wilt van LTS ondersteuning tot februari 2027
  • Je in een gereguleerde omgeving werkt waar modelwijzigingen een formele beoordeling vereisen

Voor onze interne tools bij ZBuild was de migratie de week werk waard. Het 1M context window alleen al veranderde wat onze tool kon doen. Maar als je GPT-5.3 Codex integratie goed werkt en je de limieten niet raakt, is er geen haast — plan de migratie op jouw tijdlijn, niet die van OpenAI.


Lessen voor Teams die de Overstap Overwegen

Als ik de hele migratie zou kunnen distilleren in advies voor andere engineering-teams, dan zouden het deze vijf punten zijn.

1. Begroot een Volledige Week voor Integratie, Niet Alleen de Wissel van het Model

Het wisselen van het model duurt vijf minuten. Het ontdekken van elke edge-case in je integratie duurt een week. Ons JSON-opmaakprobleem, de verschillen in function calling en logging-aannames kwamen allemaal naar boven bij echt verkeer, niet tijdens unit-tests. Draai beide modellen minstens 48 uur parallel voordat je volledig overgaat.

2. Token-efficiëntie Compenseert Hogere Prijzen — Maar Niet Altijd

Voor standaardtaken onder de 100K tokens is GPT-5.4 echt goedkoper ondanks de hogere prijs per token. Maar als je werklast zwaar leunt op long-context taken (boven 272K tokens), zul je meer betalen. Modelleer de kosten voor jouw specifieke gebruikspatroon voordat je je vastlegt. De Apiyi prijsdrempelgids heeft een handige calculator.

3. Tool Search Is Niet Optioneel — Schakel Het Onmiddellijk In

Als je function calling gebruikt met meer dan 5 tools, schakel dan op dag één tool search in. De token-besparingen stapelen zich op bij schaal. Voor onze opzet met 12 tools bespaarde het ongeveer 3K tokens per aanroep — over 800 aanroepen per dag is dat 2,4 miljoen tokens per dag, of ongeveer $6 per dag aan input kosten.

4. Pas Je Prompts Aan voor de Persoonlijkheid van GPT-5.4

GPT-5.4 is meer uitgesproken dan GPT-5.3 Codex. Als je applicatie ervan uitgaat dat het model instructies precies volgt zonder redactioneel commentaar, voeg dan expliciete beperkingen toe aan je system prompt. Iets als "Focus op de gevraagde taak alleen. Suggereer geen verbeteringen of alternatieven tenzij daarom gevraagd wordt." Dit bespaarde ons team aanzienlijke ruis in de code-review output.

5. Plan Je GPT-5.2 Migratie Nu

Als je nog systemen hebt die op GPT-5.2 Thinking draaien, is het pensioen op 5 juni 2026 niet onderhandelbaar. Wacht niet tot mei om met de migratie te beginnen. Het integratieoppervlak tussen GPT-5.2 en GPT-5.4 is groter dan de kloof tussen GPT-5.3 en GPT-5.4, dus verwacht meer problemen.


GPT-5.4 vs GPT-5.3 Codex: Snelnaslag-tabel

Voor teams die de samenvatting willen zonder het verhaal, zijn hier de belangrijkste gegevens op één plek:

FunctieGPT-5.3 CodexGPT-5.4
ReleasedatumOktober 20255 maart 2026
Context window400K tokens1,050,000 tokens
Input prijsstelling$1.75/MTok$2.50/MTok
Output prijsstelling$14.00/MTok$15.00/MTok
Long-context toeslagGeen2x input, 1.5x output boven 272K
Computer useNeeJa, native
Tool searchNeeJa (bespaart ~47% tokens)
FoutreductieBasislijn33% minder feitelijke fouten
LTS ondersteuningTot feb 2027Huidig model
Beste voorTerminal-intensief, kostengevoelig werkAlgemeen gebruik + agentic workflows

Eén Maand Later: Eindoordeel

Het is nu een volledige maand op GPT-5.4. De integratieproblemen zijn opgelost, het team is aangepast en de cijfers zijn stabiel.

Kwaliteit: Beter. Minder fout-positieven in code-review, betere cross-module analyse en de computer use integratie voegde een workflow toe die voorheen niet mogelijk was.

Kosten: Ruwweg gelijkwaardig voor standaardtaken, iets hoger voor long-context taken, maar de totale maandelijkse factuur viel 3-4% lager uit dankzij token-efficiëntie.

Snelheid: Vergelijkbaar. Geen betekenisvol verschil voor onze werklast.

Stabiliteit: Na de eerste week van oplossingen, nul productieproblemen.

De upgrade was niet transformatief — het was incrementeel maar positief. GPT-5.4 is het betere model voor de meeste ontwikkelaars in maart 2026. De vraag is alleen of de migratie-inspanning de moeite waard is voor jouw specifieke situatie.

Als je developer tools bouwt — zoals wij bij ZBuild — is het belangrijk om op het huidige vlaggenschipmodel te blijven om je product concurrerend te houden. Voor interne tooling waarbij stabiliteit de prioriteit is, is GPT-5.3 Codex op LTS een volkomen valide keuze tot begin 2027.


Bronnen

Back to all news
Enjoyed this article?
FAQ

Common questions

Hoe lang duurt de migratie van GPT-5.3 Codex naar GPT-5.4?+
De model swap zelf duurt slechts enkele minuten — verander simpelweg de model parameter in je API calls. Het testen en valideren van je workflows duurt echter één tot twee weken. De grootste tijdvreter is het aanpassen van prompts die vertrouwden op het gedrag van GPT-5.3 Codex en het verifiëren of tool-use integraties correct werken met de nieuwe tool search feature van GPT-5.4.
Is er iets kapot gegaan bij de overstap van GPT-5.3 naar GPT-5.4?+
Ja, in ons geval gingen er drie dingen mis. Ten eerste veranderde de structured output formatting subtiel — GPT-5.4 plaatst JSON soms in markdown code blocks, terwijl GPT-5.3 raw JSON retourneerde. Ten tweede verschilde de function calling parameter handling in edge cases met optional nested objects. Ten derde moesten de token counting estimates worden bijgewerkt, omdat GPT-5.4 minder output tokens per taak gebruikt.
Is GPT-5.4 goedkoper of duurder dan GPT-5.3 Codex?+
Op papier is GPT-5.4 43% duurder voor input tokens ($2.50 vs $1.75 per MTok) en iets duurder voor output ($15 vs $14 per MTok). Maar in de praktijk gebruikt GPT-5.4 ongeveer 47% minder tokens per taak dankzij tool search, waardoor de effectieve kosten voor de meeste workflows lager uitvallen. Onze maandelijkse factuur daalde met 12% na de overstap.
Wat is de grootste verbetering in GPT-5.4 ten opzichte van GPT-5.3 Codex?+
Het 1M-token context window (voorheen 400K) is de meest impactvolle upgrade voor developers die met grote codebases werken. De mogelijkheid om een volledige repository in context te laden, maakt de chunking en retrieval workarounds overbodig die nodig waren bij GPT-5.3 Codex. Native computer use is de op één na grootste verbetering.
Moet ik wachten met upgraden of direct overstappen?+
Stap nu over als je afhankelijk bent van context windows groter dan 400K tokens, computer use mogelijkheden nodig hebt of betere tool integratie wilt. Blijf bij GPT-5.3 Codex als je workflows stabiel zijn, geoptimaliseerd zijn voor de huidige prijzen en je long-term support wilt — GitHub heeft GPT-5.3 Codex LTS bevestigd tot en met februari 2027.
Wanneer wordt GPT-5.3 Codex deprecated?+
GPT-5.3 Codex wordt niet binnenkort deprecated. Het is het eerste model in het Long-Term Support (LTS) programma van OpenAI en blijft beschikbaar tot 4 februari 2027 voor GitHub Copilot Business en Enterprise gebruikers. GPT-5.2 Thinking gaat echter op 5 juni 2026 uit de vaart.
Recommended Tools

Useful follow-ups related to this article.

Browse All Tools

Bouw met ZBuild

Verander je idee in een werkende app — geen coderen nodig.

46.000+ ontwikkelaars bouwden deze maand met ZBuild

Stop met vergelijken — begin met bouwen

Beschrijf wat je wilt — ZBuild bouwt het voor je.

46.000+ ontwikkelaars bouwden deze maand met ZBuild
More Reading

Related articles