Avant de commencer : pourquoi j'ai écrit ceci comme un journal de bord
La plupart des articles comparant GPT-5.4 et GPT-5.3 vous proposent un tableau de référence et s'arrêtent là. C'est utile pour décider de faire la mise à niveau, mais totalement inutile pour comprendre ce qui se passe réellement pendant la mise à niveau.
J'ai migré un système de production — une plateforme d'outils de développement interne — de GPT-5.3 Codex vers GPT-5.4 au cours du mois de March 2026. Cet article documente ce qui s'est passé jour après jour, ce qui m'a surpris, ce qui a cassé, et à quoi ressemble la facture mensuelle finale de l'autre côté.
Si vous planifiez votre propre migration, c'est le guide que j'aurais aimé avoir.
Pré-migration : ce que nous faisions tourner sur GPT-5.3 Codex
Notre configuration avant le changement :
- Application : Un assistant interne de revue de code et de refactorisation utilisé par une équipe d'ingénierie de 14 personnes
- Intégration API : Appels directs OpenAI API, function calling pour l'utilisation d'outils, sorties JSON structurées
- Volume quotidien moyen : ~800 appels API, avec une moyenne de 12K input tokens et 4K output tokens chacun
- Coût API mensuel : Environ $1,400 avec les tarifs GPT-5.3 Codex ($1.75 input / $14 output par MTok)
- Utilisation de la fenêtre de contexte : Atteignant régulièrement 200-350K tokens ; occasionnellement tronquée à la limite de 400K
Nous avions choisi GPT-5.3 Codex à l'origine en raison de ses fortes performances spécifiques au codage et de ses coûts d'input tokens plus bas. Il nous a bien servis pendant six mois.
Jour 1 : Le changement (March 8, 2026)
La partie mécanique de la migration a été triviale. Remplacer model: "gpt-5.3-codex" par model: "gpt-5.4" dans notre configuration API. Déployer. Terminé.
Première impression : Les réponses semblaient qualitativement différentes. Pas forcément meilleures ou pires, mais différentes. GPT-5.4 était plus verbeux dans son raisonnement — fournissant plus d'explications sur ses choix avant de livrer le code. Pour notre outil de revue de code, c'était en fait une amélioration car les réviseurs voulaient comprendre le « pourquoi » derrière les suggestions.
Vitesse de réponse : Notablement plus rapide sur les prompts courts. À peu près identique sur les plus longs. Les données officielles montrent GPT-5.4 à 73.4 tokens par seconde comparé à GPT-5.3 Codex dans une plage similaire, donc la différence de vitesse est réelle mais pas dramatique.
Premier problème : Au cours de la première heure, notre analyseur JSON a cassé. GPT-5.3 Codex renvoyait du JSON brut lorsqu'on lui demandait une sortie structurée. GPT-5.4 enveloppait occasionnellement le JSON dans un bloc de code markdown (```json ... ```). Cela a cassé notre pipeline d'analyse.
Correction : Ajout d'une étape de prétraitement pour supprimer les balises de code markdown avant l'analyse. Une correction de 10 minutes, mais qui aurait causé des erreurs de production si nous n'avions pas surveillé de près.
Jour 2-3 : Différences dans le Function Calling
Notre outil utilisait la fonctionnalité de function calling d'OpenAI pour permettre au modèle d'invoquer des outils d'analyse de code — un linter, un exécuteur de tests, un vérificateur de dépendances. Sur GPT-5.3 Codex, cela fonctionnait parfaitement.
Sur GPT-5.4, nous avons rencontré deux problèmes :
Problème 1 : Gestion des paramètres optionnels. Lorsqu'un paramètre de fonction était un objet imbriqué optionnel, GPT-5.3 Codex l'omettait s'il était inutile. GPT-5.4 envoyait parfois un objet vide {} à la place, ce qui entraînait le rejet de l'appel par notre validation.
Problème 2 : Comportement de Tool Search. GPT-5.4 introduit Tool Search, qui découvre dynamiquement les outils disponibles au lieu de nécessiter toutes les définitions d'outils à l'avance. C'est une fonctionnalité puissante — OpenAI rapporte qu'elle réduit l'utilisation des tokens de 47% — mais elle a modifié le timing des invocations d'outils. Notre système de journalisation s'attendait à ce que les outils soient appelés dans un ordre spécifique, et GPT-5.4 les a parfois réordonnés.
Correction pour le problème 1 : Mise à jour de nos schémas de validation Zod pour accepter les objets vides pour les paramètres optionnels. Deux heures de travail.
Correction pour le problème 2 : Réécriture de notre journalisation pour qu'elle soit indépendante de l'ordre. Une demi-journée de travail. Cela en valait la peine, car la nouvelle approche est plus robuste quel que soit le modèle.
Jour 4-5 : La fenêtre de contexte change tout
Ce fut le premier moment véritablement excitant. GPT-5.3 Codex avait une limite de 400K tokens. Pour nos plus grands dépôts, nous avions construit un système de découpage complexe — divisant les bases de code en segments, exécutant l'analyse sur chaque segment, puis recousant les résultats.
GPT-5.4 prend en charge jusqu'à 1,050,000 tokens via l'API. Pour les utilisateurs de Codex, le contexte complet de 1M est disponible.
Ce que cela signifiait en pratique : Notre plus grand dépôt — un monorepo TypeScript de 280 fichiers — pouvait désormais être chargé entièrement dans un seul contexte. Plus de découpage. Plus d'analyse recousue avec des artefacts de couture. La qualité de la revue de code sur ce dépôt s'est considérablement améliorée car le modèle pouvait voir les dépendances entre modules qui étaient invisibles lorsque le contexte était divisé.
Le piège : Les prompts dépassant 272K tokens sont facturés 2x pour l'input et 1.5x pour l'output. Ainsi, envoyer l'intégralité de notre dépôt de 280 fichiers comme contexte signifiait des coûts par appel nettement plus élevés. Nous avons fini par construire un système de sélection de contexte intelligent qui charge le dépôt complet pour les tâches inter-modules mais utilise un contexte ciblé pour les tâches sur un seul fichier.
Résumé de la semaine 1 : ce qui a cassé
À la fin de la première semaine, voici la liste complète de ce qui a cassé ou a nécessité un ajustement :
- Formatage de la sortie JSON — Enveloppement dans des blocs de code markdown (correction de 10 minutes)
- Validation du function calling — Objets vides pour les paramètres optionnels (correction de 2 heures)
- Ordre d'invocation des outils — La journalisation supposait des appels séquentiels (correction d'une demi-journée)
- Comptage des tokens — Notre estimation des coûts était faussée car GPT-5.4 utilise moins de tokens par réponse (formules mises à jour)
- Limitation de débit (rate limiting) — Notre limiteur de débit était configuré pour les limites de GPT-5.3 Codex ; GPT-5.4 a des seuils de tiers différents (changement de configuration)
Aucun de ces problèmes n'était catastrophique. Tous étaient réparables en moins d'une journée. Mais si vous migrez un système de production, prévoyez une semaine complète pour les tests et les correctifs.
Semaine 2 : les améliorations commencent à apparaître
Une fois les frictions de migration apaisées, les améliorations sont devenues évidentes.
Computer Use a ouvert de nouveaux flux de travail
GPT-5.4 est le premier modèle polyvalent doté de capacités natives de computer use. Il peut interagir directement avec les applications de bureau, les navigateurs et les outils système.
Pour notre cas d'utilisation, cela a permis quelque chose que nous ne pouvions pas faire avec GPT-5.3 Codex : le modèle pouvait désormais exécuter notre suite de tests, observer le résultat et ajuster ses suggestions de revue de code en fonction des résultats de tests réels plutôt que de la seule analyse statique. Auparavant, nous devions injecter manuellement les résultats des tests dans le contexte. Maintenant, le modèle peut exécuter et observer.
Nous avons construit un nouveau mode de « revue tenant compte des tests » en environ trois jours, et il a immédiatement détecté deux bugs que l'analyse statique pure avait manqués.
L'efficacité des tokens était réelle
OpenAI affirme que GPT-5.4 utilise moins de tokens de sortie par tâche. Après deux semaines de données de production, nous l'avons confirmé : GPT-5.4 a consommé en moyenne 3.1K output tokens par tâche, contre 4.0K pour GPT-5.3 Codex pour des tâches équivalentes. C'est une réduction de 22.5% des output tokens.
Combiné à Tool Search qui réduit les input tokens, la consommation totale de tokens par tâche a chuté d'environ 30%.
La réduction des erreurs était notable
GPT-5.4 produit 33% d'erreurs factuelles en moins selon OpenAI. Dans notre contexte de revue de code, cela s'est traduit par moins de suggestions de faux positifs — le modèle était moins susceptible de signaler un code correct comme problématique. Le taux de « suggestion rejetée » de notre équipe est passé de 18% à 11%.
Semaine 3 : le panorama des coûts s'éclaircit
Voici la partie que tout le monde veut connaître. Après trois semaines complètes d'utilisation de GPT-5.4 en production aux côtés de nos données historiques de GPT-5.3 Codex, voici la comparaison des coûts :
Coûts API quotidiens (Moyenne)
| Métrique | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Appels quotidiens | ~800 | ~800 |
| Tokens d'entrée moyens/appel | 12,000 | 11,200 |
| Tokens de sortie moyens/appel | 4,000 | 3,100 |
| Tarif du coût d'entrée | $1.75/MTok | $2.50/MTok |
| Tarif du coût de sortie | $14.00/MTok | $15.00/MTok |
| Coût d'entrée quotidien | $16.80 | $22.40 |
| Coût de sortie quotidien | $44.80 | $37.20 |
| Total quotidien | $61.60 | $59.60 |
Projection mensuelle : GPT-5.3 Codex était à ~$1,848. GPT-5.4 se projette à ~$1,788. Une économie d'environ $60/mois (3.2%) — modeste mais notable car le prix nominal de GPT-5.4 est plus élevé.
Les économies proviennent entièrement de l'efficacité des tokens. GPT-5.4 utilise moins de tokens pour accomplir les mêmes tâches, ce qui compense largement ses prix plus élevés par token pour notre charge de travail.
Où les coûts ont augmenté
Les tâches à contexte long — celles dépassant 272K tokens — coûtent nettement plus cher sur GPT-5.4 en raison de la surcharge pour contexte long. Nous en exécutons environ 15 par jour (revues de dépôts complets). Pour ces appels spécifiques, les coûts ont augmenté d'environ 40%.
Où les coûts ont diminué
Les tâches standard de moins de 100K tokens — qui constituent 95% de notre volume — étaient moins chères en raison d'un nombre plus faible de tokens de sortie. Cela a plus que compensé la surcharge pour contexte long sur les 5% restants.
Ce que je n'avais pas prévu
1. GPT-5.4 a des avis plus tranchés sur le style de code
GPT-5.3 Codex était relativement neutre sur le style — il suivait les modèles existants dans votre base de code. GPT-5.4 a des opinions plus fortes. Il suggérera de renommer des variables pour plus de clarté, de restructurer les conditions et d'extraire des fonctions — même si vous n'avez demandé qu'une correction de bug.
C'est à la fois bien et agaçant. Bien parce que les suggestions sont généralement valides. Agaçant parce que cela ajoute du bruit aux revues de code lorsque l'équipe veut simplement des retours ciblés.
Notre correction : Ajout d'une instruction dans le system prompt : "Concentrez-vous exclusivement sur les problèmes de correction et de sécurité. Ne suggérez pas de changements de style à moins qu'ils n'impactent la lisibilité au point de causer des bugs."
2. Le calendrier d'obsolescence crée une urgence
GPT-5.2 Thinking prend sa retraite le June 5, 2026. Si vous êtes toujours sur 5.2, il vous reste trois mois. GPT-5.3 Codex bénéficie d'un support LTS jusqu'en February 2027, il y a donc moins d'urgence — mais le message est clair.
3. Tool Search est la fonctionnalité surprise
Au départ, j'ai considéré Tool Search comme un simple détail d'optimisation. Il s'est avéré être la fonctionnalité la plus percutante pour notre flux de travail. Au lieu d'envoyer les 12 définitions d'outils dans chaque appel API (consommant ~3K tokens à chaque fois), GPT-5.4 découvre dynamiquement les outils au fur et à mesure des besoins. Les économies de tokens se cumulent avec notre volume.
La documentation d'OpenAI indique que Tool Search a réduit l'utilisation des tokens de 47% lors de leurs tests. Pour notre flux de travail riche en outils, nous avons constaté environ 35% — ce qui reste significatif.
4. L'ambiance (« Vibe ») a changé
C'est subjectif et difficile à quantifier, mais l'équipe l'a remarqué. Travailler avec GPT-5.4 ressemble davantage à une collaboration avec un ingénieur senior — il remet en question les hypothèses, suggère des alternatives et s'oppose parfois à des approches qu'il juge sous-optimales. GPT-5.3 Codex était plus docile. Que vous considériez cela comme une amélioration dépend du flux de travail de votre équipe. L'analyse de Zvi Mowshowitz le qualifie de « mise à niveau substantielle » en termes de raisonnement et de capacité générale, et nous sommes d'accord.
La liste de contrôle pour la migration
Sur la base de notre expérience, voici ce que je ferais si je devais migrer à nouveau :
Avant de changer
- Auditez votre analyse JSON — vérifiez la gestion des balises de code markdown
- Révisez les schémas de function calling — testez les paramètres optionnels et imbriqués
- Vérifiez votre logique de comptage de tokens et d'estimation des coûts
- Vérifiez la configuration du rate limiting par rapport aux limites de tiers de GPT-5.4
- Identifiez tous les flux de travail qui supposent un ordre d'appel des outils
Pendant le changement
- Déployez d'abord dans un environnement de staging
- Faites tourner les deux modèles en parallèle pendant au moins 48 heures
- Surveillez les différences de formatage JSON
- Vérifiez les taux de réussite du function calling
- Comparez la qualité des sorties sur vos tâches spécifiques
Après le changement
- Activez Tool Search et mesurez les économies de tokens
- Évaluez les tâches à contexte long par rapport au seuil de tarification de 272K
- Ajustez les system prompts si GPT-5.4 a des avis trop tranchés pour votre flux de travail
- Explorez les capacités de computer use pour de nouveaux flux de travail
- Mettez à jour les projections de coûts avec les données d'utilisation réelles
Faut-il migrer maintenant ?
Voici mon cadre de réflexion :
Migrez immédiatement si :
- Vous êtes sur GPT-5.2 (retraite le June 5)
- Vous atteignez régulièrement la limite de contexte de 400K
- Vous avez besoin des capacités de computer use
- Vous utilisez massivement le function calling et voulez économiser des tokens
Migrez bientôt (d'ici un mois) si :
- Vous voulez les améliorations de qualité et pouvez tolérer une semaine de travail d'intégration
- Vous construisez de nouvelles fonctionnalités qui bénéficient d'un contexte de 1M
- Vous voulez anticiper avant que GPT-5.3 n'atteigne sa fin de vie
Restez sur GPT-5.3 Codex si :
- Vos flux de travail sont stables et optimisés en termes de coûts
- Vous comptez sur ses tarifs d'input tokens plus bas pour des charges de travail lourdes en prompts
- Vous voulez la stabilité du support LTS jusqu'en February 2027
- Vous êtes dans un environnement réglementé où les changements de modèles nécessitent une revue formelle
Pour nos outils internes chez ZBuild, la migration valait bien la semaine de travail. La fenêtre de contexte de 1M à elle seule a changé ce que notre outil pouvait faire. Mais si votre intégration GPT-5.3 Codex fonctionne bien et que vous n'atteignez pas ses limites, il n'y a pas d'urgence — planifiez la migration selon votre calendrier, pas celui d'OpenAI.
Leçons pour les équipes envisageant le passage
Si je pouvais résumer toute la migration en conseils pour d'autres équipes d'ingénierie, ce seraient ces cinq points.
1. Prévoyez une semaine complète pour l'intégration, pas juste le changement de modèle
Changer le modèle prend cinq minutes. Découvrir chaque cas particulier dans votre intégration prend une semaine. Nos problèmes de formatage JSON, de différences de function calling et de journalisation sont tous apparus sous un trafic réel, pas pendant les tests unitaires. Faites tourner les deux modèles en parallèle pendant au moins 48 heures avant de basculer.
2. L'efficacité des tokens compense les prix plus élevés — mais pas toujours
Pour les tâches standard de moins de 100K tokens, GPT-5.4 est véritablement moins cher malgré une tarification par token plus élevée. Mais si votre charge de travail est fortement orientée vers des tâches à contexte long (au-dessus de 272K tokens), vous paierez plus. Modélisez le coût pour votre modèle d'utilisation spécifique avant de vous engager. Le guide des seuils de prix Apiyi propose un calculateur utile.
3. Tool Search n'est pas optionnel — activez-le immédiatement
Si vous utilisez le function calling avec plus de 5 outils, activez Tool Search dès le premier jour. Les économies de tokens se cumulent à grande échelle. Pour notre configuration à 12 outils, cela a permis d'économiser environ 3K tokens par appel — sur 800 appels par jour, cela représente 2,4 millions de tokens quotidiens, soit environ $6 par jour en coûts d'entrée.
4. Ajustez vos prompts à la personnalité de GPT-5.4
GPT-5.4 a des avis plus tranchés que GPT-5.3 Codex. Si votre application dépend d'un modèle suivant les instructions précisément sans commentaire éditorial, ajoutez des contraintes explicites à votre system prompt. Quelque chose comme : "Concentrez-vous uniquement sur la tâche demandée. Ne suggérez pas d'améliorations ou d'alternatives à moins qu'on ne vous le demande." Cela a évité à notre équipe un bruit important dans les résultats de revue de code.
5. Planifiez votre migration GPT-5.2 dès maintenant
Si vous avez encore des systèmes fonctionnant sur GPT-5.2 Thinking, la retraite du June 5, 2026 n'est pas négociable. N'attendez pas May pour commencer la migration. La surface d'intégration entre GPT-5.2 et GPT-5.4 est plus large que l'écart entre GPT-5.3 et GPT-5.4, attendez-vous donc à plus de cassures.
GPT-5.4 vs GPT-5.3 Codex : tableau de référence rapide
Pour les équipes qui veulent le résumé sans le récit, voici les données clés regroupées :
| Fonctionnalité | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Date de sortie | October 2025 | March 5, 2026 |
| Fenêtre de contexte | 400K tokens | 1,050,000 tokens |
| Prix d'entrée | $1.75/MTok | $2.50/MTok |
| Prix de sortie | $14.00/MTok | $15.00/MTok |
| Surcharge contexte long | Aucune | 2x input, 1.5x output au-dessus de 272K |
| Computer use | Non | Oui, natif |
| Tool search | Non | Oui (économise ~47% de tokens) |
| Réduction d'erreurs | Référence | 33% d'erreurs factuelles en moins |
| Support LTS | Jusqu'à Feb 2027 | Modèle actuel |
| Idéal pour | Travaux sur terminal, sensibles aux coûts | Flux de travail polyvalents + agentiques |
Un mois plus tard : verdict final
Cela fait maintenant un mois complet que nous sommes sur GPT-5.4. Les problèmes d'intégration sont résolus, l'équipe s'est adaptée et les chiffres sont stables.
Qualité : Meilleure. Moins de faux positifs dans la revue de code, meilleure analyse inter-modules, et l'intégration de Computer Use a ajouté un flux de travail qui n'était pas possible auparavant.
Coût : Sensiblement équivalent pour les tâches standard, légèrement plus élevé pour les tâches à contexte long, mais la facture mensuelle globale a baissé de 3-4% grâce à l'efficacité des tokens.
Vitesse : Comparable. Aucune différence significative pour notre charge de travail.
Stabilité : Après la première semaine de correctifs, zéro problème de production.
La mise à niveau n'a pas été transformatrice — elle a été incrémentale mais positive. GPT-5.4 est le meilleur modèle pour la plupart des développeurs en March 2026. La question est simplement de savoir si l'effort de migration en vaut la peine pour votre situation spécifique.
Si vous construisez des outils pour développeurs — comme nous le faisons chez ZBuild — rester sur le modèle phare actuel est crucial pour maintenir la compétitivité de votre produit. Pour les outils internes où la stabilité est la priorité, GPT-5.3 Codex en LTS est un choix parfaitement valide jusqu'au début de l'année 2027.
Sources
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex