Bevor wir beginnen: Warum ich dies als Tagebuch geschrieben habe
Die meisten GPT-5.4 vs GPT-5.3 Artikel liefern Ihnen eine Benchmark-Tabelle und belassen es dabei. Das ist nützlich, um über ein Upgrade zu entscheiden, aber völlig nutzlos, um zu verstehen, was während des Upgrades tatsächlich passiert.
Ich habe ein Produktionssystem — eine interne Plattform für Developer-Tooling — im Laufe von March 2026 von GPT-5.3 Codex auf GPT-5.4 migriert. Dieser Artikel dokumentiert Tag für Tag, was passiert ist, was mich überrascht hat, was kaputtgegangen ist und wie die monatliche Rechnung am Ende aussieht.
Wenn Sie Ihre eigene Migration planen, ist dies der Leitfaden, den ich mir gewünscht hätte.
Vor der Migration: Was wir auf GPT-5.3 Codex betrieben haben
Unser Setup vor dem Wechsel:
- Anwendung: Ein interner Assistent für Code-Review und Refactoring, der von einem 14-person Engineering-Team genutzt wird
- API-Integration: Direkte OpenAI API-Aufrufe, Function Calling für Tool-Nutzung, strukturierte JSON-Outputs
- Durchschnittliches tägliches Volumen: ~800 API-Aufrufe, mit durchschnittlich 12K Input-Tokens und 4K Output-Tokens pro Aufruf
- Monatliche API-Kosten: Ungefähr $1,400 bei GPT-5.3 Codex Preisen ($1.75 Input / $14 Output pro MTok)
- Context Window Nutzung: Regelmäßig werden 200-350K Tokens erreicht; gelegentlich erfolgt eine Kürzung am 400K Limit
Wir haben uns ursprünglich für GPT-5.3 Codex entschieden, da es eine starke codierungsspezifische Performance und niedrigere Input-Token-Kosten bietet. Es hat uns sechs Monate lang gute Dienste geleistet.
Tag 1: Der Wechsel (March 8, 2026)
Der mechanische Teil der Migration war trivial. In unserer API-Konfiguration wurde model: "gpt-5.3-codex" in model: "gpt-5.4" geändert. Deployment. Fertig.
Erster Eindruck: Die Antworten fühlten sich qualitativ anders an. Nicht unbedingt besser oder schlechter, aber anders. GPT-5.4 war in seiner Argumentation ausführlicher — es lieferte mehr Erklärungen zu seinen Entscheidungen, bevor der Code ausgegeben wurde. Für unser Code-Review-Tool war dies tatsächlich eine Verbesserung, da die Reviewer das "Warum" hinter den Vorschlägen verstehen wollten.
Antwortgeschwindigkeit: Bei kürzeren Prompts spürbar schneller. Bei längeren etwa gleich. Die offiziellen Daten zeigen GPT-5.4 bei 73.4 Tokens pro Sekunde im Vergleich zu GPT-5.3 Codex in einem ähnlichen Bereich, sodass der Geschwindigkeitsunterschied real, aber nicht dramatisch ist.
Erstes Problem: Innerhalb der ersten Stunde ging unser JSON-Parser kaputt. GPT-5.3 Codex hatte reines JSON zurückgegeben, wenn nach strukturiertem Output gefragt wurde. GPT-5.4 bettete das JSON gelegentlich in einen Markdown-Code-Block ein (```json ... ```). Dies unterbrach unsere Parsing-Pipeline.
Fix: Ein Preprocessing-Schritt wurde hinzugefügt, um Markdown-Code-Fences vor dem Parsing zu entfernen. Ein 10-Minuten-Fix, aber es hätte zu Produktionsfehlern geführt, wenn wir nicht genau überwacht hätten.
Tag 2-3: Unterschiede beim Function Calling
Unser Tool nutzte das Function Calling Feature von OpenAI, um dem Modell den Aufruf von Code-Analyse-Tools zu ermöglichen — einen Linter, einen Test-Runner, einen Dependency-Checker. Auf GPT-5.3 Codex funktionierte dies einwandfrei.
Bei GPT-5.4 stießen wir auf zwei Probleme:
Problem 1: Umgang mit optionalen Parametern. Wenn ein Funktionsparameter ein optionales verschachteltes Objekt war, ließ GPT-5.3 Codex dieses weg, wenn es unnötig war. GPT-5.4 sendete stattdessen manchmal ein leeres Objekt {}, was dazu führte, dass unsere Validierung den Aufruf ablehnte.
Problem 2: Tool Search Verhalten. GPT-5.4 führt Tool Search ein, das verfügbare Tools dynamisch entdeckt, anstatt alle Tool-Definitionen im Voraus zu verlangen. Dies ist ein leistungsstarkes Feature — OpenAI berichtet, dass es den Token-Verbrauch um 47% reduziert — aber es änderte das Timing der Tool-Aufrufe. Unser Logging-System erwartete, dass Tools in einer bestimmten Reihenfolge aufgerufen werden, und GPT-5.4 ordnete sie manchmal neu an.
Fix für Problem 1: Unsere Zod Validierungs-Schemas wurden aktualisiert, um leere Objekte für optionale Parameter zu akzeptieren. Zwei Stunden Arbeit.
Fix für Problem 2: Unser Logging wurde umgeschrieben, um reihenfolgeunabhängig zu sein. Ein halber Tag Arbeit. Es hat sich gelohnt, da der neue Ansatz unabhängig vom Modell robuster ist.
Tag 4-5: Das Context Window verändert alles
Dies war der erste wirklich aufregende Moment. GPT-5.3 Codex hatte ein 400K Token-Limit. Für unsere größten Repositories hatten wir ein aufwendiges Chunking-System gebaut — Codebases wurden in Segmente aufgeteilt, Analysen für jedes Segment durchgeführt und die Ergebnisse dann zusammengefügt.
GPT-5.4 unterstützt bis zu 1,050,000 Tokens über die API. Für Codex-Nutzer ist der volle 1M Kontext verfügbar.
Was das in der Praxis bedeutete: Unser größtes Repository — ein TypeScript Monorepo mit 280 Dateien — konnte nun vollständig in einem Kontext geladen werden. Kein Chunking mehr. Keine zusammengestückelten Analysen mit Nahtstellen-Artefakten mehr. Die Qualität des Code-Reviews in diesem Repository verbesserte sich dramatisch, da das Modell modulübergreifende Abhängigkeiten sehen konnte, die bei geteiltem Kontext unsichtbar waren.
Der Haken: Prompts, die 272K Tokens überschreiten, werden mit 2x Input und 1.5x Output berechnet. Das Senden unseres vollständigen 280-Dateien-Repos als Kontext bedeutete also signifikant höhere Kosten pro Aufruf. Wir haben schließlich ein intelligentes System zur Kontextauswahl entwickelt, das das volle Repo für modulübergreifende Aufgaben lädt, aber gezielten Kontext für Aufgaben in einzelnen Dateien verwendet.
Zusammenfassung Woche 1: Die Dinge, die kaputtgegangen sind
Am Ende der ersten Woche folgt hier eine vollständige Liste dessen, was kaputtging oder angepasst werden musste:
- JSON-Output-Formatierung — Markdown-Code-Block-Ummantelung (10-Minuten-Fix)
- Function Calling Validierung — Leere Objekte für optionale Parameter (2-Stunden-Fix)
- Tool-Aufruf-Reihenfolge — Logging setzte sequentielle Aufrufe voraus (Halbtags-Fix)
- Token-Zählung — Unsere Kostenschätzung stimmte nicht, da GPT-5.4 weniger Tokens pro Antwort verbraucht (Formeln aktualisiert)
- Rate Limiting — Unser Rate-Limiter war für die Limits von GPT-5.3 Codex konfiguriert; GPT-5.4 hat andere Tier-Schwellenwerte (Konfigurationsänderung)
Nichts davon war katastrophal. Alle Probleme waren in weniger als einem Tag behebbar. Aber wenn Sie ein Produktionssystem migrieren, planen Sie eine volle Woche für Tests und Patches ein.
Woche 2: Die Verbesserungen zeigen sich
Sobald sich die Migrationsreibung gelegt hatte, wurden die Verbesserungen deutlich.
Computer Use eröffnete neue Workflows
GPT-5.4 ist das erste Allzweckmodell mit nativen Computer-Use-Fähigkeiten. Es kann direkt mit Desktop-Anwendungen, Browsern und System-Tools interagieren.
Für unseren Anwendungsfall ermöglichte dies etwas, das wir mit GPT-5.3 Codex nicht tun konnten: Das Modell konnte nun unsere Test-Suite ausführen, den Output beobachten und seine Code-Review-Vorschläge auf der Grundlage tatsächlicher Testergebnisse anpassen, anstatt nur auf statischer Analyse zu basieren. Zuvor mussten wir den Test-Output manuell in den Kontext einspeisen. Jetzt kann das Modell selbst ausführen und beobachten.
Wir haben in etwa drei Tagen einen neuen "test-aware review" Modus gebaut, und er hat sofort zwei Bugs gefunden, die die rein statische Analyse übersehen hatte.
Token-Effizienz war real
OpenAI behauptet, dass GPT-5.4 weniger Output-Tokens pro Aufgabe verbraucht. Nach zwei Wochen Produktionsdaten konnten wir dies bestätigen: GPT-5.4 verbrauchte durchschnittlich 3.1K Output-Tokens pro Aufgabe im Vergleich zu den 4.0K von GPT-5.3 Codex für gleichwertige Aufgaben. Das ist eine Reduzierung der Output-Tokens um 22.5%.
In Kombination mit Tool Search, das die Input-Tokens reduziert, sank der Gesamt-Token-Verbrauch pro Aufgabe um etwa 30%.
Fehlerreduzierung war spürbar
GPT-5.4 produziert laut OpenAI 33% weniger faktische Fehler. Im Kontext unserer Code-Reviews bedeutete dies weniger False-Positive-Vorschläge — das Modell markierte seltener korrekten Code als problematisch. Die "Vorschlag ablehnen"-Rate unseres Teams sank von 18% auf 11%.
Woche 3: Das Kostenbild wird klar
Hier ist der Teil, den jeder wissen möchte. Nach drei vollen Wochen, in denen GPT-5.4 in der Produktion neben unseren historischen GPT-5.3 Codex Daten lief, hier der Kostenvergleich:
Tägliche API-Kosten (Durchschnitt)
| Metrik | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Tägliche Aufrufe | ~800 | ~800 |
| Durchschn. Input-Tokens/Aufruf | 12,000 | 11,200 |
| Durchschn. Output-Tokens/Aufruf | 4,000 | 3,100 |
| Input-Kostensatz | $1.75/MTok | $2.50/MTok |
| Output-Kostensatz | $14.00/MTok | $15.00/MTok |
| Tägliche Input-Kosten | $16.80 | $22.40 |
| Tägliche Output-Kosten | $44.80 | $37.20 |
| Tagessumme | $61.60 | $59.60 |
Monatliche Projektion: GPT-5.3 Codex lag bei ~$1,848. GPT-5.4 wird auf ~$1,788 projiziert. Eine Ersparnis von etwa $60/Monat (3.2%) — bescheiden, aber bemerkenswert, da die nominale Preisgestaltung von GPT-5.4 höher ist.
Die Einsparungen resultieren ausschließlich aus der Token-Effizienz. GPT-5.4 verbraucht weniger Tokens, um dieselben Aufgaben zu erledigen, was die höheren Preise pro Token für unseren Workload mehr als ausgleicht.
Wo die Kosten stiegen
Aufgaben mit langem Kontext — solche, die 272K Tokens überschreiten — kosten bei GPT-5.4 aufgrund des Long-Context Surcharge deutlich mehr. Wir führen etwa 15 davon pro Tag durch (Full-Repo-Reviews). Für diese spezifischen Aufrufe stiegen die Kosten um etwa 40%.
Wo die Kosten sanken
Standardaufgaben unter 100K Tokens — die 95% unseres Volumens ausmachen — waren aufgrund geringerer Output-Token-Zahlen billiger. Dies kompensierte den Long-Context Surcharge für die restlichen 5% mehr als.
Dinge, die ich nicht erwartet habe
1. GPT-5.4 ist meinungsstärker in Bezug auf den Code-Stil
GPT-5.3 Codex war in Bezug auf den Stil relativ neutral — es folgte den Mustern, die in der Codebase vorhanden waren. GPT-5.4 hat stärkere Meinungen. Es schlägt das Umbenennen von Variablen zur Klarheit, die Umstrukturierung von Bedingungen und das Extrahieren von Funktionen vor — selbst wenn man nur nach einem Bug-Fix gefragt hat.
Das ist sowohl gut als auch nervig. Gut, weil die Vorschläge meist valide sind. Nervig, weil es Rauschen in die Code-Reviews bringt, wenn das Team nur gezieltes Feedback möchte.
Unser Fix: Wir haben eine System-Prompt-Anweisung hinzugefügt: "Konzentrieren Sie sich ausschließlich auf Korrektheit und Sicherheitsaspekte. Schlagen Sie keine Stiländerungen vor, es sei denn, sie beeinträchtigen die Lesbarkeit so stark, dass sie Bugs verursachen könnten."
2. Der Zeitplan für die Einstellung erzeugt Dringlichkeit
GPT-5.2 Thinking wird am June 5, 2026 eingestellt. Wenn Sie noch auf 5.2 sind, haben Sie noch drei Monate. GPT-5.3 Codex hat LTS-Support bis February 2027, daher ist dort die Dringlichkeit geringer — aber die Zeichen stehen an der Wand.
3. Tool Search ist das versteckte Highlight-Feature
Anfänglich tat ich Tool Search als Optimierungsdetail ab. Es stellte sich als das wirkungsvollste Feature für unseren Workflow heraus. Anstatt alle 12 Tool-Definitionen in jedem API-Aufruf zu senden (was jeweils ~3K Tokens verbrauchte), entdeckt GPT-5.4 Tools dynamisch nach Bedarf. Die Token-Ersparnis summiert sich bei unserem Volumen.
Die Dokumentation von OpenAI besagt, dass Tool Search den Token-Verbrauch in ihren Tests um 47% reduziert hat. In unserem tool-lastigen Workflow sahen wir etwa 35% — immer noch signifikant.
4. Der "Vibe" hat sich geändert
Dies ist subjektiv und schwer zu quantifizieren, aber das Team hat es bemerkt. GPT-5.4 fühlt sich eher so an, als würde man mit einem Senior-Engineer zusammenarbeiten — es hinterfragt Annahmen, schlägt Alternativen vor und wehrt sich manchmal gegen Ansätze, die es für suboptimal hält. GPT-5.3 Codex war folgsamer. Ob Sie dies als Verbesserung betrachten, hängt vom Workflow Ihres Teams ab. Zvi Mowshowitz’ Analyse nennt es "ein substanzielles Upgrade" in der Argumentation und der allgemeinen Fähigkeit, und wir stimmen dem zu.
Die Migrations-Checkliste
Basierend auf unserer Erfahrung ist hier das, was ich tun würde, wenn ich erneut migrieren müsste:
Bevor Sie wechseln
- Auditieren Sie Ihr JSON-Parsing — prüfen Sie den Umgang mit Markdown-Code-Fences
- Überprüfen Sie die Function-Calling-Schemas — testen Sie optionale und verschachtelte Parameter
- Prüfen Sie Ihre Logik für Token-Zählung und Kostenschätzung
- Verifizieren Sie die Rate-Limiting-Konfiguration gegen die GPT-5.4 Tier-Limits
- Identifizieren Sie Workflows, die eine bestimmte Reihenfolge der Tool-Aufrufe voraussetzen
Während des Wechsels
- Zuerst in einer Staging-Umgebung bereitstellen
- Beide Modelle mindestens 48 Stunden lang parallel laufen lassen
- Auf Unterschiede in der JSON-Formatierung überwachen
- Erfolgsraten beim Function Calling prüfen
- Output-Qualität bei Ihren spezifischen Aufgaben vergleichen
Nach dem Wechsel
- Tool Search aktivieren und Token-Ersparnis messen
- Aufgaben mit langem Kontext auf den 272K Preis-Schwellenwert prüfen
- System-Prompts anpassen, falls GPT-5.4 zu meinungsstark für Ihren Workflow ist
- Computer-Use-Fähigkeiten für neue Workflows erkunden
- Kostenprognosen mit tatsächlichen Nutzungsdaten aktualisieren
Sollten Sie jetzt migrieren?
Hier ist mein Entscheidungsrahmen:
Sofort migrieren, wenn:
- Sie auf GPT-5.2 sind (es wird am June 5 eingestellt)
- Sie regelmäßig das 400K Kontext-Limit erreichen
- Sie Computer-Use-Fähigkeiten benötigen
- Sie intensiv Tool Calling nutzen und Token sparen wollen
Bald migrieren (innerhalb eines Monats), wenn:
- Sie die Qualitätsverbesserungen nutzen wollen und eine Woche Integrationsarbeit tolerieren können
- Sie neue Features bauen, die von 1M Kontext profitieren
- Sie zukunftssicher sein wollen, bevor GPT-5.3 schließlich das Lebensende erreicht
Bei GPT-5.3 Codex bleiben, wenn:
- Ihre Workflows stabil und kostenoptimiert sind
- Sie für prompt-intensive Workloads auf dessen niedrigere Input-Token-Preise angewiesen sind
- Sie die Stabilität des LTS-Supports bis February 2027 wünschen
- Sie sich in einer regulierten Umgebung befinden, in der Modelländerungen eine formale Überprüfung erfordern
Für unsere internen Tools bei ZBuild war die Migration die Woche Arbeit wert. Allein das 1M Context Window hat die Möglichkeiten unseres Tools verändert. Aber wenn Ihre GPT-5.3 Codex Integration gut funktioniert und Sie nicht an die Limits stoßen, gibt es keinen Grund zur Eile — planen Sie die Migration nach Ihrem Zeitplan, nicht nach dem von OpenAI.
Lektionen für Teams, die den Wechsel erwägen
Wenn ich die gesamte Migration in Ratschläge für andere Engineering-Teams destillieren müsste, wären es diese fünf Punkte.
1. Planen Sie eine volle Woche für die Integration ein, nicht nur für den Modellwechsel
Der Modellwechsel dauert fünf Minuten. Das Entdecken jedes Edge-Case in Ihrer Integration dauert eine Woche. Unsere JSON-Formatierungsprobleme, Unterschiede beim Function Calling und Logging-Annahmen traten alle unter echtem Traffic auf, nicht während der Unit-Tests. Lassen Sie beide Modelle mindestens 48 Stunden lang parallel laufen, bevor Sie umschalten.
2. Token-Effizienz gleicht höhere Preise aus — aber nicht immer
Für Standardaufgaben unter 100K Tokens ist GPT-5.4 trotz höherer Preise pro Token tatsächlich billiger. Wenn Ihr Workload jedoch stark auf Aufgaben mit langem Kontext (über 272K Tokens) ausgerichtet ist, werden Sie mehr bezahlen. Modellieren Sie die Kosten für Ihr spezifisches Nutzungsmuster, bevor Sie sich festlegen. Der Apiyi Preis-Schwellenwert-Leitfaden enthält einen nützlichen Rechner.
3. Tool Search ist nicht optional — aktivieren Sie es sofort
Wenn Sie Function Calling mit mehr als 5 Tools nutzen, aktivieren Sie Tool Search am ersten Tag. Die Token-Ersparnis summiert sich bei entsprechendem Volumen. Für unser 12-Tool-Setup sparte es etwa 3K Tokens pro Aufruf — bei über 800 Aufrufen pro Tag sind das 2.4 Millionen Tokens täglich oder etwa $6 pro Tag an Input-Kosten.
4. Passen Sie Ihre Prompts an die Persönlichkeit von GPT-5.4 an
GPT-5.4 ist meinungsstärker als GPT-5.3 Codex. Wenn Ihre Anwendung darauf angewiesen ist, dass das Modell Anweisungen präzise ohne redaktionelle Kommentare befolgt, fügen Sie Ihrem System-Prompt explizite Einschränkungen hinzu. Etwa: "Konzentrieren Sie sich nur auf die angeforderte Aufgabe. Schlagen Sie keine Verbesserungen oder Alternativen vor, sofern Sie nicht danach gefragt werden." Dies ersparte unserem Team erhebliches Rauschen im Code-Review-Output.
5. Planen Sie Ihre GPT-5.2 Migration jetzt
Wenn Sie noch Systeme haben, die auf GPT-5.2 Thinking laufen, ist die Einstellung am June 5, 2026 nicht verhandelbar. Warten Sie nicht bis May, um mit der Migration zu beginnen. Die Integrationsfläche zwischen GPT-5.2 und GPT-5.4 ist größer als die Lücke zwischen GPT-5.3 und GPT-5.4, rechnen Sie also mit mehr Problemen.
GPT-5.4 vs GPT-5.3 Codex: Schnellreferenz-Tabelle
Für Teams, die die Zusammenfassung ohne die Erzählung wünschen, sind hier die wichtigsten Daten an einem Ort:
| Feature | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Release-Datum | October 2025 | March 5, 2026 |
| Context Window | 400K Tokens | 1,050,000 Tokens |
| Input-Preise | $1.75/MTok | $2.50/MTok |
| Output-Preise | $14.00/MTok | $15.00/MTok |
| Long-Context Surcharge | Keine | 2x Input, 1.5x Output über 272K |
| Computer Use | Nein | Ja, nativ |
| Tool Search | Nein | Ja (spart ~47% Tokens) |
| Fehlerreduzierung | Baseline | 33% weniger faktische Fehler |
| LTS-Support | Bis Feb 2027 | Aktuelles Modell |
| Bestens geeignet für | Terminal-lastige, kostensensible Arbeit | Allzweck + agentische Workflows |
Ein Monat später: Abschließendes Urteil
Es ist nun ein voller Monat auf GPT-5.4 vergangen. Die Integrationsprobleme sind gelöst, das Team hat sich angepasst und die Zahlen sind stabil.
Qualität: Besser. Weniger False-Positives im Code-Review, bessere modulübergreifende Analyse und die Computer-Use-Integration hat einen Workflow hinzugefügt, der zuvor nicht möglich war.
Kosten: Etwa gleichwertig für Standardaufgaben, etwas höher für Aufgaben mit langem Kontext, aber die monatliche Gesamtrechnung fiel dank Token-Effizienz um 3-4% niedriger aus.
Geschwindigkeit: Vergleichbar. Kein wesentlicher Unterschied für unseren Workload.
Stabilität: Nach der ersten Woche mit Korrekturen gab es null Produktionsprobleme.
Das Upgrade war nicht transformativ — es war inkrementell, aber positiv. GPT-5.4 ist im March 2026 das bessere Modell für die meisten Entwickler. Die Frage ist lediglich, ob der Migrationsaufwand für Ihre spezifische Situation den Nutzen wert ist.
Wenn Sie Developer-Tools bauen — wie wir bei ZBuild — ist es wichtig, auf dem aktuellen Flaggschiff-Modell zu bleiben, um Ihr Produkt wettbewerbsfähig zu halten. Für internes Tooling, bei dem Stabilität Priorität hat, ist GPT-5.3 Codex mit LTS-Support bis Anfang 2027 eine vollkommen valide Wahl.
Quellen
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex