Innan vi börjar: Varför jag skrev detta som en dagbok
De flesta artiklar om GPT-5.4 vs GPT-5.3 ger dig en benchmark-tabell och nöjer sig med det. Det är användbart för att besluta om man ska uppgradera, men helt värdelöst för att förstå vad som faktiskt händer under uppgraderingen.
Jag migrerade ett produktionssystem — en plattform för interna utvecklarverktyg — från GPT-5.3 Codex till GPT-5.4 under loppet av March 2026. Denna artikel dokumenterar vad som hände dag för dag, vad som överraskade mig, vad som gick sönder och hur månadsfakturan ser ut på andra sidan.
Om du planerar din egen migrering är detta guiden jag önskar att jag hade haft.
Före migrering: Vad vi körde på GPT-5.3 Codex
Vår setup innan bytet:
- Applikation: En intern assistent för kodgranskning och refaktorering som används av ett ingenjörsteam på 14 personer
- API-integration: Direkta OpenAI API-anrop, function calling för verktygsanvändning, strukturerad JSON-output
- Genomsnittlig daglig volym: ~800 API-anrop, i genomsnitt 12K input tokens och 4K output tokens per anrop
- Månadskostnad för API: Ungefär $1,400 med GPT-5.3 Codex prissättning ($1.75 input / $14 output per MTok)
- Användning av context window: Vi nådde regelbundet 200-350K tokens; ibland trunkering vid gränsen på 400K
Vi valde ursprungligen GPT-5.3 Codex på grund av dess starka kodspecifika prestanda och lägre kostnader för input tokens. Det fungerade bra för oss i sex månader.
Dag 1: Bytet (March 8, 2026)
Den mekaniska delen av migreringen var trivial. Ändra model: "gpt-5.3-codex" till model: "gpt-5.4" i vår API-konfiguration. Driftsätt. Klart.
Första intrycket: Svaren kändes kvalitativt annorlunda. Inte nödvändigtvis bättre eller sämre, men annorlunda. GPT-5.4 var mer utförlig i sitt resonemang — den gav mer förklaringar till sina val innan koden levererades. För vårt kodgranskningsverktyg var detta faktiskt en förbättring eftersom granskarna ville förstå "varför" bakom förslagen.
Svarshastighet: Märkbart snabbare på kortare prompts. Ungefär densamma på längre. Officiella data visar GPT-5.4 på 73.4 tokens per second jämfört med GPT-5.3 Codex i ett liknande intervall, så hastighetsskillnaden är verklig men inte dramatisk.
Första problemet: Inom den första timmen gick vår JSON-parser sönder. GPT-5.3 Codex hade returnerat rå JSON när den tillfrågades om strukturerad output. GPT-5.4 omslöt ibland JSON i ett markdown-kodblock (```json ... ```). Detta förstörde vår parsing-pipeline.
Fix: Lade till ett förbehandlingssteg för att rensa bort markdown code fences innan parsing. En fix på 10 minuter, men det hade orsakat produktionsfel om vi inte hade övervakat noga.
Dag 2-3: Skillnader i Function Calling
Vårt verktyg använde OpenAIs function calling-funktion för att låta modellen anropa kodanalysverktyg — en linter, en test runner, en beroendekontroll. På GPT-5.3 Codex fungerade detta felfritt.
På GPT-5.4 stötte vi på två problem:
Problem 1: Hantering av valfria parametrar. När en funktionsparameter var ett valfritt nästlat objekt, utelämnade GPT-5.3 Codex det om det var onödigt. GPT-5.4 skickade ibland ett tomt objekt {} istället, vilket fick vår validering att avvisa anropet.
Problem 2: Beteende vid Tool Search. GPT-5.4 introducerar Tool Search, som dynamiskt upptäcker tillgängliga verktyg snarare än att kräva alla verktygsdefinitioner i förväg. Detta är en kraftfull funktion — OpenAI rapporterar att den minskar användningen av tokens med 47% — men den ändrade timingen för verktygsanrop. Vårt loggningssystem förväntade sig att verktyg skulle anropas i en specifik ordning, och GPT-5.4 ändrade ibland ordningen på dem.
Fix för problem 1: Uppdaterade våra Zod-valideringsscheman för att acceptera tomma objekt för valfria parametrar. Två timmars arbete.
Fix för problem 2: Skrev om vår loggning för att vara oberoende av ordningsföljd. En halv dags arbete. Värt det, eftersom det nya tillvägagångssättet är mer robust oavsett modell.
Dag 4-5: Context Window förändrar allt
Detta var det första genuint spännande ögonblicket. GPT-5.3 Codex hade en gräns på 400K tokens. För våra största repon hade vi byggt ett avancerat chunking-system — vi delade upp kodbaser i segment, körde analys på varje segment och sammanfogade sedan resultaten.
GPT-5.4 stöder upp till 1,050,000 tokens via API. För Codex-användare är hela 1M context tillgänglig.
Vad detta innebar i praktiken: Vårt största repo — ett TypeScript monorepo med 280 filer — kunde nu laddas helt i en context. Ingen mer chunking. Ingen mer sammanfogad analys med artefakter i skarvarna. Kvaliteten på kodgranskningen i detta repo förbättrades dramatiskt eftersom modellen kunde se beroenden mellan moduler som var osynliga när context var uppdelad.
Haken: Prompts som överstiger 272K tokens är prissatta till 2x input och 1.5x output. Att skicka hela vårt repo med 280 filer som context innebar alltså betydligt högre kostnader per anrop. Vi slutade med att bygga ett smart system för val av context som laddar hela repot för uppgifter som rör flera moduler, men använder riktad context för uppgifter i enstaka filer.
Sammanfattning av vecka 1: Saker som gick sönder
I slutet av vecka ett är här en komplett lista över vad som gick sönder eller behövde justeras:
- JSON-formatering av output — Inslagning i Markdown-kodblock (10 minuters fix)
- Validering av function calling — Tomma objekt för valfria parametrar (2 timmars fix)
- Ordning vid verktygsanrop — Loggning förutsatte sekventiella anrop (en halv dags fix)
- Token-räkning — Vår kostnadsuppskattning stämde inte eftersom GPT-5.4 använder färre tokens per svar (uppdaterade formler)
- Rate limiting — Vår rate limiter var konfigurerad för GPT-5.3 Codex gränser; GPT-5.4 har andra tröskelvärden för nivåer (konfigurationsändring)
Inget av detta var katastrofalt. Allt gick att fixa på under en dag. Men om du migrerar ett produktionssystem, budgetera en hel vecka för testning och korrigeringar.
Vecka 2: Förbättringarna börjar märkas
När friktionen från migreringen lagt sig blev förbättringarna tydliga.
Computer Use öppnade nya arbetsflöden
GPT-5.4 är den första modellen för allmänna ändamål med inbyggda computer-use-funktioner. Den kan interagera med skrivbordsapplikationer, webbläsare och systemverktyg direkt.
För vårt användningsområde möjliggjorde detta något vi inte kunde göra med GPT-5.3 Codex: modellen kunde nu köra vår testsvit, observera resultatet och justera sina förslag på kodgranskning baserat på faktiska testresultat snarare än enbart statisk analys. Tidigare var vi tvungna att manuellt skicka in testresultat i context. Nu kan modellen exekvera och observera.
Vi byggde ett nytt läge för "test-aware review" på cirka tre dagar, och det fångade omedelbart två buggar som ren statisk analys hade missat.
Token-effektivitet var verklig
OpenAI hävdar att GPT-5.4 använder färre output tokens per uppgift. Efter två veckor med produktionsdata bekräftade vi detta: GPT-5.4 snittade 3.1K output tokens per uppgift jämfört med GPT-5.3 Codex 4.0K för likvärdiga uppgifter. Det är en minskning med 22.5% av output tokens.
Kombinerat med att tool search minskade mängden input tokens, sjönk den totala token-förbrukningen per uppgift med ungefär 30%.
Minskade fel var märkbara
GPT-5.4 producerar 33% färre faktiska fel enligt OpenAI. I vår kontext för kodgranskning innebar detta färre falska positiva förslag — modellen var mindre benägen att flagga korrekt kod som problematisk. Vårt teams frekvens för att "avvisa förslag" sjönk från 18% till 11%.
Vecka 3: Kostnadsbilden klarnar
Här är den del alla vill veta mer om. Efter tre hela veckor med GPT-5.4 i produktion tillsammans med våra historiska data från GPT-5.3 Codex, här är kostnadsjämförelsen:
Dagliga API-kostnader (Genomsnitt)
| Mått | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Dagliga anrop | ~800 | ~800 |
| Genomsnittlig input tokens/anrop | 12,000 | 11,200 |
| Genomsnittlig output tokens/anrop | 4,000 | 3,100 |
| Kostnad input | $1.75/MTok | $2.50/MTok |
| Kostnad output | $14.00/MTok | $15.00/MTok |
| Daglig kostnad input | $16.80 | $22.40 |
| Daglig kostnad output | $44.80 | $37.20 |
| Daglig total | $61.60 | $59.60 |
Månadsprognos: GPT-5.3 Codex var ~$1,848. GPT-5.4 beräknas till ~$1,788. En besparing på cirka $60/månad (3.2%) — blygsamt men anmärkningsvärt eftersom GPT-5.4:s nominella prissättning är högre.
Besparingarna kommer helt och hållet från token-effektivitet. GPT-5.4 använder färre tokens för att utföra samma uppgifter, vilket mer än kompenserar för dess högre priser per token för vår arbetsbelastning.
Där kostnaderna gick upp
Uppgifter med lång context — de som överstiger 272K tokens — kostar betydligt mer på GPT-5.4 på grund av tilläggsavgiften för lång context. Vi kör cirka 15 av dessa per dag (granskningar av hela repon). För dessa specifika anrop ökade kostnaderna med cirka 40%.
Där kostnaderna gick ner
Standarduppgifter under 100K tokens — som utgör 95% av vår volym — var billigare på grund av lägre antal output tokens. Detta kompenserade mer än väl för tilläggsavgiften för lång context på de resterande 5%.
Saker jag inte förväntade mig
1. GPT-5.4 är mer åsiktsstark om kodstil
GPT-5.3 Codex var relativt neutral gällande stil — den följde de mönster som fanns i din kodbas. GPT-5.4 har starkare åsikter. Den föreslår att man döper om variabler för tydlighet, strukturerar om villkor och bryter ut funktioner — även när man bara bad om en buggfix.
Detta är både bra och irriterande. Bra för att förslagen oftast är korrekta. Irriterande för att det skapar brus i kodgranskningar när teamet bara vill ha fokuserad feedback.
Vår fix: Lade till en instruktion i system prompt: "Fokusera uteslutande på korrekthet och säkerhetsfrågor. Föreslå inte stiländringar om de inte påverkar läsbarheten tillräckligt för att orsaka buggar."
2. Tidsplanen för avveckling skapar brådska
GPT-5.2 Thinking går i pension June 5, 2026. Om du fortfarande använder 5.2 har du tre månader på dig. GPT-5.3 Codex har LTS-stöd till och med February 2027, så där är det mindre bråttom — men skriften på väggen är tydlig.
3. Tool Search är den dolda hjälten
Jag avfärdade initialt Tool Search som en optimeringsdetalj. Det visade sig vara den mest inflytelserika funktionen för vårt arbetsflöde. Istället för att skicka alla 12 verktygsdefinitioner i varje API-anrop (vilket förbrukade ~3K tokens varje gång), upptäcker GPT-5.4 verktyg dynamiskt vid behov. Token-besparingen ackumuleras snabbt vid vår volym.
OpenAI:s dokumentation säger att tool search minskade token-användningen med 47% i deras tester. För vårt verktygstunga arbetsflöde såg vi cirka 35% — fortfarande betydande.
4. "Viben" ändrades
Detta är subjektivt och svårt att kvantifiera, men teamet märkte det. GPT-5.4 känns mer som att arbeta med en senior ingenjör — den ifrågasätter antaganden, föreslår alternativ och sätter ibland emot vid tillvägagångssätt som den anser vara suboptimala. GPT-5.3 Codex var mer foglig. Om du anser detta vara en förbättring beror på ditt teams arbetsflöde. Zvi Mowshowitz analys kallar det "en betydande uppgradering" i resonemang och allmän förmåga, och vi håller med.
Checklista för migrering
Baserat på vår erfarenhet, här är vad jag skulle göra om jag migrerade igen:
Innan du byter
- Granska din JSON-parsing — kontrollera hantering av markdown code fences
- Granska scheman för function calling — testa valfria och nästlade parametrar
- Kontrollera din logik för token-räkning och kostnadsuppskattning
- Verifiera konfiguration för rate limiting mot GPT-5.4 tier limits
- Identifiera arbetsflöden som förutsätter en viss ordning på verktygsanrop
Under bytet
- Driftsätt i en staging-miljö först
- Kör båda modellerna parallellt i minst 48 timmar
- Övervaka skillnader i JSON-formatering
- Kontrollera framgångsgrad för function calling
- Jämför kvalitet på output för dina specifika uppgifter
Efter bytet
- Aktivera tool search och mät token-besparingar
- Utvärdera uppgifter med lång context mot prissättningströskeln på 272K
- Justera system prompts om GPT-5.4 är för åsiktsstark för ditt arbetsflöde
- Utforska computer use-funktioner för nya arbetsflöden
- Uppdatera kostnadsprognoser med faktiska användningsdata
Bör du migrera nu?
Här är mitt ramverk:
Migrera omedelbart om:
- Du använder GPT-5.2 (den går ur tiden June 5)
- Du regelbundet når gränsen på 400K context
- Du behöver computer use-funktioner
- Du använder tunga verktygsanrop och vill spara tokens
Migrera snart (inom en månad) om:
- Du vill ha kvalitetsförbättringarna och kan tolerera en vecka av integrationsarbete
- Du bygger nya funktioner som drar nytta av 1M context
- Du vill framtidssäkra innan GPT-5.3 så småningom når end-of-life
Stanna på GPT-5.3 Codex om:
- Dina arbetsflöden är stabila och kostnadsoptimerade
- Du förlitar dig på dess lägre prissättning för input tokens för prompt-tunga arbetsbelastningar
- Du vill ha stabiliteten med LTS-stöd fram till February 2027
- Du befinner dig i en reglerad miljö där modelländringar kräver formell granskning
För våra interna verktyg på ZBuild var migreringen värd veckans arbete. Enbart context-fönstret på 1M ändrade vad vårt verktyg kunde göra. Men om din integration av GPT-5.3 Codex fungerar bra och du inte slår i dess tak, finns det ingen akut stress — planera migreringen efter din egen tidsplan, inte OpenAI:s.
Lärdomar för team som överväger bytet
Om jag kunde koka ner hela migreringen till råd för andra ingenjörsteam, skulle det vara dessa fem punkter.
1. Budgetera en hel vecka för integration, inte bara modellbytet
Modellbytet tar fem minuter. Att upptäcka varje gränsfall i din integration tar en vecka. Vårt problem med JSON-formatering, skillnader i function calling och loggningsantaganden dök alla upp under verklig trafik, inte under enhetstester. Kör båda modellerna parallellt i minst 48 timmar innan du skiftar helt.
2. Token-effektivitet kompenserar för högre prissättning — men inte alltid
För standarduppgifter under 100K tokens är GPT-5.4 genuint billigare trots högre prissättning per token. Men om din arbetsbelastning är kraftigt viktad mot uppgifter med lång context (över 272K tokens), kommer du att betala mer. Modellera kostnaden för ditt specifika användningsmönster innan du bestämmer dig. Apiyi pricing threshold guide har en användbar kalkylator.
3. Tool Search är inte valfritt — aktivera det omedelbart
Om du använder function calling med fler än 5 verktyg, aktivera tool search dag ett. Token-besparingarna ackumuleras i stor skala. För vår setup med 12 verktyg sparade det ungefär 3K tokens per anrop — över 800 anrop per dag är det 2.4 miljoner tokens dagligen, eller cirka $6 per dag i input-kostnader.
4. Justera dina prompts för GPT-5.4:s personlighet
GPT-5.4 är mer åsiktsstark än GPT-5.3 Codex. Om din applikation förlitar sig på att modellen följer instruktioner exakt utan redaktionella kommentarer, lägg till explicita begränsningar i din system prompt. Något i stil med "Fokusera endast på den efterfrågade uppgiften. Föreslå inte förbättringar eller alternativ om du inte blir tillfrågad." Detta sparade vårt team betydande brus i resultaten från kodgranskningen.
5. Planera din migrering från GPT-5.2 nu
Om du har system som fortfarande körs på GPT-5.2 Thinking är pensioneringen June 5, 2026 inte förhandlingsbar. Vänta inte till May med att påbörja migreringen. Integrationsytan mellan GPT-5.2 och GPT-5.4 är större än gapet mellan GPT-5.3 och GPT-5.4, så förvänta dig att fler saker går sönder.
GPT-5.4 vs GPT-5.3 Codex: Snabbguide-tabell
För team som vill ha sammanfattningen utan berättelsen, här är nyckeldata på ett ställe:
| Funktion | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Lanseringsdatum | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Prissättning input | $1.75/MTok | $2.50/MTok |
| Prissättning output | $14.00/MTok | $15.00/MTok |
| Tillägg lång context | Inget | 2x input, 1.5x output över 272K |
| Computer use | Nej | Ja, inbyggt |
| Tool search | Nej | Ja (sparar ~47% tokens) |
| Felreduktion | Baslinje | 33% färre faktiska fel |
| LTS-stöd | Till Feb 2027 | Nuvarande modell |
| Bäst för | Terminal-tungt, kostnadskänsligt arbete | Allmänna ändamål + agentiska flöden |
En månad senare: Slutgiltigt omdöme
Det har nu gått en hel månad med GPT-5.4. Integrationsproblemen är lösta, teamet har anpassat sig och siffrorna är stabila.
Kvalitet: Bättre. Färre falska positiva i kodgranskning, bättre analys mellan moduler, och integrationen av computer use lade till ett arbetsflöde som inte var möjligt tidigare.
Kostnad: Ungefär likvärdig för standarduppgifter, något högre för uppgifter med lång context, men den totala månadsnotan landade 3-4% lägre tack vare token-effektivitet.
Hastighet: Jämförbar. Ingen betydande skillnad för vår arbetsbelastning.
Stabilitet: Efter den första veckan med fixar har vi haft noll produktionsfel.
Uppgraderingen var inte transformativ — den var inkrementell men positiv. GPT-5.4 är den bättre modellen för de flesta utvecklare i March 2026. Frågan är bara om migreringsinsatsen är värd det för just din specifika situation.
Om du bygger utvecklarverktyg — som vi gör på ZBuild — är det viktigt att stanna på den nuvarande flaggskeppsmodellen för att hålla produkten konkurrenskraftig. För interna verktyg där stabilitet är prioritet är GPT-5.3 Codex med LTS ett helt rimligt val fram till början av 2027.
Källor
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex