Prima di iniziare: Perché ho scritto questo articolo come un diario
La maggior parte degli articoli su GPT-5.4 vs GPT-5.3 fornisce una tabella di benchmark e si ferma lì. Questo è utile per decidere se aggiornare, ma del tutto inutile per capire cosa succede realmente durante l'aggiornamento.
Ho migrato un sistema di produzione — una piattaforma interna di strumenti per sviluppatori — da GPT-5.3 Codex a GPT-5.4 nel corso di March 2026. Questo articolo documenta cosa è successo giorno dopo giorno, cosa mi ha sorpreso, cosa si è rotto e come appare la fattura mensile alla fine del processo.
Se stai pianificando la tua migrazione, questa è la guida che avrei voluto avere.
Pre-migrazione: Cosa stavamo eseguendo su GPT-5.3 Codex
La nostra configurazione prima del passaggio:
- Applicazione: Un assistente interno per la revisione del codice e il refactoring utilizzato da un team di ingegneria di 14 persone
- Integrazione API: Chiamate dirette OpenAI API, function calling per l'uso di strumenti, output JSON strutturati
- Volume giornaliero medio: ~800 chiamate API, con una media di 12K input tokens e 4K output tokens ciascuna
- Costo mensile API: Circa $1,400 con i prezzi di GPT-5.3 Codex ($1.75 input / $14 output per MTok)
- Utilizzo della context window: Raggiungimento regolare di 200-350K tokens; occasionali troncamenti al limite di 400K
Abbiamo scelto originariamente GPT-5.3 Codex per le sue forti prestazioni specifiche per il coding e i costi inferiori per i token di input. Ci ha servito bene per sei mesi.
Giorno 1: Lo scambio (March 8, 2026)
La parte meccanica della migrazione è stata banale. Modificare model: "gpt-5.3-codex" in model: "gpt-5.4" nella nostra configurazione API. Distribuire. Fatto.
Prima impressione: Le risposte sembravano qualitativamente diverse. Non necessariamente migliori o peggiori, ma diverse. GPT-5.4 era più prolisso nel suo ragionamento — fornendo più spiegazioni sulle sue scelte prima di consegnare il codice. Per il nostro strumento di revisione del codice, questo è stato effettivamente un miglioramento perché i revisori volevano capire il "perché" dietro i suggerimenti.
Velocità di risposta: Notevolmente più veloce su prompt brevi. Circa la stessa su quelli più lunghi. I dati ufficiali mostrano GPT-5.4 a 73.4 tokens per secondo rispetto a GPT-5.3 Codex in un intervallo simile, quindi la differenza di velocità è reale ma non drammatica.
Primo problema: Entro la prima ora, il nostro parser JSON si è rotto. GPT-5.3 Codex restituiva JSON grezzo quando veniva richiesto un output strutturato. GPT-5.4 occasionalmente avvolgeva il JSON in un blocco di codice markdown (```json ... ```). Questo ha interrotto la nostra pipeline di parsing.
Soluzione: Aggiunto un passaggio di preprocessamento per rimuovere i delimitatori di codice markdown prima del parsing. Una correzione di 10 minuti, ma avrebbe causato errori di produzione se non avessimo monitorato attentamente.
Giorno 2-3: Differenze nel Function Calling
Il nostro strumento utilizzava la funzionalità di function calling di OpenAI per consentire al modello di invocare strumenti di analisi del codice — un linter, un test runner, un correttore di dipendenze. Su GPT-5.3 Codex, questo funzionava perfettamente.
Su GPT-5.4, abbiamo riscontrato due problemi:
Problema 1: Gestione dei parametri opzionali. Quando un parametro di funzione era un oggetto annidato opzionale, GPT-5.3 Codex lo ometteva se non necessario. GPT-5.4 a volte inviava invece un oggetto vuoto {}, il che faceva sì che la nostra validazione rifiutasse la chiamata.
Problema 2: Comportamento di Tool Search. GPT-5.4 introduce Tool Search, che scopre dinamicamente gli strumenti disponibili invece di richiedere tutte le definizioni degli strumenti in anticipo. Questa è una funzionalità potente — OpenAI riporta che riduce l'uso dei token del 47% — ma ha cambiato il tempismo delle invocazioni degli strumenti. Il nostro sistema di logging si aspettava che gli strumenti venissero chiamati in un ordine specifico, e GPT-5.4 a volte li riordinava.
Soluzione per il Problema 1: Aggiornato i nostri schemi di validazione Zod per accettare oggetti vuoti per i parametri opzionali. Due ore di lavoro.
Soluzione per il Problema 2: Riscritto il nostro logging per essere indipendente dall'ordine. Mezza giornata di lavoro. Ne è valsa la pena, perché il nuovo approccio è più robusto a prescindere dal modello.
Giorno 4-5: La Context Window cambia tutto
Questo è stato il primo momento veramente entusiasmante. GPT-5.3 Codex aveva un limite di 400K tokens. Per i nostri repository più grandi, avevamo costruito un elaborato sistema di chunking — dividendo le codebase in segmenti, eseguendo l'analisi su ogni segmento, quindi assemblando i risultati.
GPT-5.4 supporta fino a 1,050,000 tokens via API. Per gli utenti Codex, è disponibile l'intero contesto da 1M.
Cosa ha significato in pratica: Il nostro repository più grande — un monorepo TypeScript da 280 file — poteva ora essere caricato interamente in un unico contesto. Niente più chunking. Niente più analisi assemblate con artefatti di giunzione. La qualità della revisione del codice su questo repository è migliorata drasticamente perché il modello poteva vedere le dipendenze tra i moduli che erano invisibili quando il contesto era diviso.
L'inghippo: I prompt che superano i 272K tokens hanno un prezzo di 2x per l'input e 1.5x per l'output. Quindi, inviare il nostro intero repository da 280 file come contesto significava costi per chiamata significativamente più alti. Abbiamo finito per costruire un sistema di selezione del contesto intelligente che carica l'intero repository per compiti cross-modulo ma utilizza un contesto mirato per compiti su file singoli.
Riepilogo Settimana 1: Le cose che si sono rotte
Alla fine della prima settimana, ecco un elenco completo di ciò che si è rotto o ha richiesto modifiche:
- Formattazione dell'output JSON — Inserimento in blocchi di codice Markdown (correzione di 10 minuti)
- Validazione del function calling — Oggetti vuoti per parametri opzionali (correzione di 2 ore)
- Ordinamento dell'invocazione degli strumenti — Il logging assumeva chiamate sequenziali (correzione di mezza giornata)
- Conteggio dei token — La nostra stima dei costi era errata perché GPT-5.4 utilizza meno token per risposta (formule aggiornate)
- Rate limiting — Il nostro limitatore di velocità era configurato per i limiti di GPT-5.3 Codex; GPT-5.4 ha soglie di tier diverse (modifica della configurazione)
Nessuno di questi è stato catastrofico. Tutti erano risolvibili in meno di un giorno. Ma se stai migrando un sistema di produzione, metti a budget una settimana intera per test e patch.
Settimana 2: Iniziano a vedersi i miglioramenti
Una volta risolti gli attriti della migrazione, i miglioramenti sono diventati chiari.
Computer Use ha aperto nuovi workflow
GPT-5.4 è il primo modello general-purpose con capacità native di computer-use. Può interagire direttamente con applicazioni desktop, browser e strumenti di sistema.
Per il nostro caso d'uso, questo ha abilitato qualcosa che non potevamo fare con GPT-5.3 Codex: il modello poteva ora eseguire la nostra suite di test, osservare l'output e regolare i suoi suggerimenti di revisione del codice in base ai risultati effettivi dei test invece che alla sola analisi statica. In precedenza, dovevamo convogliare manualmente l'output dei test nel contesto. Ora il modello può eseguire e osservare.
Abbiamo costruito una nuova modalità "test-aware review" in circa tre giorni, e ha immediatamente individuato due bug che l'analisi statica pura aveva mancato.
L'efficienza dei token era reale
OpenAI afferma che GPT-5.4 utilizza meno tokens di output per attività. Dopo due settimane di dati di produzione, lo abbiamo confermato: GPT-5.4 ha registrato una media di 3.1K output tokens per attività rispetto ai 4.0K di GPT-5.3 Codex per attività equivalenti. Si tratta di una riduzione del 22.5% dei tokens di output.
In combinazione con Tool Search che riduce i tokens di input, il consumo totale di tokens per attività è sceso di circa il 30%.
La riduzione degli errori era evidente
GPT-5.4 produce il 33% in meno di errori fattuali secondo OpenAI. Nel nostro contesto di revisione del codice, questo si è tradotto in un minor numero di suggerimenti falsi positivi — il modello aveva meno probabilità di segnalare come problematico del codice corretto. Il tasso di "rifiuto suggerimento" del nostro team è sceso dal 18% all'11%.
Settimana 3: Il quadro dei costi diventa chiaro
Ecco la parte che tutti vogliono conoscere. Dopo tre settimane complete di esecuzione di GPT-5.4 in produzione insieme ai nostri dati storici di GPT-5.3 Codex, ecco il confronto dei costi:
Costi API giornalieri (Media)
| Metrica | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Chiamate giornaliere | ~800 | ~800 |
| Media input tokens/chiamata | 12,000 | 11,200 |
| Media output tokens/chiamata | 4,000 | 3,100 |
| Tariffa costo input | $1.75/MTok | $2.50/MTok |
| Tariffa costo output | $14.00/MTok | $15.00/MTok |
| Costo input giornaliero | $16.80 | $22.40 |
| Costo output giornaliero | $44.80 | $37.20 |
| Totale giornaliero | $61.60 | $59.60 |
Proiezione mensile: GPT-5.3 Codex era di circa $1,848. GPT-5.4 si proietta a circa $1,788. Un risparmio di circa $60/mese (3.2%) — modesto ma degno di nota perché il prezzo nominale di GPT-5.4 è più alto.
Il risparmio deriva interamente dall'efficienza dei token. GPT-5.4 utilizza meno token per svolgere le stesse attività, il che compensa ampiamente i suoi prezzi per token più elevati per il nostro carico di lavoro.
Dove i costi sono aumentati
Le attività con contesto lungo — quelle che superano i 272K tokens — costano significativamente di più su GPT-5.4 a causa del sovrapprezzo long-context. Ne eseguiamo circa 15 al giorno (revisioni dell'intero repository). Per quelle chiamate specifiche, i costi sono aumentati di circa il 40%.
Dove i costi sono diminuiti
Le attività standard sotto i 100K tokens — che costituiscono il 95% del nostro volume — sono state più economiche grazie al minor numero di tokens di output. Questo ha più che compensato il sovrapprezzo per il contesto lungo sul restante 5%.
Cose che non mi aspettavo
1. GPT-5.4 ha opinioni più forti sullo stile del codice
GPT-5.3 Codex era relativamente neutrale sullo stile — seguiva i pattern esistenti nella codebase. GPT-5.4 ha opinioni più forti. Suggerirà di rinominare le variabili per chiarezza, ristrutturare i condizionali ed estrarre funzioni — anche quando hai chiesto solo una correzione di bug.
Questo è sia positivo che fastidioso. Positivo perché i suggerimenti sono solitamente validi. Fastidioso perché aggiunge rumore alle revisioni del codice quando il team desidera solo un feedback mirato.
La nostra soluzione: Aggiunta un'istruzione nel system prompt: "Concentrati esclusivamente sulla correttezza e sui problemi di sicurezza. Non suggerire modifiche di stile a meno che non influenzino la leggibilità al punto da causare bug."
2. La timeline di deprecazione crea urgenza
GPT-5.2 Thinking va in pensione il June 5, 2026. Se sei ancora sulla 5.2, hai tre mesi. GPT-5.3 Codex ha il supporto LTS fino a February 2027, quindi c'è meno urgenza — ma la direzione è segnata.
3. Tool Search è la funzionalità nascosta
Inizialmente avevo scartato Tool Search come un dettaglio di ottimizzazione. Si è rivelata la funzionalità più impattante per il nostro workflow. Invece di inviare tutte le 12 definizioni degli strumenti in ogni chiamata API (consumando ~3K tokens ogni volta), GPT-5.4 scopre dinamicamente gli strumenti secondo necessità. Il risparmio di token si accumula al nostro volume.
La documentazione di OpenAI afferma che Tool Search ha ridotto l'uso dei token del 47% nei loro test. Per il nostro workflow ricco di strumenti, abbiamo visto circa il 35% — comunque significativo.
4. Il "Vibe" è cambiato
Questo è soggettivo e difficile da quantificare, ma il team lo ha notato. Lavorare con GPT-5.4 sembra più come collaborare con un senior engineer — mette in discussione le supposizioni, suggerisce alternative e talvolta si oppone ad approcci che considera subottimali. GPT-5.3 Codex era più accondiscendente. Se consideri questo un miglioramento dipende dal workflow del tuo team. L'analisi di Zvi Mowshowitz lo definisce "un aggiornamento sostanziale" nel ragionamento e nelle capacità generali, e siamo d'accordo.
Checklist per la migrazione
In base alla nostra esperienza, ecco cosa farei se dovessi migrare di nuovo:
Prima del passaggio
- Controlla il tuo parsing JSON — verifica la gestione dei delimitatori di codice markdown
- Rivedi gli schemi di function calling — testa i parametri opzionali e annidati
- Controlla la logica di conteggio dei token e di stima dei costi
- Verifica la configurazione del rate limiting rispetto ai limiti di tier di GPT-5.4
- Identifica qualsiasi workflow che presupponga un ordine nelle chiamate degli strumenti
Durante il passaggio
- Distribuisci prima in un ambiente di staging
- Esegui entrambi i modelli in parallelo per almeno 48 ore
- Monitora le differenze di formattazione JSON
- Controlla i tassi di successo del function calling
- Confronta la qualità dell'output sulle tue attività specifiche
Dopo il passaggio
- Abilita Tool Search e misura il risparmio di token
- Valuta le attività a contesto lungo per la soglia di prezzo di 272K
- Regola i system prompt se GPT-5.4 è troppo pignolo per il tuo workflow
- Esplora le capacità di Computer Use per nuovi workflow
- Aggiorna le proiezioni dei costi con i dati di utilizzo effettivi
Dovresti migrare ora?
Ecco il mio schema di riferimento:
Migra immediatamente se:
- Sei su GPT-5.2 (va in pensione il June 5)
- Raggiungi regolarmente il limite di contesto di 400K
- Hai bisogno delle capacità di Computer Use
- Utilizzi pesantemente il function calling e desideri risparmiare token
Migra presto (entro un mese) se:
- Desideri i miglioramenti della qualità e puoi tollerare una settimana di lavoro di integrazione
- Stai costruendo nuove funzionalità che beneficiano del contesto da 1M
- Vuoi essere pronto per il futuro prima che GPT-5.3 raggiunga la fine del ciclo di vita
Resta su GPT-5.3 Codex se:
- I tuoi workflow sono stabili e ottimizzati per i costi
- Ti affidi al suo prezzo inferiore per i token di input per carichi di lavoro pesanti sui prompt
- Desideri la stabilità del supporto LTS fino a February 2027
- Ti trovi in un ambiente regolamentato dove i cambi di modello richiedono una revisione formale
Per i nostri strumenti interni su ZBuild, la migrazione è valsa la settimana di lavoro. La context window da 1M da sola ha cambiato ciò che il nostro strumento poteva fare. Ma se la tua integrazione con GPT-5.3 Codex funziona bene e non ne stai raggiungendo i limiti, non c'è fretta — pianifica la migrazione secondo i tuoi tempi, non quelli di OpenAI.
Lezioni per i team che considerano il passaggio
Se potessi riassumere l'intera migrazione in consigli per altri team di ingegneria, sarebbero questi cinque punti.
1. Metti a budget una settimana intera per l'integrazione, non solo per il cambio di modello
Il cambio di modello richiede cinque minuti. Scoprire ogni caso limite nella tua integrazione richiede una settimana. Il nostro problema di formattazione JSON, le differenze nel function calling e le assunzioni sul logging sono emersi tutti sotto traffico reale, non durante gli unit test. Esegui entrambi i modelli in parallelo per almeno 48 ore prima del passaggio definitivo.
2. L'efficienza dei token compensa i prezzi più alti — ma non sempre
Per le attività standard sotto i 100K tokens, GPT-5.4 è realmente più economico nonostante il prezzo per token più elevato. Ma se il tuo carico di lavoro è fortemente orientato verso attività con contesto lungo (sopra i 272K tokens), pagherai di più. Modella il costo per il tuo specifico schema di utilizzo prima di impegnarti. La guida alle soglie di prezzo di Apiyi ha un utile calcolatore.
3. Tool Search non è opzionale — abilitalo immediatamente
Se utilizzi il function calling con più di 5 strumenti, abilita Tool Search dal primo giorno. Il risparmio di token si accumula su larga scala. Per la nostra configurazione a 12 strumenti, ha risparmiato circa 3K tokens per chiamata — su 800 chiamate al giorno, sono 2.4 milioni di tokens giornalieri, ovvero circa $6 al giorno in costi di input.
4. Regola i tuoi prompt per la personalità di GPT-5.4
GPT-5.4 è più "opinionated" di GPT-5.3 Codex. Se la tua applicazione si affida al modello che segue le istruzioni con precisione senza commenti editoriali, aggiungi vincoli espliciti al tuo system prompt. Qualcosa come "Concentrati solo sull'attività richiesta. Non suggerire miglioramenti o alternative a meno che non venga richiesto." Questo ha risparmiato al nostro team un rumore significativo nell'output della revisione del codice.
5. Pianifica ora la tua migrazione da GPT-5.2
Se hai ancora sistemi in esecuzione su GPT-5.2 Thinking, il ritiro del June 5, 2026 non è negoziabile. Non aspettare fino a May per iniziare la migrazione. La superficie di integrazione tra GPT-5.2 e GPT-5.4 è maggiore rispetto al divario tra GPT-5.3 e GPT-5.4, quindi aspettati più rotture.
GPT-5.4 vs GPT-5.3 Codex: Tabella di riferimento rapido
Per i team che desiderano il riepilogo senza la narrazione, ecco i dati chiave in un unico posto:
| Funzionalità | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Data di rilascio | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Prezzo input | $1.75/MTok | $2.50/MTok |
| Prezzo output | $14.00/MTok | $15.00/MTok |
| Sovrapprezzo long-context | Nessuno | 2x input, 1.5x output sopra 272K |
| Computer use | No | Sì, nativo |
| Tool search | No | Sì (risparmia ~47% tokens) |
| Riduzione errori | Base | 33% in meno di errori fattuali |
| Supporto LTS | Fino a Feb 2027 | Modello attuale |
| Ideale per | Lavoro intensivo su terminale, sensibile ai costi | Workflow general-purpose + agentici |
Un mese dopo: Verdetto finale
È passato ormai un mese intero su GPT-5.4. I problemi di integrazione sono risolti, il team si è adattato e i numeri sono stabili.
Qualità: Migliore. Meno falsi positivi nella revisione del codice, migliore analisi cross-modulo e l'integrazione di Computer Use ha aggiunto un workflow che prima non era possibile.
Costo: Sostanzialmente equivalente per le attività standard, leggermente più alto per le attività a contesto lungo, ma la fattura mensile complessiva è risultata inferiore del 3-4% grazie all'efficienza dei token.
Velocità: Comparabile. Nessuna differenza significativa per il nostro carico di lavoro.
Stabilità: Dopo la settimana iniziale di correzioni, zero problemi in produzione.
L'aggiornamento non è stato trasformativo — è stato incrementale ma positivo. GPT-5.4 è il modello migliore per la maggior parte degli sviluppatori in March 2026. La domanda è solo se lo sforzo di migrazione vale la pena per la tua situazione specifica.
Se stai costruendo strumenti per sviluppatori — come facciamo noi su ZBuild — restare sul modello ammiraglia attuale è importante per mantenere competitivo il tuo prodotto. Per gli strumenti interni dove la stabilità è la priorità, GPT-5.3 Codex su LTS è una scelta perfettamente valida fino all'inizio del 2027.
Fonti
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex