Antes de Começarmos: Por Que Escrevi Isso como um Diário
A maioria dos artigos sobre GPT-5.4 vs GPT-5.3 oferece uma tabela de benchmark e encerra o assunto. Isso é útil para decidir se deve fazer o upgrade, mas completamente inútil para entender o que realmente acontece durante o upgrade.
Eu migrei um sistema de produção — uma plataforma interna de ferramentas para desenvolvedores — do GPT-5.3 Codex para o GPT-5.4 ao longo do mês de March 2026. Este artigo documenta o que aconteceu dia após dia, o que me surpreendeu, o que quebrou e como ficou a fatura mensal no final das contas.
Se você está planejando sua própria migração, este é o guia que eu gostaria de ter tido.
Pré-Migração: O Que Estávamos Executando no GPT-5.3 Codex
Nossa configuração antes da mudança:
- Aplicação: Um assistente interno de revisão de código e refatoração usado por uma equipe de engenharia de 14 pessoas
- Integração de API: Chamadas diretas da OpenAI API, function calling para uso de ferramentas, saídas JSON estruturadas
- Volume diário médio: ~800 chamadas de API, com média de 12K tokens de entrada e 4K tokens de saída cada
- Custo mensal de API: Aproximadamente $1,400 no preço do GPT-5.3 Codex ($1.75 entrada / $14 saída por MTok)
- Uso da context window: Frequentemente atingindo 200-350K tokens; ocasionalmente truncando no limite de 400K
Escolhemos o GPT-5.3 Codex originalmente por causa de seu desempenho robusto específico para codificação e custos mais baixos de tokens de entrada. Ele nos serviu bem por seis meses.
Dia 1: A Troca (March 8, 2026)
A parte mecânica da migração foi trivial. Alterar model: "gpt-5.3-codex" para model: "gpt-5.4" em nossa configuração de API. Implantar. Pronto.
Primeira impressão: As respostas pareciam qualitativamente diferentes. Não necessariamente melhores ou piores, mas diferentes. O GPT-5.4 era mais prolixo em seu raciocínio — fornecendo mais explicações sobre suas escolhas antes de entregar o código. Para nossa ferramenta de revisão de código, isso foi, na verdade, uma melhoria, pois os revisores queriam entender o "porquê" por trás das sugestões.
Velocidade de resposta: Notavelmente mais rápida em prompts curtos. Quase a mesma em prompts longos. Os dados oficiais mostram o GPT-5.4 a 73.4 tokens por segundo comparado ao GPT-5.3 Codex em uma faixa semelhante, então a diferença de velocidade é real, mas não dramática.
Primeiro problema: Na primeira hora, nosso parser de JSON quebrou. O GPT-5.3 Codex estava retornando JSON puro quando solicitado por uma saída estruturada. O GPT-5.4 ocasionalmente envolvia o JSON em um bloco de código markdown (```json ... ```). Isso quebrou nosso pipeline de processamento.
Correção: Adicionada uma etapa de pré-processamento para remover as cercas de código markdown antes do parsing. Uma correção de 10 minutos, mas que teria causado erros de produção se não estivéssemos monitorando de perto.
Dia 2-3: Diferenças no Function Calling
Nossa ferramenta usava o recurso de function calling da OpenAI para permitir que o modelo invocasse ferramentas de análise de código — um linter, um test runner, um verificador de dependências. No GPT-5.3 Codex, isso funcionava perfeitamente.
No GPT-5.4, encontramos dois problemas:
Problema 1: Tratamento de parâmetros opcionais. Quando um parâmetro de função era um objeto aninhado opcional, o GPT-5.3 Codex o omitia se fosse desnecessário. O GPT-5.4 às vezes enviava um objeto vazio {} em vez disso, o que fazia com que nossa validação rejeitasse a chamada.
Problema 2: Comportamento do Tool Search. O GPT-5.4 introduz o Tool Search, que descobre dinamicamente as ferramentas disponíveis em vez de exigir todas as definições de ferramentas antecipadamente. Este é um recurso poderoso — a OpenAI relata que reduz o uso de tokens em 47% — mas mudou o tempo das invocações de ferramentas. Nosso sistema de logging esperava que as ferramentas fossem chamadas em uma ordem específica, e o GPT-5.4 às vezes as reordenava.
Correção para o Problema 1: Atualizamos nossos esquemas de validação Zod para aceitar objetos vazios para parâmetros opcionais. Duas horas de trabalho.
Correção para o Problema 2: Reescrevemos nosso logging para ser agnóstico quanto à ordem. Meio dia de trabalho. Valeu a pena, pois a nova abordagem é mais robusta independentemente do modelo.
Dia 4-5: A Context Window Muda Tudo
Este foi o primeiro momento genuinamente empolgante. O GPT-5.3 Codex tinha um limite de 400K tokens. Para nossos maiores repositórios, construímos um sistema elaborado de fragmentação — dividindo as bases de código em segmentos, executando a análise em cada segmento e depois costurando os resultados.
O GPT-5.4 suporta até 1,050,000 tokens via API. Para usuários do Codex, o contexto completo de 1M está disponível.
O que isso significou na prática: Nosso maior repositório — um monorepo TypeScript de 280 arquivos — agora podia ser carregado inteiramente em um único contexto. Sem mais fragmentação. Sem mais análise costurada com artefatos de emenda. A qualidade da revisão de código neste repositório melhorou drasticamente porque o modelo podia ver dependências entre módulos que eram invisíveis quando o contexto era dividido.
O porém: Prompts que excedem 272K tokens são precificados em 2x entrada e 1.5x saída. Portanto, enviar nosso repositório completo de 280 arquivos como contexto significava custos significativamente mais altos por chamada. Acabamos construindo um sistema inteligente de seleção de contexto que carrega o repositório completo para tarefas entre módulos, mas usa contexto direcionado para tarefas de arquivo único.
Resumo da Semana 1: As Coisas Que Quebraram
Ao final da primeira semana, aqui está uma lista completa do que quebrou ou precisou de ajustes:
- Formatação de saída JSON — Envolvimento em blocos de código Markdown (correção de 10 minutos)
- Validação de function calling — Objetos vazios para parâmetros opcionais (correção de 2 horas)
- Ordenação de invocação de ferramentas — O logging assumia chamadas sequenciais (correção de meio dia)
- Contagem de tokens — Nossa estimativa de custo estava errada porque o GPT-5.4 usa menos tokens por resposta (fórmulas atualizadas)
- Rate limiting — Nosso limitador de taxa estava configurado para os limites do GPT-5.3 Codex; o GPT-5.4 tem diferentes limites de camada (mudança de configuração)
Nenhum desses foi catastrófico. Todos foram corrigíveis em menos de um dia. Mas se você estiver migrando um sistema de produção, reserve uma semana inteira para testes e correções.
Semana 2: As Melhorias Começam a Aparecer
Assim que o atrito da migração diminuiu, as melhorias ficaram claras.
Computer Use Abriu Novos Fluxos de Trabalho
O GPT-5.4 é o primeiro modelo de uso geral com recursos nativos de computer-use. Ele pode interagir diretamente com aplicações de desktop, navegadores e ferramentas do sistema.
Para o nosso caso de uso, isso permitiu algo que não podíamos fazer com o GPT-5.3 Codex: o modelo agora podia executar nosso conjunto de testes, observar a saída e ajustar suas sugestões de revisão de código com base nos resultados reais dos testes, em vez de apenas análise estática. Anteriormente, tínhamos que canalizar a saída do teste manualmente para o contexto. Agora o modelo pode executar e observar.
Construímos um novo modo de "revisão consciente de testes" em cerca de três dias, e ele imediatamente pegou dois bugs que a análise estática pura havia perdido.
A Eficiência de Tokens era Real
A OpenAI afirma que o GPT-5.4 usa menos tokens de saída por tarefa. Após duas semanas de dados de produção, confirmamos isso: o GPT-5.4 teve uma média de 3.1K tokens de saída por tarefa em comparação com os 4.0K do GPT-5.3 Codex para tarefas equivalentes. Isso é uma redução de 22.5% nos tokens de saída.
Combinado com o tool search reduzindo os tokens de entrada, o consumo total de tokens por tarefa caiu cerca de 30%.
A Redução de Erros Foi Notável
O GPT-5.4 produz 33% menos erros factuais de acordo com a OpenAI. Em nosso contexto de revisão de código, isso se traduziu em menos sugestões de falsos positivos — o modelo tinha menos probabilidade de sinalizar um código correto como problemático. A taxa de "descartar sugestão" da nossa equipe caiu de 18% para 11%.
Semana 3: O Cenário de Custos Torna-se Claro
Aqui está a parte que todos querem saber. Após três semanas completas executando o GPT-5.4 em produção ao lado de nossos dados históricos do GPT-5.3 Codex, aqui está a comparação de custos:
Custos Diários de API (Média)
| Métrica | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Chamadas diárias | ~800 | ~800 |
| Média de tokens de entrada/chamada | 12,000 | 11,200 |
| Média de tokens de saída/chamada | 4,000 | 3,100 |
| Taxa de custo de entrada | $1.75/MTok | $2.50/MTok |
| Taxa de custo de saída | $14.00/MTok | $15.00/MTok |
| Custo diário de entrada | $16.80 | $22.40 |
| Custo diário de saída | $44.80 | $37.20 |
| Total diário | $61.60 | $59.60 |
Projeção mensal: O GPT-5.3 Codex era de ~$1,848. O GPT-5.4 projeta-se em ~$1,788. Uma economia de cerca de $60/mês (3.2%) — modesta, mas notável porque o preço nominal do GPT-5.4 é mais alto.
A economia vem inteiramente da eficiência de tokens. O GPT-5.4 usa menos tokens para realizar as mesmas tarefas, o que mais do que compensa seus preços mais altos por token para nossa carga de trabalho.
Onde os Custos Aumentaram
Tarefas de contexto longo — aquelas que excedem 272K tokens — custam significativamente mais no GPT-5.4 devido à sobretaxa de contexto longo. Realizamos cerca de 15 dessas por dia (revisões de repositório completo). Para essas chamadas específicas, os custos aumentaram cerca de 40%.
Onde os Custos Diminuíram
Tarefas padrão abaixo de 100K tokens — que compõem 95% do nosso volume — ficaram mais baratas devido à menor contagem de tokens de saída. Isso compensou mais do que o necessário a sobretaxa de contexto longo nos 5% restantes.
Coisas Que Eu Não Esperava
1. O GPT-5.4 é Mais Opiniático Sobre o Estilo de Código
O GPT-5.3 Codex era relativamente neutro quanto ao estilo — ele seguia quaisquer padrões que existissem em sua base de código. O GPT-5.4 tem opiniões mais fortes. Ele sugerirá renomear variáveis para maior clareza, reestruturar condicionais e extrair funções — mesmo quando você apenas pediu uma correção de bug.
Isso é ao mesmo tempo bom e irritante. Bom porque as sugestões são geralmente válidas. Irritante porque adiciona ruído às revisões de código quando a equipe quer apenas um feedback direcionado.
Nossa correção: Adicionada uma instrução de system prompt: "Foque exclusivamente em problemas de correção e segurança. Não sugira mudanças de estilo, a menos que elas impactem a legibilidade o suficiente para causar bugs."
2. O Cronograma de Descontinuação Cria Urgência
O GPT-5.2 Thinking se aposenta em June 5, 2026. Se você ainda está no 5.2, você tem três meses. O GPT-5.3 Codex tem suporte LTS até February 2027, então há menos urgência lá — mas o destino está selado.
3. Tool Search é o Recurso Oculto
Inicialmente, desconsiderei o Tool Search como um detalhe de otimização. Acabou sendo o recurso mais impactante para o nosso fluxo de trabalho. Em vez de enviar todas as 12 definições de ferramentas em cada chamada de API (consumindo ~3K tokens a cada vez), o GPT-5.4 descobre dinamicamente as ferramentas conforme necessário. A economia de tokens se acumula em nosso volume.
A documentação da OpenAI diz que o tool search reduziu o uso de tokens em 47% em seus testes. Para nosso fluxo de trabalho pesado em ferramentas, vimos cerca de 35% — ainda assim significativo.
4. A "Vibe" Mudou
Isso é subjetivo e difícil de quantificar, mas a equipe notou. O GPT-5.4 parece mais como trabalhar com um engenheiro sênior — ele questiona suposições, sugere alternativas e às vezes recua em abordagens que considera subótimas. O GPT-5.3 Codex era mais complacente. Se você considera isso uma melhoria, depende do fluxo de trabalho da sua equipe. A análise de Zvi Mowshowitz chama isso de "um upgrade substancial" em raciocínio e capacidade geral, e nós concordamos.
O Checklist de Migração
Com base em nossa experiência, aqui está o que eu faria se estivesse migrando novamente:
Antes de Trocar
- Audite seu parsing de JSON — verifique o tratamento de cercas de código markdown
- Revise os esquemas de function calling — teste parâmetros opcionais e aninhados
- Verifique sua lógica de contagem de tokens e estimativa de custos
- Verifique a configuração de rate limiting em relação aos limites de camada do GPT-5.4
- Identifique quaisquer fluxos de trabalho que assumam a ordenação de chamadas de ferramentas
Durante a Troca
- Implemente primeiro em um ambiente de staging
- Execute ambos os modelos em paralelo por pelo menos 48 horas
- Monitore diferenças na formatação JSON
- Verifique as taxas de sucesso de function calling
- Compare a qualidade da saída em suas tarefas específicas
Após a Troca
- Ative o tool search e meça a economia de tokens
- Avalie as tarefas de contexto longo para o limite de preço de 272K
- Ajuste os system prompts se o GPT-5.4 for muito opiniático para o seu fluxo de trabalho
- Explore recursos de computer use para novos fluxos de trabalho
- Atualize as projeções de custo com dados de uso real
Você Deve Migrar Agora?
Aqui está minha estrutura de decisão:
Migre imediatamente se:
- Você está no GPT-5.2 (ele se aposenta em June 5)
- Você atinge regularmente o limite de contexto de 400K
- Você precisa de recursos de computer use
- Você usa chamadas de ferramentas intensas e quer economizar tokens
Migre em breve (dentro de um mês) se:
- Você quer as melhorias de qualidade e pode tolerar uma semana de trabalho de integração
- Você está construindo novos recursos que se beneficiam de 1M de contexto
- Você quer se precaver antes que o GPT-5.3 eventualmente chegue ao fim da vida útil
Permaneça no GPT-5.3 Codex se:
- Seus fluxos de trabalho estão estáveis e otimizados para custos
- Você depende do preço mais baixo dos tokens de entrada dele para cargas de trabalho pesadas em prompts
- Você quer a estabilidade do suporte LTS até February 2027
- Você está em um ambiente regulamentado onde mudanças de modelo exigem revisão formal
Para nossas ferramentas internas na ZBuild, a migração valeu a semana de trabalho. A janela de contexto de 1M por si só mudou o que nossa ferramenta poderia fazer. Mas se sua integração com o GPT-5.3 Codex está funcionando bem e você não está atingindo seus limites, não há pressa — planeje a migração no seu tempo, não no da OpenAI.
Lições para Equipes que Consideram a Mudança
Se eu pudesse destilar toda a migração em conselhos para outras equipes de engenharia, seriam estes cinco pontos.
1. Reserve uma Semana Inteira para Integração, Não Apenas a Troca de Modelo
A troca de modelo leva cinco minutos. Descobrir cada caso extremo em sua integração leva uma semana. Nosso problema de formatação JSON, diferenças de function calling e suposições de logging surgiram sob tráfego real, não durante testes unitários. Execute ambos os modelos em paralelo por pelo menos 48 horas antes de fazer a transição definitiva.
2. Eficiência de Tokens Compensa Preços Mais Altos — Mas Nem Sempre
Para tarefas padrão abaixo de 100K tokens, o GPT-5.4 é genuinamente mais barato, apesar do preço mais alto por token. Mas se sua carga de trabalho estiver fortemente inclinada para tarefas de contexto longo (acima de 272K tokens), você pagará mais. Modele o custo para o seu padrão de uso específico antes de se comprometer. O guia de limite de preço da Apiyi tem uma calculadora útil.
3. Tool Search Não é Opcional — Ative-o Imediatamente
Se você usa function calling com mais de 5 ferramentas, ative o tool search no primeiro dia. A economia de tokens se acumula em escala. Para nossa configuração de 12 ferramentas, economizou cerca de 3K tokens por chamada — em mais de 800 chamadas por dia, isso são 2.4 milhões de tokens diários, ou cerca de $6 por dia em custos de entrada.
4. Ajuste Seus Prompts para a Personalidade do GPT-5.4
O GPT-5.4 é mais opiniático que o GPT-5.3 Codex. Se sua aplicação depende do modelo seguir instruções precisamente sem comentários editoriais, adicione restrições explícitas ao seu system prompt. Algo como "Foque apenas na tarefa solicitada. Não sugira melhorias ou alternativas, a menos que seja solicitado." Isso poupou nossa equipe de um ruído significativo na saída da revisão de código.
5. Planeje Sua Migração do GPT-5.2 Agora
Se você tem sistemas ainda rodando no GPT-5.2 Thinking, a aposentadoria em June 5, 2026 não é negociável. Não espere até May para iniciar a migração. A superfície de integração entre o GPT-5.2 e o GPT-5.4 é maior que o gap de GPT-5.3 para GPT-5.4, então espere mais problemas.
GPT-5.4 vs GPT-5.3 Codex: Tabela de Referência Rápida
Para equipes que desejam o resumo sem a narrativa, aqui estão os dados principais em um só lugar:
| Recurso | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Data de lançamento | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Preço de entrada | $1.75/MTok | $2.50/MTok |
| Preço de saída | $14.00/MTok | $15.00/MTok |
| Sobretaxa de contexto longo | Nenhuma | 2x entrada, 1.5x saída acima de 272K |
| Computer use | Não | Sim, nativo |
| Tool search | Não | Sim (economiza ~47% de tokens) |
| Redução de erros | Linha de base | 33% menos erros factuais |
| Suporte LTS | Até Feb 2027 | Modelo atual |
| Melhor para | Trabalho pesado em terminal, sensível ao custo | Fluxos de trabalho de uso geral + agentic |
Um Mês Depois: Veredito Final
Já se passou um mês completo no GPT-5.4. Os problemas de integração foram resolvidos, a equipe se ajustou e os números estão estáveis.
Qualidade: Melhor. Menos falsos positivos na revisão de código, melhor análise entre módulos e a integração de computer use adicionou um fluxo de trabalho que não era possível antes.
Custo: Praticamente equivalente para tarefas padrão, um pouco mais alto para tarefas de contexto longo, mas a fatura mensal total ficou 3-4% menor graças à eficiência de tokens.
Velocidade: Comparável. Nenhuma diferença significativa para nossa carga de trabalho.
Estabilidade: Após a semana inicial de correções, zero problemas em produção.
O upgrade não foi transformador — foi incremental, mas positivo. O GPT-5.4 é o melhor modelo para a maioria dos desenvolvedores em March 2026. A questão é apenas se o esforço de migração vale a pena para sua situação específica.
Se você está construindo ferramentas para desenvolvedores — como fazemos na ZBuild — manter-se no modelo carro-chefe atual é importante para manter seu produto competitivo. Para ferramentas internas onde a estabilidade é a prioridade, o GPT-5.3 Codex em LTS é uma escolha perfeitamente válida até o início de 2027.
Fontes
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex