Прежде чем мы начнем: почему я написал это в виде дневника
Большинство статей о сравнении GPT-5.4 и GPT-5.3 ограничиваются таблицей бенчмарков. Это полезно для принятия решения об обновлении, но совершенно бесполезно для понимания того, что на самом деле происходит в процессе миграции.
В течение марта 2026 года я перевел рабочую систему — внутреннюю платформу инструментов для разработчиков — с GPT-5.3 Codex на GPT-5.4. В этой статье задокументировано то, что происходило день за днем: что меня удивило, что сломалось и как выглядит ежемесячный счет после перехода.
Если вы планируете собственную миграцию, это именно то руководство, которого мне не хватало.
Перед миграцией: что у нас работало на GPT-5.3 Codex
Наша конфигурация перед переключением:
- Application: Внутренний ассистент для код-ревью и рефакторинга, используемый командой инженеров из 14 человек
- API integration: Прямые вызовы OpenAI API, function calling для использования инструментов, структурированные JSON ответы
- Average daily volume: ~800 API вызовов, в среднем по 12K input tokens и 4K output tokens на каждый
- Monthly API cost: Примерно $1,400 по тарифам GPT-5.3 Codex ($1.75 input / $14 output за MTok)
- Context window usage: Регулярное достижение 200-350K tokens; периодическая обрезка на лимите в 400K
Изначально мы выбрали GPT-5.3 Codex из-за его высокой производительности в написании кода и более низкой стоимости input tokens. Он успешно служил нам в течение шести месяцев.
День 1: Замена (March 8, 2026)
Техническая часть миграции была тривиальной. Изменили model: "gpt-5.3-codex" на model: "gpt-5.4" в нашей конфигурации API. Развернули. Готово.
Первое впечатление: Ответы стали качественно другими. Не обязательно лучше или хуже, но другими. GPT-5.4 стал более многословным в своих рассуждениях — он предоставляет больше объяснений своего выбора перед выдачей кода. Для нашего инструмента код-ревью это фактически стало улучшением, так как ревьюеры хотели понимать причины предложенных изменений.
Скорость ответа: Заметно быстрее на коротких prompts. Примерно так же на длинных. Официальные данные показывают, что GPT-5.4 выдает 73.4 tokens в секунду по сравнению с аналогичным диапазоном у GPT-5.3 Codex, так что разница в скорости реальна, но не драматична.
Первая проблема: В течение первого часа наш JSON парсер сломался. GPT-5.3 Codex возвращал чистый JSON, когда запрашивался структурированный вывод. GPT-5.4 иногда оборачивал JSON в блоки кода markdown (```json ... ```). Это нарушило наш процесс парсинга.
Исправление: Добавили этап предварительной обработки для удаления markdown блоков перед парсингом. Исправление на 10 минут, но это могло бы вызвать ошибки в production, если бы мы не вели тщательный мониторинг.
День 2-3: Различия в Function Calling
Наш инструмент использовал функцию function calling от OpenAI, чтобы модель могла вызывать инструменты анализа кода — linter, test runner, dependency checker. На GPT-5.3 Codex это работало безупречно.
На GPT-5.4 мы столкнулись с двумя проблемами:
Проблема 1: Обработка необязательных параметров. Когда параметр функции был необязательным вложенным объектом, GPT-5.3 Codex опускал его, если он не требовался. GPT-5.4 иногда вместо этого отправлял пустой объект {}, из-за чего наша валидация отклоняла вызов.
Проблема 2: Поведение Tool Search. В GPT-5.4 представлен Tool Search, который динамически обнаруживает доступные инструменты вместо того, чтобы требовать определения всех инструментов заранее. Это мощная функция — OpenAI сообщает, что она снижает использование tokens на 47% — но она изменила тайминг вызовов инструментов. Наша система логирования ожидала, что инструменты будут вызываться в определенном порядке, а GPT-5.4 иногда менял их местами.
Исправление для Проблемы 1: Обновили наши схемы валидации Zod, чтобы они принимали пустые объекты для необязательных параметров. Два часа работы.
Исправление для Проблемы 2: Переписали логирование, чтобы оно не зависело от порядка вызовов. Полдня работы. Это того стоило, так как новый подход стал более надежным независимо от модели.
День 4-5: Context Window меняет всё
Это был первый по-настоящему захватывающий момент. У GPT-5.3 Codex был лимит 400K tokens. Для наших самых больших репозиториев мы построили сложную систему разбиения на части (chunking) — разделение кодовой базы на сегменты, запуск анализа для каждого сегмента и последующая склейка результатов.
GPT-5.4 поддерживает до 1,050,000 tokens через API. Для пользователей Codex доступен полный контекст в 1M.
Что это значило на практике: Наш самый большой репозиторий — TypeScript monorepo из 280 файлов — теперь можно было загрузить целиком в один контекст. Больше никакого chunking. Никаких склеенных анализов с артефактами на стыках. Качество код-ревью в этом репозитории значительно улучшилось, потому что модель могла видеть зависимости между модулями, которые были невидимы при разделении контекста.
Нюанс: Prompts, превышающие 272K tokens, оплачиваются по тарифу 2x input и 1.5x output. Таким образом, отправка всего репозитория из 280 файлов в качестве контекста означала значительно более высокую стоимость каждого вызова. В итоге мы создали умную систему выбора контекста, которая загружает весь репозиторий для кросс-модульных задач, но использует целевой контекст для задач по отдельным файлам.
Итоги первой недели: что сломалось
К концу первой недели вот полный список того, что сломалось или потребовало настройки:
- Форматирование JSON вывода — Обертывание в блоки кода Markdown (исправление за 10 минут)
- Валидация function calling — Пустые объекты для необязательных параметров (исправление за 2 часа)
- Порядок вызова инструментов — Логирование предполагало последовательные вызовы (исправление за полдня)
- Подсчет tokens — Наша оценка стоимости была неверной, потому что GPT-5.4 использует меньше tokens на ответ (обновлены формулы)
- Rate limiting — Наш ограничитель скорости был настроен под лимиты GPT-5.3 Codex; у GPT-5.4 другие пороги уровней (изменение конфигурации)
Ни одна из этих проблем не была катастрофической. Все они были исправлены менее чем за день. Но если вы мигрируете production систему, заложите полную неделю на тестирование и исправление ошибок.
Неделя 2: Появление улучшений
Как только трения, связанные с миграцией, утихли, преимущества стали очевидны.
Computer Use открыл новые рабочие процессы
GPT-5.4 — это первая модель общего назначения с нативными возможностями использования компьютера. Она может напрямую взаимодействовать с десктопными приложениями, браузерами и системными инструментами.
В нашем случае это позволило сделать то, что мы не могли реализовать с GPT-5.3 Codex: модель теперь могла запускать наш набор тестов, наблюдать за выводом и корректировать свои предложения по код-ревью на основе реальных результатов тестов, а не только статического анализа. Ранее нам приходилось вручную передавать вывод тестов в контекст. Теперь модель может сама выполнять и наблюдать.
Мы построили новый режим "test-aware review" примерно за три дня, и он сразу же обнаружил два бага, которые пропустил чистый статический анализ.
Эффективность использования tokens оказалась реальной
OpenAI утверждает, что GPT-5.4 использует меньше output tokens на задачу. После двух недель сбора данных из production мы подтвердили это: GPT-5.4 в среднем тратил 3.1K output tokens на задачу по сравнению с 4.0K у GPT-5.3 Codex для эквивалентных задач. Это снижение количества output tokens на 22.5%.
В сочетании с тем, что tool search снизил количество input tokens, общее потребление tokens на задачу упало примерно на 30%.
Снижение ошибок было заметным
GPT-5.4 допускает на 33% меньше фактических ошибок согласно OpenAI. В контексте нашего код-ревью это выразилось в меньшем количестве ложноположительных предложений — модель стала реже помечать корректный код как проблемный. Уровень "отклонения предложений" нашей командой снизился с 18% до 11%.
Неделя 3: Ситуация со стоимостью проясняется
Вот часть, которая интересует всех. После трех полных недель работы GPT-5.4 в production вместе с нашими историческими данными по GPT-5.3 Codex, вот сравнение затрат:
Ежедневные затраты на API (в среднем)
| Метрика | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Ежедневные вызовы | ~800 | ~800 |
| Среднее кол-во input tokens на вызов | 12,000 | 11,200 |
| Среднее кол-во output tokens на вызов | 4,000 | 3,100 |
| Стоимость input | $1.75/MTok | $2.50/MTok |
| Стоимость output | $14.00/MTok | $15.00/MTok |
| Ежедневная стоимость input | $16.80 | $22.40 |
| Ежедневная стоимость output | $44.80 | $37.20 |
| Итого в день | $61.60 | $59.60 |
Месячный прогноз: GPT-5.3 Codex обходился примерно в $1,848. Прогноз для GPT-5.4 составляет ~$1,788. Экономия около $60/месяц (3.2%) — скромно, но примечательно, учитывая, что номинальные цены GPT-5.4 выше.
Экономия достигается исключительно за счет эффективности использования tokens. GPT-5.4 использует меньше tokens для выполнения тех же задач, что с лихвой компенсирует более высокие цены за каждый token для нашего объема работы.
Где расходы выросли
Задачи с длинным контекстом — те, что превышают 272K tokens — стоят значительно дороже на GPT-5.4 из-за надбавки за длинный контекст. Мы запускаем около 15 таких задач в день (полные ревью репозиториев). Для этих конкретных вызовов затраты выросли примерно на 40%.
Где расходы снизились
Стандартные задачи до 100K tokens — которые составляют 95% нашего объема — стали дешевле из-за меньшего количества output tokens. Это с запасом компенсировало надбавку за длинный контекст для оставшихся 5%.
Вещи, которых я не ожидал
1. GPT-5.4 более категоричен в вопросах стиля кода
GPT-5.3 Codex был относительно нейтрален в вопросах стиля — он следовал любым паттернам, которые существовали в вашей кодовой базе. У GPT-5.4 более твердое мнение. Он будет предлагать переименовывать переменные для ясности, реструктурировать условия и выделять функции — даже если вы просили только исправить баг.
Это одновременно и хорошо, и раздражает. Хорошо, потому что предложения обычно обоснованы. Раздражает, потому что это создает лишний шум в код-ревью, когда команде нужна только точечная обратная связь.
Наше исправление: Добавили инструкцию в system prompt: "Focus exclusively on correctness and security issues. Do not suggest style changes unless they impact readability enough to cause bugs."
2. Сроки прекращения поддержки создают срочность
GPT-5.2 Thinking прекращает работу June 5, 2026. Если вы все еще на 5.2, у вас есть три месяца. GPT-5.3 Codex имеет поддержку LTS до February 2027, так что здесь срочности меньше, но направление движения уже понятно.
3. Tool Search — это "скрытый фаворит"
Изначально я не придал значения Tool Search, посчитав это деталью оптимизации. Оказалось, что это самая влиятельная функция для нашего рабочего процесса. Вместо того чтобы отправлять все 12 определений инструментов в каждом вызове API (потребляя ~3K tokens каждый раз), GPT-5.4 динамически обнаруживает инструменты по мере необходимости. Экономия tokens накапливается при наших объемах.
Документация OpenAI гласит, что tool search сократил использование tokens на 47% в их тестах. В нашем воркфлоу с интенсивным использованием инструментов мы увидели около 35% — что все равно существенно.
4. Ощущение от работы изменилось
Это субъективно и трудно поддается количественной оценке, но команда это заметила. GPT-5.4 больше похож на работу со старшим инженером (senior engineer) — он подвергает сомнению предположения, предлагает альтернативы и иногда отвергает подходы, которые считает неоптимальными. GPT-5.3 Codex был более податливым. Считаете ли вы это улучшением, зависит от рабочих процессов вашей команды. Анализ Цви Мошовица называет это "существенным апгрейдом" в рассуждениях и общих способностях, и мы с этим согласны.
Чек-лист миграции
Основываясь на нашем опыте, вот что бы я сделал, если бы мигрировал снова:
Перед переключением
- Проведите аудит парсинга JSON — проверьте обработку markdown блоков кода
- Пересмотрите схемы function calling — протестируйте необязательные и вложенные параметры
- Проверьте логику подсчета tokens и оценки стоимости
- Сверьте конфигурацию rate limiting с лимитами уровней GPT-5.4
- Выявите любые процессы, которые предполагают определенный порядок вызова инструментов
Во время переключения
- Сначала разверните в staging среде
- Запустите обе модели параллельно как минимум на 48 часов
- Отслеживайте различия в форматировании JSON
- Проверяйте процент успешных вызовов function calling
- Сравните качество ответов на ваших конкретных задачах
После переключения
- Включите tool search и измерьте экономию tokens
- Оцените задачи с длинным контекстом на предмет порога оплаты 272K
- Настройте system prompts, если GPT-5.4 слишком навязчив в советах для вашего процесса
- Изучите возможности computer use для новых задач
- Обновите прогнозы затрат на основе реальных данных об использовании
Стоит ли мигрировать сейчас?
Вот моя структура принятия решений:
Мигрируйте немедленно, если:
- Вы используете GPT-5.2 (поддержка заканчивается June 5)
- Вы регулярно упираетесь в лимит контекста 400K
- Вам нужны возможности computer use
- Вы активно используете вызовы инструментов и хотите сэкономить tokens
Мигрируйте в ближайшее время (в течение месяца), если:
- Вам нужны улучшения качества и вы можете выделить неделю на интеграцию
- Вы создаете новые функции, которым выгоден контекст 1M
- Вы хотите подготовиться к будущему до того, как жизненный цикл GPT-5.3 подойдет к концу
Оставайтесь на GPT-5.3 Codex, если:
- Ваши рабочие процессы стабильны и оптимизированы по стоимости
- Вы полагаетесь на его более низкую цену input tokens для задач с большими prompts
- Вам нужна стабильность LTS поддержки до February 2027
- Вы работаете в регулируемой среде, где изменение модели требует формальной проверки
Для наших внутренних инструментов в ZBuild миграция стоила недели работы. Одно только окно контекста 1M изменило возможности нашего инструмента. Но если ваша интеграция с GPT-5.3 Codex работает хорошо и вы не достигаете ее лимитов, спешки нет — планируйте миграцию в своем графике, а не в графике OpenAI.
Уроки для команд, рассматривающих переход
Если бы я мог свести всю миграцию к советам для других инженерных команд, это были бы следующие пять пунктов.
1. Заложите полную неделю на интеграцию, а не просто на смену модели
Смена модели занимает пять минут. Обнаружение всех пограничных случаев в вашей интеграции занимает неделю. Наши проблемы с форматированием JSON, различиями в function calling и предположениями в логировании проявились на реальном трафике, а не во время unit-тестов. Запустите обе модели параллельно как минимум на 48 часов перед окончательным переходом.
2. Эффективность использования tokens компенсирует высокую цену — но не всегда
Для стандартных задач до 100K tokens GPT-5.4 действительно дешевле, несмотря на более высокую цену за token. Но если ваша нагрузка сильно смещена в сторону задач с длинным контекстом (свыше 272K tokens), вы будете платить больше. Смоделируйте стоимость для вашего конкретного паттерна использования перед принятием решения. В руководстве Apiyi по порогам цен есть полезный калькулятор.
3. Tool Search не является опциональным — включите его немедленно
Если вы используете function calling с более чем 5 инструментами, включите tool search в первый же день. Экономия tokens накапливается в масштабе. Для нашей конфигурации с 12 инструментами это сэкономило примерно 3K tokens на вызов — при 800 вызовах в день это 2.4 миллиона tokens ежедневно, или около $6 в день экономии на input costs.
4. Настройте prompts под "характер" GPT-5.4
GPT-5.4 более категоричен, чем GPT-5.3 Codex. Если ваше приложение полагается на то, что модель точно следует инструкциям без редакторских комментариев, добавьте явные ограничения в ваш system prompt. Что-то вроде "Focus on the requested task only. Do not suggest improvements or alternatives unless asked." Это избавило нашу команду от значительного шума в результатах код-ревью.
5. Планируйте миграцию с GPT-5.2 прямо сейчас
Если у вас есть системы, все еще работающие на GPT-5.2 Thinking, дата отключения June 5, 2026 не подлежит обсуждению. Не ждите мая, чтобы начать миграцию. Область интеграции между GPT-5.2 и GPT-5.4 больше, чем разрыв между GPT-5.3 и GPT-5.4, так что ожидайте больше поломок.
GPT-5.4 vs GPT-5.3 Codex: Краткая справочная таблица
Для команд, которым нужно резюме без лишних слов, вот ключевые данные в одном месте:
| Характеристика | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Дата релиза | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Цена input | $1.75/MTok | $2.50/MTok |
| Цена output | $14.00/MTok | $15.00/MTok |
| Надбавка за длинный контекст | Нет | 2x input, 1.5x output выше 272K |
| Computer use | Нет | Да, нативно |
| Tool search | Нет | Да (экономит ~47% tokens) |
| Снижение ошибок | Базовый уровень | на 33% меньше фактических ошибок |
| LTS поддержка | До Feb 2027 | Актуальная модель |
| Лучше всего подходит для | Задач в терминале, чувствительных к цене | Универсальных + агентских воркфлоу |
Месяц спустя: окончательный вердикт
Прошел ровно месяц работы на GPT-5.4. Проблемы с интеграцией решены, команда адаптировалась, показатели стабильны.
Качество: Стало лучше. Меньше ложноположительных срабатываний в код-ревью, более глубокий кросс-модульный анализ, а интеграция computer use добавила рабочий процесс, который раньше был невозможен.
Стоимость: Примерно эквивалентна для стандартных задач, немного выше для задач с длинным контекстом, но общий ежемесячный счет оказался на 3-4% ниже благодаря эффективности использования tokens.
Скорость: Сопоставима. Никакой существенной разницы для нашей нагрузки.
Стабильность: После первой недели исправлений — ноль инцидентов в production.
Обновление не было революционным — оно было постепенным, но позитивным. GPT-5.4 является лучшей моделью для большинства разработчиков в марте 2026 года. Вопрос лишь в том, стоят ли усилия по миграции того в вашей конкретной ситуации.
Если вы создаете инструменты для разработчиков — как мы в ZBuild — использование текущей флагманской модели важно для поддержания конкурентоспособности продукта. Для внутренних инструментов, где приоритетом является стабильность, GPT-5.3 Codex на LTS является вполне обоснованным выбором до начала 2027 года.
Источники
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex