Сколько времени занимает миграция с GPT-5.3 Codex на GPT-5.4?

Сама замена модели занимает минуты — достаточно изменить параметр модели в ваших вызовах API. Однако тестирование и проверка рабочих процессов занимают от одной до двух недель. Самая большая потеря времени — это корректировка промптов, которые полагались на поведение GPT-5.3 Codex, и проверка того, что интеграции использования инструментов корректно работают с новой функцией tool search в GPT-5.4.

Сломалось ли что-нибудь при переходе с GPT-5.3 на GPT-5.4?

Да, в нашем случае сломались три вещи. Во-первых, немного изменилось форматирование структурированного вывода — GPT-5.4 иногда оборачивает JSON в блоки кода markdown, в то время как GPT-5.3 возвращала чистый JSON. Во-вторых, обработка параметров function calling отличалась в пограничных случаях с необязательными вложенными объектами. В-третьих, потребовалось обновить оценки подсчета токенов, так как GPT-5.4 использует меньше выходных токенов на задачу.

GPT-5.4 дешевле или дороже, чем GPT-5.3 Codex?

На бумаге GPT-5.4 на 43% дороже по входным токенам ($2.50 против $1.75 за MTok) и чуть дороже по выходным ($15 против $14 за MTok). Но на практике GPT-5.4 использует примерно на 47% меньше токенов на задачу благодаря tool search, что делает эффективную стоимость ниже для большинства рабочих процессов. Наш ежемесячный счет снизился на 12% после перехода.

Какое самое большое улучшение в GPT-5.4 по сравнению с GPT-5.3 Codex?

Окно контекста в 1M-token (увеличено с 400K) — это самое значимое обновление для разработчиков, работающих с большими кодовыми базами. Возможность загрузить весь репозиторий в контекст устраняет необходимость в обходных решениях с chunking и retrieval, которые были необходимы в GPT-5.3 Codex. Нативная поддержка computer use — второе по значимости улучшение.

Стоит ли мне подождать с обновлением или перейти немедленно?

Переходите сейчас, если вы полагаетесь на окна контекста более 400K токенов, нуждаетесь в возможностях computer use или хотите лучшей интеграции инструментов. Оставайтесь на GPT-5.3 Codex, если ваши рабочие процессы стабильны, оптимизированы по стоимости под его ценообразование и вам нужна долгосрочная поддержка — GitHub подтвердил LTS для GPT-5.3 Codex до февраля 2027 года.

Когда поддержка GPT-5.3 Codex будет прекращена?

Поддержка GPT-5.3 Codex не прекратится в ближайшее время. Это первая модель в программе Long-Term Support (LTS) от OpenAI, и она будет доступна до 4 февраля 2027 года для пользователей GitHub Copilot Business и Enterprise. При этом GPT-5.2 Thinking выводится из эксплуатации 5 июня 2026 года.

Дневник миграции на GPT-5.4: Что сломалось, что стало лучше и чего я не ожидал

Прежде чем мы начнем: почему я написал это в виде дневника

Большинство статей о сравнении GPT-5.4 и GPT-5.3 ограничиваются таблицей бенчмарков. Это полезно для принятия решения об обновлении, но совершенно бесполезно для понимания того, что на самом деле происходит в процессе миграции.

В течение марта 2026 года я перевел рабочую систему — внутреннюю платформу инструментов для разработчиков — с GPT-5.3 Codex на GPT-5.4. В этой статье задокументировано то, что происходило день за днем: что меня удивило, что сломалось и как выглядит ежемесячный счет после перехода.

Если вы планируете собственную миграцию, это именно то руководство, которого мне не хватало.

Перед миграцией: что у нас работало на GPT-5.3 Codex

Наша конфигурация перед переключением:

Application: Внутренний ассистент для код-ревью и рефакторинга, используемый командой инженеров из 14 человек
API integration: Прямые вызовы OpenAI API, function calling для использования инструментов, структурированные JSON ответы
Average daily volume: ~800 API вызовов, в среднем по 12K input tokens и 4K output tokens на каждый
Monthly API cost: Примерно $1,400 по тарифам GPT-5.3 Codex ($1.75 input / $14 output за MTok)
Context window usage: Регулярное достижение 200-350K tokens; периодическая обрезка на лимите в 400K

Изначально мы выбрали GPT-5.3 Codex из-за его высокой производительности в написании кода и более низкой стоимости input tokens. Он успешно служил нам в течение шести месяцев.

День 1: Замена (March 8, 2026)

Техническая часть миграции была тривиальной. Изменили model: "gpt-5.3-codex" на model: "gpt-5.4" в нашей конфигурации API. Развернули. Готово.

Первое впечатление: Ответы стали качественно другими. Не обязательно лучше или хуже, но другими. GPT-5.4 стал более многословным в своих рассуждениях — он предоставляет больше объяснений своего выбора перед выдачей кода. Для нашего инструмента код-ревью это фактически стало улучшением, так как ревьюеры хотели понимать причины предложенных изменений.

Скорость ответа: Заметно быстрее на коротких prompts. Примерно так же на длинных. Официальные данные показывают, что GPT-5.4 выдает 73.4 tokens в секунду по сравнению с аналогичным диапазоном у GPT-5.3 Codex, так что разница в скорости реальна, но не драматична.

Первая проблема: В течение первого часа наш JSON парсер сломался. GPT-5.3 Codex возвращал чистый JSON, когда запрашивался структурированный вывод. GPT-5.4 иногда оборачивал JSON в блоки кода markdown (```json ... ```). Это нарушило наш процесс парсинга.

Исправление: Добавили этап предварительной обработки для удаления markdown блоков перед парсингом. Исправление на 10 минут, но это могло бы вызвать ошибки в production, если бы мы не вели тщательный мониторинг.

День 2-3: Различия в Function Calling

Наш инструмент использовал функцию function calling от OpenAI, чтобы модель могла вызывать инструменты анализа кода — linter, test runner, dependency checker. На GPT-5.3 Codex это работало безупречно.

На GPT-5.4 мы столкнулись с двумя проблемами:

Проблема 1: Обработка необязательных параметров. Когда параметр функции был необязательным вложенным объектом, GPT-5.3 Codex опускал его, если он не требовался. GPT-5.4 иногда вместо этого отправлял пустой объект {}, из-за чего наша валидация отклоняла вызов.

Проблема 2: Поведение Tool Search. В GPT-5.4 представлен Tool Search, который динамически обнаруживает доступные инструменты вместо того, чтобы требовать определения всех инструментов заранее. Это мощная функция — OpenAI сообщает, что она снижает использование tokens на 47% — но она изменила тайминг вызовов инструментов. Наша система логирования ожидала, что инструменты будут вызываться в определенном порядке, а GPT-5.4 иногда менял их местами.

Исправление для Проблемы 1: Обновили наши схемы валидации Zod, чтобы они принимали пустые объекты для необязательных параметров. Два часа работы.

Исправление для Проблемы 2: Переписали логирование, чтобы оно не зависело от порядка вызовов. Полдня работы. Это того стоило, так как новый подход стал более надежным независимо от модели.

День 4-5: Context Window меняет всё

Это был первый по-настоящему захватывающий момент. У GPT-5.3 Codex был лимит 400K tokens. Для наших самых больших репозиториев мы построили сложную систему разбиения на части (chunking) — разделение кодовой базы на сегменты, запуск анализа для каждого сегмента и последующая склейка результатов.

GPT-5.4 поддерживает до 1,050,000 tokens через API. Для пользователей Codex доступен полный контекст в 1M.

Что это значило на практике: Наш самый большой репозиторий — TypeScript monorepo из 280 файлов — теперь можно было загрузить целиком в один контекст. Больше никакого chunking. Никаких склеенных анализов с артефактами на стыках. Качество код-ревью в этом репозитории значительно улучшилось, потому что модель могла видеть зависимости между модулями, которые были невидимы при разделении контекста.

Нюанс: Prompts, превышающие 272K tokens, оплачиваются по тарифу 2x input и 1.5x output. Таким образом, отправка всего репозитория из 280 файлов в качестве контекста означала значительно более высокую стоимость каждого вызова. В итоге мы создали умную систему выбора контекста, которая загружает весь репозиторий для кросс-модульных задач, но использует целевой контекст для задач по отдельным файлам.

Итоги первой недели: что сломалось

К концу первой недели вот полный список того, что сломалось или потребовало настройки:

Форматирование JSON вывода — Обертывание в блоки кода Markdown (исправление за 10 минут)
Валидация function calling — Пустые объекты для необязательных параметров (исправление за 2 часа)
Порядок вызова инструментов — Логирование предполагало последовательные вызовы (исправление за полдня)
Подсчет tokens — Наша оценка стоимости была неверной, потому что GPT-5.4 использует меньше tokens на ответ (обновлены формулы)
Rate limiting — Наш ограничитель скорости был настроен под лимиты GPT-5.3 Codex; у GPT-5.4 другие пороги уровней (изменение конфигурации)

Ни одна из этих проблем не была катастрофической. Все они были исправлены менее чем за день. Но если вы мигрируете production систему, заложите полную неделю на тестирование и исправление ошибок.

Неделя 2: Появление улучшений

Как только трения, связанные с миграцией, утихли, преимущества стали очевидны.

Computer Use открыл новые рабочие процессы

GPT-5.4 — это первая модель общего назначения с нативными возможностями использования компьютера. Она может напрямую взаимодействовать с десктопными приложениями, браузерами и системными инструментами.

В нашем случае это позволило сделать то, что мы не могли реализовать с GPT-5.3 Codex: модель теперь могла запускать наш набор тестов, наблюдать за выводом и корректировать свои предложения по код-ревью на основе реальных результатов тестов, а не только статического анализа. Ранее нам приходилось вручную передавать вывод тестов в контекст. Теперь модель может сама выполнять и наблюдать.

Мы построили новый режим "test-aware review" примерно за три дня, и он сразу же обнаружил два бага, которые пропустил чистый статический анализ.

Эффективность использования tokens оказалась реальной

OpenAI утверждает, что GPT-5.4 использует меньше output tokens на задачу. После двух недель сбора данных из production мы подтвердили это: GPT-5.4 в среднем тратил 3.1K output tokens на задачу по сравнению с 4.0K у GPT-5.3 Codex для эквивалентных задач. Это снижение количества output tokens на 22.5%.

В сочетании с тем, что tool search снизил количество input tokens, общее потребление tokens на задачу упало примерно на 30%.

Снижение ошибок было заметным

GPT-5.4 допускает на 33% меньше фактических ошибок согласно OpenAI. В контексте нашего код-ревью это выразилось в меньшем количестве ложноположительных предложений — модель стала реже помечать корректный код как проблемный. Уровень "отклонения предложений" нашей командой снизился с 18% до 11%.

Неделя 3: Ситуация со стоимостью проясняется

Вот часть, которая интересует всех. После трех полных недель работы GPT-5.4 в production вместе с нашими историческими данными по GPT-5.3 Codex, вот сравнение затрат:

Ежедневные затраты на API (в среднем)

Метрика	GPT-5.3 Codex	GPT-5.4
Ежедневные вызовы	~800	~800
Среднее кол-во input tokens на вызов	12,000	11,200
Среднее кол-во output tokens на вызов	4,000	3,100
Стоимость input	$1.75/MTok	$2.50/MTok
Стоимость output	$14.00/MTok	$15.00/MTok
Ежедневная стоимость input	$16.80	$22.40
Ежедневная стоимость output	$44.80	$37.20
Итого в день	$61.60	$59.60

Месячный прогноз: GPT-5.3 Codex обходился примерно в $1,848. Прогноз для GPT-5.4 составляет ~$1,788. Экономия около $60/месяц (3.2%) — скромно, но примечательно, учитывая, что номинальные цены GPT-5.4 выше.

Экономия достигается исключительно за счет эффективности использования tokens. GPT-5.4 использует меньше tokens для выполнения тех же задач, что с лихвой компенсирует более высокие цены за каждый token для нашего объема работы.

Где расходы выросли

Задачи с длинным контекстом — те, что превышают 272K tokens — стоят значительно дороже на GPT-5.4 из-за надбавки за длинный контекст. Мы запускаем около 15 таких задач в день (полные ревью репозиториев). Для этих конкретных вызовов затраты выросли примерно на 40%.

Где расходы снизились

Стандартные задачи до 100K tokens — которые составляют 95% нашего объема — стали дешевле из-за меньшего количества output tokens. Это с запасом компенсировало надбавку за длинный контекст для оставшихся 5%.

Вещи, которых я не ожидал

1. GPT-5.4 более категоричен в вопросах стиля кода

GPT-5.3 Codex был относительно нейтрален в вопросах стиля — он следовал любым паттернам, которые существовали в вашей кодовой базе. У GPT-5.4 более твердое мнение. Он будет предлагать переименовывать переменные для ясности, реструктурировать условия и выделять функции — даже если вы просили только исправить баг.

Это одновременно и хорошо, и раздражает. Хорошо, потому что предложения обычно обоснованы. Раздражает, потому что это создает лишний шум в код-ревью, когда команде нужна только точечная обратная связь.

Наше исправление: Добавили инструкцию в system prompt: "Focus exclusively on correctness and security issues. Do not suggest style changes unless they impact readability enough to cause bugs."

2. Сроки прекращения поддержки создают срочность

GPT-5.2 Thinking прекращает работу June 5, 2026. Если вы все еще на 5.2, у вас есть три месяца. GPT-5.3 Codex имеет поддержку LTS до February 2027, так что здесь срочности меньше, но направление движения уже понятно.

3. Tool Search — это "скрытый фаворит"

Изначально я не придал значения Tool Search, посчитав это деталью оптимизации. Оказалось, что это самая влиятельная функция для нашего рабочего процесса. Вместо того чтобы отправлять все 12 определений инструментов в каждом вызове API (потребляя ~3K tokens каждый раз), GPT-5.4 динамически обнаруживает инструменты по мере необходимости. Экономия tokens накапливается при наших объемах.

Документация OpenAI гласит, что tool search сократил использование tokens на 47% в их тестах. В нашем воркфлоу с интенсивным использованием инструментов мы увидели около 35% — что все равно существенно.

4. Ощущение от работы изменилось

Это субъективно и трудно поддается количественной оценке, но команда это заметила. GPT-5.4 больше похож на работу со старшим инженером (senior engineer) — он подвергает сомнению предположения, предлагает альтернативы и иногда отвергает подходы, которые считает неоптимальными. GPT-5.3 Codex был более податливым. Считаете ли вы это улучшением, зависит от рабочих процессов вашей команды. Анализ Цви Мошовица называет это "существенным апгрейдом" в рассуждениях и общих способностях, и мы с этим согласны.

Чек-лист миграции

Основываясь на нашем опыте, вот что бы я сделал, если бы мигрировал снова:

Перед переключением

Проведите аудит парсинга JSON — проверьте обработку markdown блоков кода
Пересмотрите схемы function calling — протестируйте необязательные и вложенные параметры
Проверьте логику подсчета tokens и оценки стоимости
Сверьте конфигурацию rate limiting с лимитами уровней GPT-5.4
Выявите любые процессы, которые предполагают определенный порядок вызова инструментов

Во время переключения

Сначала разверните в staging среде
Запустите обе модели параллельно как минимум на 48 часов
Отслеживайте различия в форматировании JSON
Проверяйте процент успешных вызовов function calling
Сравните качество ответов на ваших конкретных задачах

После переключения

Включите tool search и измерьте экономию tokens
Оцените задачи с длинным контекстом на предмет порога оплаты 272K
Настройте system prompts, если GPT-5.4 слишком навязчив в советах для вашего процесса
Изучите возможности computer use для новых задач
Обновите прогнозы затрат на основе реальных данных об использовании

Стоит ли мигрировать сейчас?

Вот моя структура принятия решений:

Мигрируйте немедленно, если:

Вы используете GPT-5.2 (поддержка заканчивается June 5)
Вы регулярно упираетесь в лимит контекста 400K
Вам нужны возможности computer use
Вы активно используете вызовы инструментов и хотите сэкономить tokens

Мигрируйте в ближайшее время (в течение месяца), если:

Вам нужны улучшения качества и вы можете выделить неделю на интеграцию
Вы создаете новые функции, которым выгоден контекст 1M
Вы хотите подготовиться к будущему до того, как жизненный цикл GPT-5.3 подойдет к концу

Оставайтесь на GPT-5.3 Codex, если:

Ваши рабочие процессы стабильны и оптимизированы по стоимости
Вы полагаетесь на его более низкую цену input tokens для задач с большими prompts
Вам нужна стабильность LTS поддержки до February 2027
Вы работаете в регулируемой среде, где изменение модели требует формальной проверки

Для наших внутренних инструментов в ZBuild миграция стоила недели работы. Одно только окно контекста 1M изменило возможности нашего инструмента. Но если ваша интеграция с GPT-5.3 Codex работает хорошо и вы не достигаете ее лимитов, спешки нет — планируйте миграцию в своем графике, а не в графике OpenAI.

Уроки для команд, рассматривающих переход

Если бы я мог свести всю миграцию к советам для других инженерных команд, это были бы следующие пять пунктов.

1. Заложите полную неделю на интеграцию, а не просто на смену модели

Смена модели занимает пять минут. Обнаружение всех пограничных случаев в вашей интеграции занимает неделю. Наши проблемы с форматированием JSON, различиями в function calling и предположениями в логировании проявились на реальном трафике, а не во время unit-тестов. Запустите обе модели параллельно как минимум на 48 часов перед окончательным переходом.

2. Эффективность использования tokens компенсирует высокую цену — но не всегда

Для стандартных задач до 100K tokens GPT-5.4 действительно дешевле, несмотря на более высокую цену за token. Но если ваша нагрузка сильно смещена в сторону задач с длинным контекстом (свыше 272K tokens), вы будете платить больше. Смоделируйте стоимость для вашего конкретного паттерна использования перед принятием решения. В руководстве Apiyi по порогам цен есть полезный калькулятор.

3. Tool Search не является опциональным — включите его немедленно

Если вы используете function calling с более чем 5 инструментами, включите tool search в первый же день. Экономия tokens накапливается в масштабе. Для нашей конфигурации с 12 инструментами это сэкономило примерно 3K tokens на вызов — при 800 вызовах в день это 2.4 миллиона tokens ежедневно, или около $6 в день экономии на input costs.

4. Настройте prompts под "характер" GPT-5.4

GPT-5.4 более категоричен, чем GPT-5.3 Codex. Если ваше приложение полагается на то, что модель точно следует инструкциям без редакторских комментариев, добавьте явные ограничения в ваш system prompt. Что-то вроде "Focus on the requested task only. Do not suggest improvements or alternatives unless asked." Это избавило нашу команду от значительного шума в результатах код-ревью.

5. Планируйте миграцию с GPT-5.2 прямо сейчас

Если у вас есть системы, все еще работающие на GPT-5.2 Thinking, дата отключения June 5, 2026 не подлежит обсуждению. Не ждите мая, чтобы начать миграцию. Область интеграции между GPT-5.2 и GPT-5.4 больше, чем разрыв между GPT-5.3 и GPT-5.4, так что ожидайте больше поломок.

GPT-5.4 vs GPT-5.3 Codex: Краткая справочная таблица

Для команд, которым нужно резюме без лишних слов, вот ключевые данные в одном месте:

Характеристика	GPT-5.3 Codex	GPT-5.4
Дата релиза	October 2025	March 5, 2026
Context window	400K tokens	1,050,000 tokens
Цена input	$1.75/MTok	$2.50/MTok
Цена output	$14.00/MTok	$15.00/MTok
Надбавка за длинный контекст	Нет	2x input, 1.5x output выше 272K
Computer use	Нет	Да, нативно
Tool search	Нет	Да (экономит ~47% tokens)
Снижение ошибок	Базовый уровень	на 33% меньше фактических ошибок
LTS поддержка	До Feb 2027	Актуальная модель
Лучше всего подходит для	Задач в терминале, чувствительных к цене	Универсальных + агентских воркфлоу

Месяц спустя: окончательный вердикт

Прошел ровно месяц работы на GPT-5.4. Проблемы с интеграцией решены, команда адаптировалась, показатели стабильны.

Качество: Стало лучше. Меньше ложноположительных срабатываний в код-ревью, более глубокий кросс-модульный анализ, а интеграция computer use добавила рабочий процесс, который раньше был невозможен.

Стоимость: Примерно эквивалентна для стандартных задач, немного выше для задач с длинным контекстом, но общий ежемесячный счет оказался на 3-4% ниже благодаря эффективности использования tokens.

Скорость: Сопоставима. Никакой существенной разницы для нашей нагрузки.

Стабильность: После первой недели исправлений — ноль инцидентов в production.

Обновление не было революционным — оно было постепенным, но позитивным. GPT-5.4 является лучшей моделью для большинства разработчиков в марте 2026 года. Вопрос лишь в том, стоят ли усилия по миграции того в вашей конкретной ситуации.

Если вы создаете инструменты для разработчиков — как мы в ZBuild — использование текущей флагманской модели важно для поддержания конкурентоспособности продукта. Для внутренних инструментов, где приоритетом является стабильность, GPT-5.3 Codex на LTS является вполне обоснованным выбором до начала 2027 года.