はじめに:なぜこれを日記として書いたのか
ほとんどの GPT-5.4 vs GPT-5.3 の記事は、ベンチマーク表を提示して終わりです。それはアップグレードするかどうかを判断するのには役立ちますが、アップグレード中に実際に何が起こるかを理解するには全く役に立ちません。
私は March 2026 を通じて、本番システム(社内開発者向けツールプラットフォーム)を GPT-5.3 Codex から GPT-5.4 へ移行しました。この記事では、日ごとに何が起こったか、何に驚いたか、何が壊れたか、そして最終的な月間請求額がどのようになったかを記録しています。
もしあなたが自身の移行を計画しているなら、これは私が欲しかったガイドそのものです。
移行前:GPT-5.3 Codex で運用していたもの
切り替え前の私たちのセットアップは以下の通りです:
- アプリケーション: 14 人のエンジニアリングチームが使用する社内コードレビューおよびリファクタリングアシスタント
- API integration: 直接の OpenAI API 呼び出し、ツール利用のための function calling、構造化された JSON 出力
- 平均的な 1 日のボリューム: 約 800 回の API 呼び出し、平均 12K の input tokens と 4K の output tokens
- 月間 API コスト: GPT-5.3 Codex の価格($1.75 input / $14 output per MTok)で約 $1,400
- Context window の使用状況: 定常的に 200-350K tokens に達し、時折 400K の制限で切り詰められる
私たちがもともと GPT-5.3 Codex を選んだ理由は、その 高い coding 特化のパフォーマンス と低い input token コストのためでした。それは 6 ヶ月間、私たちによく貢献してくれました。
1日目:切り替え (March 8, 2026)
移行の機械的な部分は些細なことでした。API 設定の model: "gpt-5.3-codex" を model: "gpt-5.4" に変更し、デプロイするだけで完了です。
第一印象: レスポンスが質的に異なると感じました。必ずしも良い悪いではなく、「違う」のです。GPT-5.4 は推論においてより冗長で、コードを提示する前にその選択の理由をより詳しく説明しました。私たちのコードレビューツールにとって、これは実際には改善でした。レビュアーは提案の背後にある「なぜ」を理解したいと考えていたからです。
レスポンス速度: 短い prompt では明らかに速くなりました。長いものではほぼ同じです。公式データによると GPT-5.4 は 73.4 tokens per second であり、GPT-5.3 Codex も同様の範囲にあるため、速度の差は本物ですが劇的ではありません。
最初の問題: 最初の 1 時間以内に、私たちの JSON パーサーが壊れました。GPT-5.3 Codex は、構造化出力を求めた際に生の JSON を返していました。GPT-5.4 は時折、JSON を markdown のコードブロック( ```json ... ``` )でラップして返しました。これにより、私たちのパースパイプラインが壊れました。
修正: パース前に markdown のコードフェンスを取り除くプリプロセスのステップを追加しました。10 分の修正でしたが、綿密に監視していなければ本番環境でエラーを引き起こしていたでしょう。
2-3日目:Function Calling の違い
私たちのツールは OpenAI の function calling 機能を使用して、リンター、テストランナー、依存関係チェッカーなどのコード分析ツールをモデルに呼び出させていました。GPT-5.3 Codex では、これは完璧に動作していました。
GPT-5.4 では、2 つの問題に直面しました:
問題 1:オプションパラメーターの処理。 関数のパラメーターがオプションのネストされたオブジェクトである場合、GPT-5.3 Codex は不要であればそれを省略していました。GPT-5.4 は時折、代わりに空のオブジェクト {} を送信し、それが原因で私たちのバリデーションが呼び出しを拒否しました。
問題 2:Tool Search の挙動。 GPT-5.4 では Tool Search が導入されました。これは、すべてのツール定義を事前に入力するのではなく、利用可能なツールを動的に発見する機能です。これは強力な機能で、OpenAI は token 使用量を 47% 削減すると報告していますが、ツールの呼び出しタイミングが変化しました。私たちのロギングシステムはツールが特定の順序で呼び出されることを期待していましたが、GPT-5.4 は時折それらを並べ替えました。
問題 1 の修正: オプションパラメーターに対して空のオブジェクトを受け入れるように Zod のバリデーションスキーマを更新しました。2 時間の作業でした。
問題 2 の修正: ロギングを順序に依存しないように書き直しました。半日の作業です。モデルに関わらず新しいアプローチの方が堅牢であるため、やる価値はありました。
4-5日目:Context Window がすべてを変える
これは最初の純粋にエキサイティングな瞬間でした。GPT-5.3 Codex は 400K token の制限がありました。最大のレポジトリに対して、私たちは精巧なチャンク分割システムを構築していました。コードベースをセグメントに分割し、各セグメントで分析を実行し、結果をつなぎ合わせるというものです。
GPT-5.4 は API 経由で最大 1,050,000 tokens をサポートしています。Codex ユーザーにとって、フル 1M の context が利用可能です。
これが実際に意味したこと: 私たちの最大のレポジトリである 280 ファイルの TypeScript monorepo が、一つの context に完全にロードできるようになりました。もうチャンク分割は不要です。継ぎ目のある分析結果もありません。context が分割されていたときには見えなかったモジュール間の依存関係をモデルが見ることができるようになったため、このレポジトリでのコードレビューの質は劇的に向上しました。
注意点: 272K tokens を超える prompt は input が 2 倍、output が 1.5 倍の価格 に設定されています。そのため、280 ファイルのレポジトリをフルで context として送信すると、呼び出しあたりのコストが大幅に高くなります。結局、モジュールをまたぐタスクにはフルレポジトリをロードし、単一ファイルのタスクにはターゲットを絞った context を使用するスマートな context 選択システムを構築することになりました。
1週目のまとめ:壊れたもの
1 週目の終わりまでに、壊れたもの、あるいは調整が必要だったものの完全なリストは以下の通りです:
- JSON 出力フォーマット — Markdown コードブロックのラッピング(10 分の修正)
- Function calling のバリデーション — オプションパラメーターの空オブジェクト(2 時間の修正)
- Tool 呼び出しの順序 — ロギングが逐次呼び出しを想定していた(半日の修正)
- Token カウント — GPT-5.4 はレスポンスあたりの使用 token 数が少ないため、コスト見積もりがずれていた(計算式の更新)
- Rate limiting — 私たちの rate limiter は GPT-5.3 Codex の制限に合わせて設定されていました。GPT-5.4 は異なる tier の閾値を持っています(設定変更)
これらはどれも致命的なものではありませんでした。すべて 1 日以内に修正可能でした。しかし、本番システムを移行する場合は、テストとパッチ適用のために丸 1 週間を予算に組み込んでおくべきです。
2週目:改善が見え始める
移行の摩擦が収まると、改善点が明確になってきました。
Computer Use が新しいワークフローを切り拓いた
GPT-5.4 は ネイティブな computer-use 機能を備えた最初の汎用モデル です。デスクトップアプリケーション、ブラウザ、システムツールと直接やり取りできます。
私たちのユースケースでは、これにより GPT-5.3 Codex ではできなかったことが可能になりました。モデルがテストスイートを実行し、出力を観察し、静的分析だけでなく実際のテスト結果に基づいてコードレビューの提案を調整できるようになったのです。以前は、テスト出力を手動で context に流し込む必要がありました。今ではモデルが実行し、観察できます。
約 3 日間で新しい「テスト認識レビュー」モードを構築したところ、純粋な静的分析では見逃されていた 2 つのバグを即座に発見しました。
Token の効率性は本物だった
OpenAI は GPT-5.4 が タスクあたりの output tokens が少なくて済む と主張しています。2 週間の本番データの後、私たちはこれを確認しました。GPT-5.4 は同等のタスクに対して平均 3.1K output tokens であり、GPT-5.3 Codex の 4.0K と比較して 22.5% の削減となりました。
Tool search による input tokens の削減と合わせると、タスクあたりの総 token 消費量は約 30% 減少しました。
エラーの減少が顕著に
OpenAI によれば、GPT-5.4 は 事実誤認が 33% 減少 しています。私たちのコードレビューの文脈では、これは誤検知の提案が減ることを意味しました。モデルが正しいコードを問題ありとしてフラグを立てる可能性が低くなったのです。チームの「提案を却下」する割合は 18% から 11% に低下しました。
3週目:コストの全貌が明らかに
ここが皆が知りたがっている部分でしょう。3 週間フルで本番環境にて GPT-5.4 を稼働させ、過去の GPT-5.3 Codex のデータと比較した結果がこちらです:
1日あたりの API コスト(平均)
| 指標 | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| 1日の呼び出し数 | ~800 | ~800 |
| 平均 input tokens/call | 12,000 | 11,200 |
| 平均 output tokens/call | 4,000 | 3,100 |
| Input 単価 | $1.75/MTok | $2.50/MTok |
| Output 単価 | $14.00/MTok | $15.00/MTok |
| 1日の input コスト | $16.80 | $22.40 |
| 1日の output コスト | $44.80 | $37.20 |
| 1日の合計 | $61.60 | $59.60 |
月間予測: GPT-5.3 Codex は約 $1,848 でした。GPT-5.4 は約 $1,788 と予測されます。約 $60/月 (3.2%) の節約です。GPT-5.4 の公称価格の方が 高い ことを考えると、控えめながらも注目すべき結果です。
この節約は完全に token の効率性によるものです。GPT-5.4 は同じタスクを達成するためにより少ない token しか使用しないため、私たちのワークロードにおいては token 単価の上昇を十分に相殺できました。
コストが上がった箇所
272K tokens を超えるロングコンテキストのタスクは、long-context surcharge のために GPT-5.4 では大幅にコストが上がりました。私たちは 1 日に約 15 回(フルレポジトリレビュー)これらを実行しています。それらの特定の呼び出しについては、コストは約 40% 増加しました。
コストが下がった箇所
ボリュームの 95% を占める 100K tokens 未満の標準的なタスクは、output token 数が少ないため安くなりました。これが、残りの 5% における long-context surcharge を補って余りある結果となりました。
予想外だったこと
1. GPT-5.4 はコードスタイルにこだわりが強い
GPT-5.3 Codex はスタイルに関しては比較的中立で、コードベースに存在するパターンに従っていました。GPT-5.4 はより強い意見を持っています。バグ修正だけを求めた場合でも、明快さのための変数名の変更、条件分岐の再構成、関数の抽出などを提案してきます。
これは良くもあり、煩わしくもあります。提案が通常妥当であるという点では良いのですが、チームがピンポイントのフィードバックだけを求めている場合にはコードレビューにノイズを加えることになります。
私たちの修正: システムプロンプトに指示を追加しました。「正確性とセキュリティの問題にのみ集中してください。可読性がバグを引き起こすほど悪化していない限り、スタイルの変更を提案しないでください。」
2. 非推奨スケジュールによる緊急性
GPT-5.2 Thinking は June 5, 2026 に引退します。まだ 5.2 を使っているなら、残り 3 ヶ月です。GPT-5.3 Codex は February 2027 まで LTS サポートがあります。そのため緊急性は低いですが、先は見えています。
3. Tool Search は隠れた重要機能だった
当初、私は Tool Search を単なる最適化の詳細として片付けていました。しかし、結果的には私たちのワークフローにとって最も影響力のある機能となりました。すべての API 呼び出しに 12 個のツール定義をすべて送信する(毎回約 3K tokens 消費)代わりに、GPT-5.4 は必要に応じて動的にツールを発見します。私たちのボリュームでは、この token 節約が積み重なります。
OpenAI のドキュメント によれば、tool search はテストにおいて token 使用量を 47% 削減しました。私たちのツール多用のワークフローでは約 35% でしたが、それでも非常に大きいです。
4. 「バイブス(Vibe)」が変わった
これは主観的で数値化しにくいものですが、チームはそれに気づきました。GPT-5.4 はシニアエンジニアと一緒に働いているような感覚に近いのです。前提条件を疑い、代替案を提示し、時には最適ではないと判断したアプローチに異を唱えることもあります。GPT-5.3 Codex はより従順でした。これを改善と捉えるかどうかはチームのワークフローによります。Zvi Mowshowitz の分析 では、推論と全般的な能力における「大幅なアップグレード」と呼ばれており、私たちも同感です。
移行チェックリスト
私たちの経験に基づき、もし私がもう一度移行するならこうするというリストです:
切り替え前
- JSON パースの監査 — markdown のコードフェンス処理を確認
- Function calling スキーマの確認 — オプションおよびネストされたパラメーターのテスト
- Token カウントとコスト見積もりロジックの確認
- GPT-5.4 tier limits に対する rate limiting 設定の検証
- ツール呼び出しの順序を想定しているワークフローの特定
切り替え中
- まず staging 環境にデプロイ
- 少なくとも 48 時間は両方のモデルを並行稼働
- JSON フォーマットの差異を監視
- Function calling の成功率を確認
- 特定のタスクにおける出力品質を比較
切り替え後
- Tool search を有効にし、token 節約量を測定
- 272K の価格閾値について、ロングコンテキストタスクを評価
- GPT-5.4 の主張が強すぎる場合はシステムプロンプトを調整
- 新しいワークフローのために computer use 機能を探索
- 実際の使用データでコスト予測を更新
今すぐ移行すべきか?
私の判断基準は以下の通りです:
すぐに移行すべきケース:
- GPT-5.2 を使用している(June 5 に終了するため)
- 定常的に 400K の context 制限に達している
- Computer use 機能が必要である
- ツールの呼び出しが多く、token 節約を求めている
近いうちに(1ヶ月以内)移行すべきケース:
- 品質向上を求めており、1 週間の統合作業を許容できる
- 1M context の恩恵を受ける新機能を構築している
- GPT-5.3 が最終的にサポート終了になる前に将来に備えたい
GPT-5.3 Codex に留まるべきケース:
- ワークフローが安定しており、コストが最適化されている
- prompt 重視のワークロードで、低い input token 価格に依存している
- February 2027 までの LTS サポート による安定性を求めている
- モデルの変更に正式な審査が必要な規制環境にいる
ZBuild における私たちの社内ツールについては、移行には 1 週間の作業価値がありました。1M context window だけで、ツールの可能性が変わりました。しかし、もしあなたの GPT-5.3 Codex 統合がうまく機能しており、制限に達していないのであれば、急ぐ必要はありません。OpenAI のスケジュールではなく、あなた自身のタイムラインで移行を計画してください。
切り替えを検討しているチームへの教訓
移行全体を他のエンジニアリングチームへのアドバイスとして凝縮するなら、以下の 5 点になります。
1. 単なるモデルの差し替えではなく、統合に丸 1 週間を予算化する
モデルの差し替え自体は 5 分で終わります。しかし、統合におけるすべてのエッジケースを見つけ出すには 1 週間かかります。私たちの JSON フォーマットの問題、function calling の違い、ロギングの前提条件はすべて、ユニットテストではなく実際のトラフィック下で表面化しました。完全に切り替える前に、少なくとも 48 時間は両方のモデルを並行稼働させてください。
2. Token の効率性は価格の上昇を相殺する — ただし常にではない
100K tokens 未満の標準的なタスクでは、token 単価が高くても GPT-5.4 の方が実質的に安くなります。しかし、ワークロードがロングコンテキストのタスク(272K tokens 以上)に大きく偏っている場合は、より多くの費用を支払うことになります。コミットする前に、自分たちの特定の利用パターン でコストをモデル化してください。Apiyi pricing threshold guide には便利な計算機があります。
3. Tool Search はオプションではない — すぐに有効化する
5 つ以上のツールで function calling を使用している場合は、初日から tool search を有効にしてください。大規模運用では token の節約が複利で効いてきます。私たちの 12 ツールのセットアップでは、呼び出しごとに約 3K tokens 節約できました。1 日 800 回の呼び出しで、毎日 240 万 tokens、input コストで 1 日あたり約 $6 の節約になります。
4. GPT-5.4 の性格に合わせてプロンプトを調整する
GPT-5.4 は GPT-5.3 Codex よりも主張が強いです。アプリケーションが編集的なコメントなしに指示に正確に従うことを重視している場合は、システムプロンプトに明示的な制約を追加してください。「要求されたタスクのみに集中してください。求められない限り、改善案や代替案を提案しないでください」といった指示が、私たちのチームのコードレビュー出力におけるノイズを大幅に減らしてくれました。
5. GPT-5.2 の移行を今すぐ計画する
まだ GPT-5.2 Thinking で稼働しているシステムがある場合、June 5, 2026 の引退 は交渉の余地がありません。5 月まで移行を待たないでください。GPT-5.2 と GPT-5.4 の間の統合の差分は、GPT-5.3 から GPT-5.4 への差分よりも大きいため、より多くの不具合が予想されます。
GPT-5.4 vs GPT-5.3 Codex:クイックリファレンス表
物語抜きの要約を求めるチームのために、主要データを 1 箇所にまとめました:
| 機能 | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| リリース日 | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Input 価格 | $1.75/MTok | $2.50/MTok |
| Output 価格 | $14.00/MTok | $15.00/MTok |
| ロングコンテキスト追加料金 | なし | 272K 以上で input 2倍、output 1.5倍 |
| Computer use | なし | あり(ネイティブ) |
| Tool search | なし | あり(~47% の token 節約) |
| エラー削減 | ベースライン | 事実誤認が 33% 減少 |
| LTS サポート | Feb 2027 まで | 最新モデル |
| 最適な用途 | Terminal 重視の、コストに敏感な作業 | General-purpose + agentic workflows |
1ヶ月後:最終的な判定
GPT-5.4 に移行してから丸 1 ヶ月が経ちました。統合の問題は解決され、チームも慣れ、数値も安定しています。
品質: 向上しました。コードレビューにおける誤検知が減り、モジュールをまたぐ分析が改善され、computer use の統合により以前は不可能だったワークフローが追加されました。
コスト: 標準的なタスクではほぼ同等、ロングコンテキストのタスクではわずかに高くなりましたが、token 効率のおかげで月間の総請求額は 3-4% 低くなりました。
速度: ほぼ同じです。私たちのワークロードにおいて意味のある差はありません。
安定性: 最初の 1 週間の修正以降、本番環境での問題はゼロです。
このアップグレードは劇的な変化ではありませんでしたが、漸進的かつポジティブなものでした。GPT-5.4 は、March 2026 時点におけるほとんどの開発者にとってより優れたモデルです。問題は、あなたの特定の状況において移行の労力が見合うかどうかだけです。
もしあなたが ZBuild のように開発者ツールを構築しているなら、最新のフラッグシップモデルを使い続けることは製品の競争力を維持するために重要です。安定性が最優先される社内ツールであれば、LTS サポート下にある GPT-5.3 Codex は 2027 年初頭まで十分に有効な選択肢です。
情報源
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex