從 GPT-5.3 Codex 遷移到 GPT-5.4 需要多長時間？

模型切換本身只需幾分鐘 —— 只需更改 API calls 中的模型參數。然而，測試和驗證工作流需要一到兩週的時間。最大的時間消耗在於調整依賴 GPT-5.3 Codex 行為的 prompts，以及驗證 tool-use 整合是否能與 GPT-5.4 的新 tool search 功能正常運作。

從 GPT-5.3 切換到 GPT-5.4 時有任何損壞嗎？

是的，在我們的案例中有三件事壞了。首先，結構化輸出格式發生了細微變化 —— 當 GPT-5.3 返回 raw JSON 時，GPT-5.4 有時會將 JSON 包裹在 markdown code blocks 中。其次，在帶有選擇性 nested objects 的 edge cases 下，function calling 的參數處理有所不同。第三，token counting 估計需要更新，因為 GPT-5.4 每個任務使用的 output tokens 更少。

GPT-5.4 比 GPT-5.3 Codex 更便宜還是更貴？

從帳面上看，GPT-5.4 的 input tokens 貴了 43%（每 MTok $2.50 vs $1.75），output 則略高（每 MTok $15 vs $14）。但在實踐中，由於 tool search，GPT-5.4 每個任務使用的 tokens 減少了約 47%，使得大多數工作流的有效成本更低。切換後我們的月帳單下降了 12%。

與 GPT-5.3 Codex 相比，GPT-5.4 最大的改進是什麼？

1M-token 的 context window（從 400K 增加）對於處理大型 codebases 的開發者來說是影響最重大的升級。能夠將整個 repository 載入 context，消除了 GPT-5.3 Codex 必備的 chunking 和 retrieval 規避方案。原生 computer use 是第二大改進。

我應該等待升級還是立即切換？

如果你依賴大於 400K tokens 的 context windows、需要 computer use 功能或想要更好的 tool 整合，請立即切換。如果你的工作流穩定、已針對定價進行成本優化且需要長期支援，請留在 GPT-5.3 Codex —— GitHub 已確認 GPT-5.3 Codex LTS 將持續到 February 2027。

GPT-5.3 Codex 何時會被棄用？

GPT-5.3 Codex 短期內不會被棄用。它是 OpenAI 長期支援 (LTS) 計劃中的第一個模型，將為 GitHub Copilot Business 和 Enterprise 用戶提供服務直至 February 4, 2027。然而，GPT-5.2 Thinking 將於 June 5, 2026 退役。

GPT-5.4 遷移日記：哪些地方壞了、哪些變好了，以及我沒預料到的事

在我們開始之前：為什麼我以日記形式寫這篇文章

大多數 GPT-5.4 vs GPT-5.3 的文章只會給你一個基準測試表就結束了。這對於決定是否升級很有用，但對於理解升級過程中實際發生了什麼完全沒有幫助。

我在 2026 年 March 期間，將一個生產系統——一個內部開發者工具平台——從 GPT-5.3 Codex 遷移到 GPT-5.4。這篇文章記錄了每天發生的事情、讓我驚訝的地方、哪些地方出了問題，以及最終的每月帳單長什麼樣。

如果你正在計劃自己的遷移，這就是我希望當初能擁有的指南。

遷移前：我們在 GPT-5.3 Codex 上運行的內容

我們在切換前的設置：

應用程式： 一個由 14 人的工程團隊使用的內部代碼審查和重構助手
API 整合： 直接 OpenAI API 調用，使用 function calling 進行工具調用，結構化的 JSON 輸出
平均每日通量： ~800 API 調用，平均每次 12K input tokens 和 4K output tokens
每月 API 成本： 根據 GPT-5.3 Codex 定價（每 MTok $1.75 input / $14 output）約為 $1,400
Context window 使用情況： 經常達到 200-350K tokens；偶爾在 400K 限制處被截斷

我們最初選擇 GPT-5.3 Codex 是因為其強大的特定編碼性能和較低的 input tokens 成本。它為我們服務了六個月。

Day 1：切換 (March 8, 2026)

遷移的技術部分非常簡單。在我們的 API 配置中將 model: "gpt-5.3-codex" 更改為 model: "gpt-5.4"。部署。完成。

第一印象： 回應在性質上感覺不同。不一定更好或更差，而是不同。GPT-5.4 在其推理中更加冗長——在提供代碼之前提供了更多關於其選擇的解釋。對於我們的代碼審查工具來說，這實際上是一個改進，因為審查者想要了解建議背後的「為什麼」。

回應速度： 在較短的 prompts 上明顯更快。在較長的 prompts 上大約相同。官方數據顯示 GPT-5.4 為 73.4 tokens per second，與 GPT-5.3 Codex 的範圍相似，因此速度差異是真實存在的，但不顯著。

第一個問題： 在第一小時內，我們的 JSON 解析器崩潰了。GPT-5.3 Codex 在要求結構化輸出時一直返回原始 JSON。GPT-5.4 偶爾會將 JSON 包裝在 markdown 代碼塊中（```json ... ```）。這破壞了我們的解析流程。

修復： 增加了一個預處理步驟，在解析前去除 markdown 代碼圍欄。這是一個 10 分鐘的修復，但如果我們沒有密切監控，它會導致生產環境錯誤。

Day 2-3：Function Calling 的差異

我們的工具使用 OpenAI 的 function calling 功能讓模型調用代碼分析工具——linter、test runner、dependency checker。在 GPT-5.3 Codex 上，這運作得完美無缺。

在 GPT-5.4 上，我們遇到了兩個問題：

問題 1：選填參數處理。 當一個 function 參數是一個選填的巢狀物件時，GPT-5.3 Codex 在不需要時會省略它。GPT-5.4 有時會發送一個空物件 {}，這導致我們的驗證拒絕了該調用。

問題 2：Tool Search 行為。 GPT-5.4 引入了 Tool Search，它能動態發現可用的工具，而不是預先要求所有的工具定義。這是一個強大的功能——OpenAI 報告它減少了 47% 的 tokens 使用量——但它改變了工具調用的時機。我們的日誌系統預期工具按特定順序調用，而 GPT-5.4 有時會重新排序。

問題 1 的修復： 更新了我們的 Zod 驗證 schemas 以接受選填參數的空物件。兩小時的工作。

問題 2 的修復： 重寫了我們的日誌系統使其與順序無關。半天的工作。值得，因為新方法無論對於哪種模型都更加穩健。

Day 4-5：Context Window 改變了一切

這是第一個真正令人興奮的時刻。GPT-5.3 Codex 有 400K tokens 的限制。對於我們最大的儲存庫，我們構建了一個複雜的分塊系統——將代碼庫分成多個片段，對每個片段進行分析，然後將結果拼接在一起。

GPT-5.4 通過 API 支持高達 1,050,000 tokens。對於 Codex 用戶，可以使用完整的 1M context。

這在實踐中意味著什麼： 我們最大的儲存庫——一個包含 280 個文件的 TypeScript monorepo——現在可以一次性完整載入到一個 context 中。不再需要分塊。不再有帶有接縫痕跡的拼接分析。由於模型可以看到在 context 被拆分時不可見的跨模組依賴關係，該儲存庫的代碼審查質量得到了顯著提升。

缺點： 超過 272K tokens 的 prompts 定價為 2x input 和 1.5x output。因此，發送我們完整的 280 個文件的 repo 作為 context 意味著每次調用的成本顯著增加。我們最終構建了一個智能 context 選擇系統，為跨模組任務載入完整的 repo，但為單文件任務使用有針對性的 context。

第一週總結：出錯的地方

到第一週結束時，這是出錯或需要調整的完整清單：

JSON 輸出格式 — Markdown 代碼塊包裝 (10 分鐘修復)
Function calling 驗證 — 選填參數的空物件 (2 小時修復)
工具調用順序 — 日誌假設順序調用 (半天修復)
Token 計數 — 我們的成本估算有誤，因為 GPT-5.4 每次回應使用的 tokens 更少 (更新了公式)
Rate limiting — 我們的速率限制器是針對 GPT-5.3 Codex 的限制配置的；GPT-5.4 有不同的等級閾值 (配置更改)

這些都不是災難性的。所有問題都可以在不到一天的時間內修復。但如果你正在遷移一個生產系統，請預留整整一週的時間進行測試和補丁。

第二週：改進開始顯現

一旦遷移的摩擦平息，改進就變得很明顯。

Computer Use 開啟了新的工作流程

GPT-5.4 是第一個具有原生 computer-use 能力的通用模型。它可以直接與桌面應用程式、瀏覽器和系統工具交互。

對於我們的使用案例，這實現了我們用 GPT-5.3 Codex 無法做到的事情：模型現在可以運行我們的測試套件，觀察輸出，並根據實際測試結果而非僅僅是靜態分析來調整其代碼審查建議。以前，我們必須手動將測試輸出導入 context 中。現在模型可以執行並觀察。

我們在大約三天內構建了一個新的「測試感知審查」模式，它立即捕捉到了純靜態分析遺漏的兩個 bugs。

Token 效率是真實存在的

OpenAI 聲稱 GPT-5.4 在每個任務中使用的 output tokens 更少。經過兩週的生產數據，我們確認了這一點：GPT-5.4 在同等任務中平均每次使用 3.1K output tokens，而 GPT-5.3 Codex 為 4.0K。這相當於減少了 22.5% 的 output tokens。

結合 tool search 減少的 input tokens，每個任務的總 tokens 消耗下降了約 30%。

錯誤減少顯而易見

根據 OpenAI 的說法，GPT-5.4 產生的事實錯誤減少了 33%。在我們的代碼審查情境中，這轉化為更少的誤報建議——模型不太可能將正確的代碼標記為有問題。我們團隊的「忽略建議」率從 18% 下降到 11%。

第三週：成本狀況變得清晰

這是每個人都想知道的部分。在生產環境中運行 GPT-5.4 三週，並與我們的歷史 GPT-5.3 Codex 數據進行對比後，這是成本比較：

每日 API 成本 (平均)

指標	GPT-5.3 Codex	GPT-5.4
每日調用次數	~800	~800
平均每次調用的 input tokens	12,000	11,200
平均每次調用的 output tokens	4,000	3,100
Input 成本費率	$1.75/MTok	$2.50/MTok
Output 成本費率	$14.00/MTok	$15.00/MTok
每日 input 成本	$16.80	$22.40
每日 output 成本	$44.80	$37.20
每日總計	$61.60	$59.60

每月預測： GPT-5.3 Codex 約為 $1,848。GPT-5.4 預計約為 $1,788。節省了約 $60/month (3.2%) ——雖然不多，但值得注意，因為 GPT-5.4 的標稱價格更高。

節省完全來自於 tokens 效率。GPT-5.4 使用更少的 tokens 來完成相同的任務，這足以抵消我們工作負載中更高的每 tokens 價格。

哪些地方成本上升了

長 context 任務——超過 272K tokens 的任務——在 GPT-5.4 上由於 long-context 附加費而成本顯著增加。我們每天大約運行 15 次這類任務（全 repo 審查）。對於這些特定的調用，成本增加了約 40%。

哪些地方成本下降了

100K tokens 以下的標準任務——佔我們通量的 95% ——由於 output tokens 數量減少而變得更便宜。這足以補償剩餘 5% 任務的 long-context 附加費。

我沒預料到的事

1. GPT-5.4 對代碼風格更有主見

GPT-5.3 Codex 在風格上相對中立——它遵循代碼庫中存在的任何模式。GPT-5.4 有更強烈的主見。即使你只要求修復 bug，它也會建議為了清晰起見重命名變量、重構條件語句和提取函數。

這既是好事也很煩人。好是因為建議通常是有效的。煩人是因為當團隊只想要針對性的回饋時，它給代碼審查增加了噪音。

我們的修復： 增加了一條 system prompt 指令：「專注於正確性和安全性問題。除非風格更改對可讀性的影響大到足以導致 bug，否則不要建議風格更改。」

2. 棄用時間表產生了緊迫感

GPT-5.2 Thinking 將於 June 5, 2026 停用。如果你仍在使用 5.2，你還有三個月時間。GPT-5.3 Codex 在 GitHub Copilot 中擁有持續到 February 2027 的 LTS 支持，因此緊迫感較小——但大勢已定。

3. Tool Search 是隱藏的亮點功能

我最初認為 Tool Search 只是一個優化細節。事實證明，它是對我們工作流程影響最大的功能。GPT-5.4 不再是在每次 API 調用中發送所有 12 個工具定義（每次消耗約 3K tokens），而是根據需要動態發現工具。在我們的通量下，tokens 節省效果會疊加。

OpenAI 的文檔稱 tool search 在他們的測試中減少了 47% 的 tokens 使用量。對於我們這種工具密集型的工作流程，我們看到了大約 35% 的減少——這仍然非常顯著。

4. 「感覺」變了

這很主觀且難以量化，但團隊注意到了。GPT-5.4 感覺更像是在與一位資深工程師合作——它會質疑假設，建議替代方案，有時還會反對它認為不理想的方法。GPT-5.3 Codex 則更加順從。你是否認為這是一種改進取決於你團隊的工作流程。Zvi Mowshowitz 的分析稱其為推理和通用能力方面的「重大升級」，我們也表示贊同。

遷移清單

根據我們的經驗，如果我要再次遷移，我會這樣做：

切換前

審核你的 JSON 解析 — 檢查 markdown 代碼圍欄處理
審核 function calling schemas — 測試選填和巢狀參數
檢查你的 tokens 計數和成本估算邏輯
根據 GPT-5.4 等級限制驗證速率限制配置
識別任何假設工具調用順序的工作流程

切換期間

先部署到 staging 環境
同時運行兩個模型至少 48 小時
監控 JSON 格式差異
檢查 function calling 成功率
比較特定任務的輸出質量

切換後

啟用 tool search 並衡量 tokens 節省
評估 272K 定價閾值的長 context 任務
如果 GPT-5.4 對你的工作流程太有主見，請調整 system prompts
為新工作流程探索 computer use 能力
使用實際使用數據更新成本預測

你現在應該遷移嗎？

這是我的決策框架：

立即遷移，如果：

你正在使用 GPT-5.2（它將於 June 5 停用）
你經常達到 400K context 限制
你需要 computer use 能力
你頻繁使用工具調用並希望節省 tokens

儘快遷移（一個月內），如果：

你想要質量提升，並且可以忍受一週的整合工作
你正在構建能從 1M context 中受益的新功能
你想在 GPT-5.3 最終達到生命週期終點前做好前瞻性準備

留在 GPT-5.3 Codex，如果：

你的工作流程穩定且經過成本優化
對於 prompt 密集型工作負載，你依賴其較低的 input tokens 定價
你想要持續到 February 2027 的 LTS 支持帶來的穩定性
你處於模型更改需要正式審查的受監管環境中

對於我們在 ZBuild 的內部工具，遷移值得花費那一週的工作。光是 1M context window 就改變了我們工具的能力。但如果你的 GPT-5.3 Codex 整合運作良好且未達到其限制，則沒有燃眉之急——按照你的時間表而非 OpenAI 的時間表計劃遷移。

給考慮切換的團隊的教訓

如果我可以將整個遷移過程總結為給其他工程團隊的建議，那就是以下五點。

1. 為整合預留整整一週，而不僅僅是模型切換

模型切換只需五分鐘。發現整合中的每個邊緣案例則需要一週。我們的 JSON 格式問題、function calling 差異和日誌假設都是在真實流量下浮現的，而不是在單元測試期間。在正式切換前，讓兩個模型並行運行至少 48 小時。

2. Token 效率抵消了較高的定價——但並不總是如此

對於 100K tokens 以下的標準任務，儘管每 tokens 定價更高，但 GPT-5.4 確實更便宜。但如果你的工作負載嚴重偏向長 context 任務（超過 272K tokens），你將支付更多費用。在投入使用前，請針對你特定的使用模式進行成本建模。Apiyi 定價閾值指南有一個實用的計算器。

3. Tool Search 不是可選的——請立即啟用它

如果你使用的 function calling 超過 5 個工具，請在第一天就啟用 tool search。Tokens 節省效果會隨著規模而疊加。對於我們 12 個工具的設置，它每次調用節省了約 3K tokens——每天超過 800 次調用，每天節省 2.4 million tokens，或者每天約 $6 的 input 成本。

4. 針對 GPT-5.4 的個性調整你的 Prompts

GPT-5.4 比 GPT-5.3 Codex 更有主見。如果你的應用程式依賴模型精確遵循指令而不需要社論式評論，請在你的 system prompt 中添加明確的約束。例如「僅專注於要求的任務。除非被要求，否則不要建議改進或替代方案。」這為我們的團隊節省了代碼審查輸出中的大量噪音。

5. 現在就計劃你的 GPT-5.2 遷移

如果你還有任何系統仍在 GPT-5.2 Thinking 上運行，June 5, 2026 的停用是不可協商的。不要等到 May 才開始遷移。GPT-5.2 到 GPT-5.4 之間的整合面比 GPT-5.3 到 GPT-5.4 的差距更大，因此預計會有更多損壞。

GPT-5.4 vs GPT-5.3 Codex：快速參考表

對於想要摘要而非敘述的團隊，這裡有一份關鍵數據彙總：

功能	GPT-5.3 Codex	GPT-5.4
發布日期	October 2025	March 5, 2026
Context window	400K tokens	1,050,000 tokens
Input 定價	$1.75/MTok	$2.50/MTok
Output 定價	$14.00/MTok	$15.00/MTok
長 context 附加費	無	超過 272K 時 2x input, 1.5x output
Computer use	否	是，原生
Tool search	否	是 (節省 ~47% tokens)
錯誤減少	基準	事實錯誤減少 33%
LTS 支持	至 Feb 2027	當前模型
最適合	終端密集型、成本敏感型工作	通用型 + 代理型工作流程

一個月後：最終定論

現在在 GPT-5.4 上運行已經整整一個月了。整合問題已解決，團隊已適應，數據保持穩定。

質量： 更好。代碼審查中的誤報更少，跨模組分析更好，而且 computer use 整合添加了以前不可能的工作流程。

成本： 標準任務大致相當，長 context 任務略高，但由於 tokens 效率，整體月度帳單下降了 3-4%。

速度： 相當。對我們的工作負載沒有顯著差異。

穩定性： 在最初一週的修復之後，生產環境零問題。

這次升級並非顛覆性的——它是漸進式的，但是積極的。GPT-5.4 是 2026 年 March 期間大多數開發者的更好選擇。問題僅在於遷移工作對於你的具體情況是否值得。

如果你正在構建開發者工具——正如我們在 ZBuild 所做的那樣——保持在當前的旗艦模型對於保持產品競爭力至關重要。對於以穩定性為首要任務的內部工具，GPT-5.3 Codex 的 LTS 到 2027 年初都是一個非常合理的選擇。