在我們開始之前:為什麼我以日記形式寫這篇文章
大多數 GPT-5.4 vs GPT-5.3 的文章只會給你一個基準測試表就結束了。這對於決定是否升級很有用,但對於理解升級過程中實際發生了什麼完全沒有幫助。
我在 2026 年 March 期間,將一個生產系統——一個內部開發者工具平台——從 GPT-5.3 Codex 遷移到 GPT-5.4。這篇文章記錄了每天發生的事情、讓我驚訝的地方、哪些地方出了問題,以及最終的每月帳單長什麼樣。
如果你正在計劃自己的遷移,這就是我希望當初能擁有的指南。
遷移前:我們在 GPT-5.3 Codex 上運行的內容
我們在切換前的設置:
- 應用程式: 一個由 14 人的工程團隊使用的內部代碼審查和重構助手
- API 整合: 直接 OpenAI API 調用,使用 function calling 進行工具調用,結構化的 JSON 輸出
- 平均每日通量: ~800 API 調用,平均每次 12K input tokens 和 4K output tokens
- 每月 API 成本: 根據 GPT-5.3 Codex 定價(每 MTok $1.75 input / $14 output)約為 $1,400
- Context window 使用情況: 經常達到 200-350K tokens;偶爾在 400K 限制處被截斷
我們最初選擇 GPT-5.3 Codex 是因為其強大的特定編碼性能和較低的 input tokens 成本。它為我們服務了六個月。
Day 1:切換 (March 8, 2026)
遷移的技術部分非常簡單。在我們的 API 配置中將 model: "gpt-5.3-codex" 更改為 model: "gpt-5.4"。部署。完成。
第一印象: 回應在性質上感覺不同。不一定更好或更差,而是不同。GPT-5.4 在其推理中更加冗長——在提供代碼之前提供了更多關於其選擇的解釋。對於我們的代碼審查工具來說,這實際上是一個改進,因為審查者想要了解建議背後的「為什麼」。
回應速度: 在較短的 prompts 上明顯更快。在較長的 prompts 上大約相同。官方數據顯示 GPT-5.4 為 73.4 tokens per second,與 GPT-5.3 Codex 的範圍相似,因此速度差異是真實存在的,但不顯著。
第一個問題: 在第一小時內,我們的 JSON 解析器崩潰了。GPT-5.3 Codex 在要求結構化輸出時一直返回原始 JSON。GPT-5.4 偶爾會將 JSON 包裝在 markdown 代碼塊中(```json ... ```)。這破壞了我們的解析流程。
修復: 增加了一個預處理步驟,在解析前去除 markdown 代碼圍欄。這是一個 10 分鐘的修復,但如果我們沒有密切監控,它會導致生產環境錯誤。
Day 2-3:Function Calling 的差異
我們的工具使用 OpenAI 的 function calling 功能讓模型調用代碼分析工具——linter、test runner、dependency checker。在 GPT-5.3 Codex 上,這運作得完美無缺。
在 GPT-5.4 上,我們遇到了兩個問題:
問題 1:選填參數處理。 當一個 function 參數是一個選填的巢狀物件時,GPT-5.3 Codex 在不需要時會省略它。GPT-5.4 有時會發送一個空物件 {},這導致我們的驗證拒絕了該調用。
問題 2:Tool Search 行為。 GPT-5.4 引入了 Tool Search,它能動態發現可用的工具,而不是預先要求所有的工具定義。這是一個強大的功能——OpenAI 報告它減少了 47% 的 tokens 使用量——但它改變了工具調用的時機。我們的日誌系統預期工具按特定順序調用,而 GPT-5.4 有時會重新排序。
問題 1 的修復: 更新了我們的 Zod 驗證 schemas 以接受選填參數的空物件。兩小時的工作。
問題 2 的修復: 重寫了我們的日誌系統使其與順序無關。半天的工作。值得,因為新方法無論對於哪種模型都更加穩健。
Day 4-5:Context Window 改變了一切
這是第一個真正令人興奮的時刻。GPT-5.3 Codex 有 400K tokens 的限制。對於我們最大的儲存庫,我們構建了一個複雜的分塊系統——將代碼庫分成多個片段,對每個片段進行分析,然後將結果拼接在一起。
GPT-5.4 通過 API 支持高達 1,050,000 tokens。對於 Codex 用戶,可以使用完整的 1M context。
這在實踐中意味著什麼: 我們最大的儲存庫——一個包含 280 個文件的 TypeScript monorepo——現在可以一次性完整載入到一個 context 中。不再需要分塊。不再有帶有接縫痕跡的拼接分析。由於模型可以看到在 context 被拆分時不可見的跨模組依賴關係,該儲存庫的代碼審查質量得到了顯著提升。
缺點: 超過 272K tokens 的 prompts 定價為 2x input 和 1.5x output。因此,發送我們完整的 280 個文件的 repo 作為 context 意味著每次調用的成本顯著增加。我們最終構建了一個智能 context 選擇系統,為跨模組任務載入完整的 repo,但為單文件任務使用有針對性的 context。
第一週總結:出錯的地方
到第一週結束時,這是出錯或需要調整的完整清單:
- JSON 輸出格式 — Markdown 代碼塊包裝 (10 分鐘修復)
- Function calling 驗證 — 選填參數的空物件 (2 小時修復)
- 工具調用順序 — 日誌假設順序調用 (半天修復)
- Token 計數 — 我們的成本估算有誤,因為 GPT-5.4 每次回應使用的 tokens 更少 (更新了公式)
- Rate limiting — 我們的速率限制器是針對 GPT-5.3 Codex 的限制配置的;GPT-5.4 有不同的等級閾值 (配置更改)
這些都不是災難性的。所有問題都可以在不到一天的時間內修復。但如果你正在遷移一個生產系統,請預留整整一週的時間進行測試和補丁。
第二週:改進開始顯現
一旦遷移的摩擦平息,改進就變得很明顯。
Computer Use 開啟了新的工作流程
GPT-5.4 是第一個具有原生 computer-use 能力的通用模型。它可以直接與桌面應用程式、瀏覽器和系統工具交互。
對於我們的使用案例,這實現了我們用 GPT-5.3 Codex 無法做到的事情:模型現在可以運行我們的測試套件,觀察輸出,並根據實際測試結果而非僅僅是靜態分析來調整其代碼審查建議。以前,我們必須手動將測試輸出導入 context 中。現在模型可以執行並觀察。
我們在大約三天內構建了一個新的「測試感知審查」模式,它立即捕捉到了純靜態分析遺漏的兩個 bugs。
Token 效率是真實存在的
OpenAI 聲稱 GPT-5.4 在每個任務中使用的 output tokens 更少。經過兩週的生產數據,我們確認了這一點:GPT-5.4 在同等任務中平均每次使用 3.1K output tokens,而 GPT-5.3 Codex 為 4.0K。這相當於減少了 22.5% 的 output tokens。
結合 tool search 減少的 input tokens,每個任務的總 tokens 消耗下降了約 30%。
錯誤減少顯而易見
根據 OpenAI 的說法,GPT-5.4 產生的事實錯誤減少了 33%。在我們的代碼審查情境中,這轉化為更少的誤報建議——模型不太可能將正確的代碼標記為有問題。我們團隊的「忽略建議」率從 18% 下降到 11%。
第三週:成本狀況變得清晰
這是每個人都想知道的部分。在生產環境中運行 GPT-5.4 三週,並與我們的歷史 GPT-5.3 Codex 數據進行對比後,這是成本比較:
每日 API 成本 (平均)
| 指標 | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| 每日調用次數 | ~800 | ~800 |
| 平均每次調用的 input tokens | 12,000 | 11,200 |
| 平均每次調用的 output tokens | 4,000 | 3,100 |
| Input 成本費率 | $1.75/MTok | $2.50/MTok |
| Output 成本費率 | $14.00/MTok | $15.00/MTok |
| 每日 input 成本 | $16.80 | $22.40 |
| 每日 output 成本 | $44.80 | $37.20 |
| 每日總計 | $61.60 | $59.60 |
每月預測: GPT-5.3 Codex 約為 $1,848。GPT-5.4 預計約為 $1,788。節省了約 $60/month (3.2%) ——雖然不多,但值得注意,因為 GPT-5.4 的標稱價格更高。
節省完全來自於 tokens 效率。GPT-5.4 使用更少的 tokens 來完成相同的任務,這足以抵消我們工作負載中更高的每 tokens 價格。
哪些地方成本上升了
長 context 任務——超過 272K tokens 的任務——在 GPT-5.4 上由於 long-context 附加費 而成本顯著增加。我們每天大約運行 15 次這類任務(全 repo 審查)。對於這些特定的調用,成本增加了約 40%。
哪些地方成本下降了
100K tokens 以下的標準任務——佔我們通量的 95% ——由於 output tokens 數量減少而變得更便宜。這足以補償剩餘 5% 任務的 long-context 附加費。
我沒預料到的事
1. GPT-5.4 對代碼風格更有主見
GPT-5.3 Codex 在風格上相對中立——它遵循代碼庫中存在的任何模式。GPT-5.4 有更強烈的主見。即使你只要求修復 bug,它也會建議為了清晰起見重命名變量、重構條件語句和提取函數。
這既是好事也很煩人。好是因為建議通常是有效的。煩人是因為當團隊只想要針對性的回饋時,它給代碼審查增加了噪音。
我們的修復: 增加了一條 system prompt 指令:「專注於正確性和安全性問題。除非風格更改對可讀性的影響大到足以導致 bug,否則不要建議風格更改。」
2. 棄用時間表產生了緊迫感
GPT-5.2 Thinking 將於 June 5, 2026 停用。如果你仍在使用 5.2,你還有三個月時間。GPT-5.3 Codex 在 GitHub Copilot 中擁有持續到 February 2027 的 LTS 支持,因此緊迫感較小——但大勢已定。
3. Tool Search 是隱藏的亮點功能
我最初認為 Tool Search 只是一個優化細節。事實證明,它是對我們工作流程影響最大的功能。GPT-5.4 不再是在每次 API 調用中發送所有 12 個工具定義(每次消耗約 3K tokens),而是根據需要動態發現工具。在我們的通量下,tokens 節省效果會疊加。
OpenAI 的文檔稱 tool search 在他們的測試中減少了 47% 的 tokens 使用量。對於我們這種工具密集型的工作流程,我們看到了大約 35% 的減少——這仍然非常顯著。
4. 「感覺」變了
這很主觀且難以量化,但團隊注意到了。GPT-5.4 感覺更像是在與一位資深工程師合作——它會質疑假設,建議替代方案,有時還會反對它認為不理想的方法。GPT-5.3 Codex 則更加順從。你是否認為這是一種改進取決於你團隊的工作流程。Zvi Mowshowitz 的分析稱其為推理和通用能力方面的「重大升級」,我們也表示贊同。
遷移清單
根據我們的經驗,如果我要再次遷移,我會這樣做:
切換前
- 審核你的 JSON 解析 — 檢查 markdown 代碼圍欄處理
- 審核 function calling schemas — 測試選填和巢狀參數
- 檢查你的 tokens 計數和成本估算邏輯
- 根據 GPT-5.4 等級限制 驗證速率限制配置
- 識別任何假設工具調用順序的工作流程
切換期間
- 先部署到 staging 環境
- 同時運行兩個模型至少 48 小時
- 監控 JSON 格式差異
- 檢查 function calling 成功率
- 比較特定任務的輸出質量
切換後
- 啟用 tool search 並衡量 tokens 節省
- 評估 272K 定價閾值的長 context 任務
- 如果 GPT-5.4 對你的工作流程太有主見,請調整 system prompts
- 為新工作流程探索 computer use 能力
- 使用實際使用數據更新成本預測
你現在應該遷移嗎?
這是我的決策框架:
立即遷移,如果:
- 你正在使用 GPT-5.2(它將於 June 5 停用)
- 你經常達到 400K context 限制
- 你需要 computer use 能力
- 你頻繁使用工具調用並希望節省 tokens
儘快遷移(一個月內),如果:
- 你想要質量提升,並且可以忍受一週的整合工作
- 你正在構建能從 1M context 中受益的新功能
- 你想在 GPT-5.3 最終達到生命週期終點前做好前瞻性準備
留在 GPT-5.3 Codex,如果:
- 你的工作流程穩定且經過成本優化
- 對於 prompt 密集型工作負載,你依賴其較低的 input tokens 定價
- 你想要持續到 February 2027 的 LTS 支持帶來的穩定性
- 你處於模型更改需要正式審查的受監管環境中
對於我們在 ZBuild 的內部工具,遷移值得花費那一週的工作。光是 1M context window 就改變了我們工具的能力。但如果你的 GPT-5.3 Codex 整合運作良好且未達到其限制,則沒有燃眉之急——按照你的時間表而非 OpenAI 的時間表計劃遷移。
給考慮切換的團隊的教訓
如果我可以將整個遷移過程總結為給其他工程團隊的建議,那就是以下五點。
1. 為整合預留整整一週,而不僅僅是模型切換
模型切換只需五分鐘。發現整合中的每個邊緣案例則需要一週。我們的 JSON 格式問題、function calling 差異和日誌假設都是在真實流量下浮現的,而不是在單元測試期間。在正式切換前,讓兩個模型並行運行至少 48 小時。
2. Token 效率抵消了較高的定價——但並不總是如此
對於 100K tokens 以下的標準任務,儘管每 tokens 定價更高,但 GPT-5.4 確實更便宜。但如果你的工作負載嚴重偏向長 context 任務(超過 272K tokens),你將支付更多費用。在投入使用前,請針對你特定的使用模式進行成本建模。Apiyi 定價閾值指南有一個實用的計算器。
3. Tool Search 不是可選的——請立即啟用它
如果你使用的 function calling 超過 5 個工具,請在第一天就啟用 tool search。Tokens 節省效果會隨著規模而疊加。對於我們 12 個工具的設置,它每次調用節省了約 3K tokens——每天超過 800 次調用,每天節省 2.4 million tokens,或者每天約 $6 的 input 成本。
4. 針對 GPT-5.4 的個性調整你的 Prompts
GPT-5.4 比 GPT-5.3 Codex 更有主見。如果你的應用程式依賴模型精確遵循指令而不需要社論式評論,請在你的 system prompt 中添加明確的約束。例如「僅專注於要求的任務。除非被要求,否則不要建議改進或替代方案。」這為我們的團隊節省了代碼審查輸出中的大量噪音。
5. 現在就計劃你的 GPT-5.2 遷移
如果你還有任何系統仍在 GPT-5.2 Thinking 上運行,June 5, 2026 的停用是不可協商的。不要等到 May 才開始遷移。GPT-5.2 到 GPT-5.4 之間的整合面比 GPT-5.3 到 GPT-5.4 的差距更大,因此預計會有更多損壞。
GPT-5.4 vs GPT-5.3 Codex:快速參考表
對於想要摘要而非敘述的團隊,這裡有一份關鍵數據彙總:
| 功能 | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| 發布日期 | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Input 定價 | $1.75/MTok | $2.50/MTok |
| Output 定價 | $14.00/MTok | $15.00/MTok |
| 長 context 附加費 | 無 | 超過 272K 時 2x input, 1.5x output |
| Computer use | 否 | 是,原生 |
| Tool search | 否 | 是 (節省 ~47% tokens) |
| 錯誤減少 | 基準 | 事實錯誤減少 33% |
| LTS 支持 | 至 Feb 2027 | 當前模型 |
| 最適合 | 終端密集型、成本敏感型工作 | 通用型 + 代理型工作流程 |
一個月後:最終定論
現在在 GPT-5.4 上運行已經整整一個月了。整合問題已解決,團隊已適應,數據保持穩定。
質量: 更好。代碼審查中的誤報更少,跨模組分析更好,而且 computer use 整合添加了以前不可能的工作流程。
成本: 標準任務大致相當,長 context 任務略高,但由於 tokens 效率,整體月度帳單下降了 3-4%。
速度: 相當。對我們的工作負載沒有顯著差異。
穩定性: 在最初一週的修復之後,生產環境零問題。
這次升級並非顛覆性的——它是漸進式的,但是積極的。GPT-5.4 是 2026 年 March 期間大多數開發者的更好選擇。問題僅在於遷移工作對於你的具體情況是否值得。
如果你正在構建開發者工具——正如我們在 ZBuild 所做的那樣——保持在當前的旗艦模型對於保持產品競爭力至關重要。對於以穩定性為首要任務的內部工具,GPT-5.3 Codex 的 LTS 到 2027 年初都是一個非常合理的選擇。
資料來源
- OpenAI — 介紹 GPT-5.4
- OpenAI — GPT-5.4 模型文件
- OpenAI — API 定價
- GitHub — GPT-5.3 Codex 長期支持
- TechCrunch — OpenAI 發布帶有 Pro 和 Thinking 版本的 GPT-5.4
- DataCamp — GPT-5.4 功能指南
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex 比較
- Turing College — GPT-5.4 評論 vs GPT-5.3 Codex
- Zvi Mowshowitz — GPT-5.4 是一次重大升級
- Apiyi — GPT-5.4 272K 定價閾值指南
- Interconnects — GPT-5.4 是 Codex 的一大進步