在开始之前:为什么我以日记的形式写下这篇文章
大多数 GPT-5.4 vs GPT-5.3 的文章只是给你一个基准测试表,然后就结束了。这对于决定是否升级很有用,但对于理解升级过程中实际会发生什么却完全没有帮助。
在 2026年3月 期间,我将一个生产系统——一个内部开发者工具平台——从 GPT-5.3 Codex 迁移到了 GPT-5.4。本文记录了每天发生的事情、令我惊讶的地方、出现故障的地方,以及迁移后每月的账单情况。
如果你正在计划自己的迁移,这就是我希望自己当时能拥有的指南。
迁移前:我们在 GPT-5.3 Codex 上运行的情况
切换前的设置:
- 应用程序: 一个由 14人 工程团队使用的内部代码审查和重构助手
- API 集成: 直接调用 OpenAI API,使用 function calling 进行工具调用,输出结构化 JSON
- 平均每日量: 约 800 次 API 调用,平均每次 12K input tokens 和 4K output tokens
- 每月 API 成本: 按 GPT-5.3 Codex 定价($1.75 input / $14 output 每 MTok)计算,约为 $1,400
- Context window 使用情况: 经常达到 200-350K tokens;偶尔在 400K 限制处被截断
我们最初选择 GPT-5.3 Codex 是因为其强大的针对代码的性能和较低的 input token 成本。它为我们提供了六个月的良好服务。
第 1 天:切换(2026年3月8日)
迁移的技术部分非常简单。在我们的 API 配置中将 model: "gpt-5.3-codex" 更改为 model: "gpt-5.4"。部署。完成。
第一印象: 回答的感觉在质感上有所不同。不一定更好或更坏,但就是不同。GPT-5.4 在推理方面更加啰唆——在交付代码之前,对其选择提供了更多解释。对于我们的代码审查工具来说,这实际上是一种改进,因为审查者希望了解建议背后的“原因”。
响应速度: 在短 prompt 上明显更快。在长 prompt 上则差不多。官方数据显示 GPT-5.4 为每秒 73.4 tokens,而 GPT-5.3 Codex 也在类似范围内,所以速度差异是真实存在的,但并不显著。
第一个问题: 在第一个小时内,我们的 JSON 解析器就坏了。GPT-5.3 Codex 在被要求提供结构化输出时一直返回原始 JSON。GPT-5.4 偶尔会将 JSON 包装在 Markdown 代码块中(```json ... ```)。这破坏了我们的解析管道。
修复: 添加了一个预处理步骤,在解析前剥离 Markdown 代码围栏。虽然只是 10 分钟的修复,但如果我们没有进行密切监控,它就会导致生产错误。
第 2-3 天:Function Calling 的差异
我们的工具使用 OpenAI 的 function calling 功能来让模型调用代码分析工具——如 linter、测试运行器、依赖检查器。在 GPT-5.3 Codex 上,这一直运行得非常完美。
在 GPT-5.4 上,我们遇到了两个问题:
问题 1:可选参数处理。 当函数参数是一个可选的嵌套对象时,GPT-5.3 Codex 在不需要时会省略它。GPT-5.4 有时会发送一个空对象 {},这导致我们的验证拒绝了该调用。
问题 2:工具搜索行为。 GPT-5.4 引入了 Tool Search,它可以动态发现可用工具,而不需要预先定义所有工具。这是一个强大的功能——OpenAI 报告称它减少了 47% 的 token 使用量——但它改变了工具调用的时机。我们的日志系统期望工具按特定顺序调用,而 GPT-5.4 有时会重新排序。
问题 1 的修复: 更新了我们的 Zod 验证 schema 以接受可选参数的空对象。两小时的工作。
问题 2 的修复: 重写了我们的日志系统,使其与顺序无关。半天的工作。这很值得,因为无论使用哪种模型,新方法都更加健壮。
第 4-5 天:Context Window 改变了一切
这是第一个真正令人兴奋的时刻。GPT-5.3 Codex 有 400K tokens 的限制。对于我们最大的仓库,我们构建了一个复杂的切片系统——将代码库分成段,对每段运行分析,然后将结果缝合在一起。
GPT-5.4 通过 API 支持高达 1,050,000 tokens。对于 Codex 用户,可以使用完整的 1M context。
这在实践中意味着什么: 我们最大的仓库——一个包含 280 个文件的 TypeScript monorepo——现在可以一次性全部加载到 context 中。不再需要切片。不再有带有拼接痕迹的缝合分析。该仓库的代码审查质量大幅提高,因为模型可以看到在 context 被分割时不可见的跨模块依赖关系。
注意事项: 超过 272K tokens 的 prompt 定价为 2倍 input 和 1.5倍 output。因此,将我们完整的 280 个文件的仓库作为 context 发送意味着每次调用的成本显著增加。我们最终构建了一个智能 context 选择系统,针对跨模块任务加载完整仓库,但针对单文件任务使用目标 context。
第一周总结:出现故障的地方
到第一周结束时,以下是出现故障或需要调整的完整列表:
- JSON 输出格式 —— Markdown 代码块包装(10分钟修复)
- Function calling 验证 —— 可选参数的空对象(2小时修复)
- 工具调用排序 —— 日志假设是顺序调用(半天修复)
- Token 计数 —— 我们的成本估算出现偏差,因为 GPT-5.4 每次回答使用的 tokens 更少(更新了公式)
- Rate limiting —— 我们的速率限制器是针对 GPT-5.3 Codex 的限制配置的;GPT-5.4 有不同的层级阈值(配置更改)
这些都不是灾难性的。所有这些都可以在一天内修复。但如果你正在迁移生产系统,请预算整整一周的时间进行测试和补丁。
第二周:改进开始显现
一旦迁移摩擦平复,改进就变得清晰起来。
Computer Use 开启了新工作流
GPT-5.4 是第一个具有原生 computer-use 能力的通用模型。它可以直接与桌面应用程序、浏览器和系统工具交互。
对于我们的用例,这实现了一些我们无法用 GPT-5.3 Codex 做到的事情:模型现在可以运行我们的测试套件,观察输出,并根据实际测试结果(而不仅仅是静态分析)调整其代码审查建议。以前,我们必须手动将测试输出通过管道传输到 context 中。现在模型可以自行执行和观察。
我们在大约三天内构建了一个新的“测试感知审查”模式,它立即捕捉到了纯静态分析漏掉的两个 bug。
Token 效率是真实的
OpenAI 声称 GPT-5.4 每个任务使用的 output tokens 更少。经过两周的生产数据,我们证实了这一点:对于同等任务,GPT-5.4 平均每个任务使用 3.1K output tokens,而 GPT-5.3 Codex 为 4.0K。这意味着 output tokens 减少了 22.5%。
结合 Tool Search 减少的 input tokens,每个任务的总 token 消耗降低了大约 30%。
错误减少很明显
根据 OpenAI 的数据,GPT-5.4 产生的事实错误减少了 33%。在我们的代码审查背景下,这转化为更少的误报建议——模型不太可能将正确的代码标记为有问题的。我们团队的“拒绝建议”率从 18% 下降到 11%。
第三周:成本状况变得清晰
这是每个人都想知道的部分。在生产环境中运行 GPT-5.4 三整周并与我们历史上的 GPT-5.3 Codex 数据对比后,以下是成本对比:
每日 API 成本(平均)
| 指标 | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| 每日调用次数 | ~800 | ~800 |
| 平均每次调用 input tokens | 12,000 | 11,200 |
| 平均每次调用 output tokens | 4,000 | 3,100 |
| Input 成本率 | $1.75/MTok | $2.50/MTok |
| Output 成本率 | $14.00/MTok | $15.00/MTok |
| 每日 input 成本 | $16.80 | $22.40 |
| 每日 output 成本 | $44.80 | $37.20 |
| 每日总计 | $61.60 | $59.60 |
每月预测: GPT-5.3 Codex 约为 $1,848。GPT-5.4 预计约为 $1,788。节省了大约 $60/月 (3.2%) —— 虽然不多,但值得注意,因为 GPT-5.4 的名义定价更高。
节省完全来自于 token 效率。GPT-5.4 完成相同任务所使用的 tokens 更少,这在我们的工作负载中抵消了其更高的每 token 价格。
成本上升的地方
长上下文任务——超过 272K tokens 的任务——在 GPT-5.4 上的成本明显更高,这是由于长上下文附加费。我们每天运行大约 15 次此类任务(全仓库审查)。对于这些特定的调用,成本增加了约 40%。
成本下降的地方
低于 100K tokens 的标准任务——占我们总量的 95% —— 由于更低的 output token 数量而变得更便宜。这足以补偿剩余 5% 任务的长上下文附加费。
我没预料到的事情
1. GPT-5.4 对代码风格更有主见
GPT-5.3 Codex 在风格上相对中立——它遵循代码库中存在的任何模式。GPT-5.4 的观点更强。它会建议为了清晰起见重命名变量、重构条件语句以及提取函数——即使你只是要求修复一个 bug。
这既是好事也很烦人。好在建议通常是有效的。烦人在于当团队只想要针对性的反馈时,它会为代码审查增加噪音。
我们的修复: 添加了一个系统 prompt 指令:“仅关注正确性和安全性问题。除非风格更改对可读性的影响大到会导致 bug,否则不要建议风格更改。”
2. 弃用时间线产生了紧迫感
GPT-5.2 Thinking 将于 2026年6月5日 退役。如果你仍在使用 5.2,你还有三个月时间。GPT-5.3 Codex 有持续到 2027年2月 的 LTS 支持,所以紧迫感较小——但大势所趋已很明显。
3. Tool Search 是隐藏的杀手锏
最初我将 Tool Search 视为一个优化细节。事实证明,它是对我们工作流影响最大的功能。GPT-5.4 不再在每次 API 调用中发送所有 12 个工具定义(每次消耗 ~3K tokens),而是根据需要动态发现工具。在我们的业务量下,token 的节省积少成多。
OpenAI 的文档称,在他们的测试中,Tool Search 减少了 47% 的 token 使用。对于我们的重度工具工作流,我们看到了大约 35% —— 依然非常可观。
4. “氛围”变了
这是主观的,难以量化,但团队注意到了。GPT-5.4 给人的感觉更像是在与一位资深工程师合作——它会质疑假设,提出替代方案,有时还会反驳它认为次优的方法。GPT-5.3 Codex 则更顺从。你是否认为这是一种改进取决于你团队的工作流程。Zvi Mowshowitz 的分析称其为推理和通用能力方面的“实质性升级”,我们也深有同感。
迁移清单
根据我们的经验,如果我要再次迁移,我会这样做:
切换前
- 审计你的 JSON 解析——检查对 Markdown 代码围栏的处理
- 审查 function calling schema——测试可选和嵌套参数
- 检查你的 token 计数和成本估算逻辑
- 根据 GPT-5.4 层级限制 验证速率限制配置
- 识别任何假设工具调用顺序的工作流
切换中
- 先部署到预发环境
- 让两个模型并行运行至少 48 小时
- 监控 JSON 格式差异
- 检查 function calling 成功率
- 在你的特定任务上比较输出质量
切换后
- 启用 Tool Search 并衡量 token 节省情况
- 评估超过 272K 定价阈值的长上下文任务
- 如果 GPT-5.4 对你的工作流过于主观,请调整系统 prompt
- 为新工作流探索 computer use 能力
- 使用实际使用数据更新成本预测
你现在应该迁移吗?
这是我的决策框架:
如果符合以下情况,请立即迁移:
- 你在使用 GPT-5.2(它将于 6月5日 退役)
- 你经常达到 400K context 限制
- 你需要 computer use 能力
- 你使用大量的工具调用并希望节省 token
如果符合以下情况,请尽快(一个月内)迁移:
- 你想要质量提升,并且可以忍受一周的集成工作
- 你正在构建受益于 1M context 的新功能
- 你想在 GPT-5.3 最终达到生命周期终点前做好未来规划
如果符合以下情况,请保留在 GPT-5.3 Codex:
- 你的工作流稳定且成本已优化
- 对于 prompt 密集型工作负载,你依赖于它较低的 input token 定价
- 你希望在 2027年2月 前享有 LTS 支持 的稳定性
- 你处于受监管的环境中,模型更改需要正式审查
对于我们在 ZBuild 的内部工具,迁移这一周的工作是值得的。仅 1M context window 就改变了我们工具的能力。但如果你的 GPT-5.3 Codex 集成运行良好且没有达到其限制,那就没有燃眉之急——按照你的时间表计划迁移,而不是 OpenAI 的。
给考虑切换的团队的经验教训
如果我能将整个迁移过程浓缩为给其他工程团队的五个建议,那就是以下几点。
1. 预算一周的集成时间,而不仅仅是更换模型
更换模型只需五分钟。在你的集成中发现每一个边缘案例需要一周。我们的 JSON 格式问题、function calling 差异和日志假设都是在真实流量下浮现的,而不是在单元测试中。在正式切换前,让两个模型并行运行至少 48 小时。
2. Token 效率抵消了更高的定价——但并非总是如此
对于 100K tokens 以下的标准任务,尽管每 token 定价更高,但 GPT-5.4 确实更便宜。但如果你的工作负载严重向长上下文任务(超过 272K tokens)倾斜,你将支付更多。在承诺之前,请根据你的特定使用模式建立成本模型。Apiyi 定价阈值指南有一个非常有用的计算器。
3. Tool Search 不是可选的——请立即启用
如果你使用超过 5 个工具的 function calling,请在第一天就启用 Tool Search。节省的 token 会在大规模情况下产生复利。对于我们的 12 工具设置,它每次调用节省了大约 3K tokens——每天超过 800 次调用,那就是每天 240 万个 tokens,或者每天约 $6 的 input 成本。
4. 根据 GPT-5.4 的性格调整你的 Prompt
GPT-5.4 比 GPT-5.3 Codex 更有主见。如果你的应用程序依赖于模型精确执行指令而没有任何编辑性评论,请在系统 prompt 中添加明确的约束。例如“仅专注于请求的任务。除非被要求,否则不要建议改进或替代方案。”这为我们的团队节省了代码审查输出中的大量噪音。
5. 现在就开始计划你的 GPT-5.2 迁移
如果你还有任何系统运行在 GPT-5.2 Thinking 上,2026年6月5日 的退役时间是不可商量的。不要等到 5 月才开始迁移。GPT-5.2 和 GPT-5.4 之间的集成表面积比 GPT-5.3 到 GPT-5.4 的差距更大,因此预计会有更多故障。
GPT-5.4 vs GPT-5.3 Codex:快速参考表
对于想要摘要而不需要叙述的团队,这里是汇总在一起的关键数据:
| 功能 | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| 发布日期 | 2025年10月 | 2026年3月5日 |
| Context window | 400K tokens | 1,050,000 tokens |
| Input 定价 | $1.75/MTok | $2.50/MTok |
| Output 定价 | $14.00/MTok | $15.00/MTok |
| 长上下文附加费 | 无 | 272K 以上 2x input, 1.5x output |
| Computer use | 否 | 是,原生支持 |
| Tool search | 否 | 是 (节省 ~47% tokens) |
| 错误减少 | 基准 | 事实错误减少 33% |
| LTS 支持 | 至 2027年2月 | 当前模型 |
| 最适合 | 终端密集型、成本敏感型工作 | 通用 + Agent 工作流 |
一个月后:最终定论
在 GPT-5.4 上运行已满一个月。集成问题已解决,团队已适应,数据也趋于稳定。
质量: 更好。代码审查中的误报更少,跨模块分析更强,而且 computer use 集成增加了一个以前不可能实现的工作流。
成本: 标准任务大致相当,长上下文任务略高,但由于 token 效率,整体月度账单降低了 3-4%。
速度: 相当。对于我们的工作负载没有明显的差异。
稳定性: 在最初一周的修复之后,零生产问题。
这次升级不是革命性的——它是渐进的但积极的。GPT-5.4 是 2026年3月 大多数开发者的更好选择。问题仅在于迁移工作对于你的具体情况是否值得。
如果你正在构建开发者工具——就像我们在 ZBuild 所做的那样——保持在当前的旗舰模型上对于保持产品竞争力至关重要。对于稳定性优先的内部工具,GPT-5.3 Codex 的 LTS 版本在 2027 年初之前都是一个完全有效的选择。
来源
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex