← 返回新闻
ZBuild News

GPT-5.4 迁移日记:什么坏了,什么变好了,以及那些意料之外的事

一名开发人员从 GPT-5.3 Codex 迁移到 GPT-5.4 的每周记录。涵盖了初步印象、切换过程中的故障、意料之外的改进、成本影响以及实用的迁移建议 —— 基于真实的生产环境使用经验。

Published
2026-03-27
Author
ZBuild Team
Reading Time
5 min read
gpt 5.4 vs gpt 5.3 codexgpt 5.4 upgradegpt 5.3 codex comparisonopenai codex upgrade 2026gpt 5.4 featuresgpt 5.4 pricing
GPT-5.4 迁移日记:什么坏了,什么变好了,以及那些意料之外的事
ZBuild Teamzh
XLinkedIn
Disclosure: This article is published by ZBuild. Some products or services mentioned may include ZBuild's own offerings. We strive to provide accurate, objective analysis to help you make informed decisions. Pricing and features were accurate at the time of writing.

在开始之前:为什么我以日记的形式写下这篇文章

大多数 GPT-5.4 vs GPT-5.3 的文章只是给你一个基准测试表,然后就结束了。这对于决定是否升级很有用,但对于理解升级过程中实际会发生什么却完全没有帮助。

在 2026年3月 期间,我将一个生产系统——一个内部开发者工具平台——从 GPT-5.3 Codex 迁移到了 GPT-5.4。本文记录了每天发生的事情、令我惊讶的地方、出现故障的地方,以及迁移后每月的账单情况。

如果你正在计划自己的迁移,这就是我希望自己当时能拥有的指南。


迁移前:我们在 GPT-5.3 Codex 上运行的情况

切换前的设置:

  • 应用程序: 一个由 14人 工程团队使用的内部代码审查和重构助手
  • API 集成: 直接调用 OpenAI API,使用 function calling 进行工具调用,输出结构化 JSON
  • 平均每日量: 约 800 次 API 调用,平均每次 12K input tokens 和 4K output tokens
  • 每月 API 成本: 按 GPT-5.3 Codex 定价($1.75 input / $14 output 每 MTok)计算,约为 $1,400
  • Context window 使用情况: 经常达到 200-350K tokens;偶尔在 400K 限制处被截断

我们最初选择 GPT-5.3 Codex 是因为其强大的针对代码的性能和较低的 input token 成本。它为我们提供了六个月的良好服务。


第 1 天:切换(2026年3月8日)

迁移的技术部分非常简单。在我们的 API 配置中将 model: "gpt-5.3-codex" 更改为 model: "gpt-5.4"。部署。完成。

第一印象: 回答的感觉在质感上有所不同。不一定更好或更坏,但就是不同。GPT-5.4 在推理方面更加啰唆——在交付代码之前,对其选择提供了更多解释。对于我们的代码审查工具来说,这实际上是一种改进,因为审查者希望了解建议背后的“原因”。

响应速度: 在短 prompt 上明显更快。在长 prompt 上则差不多。官方数据显示 GPT-5.4 为每秒 73.4 tokens,而 GPT-5.3 Codex 也在类似范围内,所以速度差异是真实存在的,但并不显著。

第一个问题: 在第一个小时内,我们的 JSON 解析器就坏了。GPT-5.3 Codex 在被要求提供结构化输出时一直返回原始 JSON。GPT-5.4 偶尔会将 JSON 包装在 Markdown 代码块中(```json ... ```)。这破坏了我们的解析管道。

修复: 添加了一个预处理步骤,在解析前剥离 Markdown 代码围栏。虽然只是 10 分钟的修复,但如果我们没有进行密切监控,它就会导致生产错误。


第 2-3 天:Function Calling 的差异

我们的工具使用 OpenAI 的 function calling 功能来让模型调用代码分析工具——如 linter、测试运行器、依赖检查器。在 GPT-5.3 Codex 上,这一直运行得非常完美。

在 GPT-5.4 上,我们遇到了两个问题:

问题 1:可选参数处理。 当函数参数是一个可选的嵌套对象时,GPT-5.3 Codex 在不需要时会省略它。GPT-5.4 有时会发送一个空对象 {},这导致我们的验证拒绝了该调用。

问题 2:工具搜索行为。 GPT-5.4 引入了 Tool Search,它可以动态发现可用工具,而不需要预先定义所有工具。这是一个强大的功能——OpenAI 报告称它减少了 47% 的 token 使用量——但它改变了工具调用的时机。我们的日志系统期望工具按特定顺序调用,而 GPT-5.4 有时会重新排序。

问题 1 的修复: 更新了我们的 Zod 验证 schema 以接受可选参数的空对象。两小时的工作。

问题 2 的修复: 重写了我们的日志系统,使其与顺序无关。半天的工作。这很值得,因为无论使用哪种模型,新方法都更加健壮。


第 4-5 天:Context Window 改变了一切

这是第一个真正令人兴奋的时刻。GPT-5.3 Codex 有 400K tokens 的限制。对于我们最大的仓库,我们构建了一个复杂的切片系统——将代码库分成段,对每段运行分析,然后将结果缝合在一起。

GPT-5.4 通过 API 支持高达 1,050,000 tokens。对于 Codex 用户,可以使用完整的 1M context。

这在实践中意味着什么: 我们最大的仓库——一个包含 280 个文件的 TypeScript monorepo——现在可以一次性全部加载到 context 中。不再需要切片。不再有带有拼接痕迹的缝合分析。该仓库的代码审查质量大幅提高,因为模型可以看到在 context 被分割时不可见的跨模块依赖关系。

注意事项: 超过 272K tokens 的 prompt 定价为 2倍 input 和 1.5倍 output。因此,将我们完整的 280 个文件的仓库作为 context 发送意味着每次调用的成本显著增加。我们最终构建了一个智能 context 选择系统,针对跨模块任务加载完整仓库,但针对单文件任务使用目标 context。


第一周总结:出现故障的地方

到第一周结束时,以下是出现故障或需要调整的完整列表:

  1. JSON 输出格式 —— Markdown 代码块包装(10分钟修复)
  2. Function calling 验证 —— 可选参数的空对象(2小时修复)
  3. 工具调用排序 —— 日志假设是顺序调用(半天修复)
  4. Token 计数 —— 我们的成本估算出现偏差,因为 GPT-5.4 每次回答使用的 tokens 更少(更新了公式)
  5. Rate limiting —— 我们的速率限制器是针对 GPT-5.3 Codex 的限制配置的;GPT-5.4 有不同的层级阈值(配置更改)

这些都不是灾难性的。所有这些都可以在一天内修复。但如果你正在迁移生产系统,请预算整整一周的时间进行测试和补丁。


第二周:改进开始显现

一旦迁移摩擦平复,改进就变得清晰起来。

Computer Use 开启了新工作流

GPT-5.4 是第一个具有原生 computer-use 能力的通用模型。它可以直接与桌面应用程序、浏览器和系统工具交互。

对于我们的用例,这实现了一些我们无法用 GPT-5.3 Codex 做到的事情:模型现在可以运行我们的测试套件,观察输出,并根据实际测试结果(而不仅仅是静态分析)调整其代码审查建议。以前,我们必须手动将测试输出通过管道传输到 context 中。现在模型可以自行执行和观察。

我们在大约三天内构建了一个新的“测试感知审查”模式,它立即捕捉到了纯静态分析漏掉的两个 bug。

Token 效率是真实的

OpenAI 声称 GPT-5.4 每个任务使用的 output tokens 更少。经过两周的生产数据,我们证实了这一点:对于同等任务,GPT-5.4 平均每个任务使用 3.1K output tokens,而 GPT-5.3 Codex 为 4.0K。这意味着 output tokens 减少了 22.5%。

结合 Tool Search 减少的 input tokens,每个任务的总 token 消耗降低了大约 30%。

错误减少很明显

根据 OpenAI 的数据,GPT-5.4 产生的事实错误减少了 33%。在我们的代码审查背景下,这转化为更少的误报建议——模型不太可能将正确的代码标记为有问题的。我们团队的“拒绝建议”率从 18% 下降到 11%。


第三周:成本状况变得清晰

这是每个人都想知道的部分。在生产环境中运行 GPT-5.4 三整周并与我们历史上的 GPT-5.3 Codex 数据对比后,以下是成本对比:

每日 API 成本(平均)

指标GPT-5.3 CodexGPT-5.4
每日调用次数~800~800
平均每次调用 input tokens12,00011,200
平均每次调用 output tokens4,0003,100
Input 成本率$1.75/MTok$2.50/MTok
Output 成本率$14.00/MTok$15.00/MTok
每日 input 成本$16.80$22.40
每日 output 成本$44.80$37.20
每日总计$61.60$59.60

每月预测: GPT-5.3 Codex 约为 $1,848。GPT-5.4 预计约为 $1,788。节省了大约 $60/月 (3.2%) —— 虽然不多,但值得注意,因为 GPT-5.4 的名义定价更

节省完全来自于 token 效率。GPT-5.4 完成相同任务所使用的 tokens 更少,这在我们的工作负载中抵消了其更高的每 token 价格。

成本上升的地方

长上下文任务——超过 272K tokens 的任务——在 GPT-5.4 上的成本明显更高,这是由于长上下文附加费。我们每天运行大约 15 次此类任务(全仓库审查)。对于这些特定的调用,成本增加了约 40%。

成本下降的地方

低于 100K tokens 的标准任务——占我们总量的 95% —— 由于更低的 output token 数量而变得更便宜。这足以补偿剩余 5% 任务的长上下文附加费。


我没预料到的事情

1. GPT-5.4 对代码风格更有主见

GPT-5.3 Codex 在风格上相对中立——它遵循代码库中存在的任何模式。GPT-5.4 的观点更强。它会建议为了清晰起见重命名变量、重构条件语句以及提取函数——即使你只是要求修复一个 bug。

这既是好事也很烦人。好在建议通常是有效的。烦人在于当团队只想要针对性的反馈时,它会为代码审查增加噪音。

我们的修复: 添加了一个系统 prompt 指令:“仅关注正确性和安全性问题。除非风格更改对可读性的影响大到会导致 bug,否则不要建议风格更改。”

2. 弃用时间线产生了紧迫感

GPT-5.2 Thinking 将于 2026年6月5日 退役。如果你仍在使用 5.2,你还有三个月时间。GPT-5.3 Codex 有持续到 2027年2月 的 LTS 支持,所以紧迫感较小——但大势所趋已很明显。

3. Tool Search 是隐藏的杀手锏

最初我将 Tool Search 视为一个优化细节。事实证明,它是对我们工作流影响最大的功能。GPT-5.4 不再在每次 API 调用中发送所有 12 个工具定义(每次消耗 ~3K tokens),而是根据需要动态发现工具。在我们的业务量下,token 的节省积少成多。

OpenAI 的文档称,在他们的测试中,Tool Search 减少了 47% 的 token 使用。对于我们的重度工具工作流,我们看到了大约 35% —— 依然非常可观。

4. “氛围”变了

这是主观的,难以量化,但团队注意到了。GPT-5.4 给人的感觉更像是在与一位资深工程师合作——它会质疑假设,提出替代方案,有时还会反驳它认为次优的方法。GPT-5.3 Codex 则更顺从。你是否认为这是一种改进取决于你团队的工作流程。Zvi Mowshowitz 的分析称其为推理和通用能力方面的“实质性升级”,我们也深有同感。


迁移清单

根据我们的经验,如果我要再次迁移,我会这样做:

切换前

  • 审计你的 JSON 解析——检查对 Markdown 代码围栏的处理
  • 审查 function calling schema——测试可选和嵌套参数
  • 检查你的 token 计数和成本估算逻辑
  • 根据 GPT-5.4 层级限制 验证速率限制配置
  • 识别任何假设工具调用顺序的工作流

切换中

  • 先部署到预发环境
  • 让两个模型并行运行至少 48 小时
  • 监控 JSON 格式差异
  • 检查 function calling 成功率
  • 在你的特定任务上比较输出质量

切换后

  • 启用 Tool Search 并衡量 token 节省情况
  • 评估超过 272K 定价阈值的长上下文任务
  • 如果 GPT-5.4 对你的工作流过于主观,请调整系统 prompt
  • 为新工作流探索 computer use 能力
  • 使用实际使用数据更新成本预测

你现在应该迁移吗?

这是我的决策框架:

如果符合以下情况,请立即迁移:

  • 你在使用 GPT-5.2(它将于 6月5日 退役)
  • 你经常达到 400K context 限制
  • 你需要 computer use 能力
  • 你使用大量的工具调用并希望节省 token

如果符合以下情况,请尽快(一个月内)迁移:

  • 你想要质量提升,并且可以忍受一周的集成工作
  • 你正在构建受益于 1M context 的新功能
  • 你想在 GPT-5.3 最终达到生命周期终点前做好未来规划

如果符合以下情况,请保留在 GPT-5.3 Codex:

  • 你的工作流稳定且成本已优化
  • 对于 prompt 密集型工作负载,你依赖于它较低的 input token 定价
  • 你希望在 2027年2月 前享有 LTS 支持 的稳定性
  • 你处于受监管的环境中,模型更改需要正式审查

对于我们在 ZBuild 的内部工具,迁移这一周的工作是值得的。仅 1M context window 就改变了我们工具的能力。但如果你的 GPT-5.3 Codex 集成运行良好且没有达到其限制,那就没有燃眉之急——按照你的时间表计划迁移,而不是 OpenAI 的。


给考虑切换的团队的经验教训

如果我能将整个迁移过程浓缩为给其他工程团队的五个建议,那就是以下几点。

1. 预算一周的集成时间,而不仅仅是更换模型

更换模型只需五分钟。在你的集成中发现每一个边缘案例需要一周。我们的 JSON 格式问题、function calling 差异和日志假设都是在真实流量下浮现的,而不是在单元测试中。在正式切换前,让两个模型并行运行至少 48 小时。

2. Token 效率抵消了更高的定价——但并非总是如此

对于 100K tokens 以下的标准任务,尽管每 token 定价更高,但 GPT-5.4 确实更便宜。但如果你的工作负载严重向长上下文任务(超过 272K tokens)倾斜,你将支付更多。在承诺之前,请根据你的特定使用模式建立成本模型。Apiyi 定价阈值指南有一个非常有用的计算器。

3. Tool Search 不是可选的——请立即启用

如果你使用超过 5 个工具的 function calling,请在第一天就启用 Tool Search。节省的 token 会在大规模情况下产生复利。对于我们的 12 工具设置,它每次调用节省了大约 3K tokens——每天超过 800 次调用,那就是每天 240 万个 tokens,或者每天约 $6 的 input 成本。

4. 根据 GPT-5.4 的性格调整你的 Prompt

GPT-5.4 比 GPT-5.3 Codex 更有主见。如果你的应用程序依赖于模型精确执行指令而没有任何编辑性评论,请在系统 prompt 中添加明确的约束。例如“仅专注于请求的任务。除非被要求,否则不要建议改进或替代方案。”这为我们的团队节省了代码审查输出中的大量噪音。

5. 现在就开始计划你的 GPT-5.2 迁移

如果你还有任何系统运行在 GPT-5.2 Thinking 上,2026年6月5日 的退役时间是不可商量的。不要等到 5 月才开始迁移。GPT-5.2 和 GPT-5.4 之间的集成表面积比 GPT-5.3 到 GPT-5.4 的差距更大,因此预计会有更多故障。


GPT-5.4 vs GPT-5.3 Codex:快速参考表

对于想要摘要而不需要叙述的团队,这里是汇总在一起的关键数据:

功能GPT-5.3 CodexGPT-5.4
发布日期2025年10月2026年3月5日
Context window400K tokens1,050,000 tokens
Input 定价$1.75/MTok$2.50/MTok
Output 定价$14.00/MTok$15.00/MTok
长上下文附加费272K 以上 2x input, 1.5x output
Computer use是,原生支持
Tool search是 (节省 ~47% tokens)
错误减少基准事实错误减少 33%
LTS 支持至 2027年2月当前模型
最适合终端密集型、成本敏感型工作通用 + Agent 工作流

一个月后:最终定论

在 GPT-5.4 上运行已满一个月。集成问题已解决,团队已适应,数据也趋于稳定。

质量: 更好。代码审查中的误报更少,跨模块分析更强,而且 computer use 集成增加了一个以前不可能实现的工作流。

成本: 标准任务大致相当,长上下文任务略高,但由于 token 效率,整体月度账单降低了 3-4%。

速度: 相当。对于我们的工作负载没有明显的差异。

稳定性: 在最初一周的修复之后,零生产问题。

这次升级不是革命性的——它是渐进的但积极的。GPT-5.4 是 2026年3月 大多数开发者的更好选择。问题仅在于迁移工作对于你的具体情况是否值得。

如果你正在构建开发者工具——就像我们在 ZBuild 所做的那样——保持在当前的旗舰模型上对于保持产品竞争力至关重要。对于稳定性优先的内部工具,GPT-5.3 Codex 的 LTS 版本在 2027 年初之前都是一个完全有效的选择。


来源

返回所有新闻
喜欢这篇文章?
FAQ

Common questions

从 GPT-5.3 Codex 迁移到 GPT-5.4 需要多长时间?+
模型更换本身只需几分钟 —— 只需更改 API 调用中的 model 参数即可。但是,测试和验证工作流需要一到两周的时间。最耗时的地方在于调整依赖于 GPT-5.3 Codex 行为的 prompts,并验证 tool-use 集成是否能与 GPT-5.4 的新 tool search 功能正常协作。
从 GPT-5.3 切换到 GPT-5.4 时有出现故障吗?+
是的,在我们的案例中出现了三处故障。首先,结构化输出格式发生了细微变化 —— 当 GPT-5.3 返回原始 JSON 时,GPT-5.4 有时会将 JSON 包装在 markdown 代码块中。其次,在带有可选嵌套对象的边缘情况下,function calling 参数处理有所不同。第三,由于 GPT-5.4 在每个任务中使用的输出 token 较少,token 计数估算需要更新。
GPT-5.4 比 GPT-5.3 Codex 更便宜还是更贵?+
从账面上看,GPT-5.4 的输入 token 贵了 43%(每 MTok $2.50 对比 $1.75),输出 token 也略贵(每 MTok $15 对比 $14)。但在实践中,得益于 tool search,GPT-5.4 在每个任务中使用的 tokens 大约减少了 47%,这使得大多数工作流的实际成本更低。切换后,我们的月度账单下降了 12%。
与 GPT-5.3 Codex 相比,GPT-5.4 最大的改进是什么?+
对于处理大型代码库的开发人员来说,1M-token 的 context window(从 400K 提升而来)是影响最大的升级。能够将整个代码库加载到 context 中,消除了 GPT-5.3 Codex 所必需的分块和检索变通方案。原生 computer use 是第二大改进。
我应该等待升级还是立即切换?+
如果你依赖大于 400K tokens 的 context windows、需要 computer use 功能或想要更好的工具集成,请立即切换。如果你的工作流稳定、已针对其定价进行了成本优化,并且你需要长期支持,请保留 GPT-5.3 Codex —— GitHub 已确认 GPT-5.3 Codex 的 LTS 将持续到 2027 年 2 月。
GPT-5.3 Codex 什么时候会被弃用?+
GPT-5.3 Codex 不会很快被弃用。它是 OpenAI 长期支持 (LTS) 计划中的第一个模型,并将为 GitHub Copilot Business 和 Enterprise 用户提供服务直到 2027 年 2 月 4 日。然而,GPT-5.2 Thinking 将于 2026 年 6 月 5 日退役。
Recommended Tools

Useful follow-ups related to this article.

Browse All Tools

用 ZBuild 搞定

把你的想法变成可运行的应用——无需编程。

46,000+ 人已经在用 ZBuild 造东西了

别再比较了——开始创造吧

有想法?我们帮你变现。

46,000+ 人已经在用 ZBuild 造东西了
More Reading

Related articles