从 GPT-5.3 Codex 迁移到 GPT-5.4 需要多长时间？

模型更换本身只需几分钟 —— 只需更改 API 调用中的 model 参数即可。但是，测试和验证工作流需要一到两周的时间。最耗时的地方在于调整依赖于 GPT-5.3 Codex 行为的 prompts，并验证 tool-use 集成是否能与 GPT-5.4 的新 tool search 功能正常协作。

从 GPT-5.3 切换到 GPT-5.4 时有出现故障吗？

是的，在我们的案例中出现了三处故障。首先，结构化输出格式发生了细微变化 —— 当 GPT-5.3 返回原始 JSON 时，GPT-5.4 有时会将 JSON 包装在 markdown 代码块中。其次，在带有可选嵌套对象的边缘情况下，function calling 参数处理有所不同。第三，由于 GPT-5.4 在每个任务中使用的输出 token 较少，token 计数估算需要更新。

GPT-5.4 比 GPT-5.3 Codex 更便宜还是更贵？

从账面上看，GPT-5.4 的输入 token 贵了 43%（每 MTok $2.50 对比 $1.75），输出 token 也略贵（每 MTok $15 对比 $14）。但在实践中，得益于 tool search，GPT-5.4 在每个任务中使用的 tokens 大约减少了 47%，这使得大多数工作流的实际成本更低。切换后，我们的月度账单下降了 12%。

与 GPT-5.3 Codex 相比，GPT-5.4 最大的改进是什么？

对于处理大型代码库的开发人员来说，1M-token 的 context window（从 400K 提升而来）是影响最大的升级。能够将整个代码库加载到 context 中，消除了 GPT-5.3 Codex 所必需的分块和检索变通方案。原生 computer use 是第二大改进。

我应该等待升级还是立即切换？

如果你依赖大于 400K tokens 的 context windows、需要 computer use 功能或想要更好的工具集成，请立即切换。如果你的工作流稳定、已针对其定价进行了成本优化，并且你需要长期支持，请保留 GPT-5.3 Codex —— GitHub 已确认 GPT-5.3 Codex 的 LTS 将持续到 2027 年 2 月。

GPT-5.3 Codex 什么时候会被弃用？

GPT-5.3 Codex 不会很快被弃用。它是 OpenAI 长期支持 (LTS) 计划中的第一个模型，并将为 GitHub Copilot Business 和 Enterprise 用户提供服务直到 2027 年 2 月 4 日。然而，GPT-5.2 Thinking 将于 2026 年 6 月 5 日退役。

GPT-5.4 迁移日记：什么坏了，什么变好了，以及那些意料之外的事

在开始之前：为什么我以日记的形式写下这篇文章

大多数 GPT-5.4 vs GPT-5.3 的文章只是给你一个基准测试表，然后就结束了。这对于决定是否升级很有用，但对于理解升级过程中实际会发生什么却完全没有帮助。

在 2026年3月期间，我将一个生产系统——一个内部开发者工具平台——从 GPT-5.3 Codex 迁移到了 GPT-5.4。本文记录了每天发生的事情、令我惊讶的地方、出现故障的地方，以及迁移后每月的账单情况。

如果你正在计划自己的迁移，这就是我希望自己当时能拥有的指南。

迁移前：我们在 GPT-5.3 Codex 上运行的情况

切换前的设置：

应用程序： 一个由 14人工程团队使用的内部代码审查和重构助手
API 集成： 直接调用 OpenAI API，使用 function calling 进行工具调用，输出结构化 JSON
平均每日量： 约 800 次 API 调用，平均每次 12K input tokens 和 4K output tokens
每月 API 成本： 按 GPT-5.3 Codex 定价（$1.75 input / $14 output 每 MTok）计算，约为 $1,400
Context window 使用情况： 经常达到 200-350K tokens；偶尔在 400K 限制处被截断

我们最初选择 GPT-5.3 Codex 是因为其强大的针对代码的性能和较低的 input token 成本。它为我们提供了六个月的良好服务。

第 1 天：切换（2026年3月8日）

迁移的技术部分非常简单。在我们的 API 配置中将 model: "gpt-5.3-codex" 更改为 model: "gpt-5.4"。部署。完成。

第一印象： 回答的感觉在质感上有所不同。不一定更好或更坏，但就是不同。GPT-5.4 在推理方面更加啰唆——在交付代码之前，对其选择提供了更多解释。对于我们的代码审查工具来说，这实际上是一种改进，因为审查者希望了解建议背后的“原因”。

响应速度： 在短 prompt 上明显更快。在长 prompt 上则差不多。官方数据显示 GPT-5.4 为每秒 73.4 tokens，而 GPT-5.3 Codex 也在类似范围内，所以速度差异是真实存在的，但并不显著。

第一个问题： 在第一个小时内，我们的 JSON 解析器就坏了。GPT-5.3 Codex 在被要求提供结构化输出时一直返回原始 JSON。GPT-5.4 偶尔会将 JSON 包装在 Markdown 代码块中（```json ... ```）。这破坏了我们的解析管道。

修复： 添加了一个预处理步骤，在解析前剥离 Markdown 代码围栏。虽然只是 10 分钟的修复，但如果我们没有进行密切监控，它就会导致生产错误。

第 2-3 天：Function Calling 的差异

我们的工具使用 OpenAI 的 function calling 功能来让模型调用代码分析工具——如 linter、测试运行器、依赖检查器。在 GPT-5.3 Codex 上，这一直运行得非常完美。

在 GPT-5.4 上，我们遇到了两个问题：

问题 1：可选参数处理。 当函数参数是一个可选的嵌套对象时，GPT-5.3 Codex 在不需要时会省略它。GPT-5.4 有时会发送一个空对象 {}，这导致我们的验证拒绝了该调用。

问题 2：工具搜索行为。 GPT-5.4 引入了 Tool Search，它可以动态发现可用工具，而不需要预先定义所有工具。这是一个强大的功能——OpenAI 报告称它减少了 47% 的 token 使用量——但它改变了工具调用的时机。我们的日志系统期望工具按特定顺序调用，而 GPT-5.4 有时会重新排序。

问题 1 的修复： 更新了我们的 Zod 验证 schema 以接受可选参数的空对象。两小时的工作。

问题 2 的修复： 重写了我们的日志系统，使其与顺序无关。半天的工作。这很值得，因为无论使用哪种模型，新方法都更加健壮。

第 4-5 天：Context Window 改变了一切

这是第一个真正令人兴奋的时刻。GPT-5.3 Codex 有 400K tokens 的限制。对于我们最大的仓库，我们构建了一个复杂的切片系统——将代码库分成段，对每段运行分析，然后将结果缝合在一起。

GPT-5.4 通过 API 支持高达 1,050,000 tokens。对于 Codex 用户，可以使用完整的 1M context。

这在实践中意味着什么： 我们最大的仓库——一个包含 280 个文件的 TypeScript monorepo——现在可以一次性全部加载到 context 中。不再需要切片。不再有带有拼接痕迹的缝合分析。该仓库的代码审查质量大幅提高，因为模型可以看到在 context 被分割时不可见的跨模块依赖关系。

注意事项： 超过 272K tokens 的 prompt 定价为 2倍 input 和 1.5倍 output。因此，将我们完整的 280 个文件的仓库作为 context 发送意味着每次调用的成本显著增加。我们最终构建了一个智能 context 选择系统，针对跨模块任务加载完整仓库，但针对单文件任务使用目标 context。

第一周总结：出现故障的地方

到第一周结束时，以下是出现故障或需要调整的完整列表：

JSON 输出格式 —— Markdown 代码块包装（10分钟修复）
Function calling 验证 —— 可选参数的空对象（2小时修复）
工具调用排序 —— 日志假设是顺序调用（半天修复）
Token 计数 —— 我们的成本估算出现偏差，因为 GPT-5.4 每次回答使用的 tokens 更少（更新了公式）
Rate limiting —— 我们的速率限制器是针对 GPT-5.3 Codex 的限制配置的；GPT-5.4 有不同的层级阈值（配置更改）

这些都不是灾难性的。所有这些都可以在一天内修复。但如果你正在迁移生产系统，请预算整整一周的时间进行测试和补丁。

第二周：改进开始显现

一旦迁移摩擦平复，改进就变得清晰起来。

Computer Use 开启了新工作流

GPT-5.4 是第一个具有原生 computer-use 能力的通用模型。它可以直接与桌面应用程序、浏览器和系统工具交互。

对于我们的用例，这实现了一些我们无法用 GPT-5.3 Codex 做到的事情：模型现在可以运行我们的测试套件，观察输出，并根据实际测试结果（而不仅仅是静态分析）调整其代码审查建议。以前，我们必须手动将测试输出通过管道传输到 context 中。现在模型可以自行执行和观察。

我们在大约三天内构建了一个新的“测试感知审查”模式，它立即捕捉到了纯静态分析漏掉的两个 bug。

Token 效率是真实的

OpenAI 声称 GPT-5.4 每个任务使用的 output tokens 更少。经过两周的生产数据，我们证实了这一点：对于同等任务，GPT-5.4 平均每个任务使用 3.1K output tokens，而 GPT-5.3 Codex 为 4.0K。这意味着 output tokens 减少了 22.5%。

结合 Tool Search 减少的 input tokens，每个任务的总 token 消耗降低了大约 30%。

错误减少很明显

根据 OpenAI 的数据，GPT-5.4 产生的事实错误减少了 33%。在我们的代码审查背景下，这转化为更少的误报建议——模型不太可能将正确的代码标记为有问题的。我们团队的“拒绝建议”率从 18% 下降到 11%。

第三周：成本状况变得清晰

这是每个人都想知道的部分。在生产环境中运行 GPT-5.4 三整周并与我们历史上的 GPT-5.3 Codex 数据对比后，以下是成本对比：

每日 API 成本（平均）

指标	GPT-5.3 Codex	GPT-5.4
每日调用次数	~800	~800
平均每次调用 input tokens	12,000	11,200
平均每次调用 output tokens	4,000	3,100
Input 成本率	$1.75/MTok	$2.50/MTok
Output 成本率	$14.00/MTok	$15.00/MTok
每日 input 成本	$16.80	$22.40
每日 output 成本	$44.80	$37.20
每日总计	$61.60	$59.60

每月预测： GPT-5.3 Codex 约为 $1,848。GPT-5.4 预计约为 $1,788。节省了大约 $60/月 (3.2%) —— 虽然不多，但值得注意，因为 GPT-5.4 的名义定价更高。

节省完全来自于 token 效率。GPT-5.4 完成相同任务所使用的 tokens 更少，这在我们的工作负载中抵消了其更高的每 token 价格。

成本上升的地方

长上下文任务——超过 272K tokens 的任务——在 GPT-5.4 上的成本明显更高，这是由于长上下文附加费。我们每天运行大约 15 次此类任务（全仓库审查）。对于这些特定的调用，成本增加了约 40%。

成本下降的地方

低于 100K tokens 的标准任务——占我们总量的 95% —— 由于更低的 output token 数量而变得更便宜。这足以补偿剩余 5% 任务的长上下文附加费。

我没预料到的事情

1. GPT-5.4 对代码风格更有主见

GPT-5.3 Codex 在风格上相对中立——它遵循代码库中存在的任何模式。GPT-5.4 的观点更强。它会建议为了清晰起见重命名变量、重构条件语句以及提取函数——即使你只是要求修复一个 bug。

这既是好事也很烦人。好在建议通常是有效的。烦人在于当团队只想要针对性的反馈时，它会为代码审查增加噪音。

我们的修复： 添加了一个系统 prompt 指令：“仅关注正确性和安全性问题。除非风格更改对可读性的影响大到会导致 bug，否则不要建议风格更改。”

2. 弃用时间线产生了紧迫感

GPT-5.2 Thinking 将于 2026年6月5日退役。如果你仍在使用 5.2，你还有三个月时间。GPT-5.3 Codex 有持续到 2027年2月的 LTS 支持，所以紧迫感较小——但大势所趋已很明显。

3. Tool Search 是隐藏的杀手锏

最初我将 Tool Search 视为一个优化细节。事实证明，它是对我们工作流影响最大的功能。GPT-5.4 不再在每次 API 调用中发送所有 12 个工具定义（每次消耗 ~3K tokens），而是根据需要动态发现工具。在我们的业务量下，token 的节省积少成多。

OpenAI 的文档称，在他们的测试中，Tool Search 减少了 47% 的 token 使用。对于我们的重度工具工作流，我们看到了大约 35% —— 依然非常可观。

4. “氛围”变了

这是主观的，难以量化，但团队注意到了。GPT-5.4 给人的感觉更像是在与一位资深工程师合作——它会质疑假设，提出替代方案，有时还会反驳它认为次优的方法。GPT-5.3 Codex 则更顺从。你是否认为这是一种改进取决于你团队的工作流程。Zvi Mowshowitz 的分析称其为推理和通用能力方面的“实质性升级”，我们也深有同感。

迁移清单

根据我们的经验，如果我要再次迁移，我会这样做：

切换前

审计你的 JSON 解析——检查对 Markdown 代码围栏的处理
审查 function calling schema——测试可选和嵌套参数
检查你的 token 计数和成本估算逻辑
根据 GPT-5.4 层级限制验证速率限制配置
识别任何假设工具调用顺序的工作流

切换中

先部署到预发环境
让两个模型并行运行至少 48 小时
监控 JSON 格式差异
检查 function calling 成功率
在你的特定任务上比较输出质量

切换后

启用 Tool Search 并衡量 token 节省情况
评估超过 272K 定价阈值的长上下文任务
如果 GPT-5.4 对你的工作流过于主观，请调整系统 prompt
为新工作流探索 computer use 能力
使用实际使用数据更新成本预测

你现在应该迁移吗？

这是我的决策框架：

如果符合以下情况，请立即迁移：

你在使用 GPT-5.2（它将于 6月5日退役）
你经常达到 400K context 限制
你需要 computer use 能力
你使用大量的工具调用并希望节省 token

如果符合以下情况，请尽快（一个月内）迁移：

你想要质量提升，并且可以忍受一周的集成工作
你正在构建受益于 1M context 的新功能
你想在 GPT-5.3 最终达到生命周期终点前做好未来规划

如果符合以下情况，请保留在 GPT-5.3 Codex：

你的工作流稳定且成本已优化
对于 prompt 密集型工作负载，你依赖于它较低的 input token 定价
你希望在 2027年2月前享有 LTS 支持的稳定性
你处于受监管的环境中，模型更改需要正式审查

对于我们在 ZBuild 的内部工具，迁移这一周的工作是值得的。仅 1M context window 就改变了我们工具的能力。但如果你的 GPT-5.3 Codex 集成运行良好且没有达到其限制，那就没有燃眉之急——按照你的时间表计划迁移，而不是 OpenAI 的。

给考虑切换的团队的经验教训

如果我能将整个迁移过程浓缩为给其他工程团队的五个建议，那就是以下几点。

1. 预算一周的集成时间，而不仅仅是更换模型

更换模型只需五分钟。在你的集成中发现每一个边缘案例需要一周。我们的 JSON 格式问题、function calling 差异和日志假设都是在真实流量下浮现的，而不是在单元测试中。在正式切换前，让两个模型并行运行至少 48 小时。

2. Token 效率抵消了更高的定价——但并非总是如此

对于 100K tokens 以下的标准任务，尽管每 token 定价更高，但 GPT-5.4 确实更便宜。但如果你的工作负载严重向长上下文任务（超过 272K tokens）倾斜，你将支付更多。在承诺之前，请根据你的特定使用模式建立成本模型。Apiyi 定价阈值指南有一个非常有用的计算器。

3. Tool Search 不是可选的——请立即启用

如果你使用超过 5 个工具的 function calling，请在第一天就启用 Tool Search。节省的 token 会在大规模情况下产生复利。对于我们的 12 工具设置，它每次调用节省了大约 3K tokens——每天超过 800 次调用，那就是每天 240 万个 tokens，或者每天约 $6 的 input 成本。

4. 根据 GPT-5.4 的性格调整你的 Prompt

GPT-5.4 比 GPT-5.3 Codex 更有主见。如果你的应用程序依赖于模型精确执行指令而没有任何编辑性评论，请在系统 prompt 中添加明确的约束。例如“仅专注于请求的任务。除非被要求，否则不要建议改进或替代方案。”这为我们的团队节省了代码审查输出中的大量噪音。

5. 现在就开始计划你的 GPT-5.2 迁移

如果你还有任何系统运行在 GPT-5.2 Thinking 上，2026年6月5日的退役时间是不可商量的。不要等到 5 月才开始迁移。GPT-5.2 和 GPT-5.4 之间的集成表面积比 GPT-5.3 到 GPT-5.4 的差距更大，因此预计会有更多故障。

GPT-5.4 vs GPT-5.3 Codex：快速参考表

对于想要摘要而不需要叙述的团队，这里是汇总在一起的关键数据：

功能	GPT-5.3 Codex	GPT-5.4
发布日期	2025年10月	2026年3月5日
Context window	400K tokens	1,050,000 tokens
Input 定价	$1.75/MTok	$2.50/MTok
Output 定价	$14.00/MTok	$15.00/MTok
长上下文附加费	无	272K 以上 2x input, 1.5x output
Computer use	否	是，原生支持
Tool search	否	是 (节省 ~47% tokens)
错误减少	基准	事实错误减少 33%
LTS 支持	至 2027年2月	当前模型
最适合	终端密集型、成本敏感型工作	通用 + Agent 工作流

一个月后：最终定论

在 GPT-5.4 上运行已满一个月。集成问题已解决，团队已适应，数据也趋于稳定。

质量： 更好。代码审查中的误报更少，跨模块分析更强，而且 computer use 集成增加了一个以前不可能实现的工作流。

成本： 标准任务大致相当，长上下文任务略高，但由于 token 效率，整体月度账单降低了 3-4%。

速度： 相当。对于我们的工作负载没有明显的差异。

稳定性： 在最初一周的修复之后，零生产问题。

这次升级不是革命性的——它是渐进的但积极的。GPT-5.4 是 2026年3月大多数开发者的更好选择。问题仅在于迁移工作对于你的具体情况是否值得。

如果你正在构建开发者工具——就像我们在 ZBuild 所做的那样——保持在当前的旗舰模型上对于保持产品竞争力至关重要。对于稳定性优先的内部工具，GPT-5.3 Codex 的 LTS 版本在 2027 年初之前都是一个完全有效的选择。