核心要点
- GPT-5.4 是新的默认模型:Launched March 5, 2026,它融合了 GPT-5.3 Codex 的编程实力与更广泛的推理能力、1M-token 的上下文以及原生的 computer use。
- 六种模型满足不同需求:旗舰版 (5.4)、平衡版 (5.4 Mini)、快速版 (5.4 Nano)、编程专家 (5.3 Codex)、日常版 (5.3 Instant) 以及遗留版 (5.2 Thinking)。
- 价格跨度达 10x:输入费用从 $0.30/MTok (GPT-5.3 Instant) 到 $2.50/MTok (GPT-5.4) 不等 —— 选择合适的模型将直接影响您的账单。
- GPT-5.2 将于 June 5 停用:立即迁移 以避免业务中断。
OpenAI GPT-5 模型系列全指南
OpenAI 的 GPT-5 系列已发展出六种不同的模型,每种模型都在能力、速度和成本之间进行了不同的权衡。选择错误的模型意味着要么为简单的任务支付过高的费用,要么在复杂的任务中能力不足。
本指南涵盖了所有模型,包括定价、基准测试和清晰的决策框架。
完整阵容 (March 2026)
| 模型 | 角色 | 输入成本 | 输出成本 | 上下文 | 发布时间 |
|---|---|---|---|---|---|
| GPT-5.4 | 旗舰级推理 + 编程 | $2.50/MTok | $10.00/MTok | 1.05M | Mar 5, 2026 |
| GPT-5.4 Mini | 快速平衡 | 较低 | 较低 | 较小 | Mar 2026 |
| GPT-5.4 Nano | 最低延迟 | 最低 | 最低 | 最小 | Mar 2026 |
| GPT-5.3 Codex | 编程专家 | $1.75/MTok | $7.00/MTok | 400K | Mar 3, 2026 |
| GPT-5.3 Instant | 日常任务 | ~$0.30/MTok | ~$1.20/MTok | 标准 | Mar 3, 2026 |
| GPT-5.2 Thinking | 遗留旗舰 | 较高 | 较高 | 较小 | 之前 |
来源:OpenAI API Models, FelloAI Comparison
GPT-5.4:新的旗舰
GPT-5.4 是 OpenAI 功能最强大的模型 —— 它是第一个在单一架构中融合前沿推理与前沿编程的模型。
它的特别之处
- 1,050,000-token 上下文窗口 —— 无需分块即可处理整个大型代码库、完整的文档集和长对话历史记录。
- 原生 computer use —— 以编程方式与桌面应用程序、浏览器和系统工具进行交互。
- SWE-bench Pro 得分为 57.7% —— 顶尖的编程基准测试性能。
- GDPval 知识任务得分为 83% —— 达到或超过行业专业人士水平。
- Token 效率高 —— 尽管名义价格较高,但每个任务生成的 output tokens 更少。
何时使用 GPT-5.4
- 需要深度推理的复杂编程任务
- 多步骤自主工作流(通过 Codex CLI)
- 长上下文分析 (>400K tokens)
- 需要 computer use 能力的任务
- 任何需要使用目前最佳模型的新项目
定价
| 层级 | 输入 | 输出 | 缓存输入 |
|---|---|---|---|
| 标准 | $2.50/MTok | $10.00/MTok | $0.63/MTok |
GPT-5.4 Mini:平衡之选
GPT-5.4 Mini 继承了 GPT-5.4 的架构,但成本和延迟更低。它专为需要良好推理能力且无需支付旗舰价格的应用而设计。
何时使用 GPT-5.4 Mini
- 对每个请求的成本敏感的生产环境 API
- 需要在速度和质量之间取得平衡的应用
- 具有中等复杂度的聊天机器人后端
- GPT-5.4 过载但 GPT-5.3 Instant 能力不足的工作流
GPT-5.4 Nano:速度之王
GPT-5.4 Nano 针对尽可能低的延迟进行了优化。它通过牺牲推理深度来换取极快的速度。
何时使用 GPT-5.4 Nano
- 实时自动补全和建议
- 对延迟极其敏感的生产环境端点
- 高容量、低复杂度的分类任务
- 响应时间至关重要的移动端应用
GPT-5.3 Codex:编程专家
GPT-5.3 Codex 仍然是处理成本敏感、高输入量编程工作流的最佳模型。它的运行速度比 GPT-5.2 Codex 快 25%,且每个 input token 的成本低于 GPT-5.4。
何时使用 GPT-5.3 Codex
- 终端密集型批量编程操作
- 需要重复发送大型仓库上下文的工作流
- 成本优化的智能体编程流水线
- 400K 上下文窗口足够的任务
何时升级到 GPT-5.4
- 您需要 >400K tokens 的上下文
- 您需要 computer use 能力
- 您需要编程以外的知识工作
- 43% 的输入成本溢价换取更广泛的能力是值得的
定价
| 层级 | 输入 | 输出 | 缓存输入 |
|---|---|---|---|
| 标准 | $1.75/MTok | $7.00/MTok | $0.44/MTok |
GPT-5.3 Instant:日常主力
GPT-5.3 Instant 是最便宜的 GPT-5 模型,也是处理高容量日常任务的最佳选择。
核心优势
- 幻觉比前代模型减少 26.8%
- 擅长:问答、操作指南、技术写作、翻译
- 最低成本:每百万 tokens 约 $0.30/$1.20
- 高吞吐量:针对速度进行了优化
何时使用 GPT-5.3 Instant
- 客户支持聊天机器人
- 大规模内容生成
- 翻译和本地化
- 简单问答系统
- 任何对单个请求成本最为敏感的高容量应用
定价
| 层级 | 输入 | 输出 |
|---|---|---|
| 标准 | ~$0.30/MTok | ~$1.20/MTok |
GPT-5.2 Thinking:遗留模型 (将于 June 2026 停用)
GPT-5.2 是之前的旗舰模型。它引入了三层架构(Instant, Thinking, and Pro),但在所有基准测试中都已被 GPT-5.4 取代。
迁移时间线
- 现在 → June 5, 2026:GPT-5.2 Thinking 在 Legacy Models 下可用
- June 5, 2026:GPT-5.2 Thinking 停用。API 调用将失败。
- 需要采取的行动:将
model参数从gpt-5.2-thinking更新为gpt-5.4
# 之前 (将于 June 5, 2026 停止工作)
model="gpt-5.2-thinking"
# 之后
model="gpt-5.4"
决策框架:选择哪种模型
按用例划分
| 用例 | 推荐模型 | 原因 |
|---|---|---|
| 复杂编程 + 推理 | GPT-5.4 | 最佳能力,1M 上下文 |
| 日常编程 (成本敏感) | GPT-5.3 Codex | 较低的输入成本,强大的编程能力 |
| 通用聊天机器人/问答 | GPT-5.3 Instant | 最便宜,速度快,低幻觉 |
| 生产环境 API (平衡) | GPT-5.4 Mini | 质量好,成本合理 |
| 实时自动补全 | GPT-5.4 Nano | 最低延迟 |
| 科学/研究 | GPT-5.4 | 最深度的推理 |
按预算划分
| 月度预算 | 策略 |
|---|---|
| <$50 | 所有任务均使用 GPT-5.3 Instant |
| $50-200 | GPT-5.3 Instant + 编程使用 GPT-5.3 Codex |
| $200-1,000 | 默认使用 GPT-5.4,简单任务使用 GPT-5.3 Instant |
| $1,000+ | 所有任务均使用 GPT-5.4,或采用混合路由 |
路由模式 (The Router Pattern)
生产应用中最具成本效益的方法:
请求 → 分类复杂度
├── 简单 (60%) → GPT-5.3 Instant ($0.30/MTok)
├── 中等 (25%) → GPT-5.4 Mini
├── 复杂 (10%) → GPT-5.4 ($2.50/MTok)
└── 编程 (5%) → GPT-5.3 Codex ($1.75/MTok)
与所有请求都使用 GPT-5.4 相比,这种模式可以将成本降低 70-80%,且对质量的影响微乎其微。
GPT-5 vs 竞争对手
GPT-5 系列与 Claude 和 Gemini 相比表现如何?
| 模型 | 输入成本 | SWE-bench | 上下文 | 优势 |
|---|---|---|---|---|
| GPT-5.4 | $2.50/MTok | 57.7% (Pro) | 1.05M | 最广泛的能力 |
| Claude Opus 4.6 | $15/MTok | 80.8% (Verified) | 1M | 最深度的推理 |
| Claude Sonnet 4.6 | $3/MTok | 79.6% (Verified) | 1M | 性价比最高的推理 |
| Gemini 3.1 Pro | 可变 | 具竞争力 | 2M | 最大的上下文 |
每个模型系列都有其优势。GPT-5.4 提供了最平衡的能力集;Claude 在编程基准测试中领先;Gemini 在上下文窗口大小上领先。
超越 API:无需代码进行构建
所有 GPT-5 模型都是开发者的工具。无论您是直接使用 GPT-5.4 还是通过 Codex CLI,您仍然需要编程知识来构建应用。
如果您想在不编写代码的情况下构建应用,像 ZBuild 这样的平台可以让您用通俗的语言描述您的应用,并获得一个完整的、可运行的产品 —— 幕后由这些 AI 模型驱动。
总结
OpenAI 的 GPT-5 系列为每个用例和预算提供了相应的模型:
| 模型 | 一句话简介 |
|---|---|
| GPT-5.4 | 综合表现最佳,如果不确定就选这个 |
| GPT-5.4 Mini | 速度和成本的良好平衡 |
| GPT-5.4 Nano | 最快,适用于对延迟敏感的应用 |
| GPT-5.3 Codex | 高强度编程中每个 token 最便宜 |
| GPT-5.3 Instant | 总体最便宜,适用于日常任务 |
| GPT-5.2 | 将于 June 5 停用 —— 立即迁移 |
正确的选择取决于您的工作负载、预算和延迟要求。如果有疑问,先从 GPT-5.4 开始,随着您了解自己的流量模式,再逐步优化到更便宜的模型。
由 ZBuild 团队发布。在 zbuild.io 无需代码即可构建应用。
来源
- OpenAI: Introducing GPT-5.4
- OpenAI: Introducing GPT-5.2
- OpenAI API Models
- OpenAI: Using GPT-5.4
- OpenAI Help Center: GPT-5.3 and GPT-5.4
- OpenAI Codex Models
- FelloAI: Ultimate ChatGPT Model Comparison
- Zapier: OpenAI Models Guide
- Nathan Lambert: GPT-5.4 Analysis