核心要点
- 多智能体(Multi-agent)是杀手级功能:并行运行 3-5 个 agent,每个 agent 都在其独立的 Git worktree 上运行,并配有共享的审核队列用于批准 来源。
- GPT-5.3 Codex 速度极快:比其前代产品快 25%,并提供实时进度更新和引导功能 来源。
- 现已登录 Windows:继 2 月份发布 macOS 版本后,于 2026年3月4日 扩展至 Windows 来源。
- Terminal-Bench 领跑者:GPT-5.3 Codex 在 Terminal-Bench 2.0 中得分 77.3%,领先于 Claude 的 65.4% 来源。
- Skills 系统被低估:将 Codex 扩展到编码之外,用于研究、数据分析和文档编写任务 来源。
OpenAI Codex App 评测:2026年3月的全貌
OpenAI 的 Codex 已从一个代码补全模型演变为一个成熟的开发平台。在 2026年,“Codex” 指的是由三个产品组成的生态系统:Codex App(桌面客户端)、Codex CLI(终端工具)和 Codex IDE Extension(VS Code/JetBrains 插件)。这三者均由 GPT-5.3 Codex 或 GPT-5.4 驱动。
本评测涵盖了这三个界面,重点关注桌面应用 —— 这是 OpenAI 迄今为止最雄心勃勃的开发者工具。
什么是 Codex App?
Codex App 是一款原生的桌面客户端,允许您同时运行多个编码 agent,每个 agent 都在自己的沙盒环境中工作。与 Codex CLI(在终端中运行单个 agent)或 IDE extension(集成到编辑器中)不同,该应用旨在编排复杂的开发工作流 来源。
可以将其视为 AI agent 的项目经理。您描述任务,应用为每个任务创建独立的隔离工作区,agent 独立执行,结果则在队列中等待您的审核。
Codex 的三种界面
| 界面 | 平台 | 最适合 | 核心差异点 |
|---|---|---|---|
| Codex App | macOS, Windows | 多智能体编排 | 并行 agent + 审核队列 |
| Codex CLI | Terminal (任何操作系统) | 终端原生编码 | 速度 + 简洁 |
| Codex IDE Extension | VS Code, JetBrains | 编辑器内辅助 | 深度编辑器集成 |
这三者共享相同的底层模型和能力。Codex App 在此基础上增加了编排层。
模型:GPT-5.3 Codex 和 GPT-5.4
GPT-5.3 Codex(2026年2月5日发布)
GPT-5.3 Codex 是驱动大多数 Codex 交互的模型。关键规格如下:
| 规格 | 数值 |
|---|---|
| Context Window | 400,000 tokens |
| 输入成本 | $1.75 / MTok |
| 输出成本 | $7.00 / MTok |
| SWE-bench 已验证 | 77.3% |
| Terminal-Bench 2.0 | 77.3% (行业领先) |
| 与前代相比的速度 | 快 25% |
该模型结合了 GPT-5.2 Codex 的编码性能与更强的推理和专业知识能力。它在执行任务期间提供更频繁的进度更新,并支持实时引导 —— 您可以在任务中途重新引导 agent 而无需重新开始 来源。
GPT-5.4(2026年3月5日发布)
GPT-5.4 作为升级选项提供,具有显著改进:
| 规格 | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Context Window | 400K tokens | 1.05M tokens |
| 输入成本 | $1.75 / MTok | $2.50 / MTok |
| 输出成本 | $7.00 / MTok | $15.00 / MTok |
| SWE-bench 已验证 | 77.3% | 80.0% |
| Computer Use | 否 | 是 (原生) |
| 推理级别 | 2 | 5 |
权衡非常明显:GPT-5.4 的成本大约高出 2 倍,但提供了 2.6 倍的上下文、原生 Computer Use 以及更强的编码性能 来源。
核心功能深度解析
1. 多智能体编排(Multi-Agent Orchestration)
这是核心功能,也是 Codex App 作为独立产品存在的原因。
工作原理:
- 您创建一个任务(例如:“使用 OAuth 2.0 实现用户身份验证”)
- Codex 将其分解为子任务
- 每个子任务在拥有独立 Git worktree 的 agent 中运行
- agent 并行工作,互不冲突
- 结果出现在审核队列中供您批准
在实践中,您可以拥有 3-5 个 agent 同时处理不同的功能、Bug 修复或测试。每个 agent 都能看到完整的代码库,但在自己的分支中进行更改,因此完全不存在一个 agent 的更改干扰另一个 agent 的风险。
审核队列设计精良。您可以查看差异(diff),可以选择批准、拒绝或要求修改。这感觉就像在审查初级开发人员的拉取请求(pull requests)—— 不同之处在于,“开发人员”可以在几秒钟内根据反馈进行迭代,而不是几小时。
2. Skills 系统
Skills 是可重用的指令包,将 Codex 的能力扩展到了纯代码生成之外。一个 Skill 包括:
- 指令(Instructions):任务的自然语言描述
- 资源(Resources):agent 需要的文件、URL 或数据
- 脚本(Scripts):Shell 命令或自动化步骤
例如,您可以创建一个 “Deploy to Staging” 的 Skill,其中包含部署说明、环境变量和必要的 Shell 命令。创建完成后,任何 agent 都可以使用它 来源。
预置 Skills 包括:
- 代码审查(带有可配置的风格指南)
- 测试生成(单元测试、集成测试、e2e)
- 文档生成
- 带有测试的依赖更新
- 安全审计
自定义 Skills 允许您编码团队特定的工作流。这正是 Codex 超越编码工具,成为自动化任何开发相关任务平台的地方。
3. Automations(自动化)
Automations 根据事件触发 Skills:
- 创建 PR 时:自动运行代码审查和测试生成
- 测试失败时:自动尝试修复并重新运行
- 依赖更新时:运行兼容性测试
- 定时任务:每日安全扫描,每周文档更新
这使 Codex 从一个响应式工具(您要求它做某事)转变为一个主动式系统(它在相关事件发生时执行操作)。
4. Git Worktrees
每个 agent 都在自己的 Git worktree 中运行 —— 这是一个仓库的独立工作副本,共享相同的 Git 历史记录但拥有独立的工作目录。这意味着:
- agent 之间不会产生合并冲突
- 每个 agent 可以处于不同的分支
- 您可以独立检查任何 agent 的更改
- 失败的任务可以被丢弃而不影响其他工作
与在同一个工作目录中运行 agent 的工具相比,这是一个显著的架构优势。
5. 实时协作
与提交任务后等待的早期版本不同,GPT-5.3 Codex 支持实时交互:
- 进度更新:在 agent 工作时查看其正在执行的操作
- 引导(Steering):在任务中途重新定向 agent(“先专注于错误处理”)
- 提问:agent 在遇到歧义时可以提出澄清问题
- 共享上下文:多个 agent 可以相互引用彼此的进度
实践中的性能
Codex 擅长之处
终端原生任务:GPT-5.3 Codex 在 Terminal-Bench 2.0 中以 77.3% 的成绩领先,高于 Claude Code 的 65.4%。如果您的工作流涉及 Shell 脚本、DevOps 自动化、CLI 工具或基础设施代码,Codex 显然是最佳选择 来源。
并行功能开发:多智能体系统名副其实。在测试中,我们成功地同时运行了四个 agent:一个实现新的 API 端点,一个为现有模块编写测试,一个修复 CSS 布局问题,还有一个更新文档。所有四个 agent 都完成了任务且互不干扰。
直接的代码生成:对于规格明确的任务(实现定义良好的 API、构建标准 CRUD 界面、创建工具函数),Codex 能快速生成简洁、实用的代码。
长时间运行的自主任务:使用 Codex App,您可以委派任务并合上笔记本电脑。agent 将继续在云端工作,您可以稍后查看结果。这对于需要 15-30 分钟才能完成的任务非常有用。
Codex 的不足之处
复杂的跨文件重构:当更改需要在许多文件之间进行仔细协调时(重命名核心抽象、更改涉及 20 多个文件的模型数据),Codex 有时会失去连贯性。Claude Code 处理此类任务更为可靠。
微妙的架构决策:Codex 在执行明确规格方面表现出色,但在对代码架构做出判断时效果较弱。它会实现您要求的内容,但不会像有经验的开发人员那样对糟糕的方法提出异议。
超大型代码库:受限于 GPT-5.3 Codex 的 400K token 上下文,真正的大型代码库(50万行以上)可能会导致上下文溢出。GPT-5.4 的 1M 上下文有所帮助,但成本显著更高。
非标准框架:Codex 在流行框架(React, Django, Rails, Spring)中表现最佳。对于小众或自定义框架,它有时生成的代码会遵循通用模式而非框架规范。
定价分析
订阅方案
| 方案 | 每月成本 | Codex 访问权限 | 速率限制 |
|---|---|---|---|
| Free | $0 | 有 (促销期) | 非常有限 |
| Go | $8/mo | 有 (促销期) | 有限 |
| Plus | $20/mo | 全部 | 标准 |
| Pro | $200/mo | 全部 | Plus 的 6倍 |
| Business | $30/user/mo | 全部 | 团队管理 |
| Enterprise | 自定义 | 全部 | 自定义限制 |
促销性的免费访问限时提供,OpenAI 尚未宣布何时结束。对于正式用途,$20/month 的 ChatGPT Plus 是入门门槛 来源。
API 定价(用于自定义集成)
| 模型 | 输入 | 输出 | 缓存输入 |
|---|---|---|---|
| GPT-5.3 Codex | $1.75/MTok | $7.00/MTok | $0.44/MTok |
| GPT-5.4 | $2.50/MTok | $15.00/MTok | $0.25/MTok |
成本 vs 竞品
| 工具 | 每月成本 | 包含的最佳模型 |
|---|---|---|
| OpenAI Codex (Plus) | $20/mo | GPT-5.3 Codex |
| Claude Code (Pro) | $17/mo | Sonnet 4.6 |
| Cursor (Pro) | $20/mo | 多模型 |
| GitHub Copilot (Pro) | $10/mo | 多模型 |
| Windsurf | $15/mo | 多模型 |
价格为 $20/month 的 Codex Plus 具有竞争力。对于将 Codex 作为主要工具的全职开发人员,$200/month 的 Pro 档位是合理的 —— 6倍的速率限制增长意味着在整个工作日内不太可能达到上限 来源。
Codex vs 竞争对手
Codex vs Claude Code
| 维度 | Codex | Claude Code |
|---|---|---|
| 最佳模型 | GPT-5.4 (80.0% SWE-bench) | Opus 4.6 (80.8% SWE-bench) |
| 终端任务 | 77.3% Terminal-Bench | 65.4% Terminal-Bench |
| 多智能体 | Codex App worktrees | Agent Teams (tmux) |
| 平台 | macOS, Windows, CLI, IDE, Web | Terminal (任何操作系统) |
| Computer Use | GPT-5.4 原生 | Sonnet 4.6/Opus 4.6 |
| 上下文 | 400K (5.3) / 1M (5.4) | 1M (Opus/Sonnet) |
| 价格 | $20/mo (Plus) | $17/mo (Pro) |
结论:Codex 在平台广度和终端任务方面获胜。Claude Code 在原始编码质量和复杂推理方面获胜。对于大多数开发人员来说,选择取决于您更喜欢 Codex App 的 GUI 还是 Claude Code 的终端界面 来源。
Codex vs Cursor
| 维度 | Codex | Cursor |
|---|---|---|
| 最适合 | 自主任务 | 交互式编辑 |
| 界面 | 独立 App + CLI | 基于 VS Code 的 IDE |
| 代码库感知 | 良好 | 极佳 (深度索引) |
| 后台工作 | 云端 agent | 后台 agent |
| 自动补全 | 通过 IDE 扩展 | 行业领先 |
| 价格 | $20/mo | $20/mo |
结论:这些工具更多的是互补而非竞争。使用 Cursor 进行交互式编码,使用 Codex 委派自主任务。许多开发人员两者都用。
Codex vs GitHub Copilot
| 维度 | Codex | Copilot |
|---|---|---|
| 最适合 | 多智能体工作流 | 集成 GitHub 的团队 |
| Agent 自主性 | 高 | 中 (正在增长) |
| 平台集成 | OpenAI 生态系统 | GitHub 生态系统 |
| 团队管理 | 通过 ChatGPT 方案 | 原生管理员控制 |
| 价格 | $20/mo | $10-39/mo |
结论:对于常驻 GitHub 的团队,Copilot 更好。对于追求最大 AI 自主权的个人开发者,Codex 更好。
谁应该使用 Codex?
理想用户
- 独立开发者:希望通过将常规任务委派给 agent 来实现工作流并行化。
- 团队负责人:需要在移交任务前快速原型化功能。
- DevOps 工程师:Terminal-Bench 的领先地位使 Codex 成为基础设施自动化的最佳工具。
- Mac 和 Windows 用户:相比于基于终端的工具,更喜欢原生的应用体验。
不适合人群
- 追求极致代码质量的开发者:搭载 Opus 4.6 的 Claude Code 仍略胜一筹。
- 需要管理员控制的大型团队:GitHub Copilot Enterprise 更加成熟。
- 预算有限的开发者:$15/month 的 Windsurf 或 Aider (免费) 提供了强有力的替代方案。
- 开发无代码应用的开发者:像 ZBuild 这样的平台允许您通过 AI 辅助可视化地创建应用,这可能比使用任何 AI 工具编写代码都更高效。
大局观:2026年的 AI 编码
Codex 代表了 OpenAI 对开发的愿景,即 AI agent 完成大部分实现工作。Skills 和 Automations 功能预示着一个 Codex 不仅仅是编码助手,而是开发自动化平台的未来。
这一愿景引人入胜,但也存在局限。多智能体编排在可并行化的任务(实现独立功能)中表现良好,但在需要深度协调的任务(影响堆栈每一层的架构更改)中则表现吃力。最理想的状态是将 60-70% 的实现工作委派给 agent,同时将架构、设计和关键路径决策留给人类开发人员。
对于希望在没有深厚编码专业知识的情况下快速构建应用的团队,AI 驱动的应用构建工具如 ZBuild 提供了一种补充方案。与其使用 AI 更快地编写传统代码,您可以可视化地构建应用,并让平台处理底层实现。AI 辅助编码和 AI 驱动的应用构建这两种方法在 2026年 可能会长期共存。
结论:7.5/10
OpenAI Codex 是 2026年 功能最全的 AI 编码平台,拥有多界面方案(App, CLI, IDE extension)和强大的多智能体能力。GPT-5.3 Codex 的终端原生性能是行业领先的,Skills 系统使其不仅仅是一个代码生成器。
它在任何单一领域都不是最强的 —— Claude Code 写出的代码更好,Cursor 是更好的 IDE,而 Copilot 与 GitHub 的集成更完美。但 Codex 是唯一一个在所有界面上都能相当不错地完成所有工作的工具。
值得购买,如果:您想要一个能在任何地方(终端、桌面、IDE)工作并能运行自主 agent 的单一 AI 编码平台。
可以跳过,如果:您需要最高水平的代码质量(选择 Claude Code)或最深度的 IDE 集成(选择 Cursor)。
| 类别 | 评分 |
|---|---|
| 代码质量 | 8/10 |
| 多智能体 | 9/10 |
| 开发者体验 | 7/10 |
| 定价 | 7/10 |
| 生态系统 | 8/10 |
| 总分 | 7.5/10 |
来源
- OpenAI — Introducing the Codex App
- OpenAI — Introducing Upgrades to Codex
- OpenAI — Codex Changelog
- OpenAI — Codex Pricing
- OpenAI — Introducing GPT-5.4
- OpenAI — Codex Landing Page
- Northflank — Claude Code vs OpenAI Codex
- VibeCoding — OpenAI Codex App Review
- CyberNews — OpenAI Codex App Review 2026
- ComputerTech — OpenAI Codex App Review GPT-5.3
- IntuitionLabs — OpenAI Codex App Guide
- Eesel — OpenAI Codex Pricing Guide
- ALM Corp — OpenAI Codex App macOS Guide