什么是 OpenAI Codex 应用？

OpenAI Codex 应用是一款原生桌面应用 (macOS 和 Windows)，可并行运行多个 AI coding agents，每个 agent 都在其独立的 sandboxed Git worktree 中。它允许你委派编程任务 —— feature implementation、bug fixes、refactoring —— 并在共享队列中查看结果。它于 2026 年 2 月在 macOS 上发布，并于 2026 年 3 月 4 日扩展至 Windows。

OpenAI Codex 的价格是多少？

Codex 包含在 ChatGPT Plus ($20/month) 中，具有基础的 rate limits。ChatGPT Pro ($200/month) 提供 6x 的 usage limits。此外还有一个限时推广活动，在 Free 和 Go plans 中也包含 Codex 访问权限。API 访问费用为 GPT-5.3 Codex 每 million tokens $1.75/$7，或 GPT-5.4 每 million tokens $2.50/$15。

OpenAI Codex 比 Claude Code 更好吗？

这取决于你的工作流。Codex 擅长 multi-agent orchestration 和 terminal-native 任务（在 Terminal-Bench 2.0 上为 77.3%，而 Claude 为 65.4%）。Claude Code 在复杂的 multi-file coding 方面更强 (80.8% SWE-bench vs 77.3%)，并且拥有用于并行工作的 Agent Teams。追求广度和自主性请选择 Codex，追求深度和代码质量请选择 Claude Code。

Codex 使用什么模型？

Codex 主要使用 GPT-5.3 Codex（2026 年 2 月 5 日发布）和 GPT-5.4（2026 年 3 月 5 日发布）。GPT-5.3 Codex 针对编程任务进行了优化，具有 400K token 的 context window。GPT-5.4 增加了 1M context window、原生 computer use，以及在更高价位上提供更强的 reasoning 能力。

我可以免费使用 Codex 吗？

是的，暂时可以。OpenAI 目前正在进行限时推广，在 Free 和 Go plans 上提供 Codex 访问权限。虽然 rate limits 更加严格，但你可以无需付费即可测试该平台。长期来看，最低付费计划是 $20/month 的 ChatGPT Plus。

核心要点

多智能体（Multi-agent）是杀手级功能：并行运行 3-5 个 agent，每个 agent 都在其独立的 Git worktree 上运行，并配有共享的审核队列用于批准来源。
GPT-5.3 Codex 速度极快：比其前代产品快 25%，并提供实时进度更新和引导功能来源。
现已登录 Windows：继 2 月份发布 macOS 版本后，于 2026年3月4日扩展至 Windows 来源。
Terminal-Bench 领跑者：GPT-5.3 Codex 在 Terminal-Bench 2.0 中得分 77.3%，领先于 Claude 的 65.4% 来源。
Skills 系统被低估：将 Codex 扩展到编码之外，用于研究、数据分析和文档编写任务来源。

OpenAI Codex App 评测：2026年3月的全貌

OpenAI 的 Codex 已从一个代码补全模型演变为一个成熟的开发平台。在 2026年，“Codex” 指的是由三个产品组成的生态系统：Codex App（桌面客户端）、Codex CLI（终端工具）和 Codex IDE Extension（VS Code/JetBrains 插件）。这三者均由 GPT-5.3 Codex 或 GPT-5.4 驱动。

本评测涵盖了这三个界面，重点关注桌面应用 —— 这是 OpenAI 迄今为止最雄心勃勃的开发者工具。

什么是 Codex App？

Codex App 是一款原生的桌面客户端，允许您同时运行多个编码 agent，每个 agent 都在自己的沙盒环境中工作。与 Codex CLI（在终端中运行单个 agent）或 IDE extension（集成到编辑器中）不同，该应用旨在编排复杂的开发工作流来源。

可以将其视为 AI agent 的项目经理。您描述任务，应用为每个任务创建独立的隔离工作区，agent 独立执行，结果则在队列中等待您的审核。

Codex 的三种界面

界面	平台	最适合	核心差异点
Codex App	macOS, Windows	多智能体编排	并行 agent + 审核队列
Codex CLI	Terminal (任何操作系统)	终端原生编码	速度 + 简洁
Codex IDE Extension	VS Code, JetBrains	编辑器内辅助	深度编辑器集成

这三者共享相同的底层模型和能力。Codex App 在此基础上增加了编排层。

模型：GPT-5.3 Codex 和 GPT-5.4

GPT-5.3 Codex（2026年2月5日发布）

GPT-5.3 Codex 是驱动大多数 Codex 交互的模型。关键规格如下：

规格	数值
Context Window	400,000 tokens
输入成本	$1.75 / MTok
输出成本	$7.00 / MTok
SWE-bench 已验证	77.3%
Terminal-Bench 2.0	77.3% (行业领先)
与前代相比的速度	快 25%

该模型结合了 GPT-5.2 Codex 的编码性能与更强的推理和专业知识能力。它在执行任务期间提供更频繁的进度更新，并支持实时引导 —— 您可以在任务中途重新引导 agent 而无需重新开始来源。

GPT-5.4（2026年3月5日发布）

GPT-5.4 作为升级选项提供，具有显著改进：

规格	GPT-5.3 Codex	GPT-5.4
Context Window	400K tokens	1.05M tokens
输入成本	$1.75 / MTok	$2.50 / MTok
输出成本	$7.00 / MTok	$15.00 / MTok
SWE-bench 已验证	77.3%	80.0%
Computer Use	否	是 (原生)
推理级别	2	5

权衡非常明显：GPT-5.4 的成本大约高出 2 倍，但提供了 2.6 倍的上下文、原生 Computer Use 以及更强的编码性能来源。

核心功能深度解析

1. 多智能体编排（Multi-Agent Orchestration）

这是核心功能，也是 Codex App 作为独立产品存在的原因。

工作原理：

您创建一个任务（例如：“使用 OAuth 2.0 实现用户身份验证”）
Codex 将其分解为子任务
每个子任务在拥有独立 Git worktree 的 agent 中运行
agent 并行工作，互不冲突
结果出现在审核队列中供您批准

在实践中，您可以拥有 3-5 个 agent 同时处理不同的功能、Bug 修复或测试。每个 agent 都能看到完整的代码库，但在自己的分支中进行更改，因此完全不存在一个 agent 的更改干扰另一个 agent 的风险。

审核队列设计精良。您可以查看差异（diff），可以选择批准、拒绝或要求修改。这感觉就像在审查初级开发人员的拉取请求（pull requests）—— 不同之处在于，“开发人员”可以在几秒钟内根据反馈进行迭代，而不是几小时。

2. Skills 系统

Skills 是可重用的指令包，将 Codex 的能力扩展到了纯代码生成之外。一个 Skill 包括：

指令（Instructions）：任务的自然语言描述
资源（Resources）：agent 需要的文件、URL 或数据
脚本（Scripts）：Shell 命令或自动化步骤

例如，您可以创建一个 “Deploy to Staging” 的 Skill，其中包含部署说明、环境变量和必要的 Shell 命令。创建完成后，任何 agent 都可以使用它来源。

预置 Skills 包括：

代码审查（带有可配置的风格指南）
测试生成（单元测试、集成测试、e2e）
文档生成
带有测试的依赖更新
安全审计

自定义 Skills 允许您编码团队特定的工作流。这正是 Codex 超越编码工具，成为自动化任何开发相关任务平台的地方。

3. Automations（自动化）

Automations 根据事件触发 Skills：

创建 PR 时：自动运行代码审查和测试生成
测试失败时：自动尝试修复并重新运行
依赖更新时：运行兼容性测试
定时任务：每日安全扫描，每周文档更新

这使 Codex 从一个响应式工具（您要求它做某事）转变为一个主动式系统（它在相关事件发生时执行操作）。

4. Git Worktrees

每个 agent 都在自己的 Git worktree 中运行 —— 这是一个仓库的独立工作副本，共享相同的 Git 历史记录但拥有独立的工作目录。这意味着：

agent 之间不会产生合并冲突
每个 agent 可以处于不同的分支
您可以独立检查任何 agent 的更改
失败的任务可以被丢弃而不影响其他工作

与在同一个工作目录中运行 agent 的工具相比，这是一个显著的架构优势。

5. 实时协作

与提交任务后等待的早期版本不同，GPT-5.3 Codex 支持实时交互：

进度更新：在 agent 工作时查看其正在执行的操作
引导（Steering）：在任务中途重新定向 agent（“先专注于错误处理”）
提问：agent 在遇到歧义时可以提出澄清问题
共享上下文：多个 agent 可以相互引用彼此的进度

实践中的性能

Codex 擅长之处

终端原生任务：GPT-5.3 Codex 在 Terminal-Bench 2.0 中以 77.3% 的成绩领先，高于 Claude Code 的 65.4%。如果您的工作流涉及 Shell 脚本、DevOps 自动化、CLI 工具或基础设施代码，Codex 显然是最佳选择来源。

并行功能开发：多智能体系统名副其实。在测试中，我们成功地同时运行了四个 agent：一个实现新的 API 端点，一个为现有模块编写测试，一个修复 CSS 布局问题，还有一个更新文档。所有四个 agent 都完成了任务且互不干扰。

直接的代码生成：对于规格明确的任务（实现定义良好的 API、构建标准 CRUD 界面、创建工具函数），Codex 能快速生成简洁、实用的代码。

长时间运行的自主任务：使用 Codex App，您可以委派任务并合上笔记本电脑。agent 将继续在云端工作，您可以稍后查看结果。这对于需要 15-30 分钟才能完成的任务非常有用。

Codex 的不足之处

复杂的跨文件重构：当更改需要在许多文件之间进行仔细协调时（重命名核心抽象、更改涉及 20 多个文件的模型数据），Codex 有时会失去连贯性。Claude Code 处理此类任务更为可靠。

微妙的架构决策：Codex 在执行明确规格方面表现出色，但在对代码架构做出判断时效果较弱。它会实现您要求的内容，但不会像有经验的开发人员那样对糟糕的方法提出异议。

超大型代码库：受限于 GPT-5.3 Codex 的 400K token 上下文，真正的大型代码库（50万行以上）可能会导致上下文溢出。GPT-5.4 的 1M 上下文有所帮助，但成本显著更高。

非标准框架：Codex 在流行框架（React, Django, Rails, Spring）中表现最佳。对于小众或自定义框架，它有时生成的代码会遵循通用模式而非框架规范。

定价分析

订阅方案

方案	每月成本	Codex 访问权限	速率限制
Free	$0	有 (促销期)	非常有限
Go	$8/mo	有 (促销期)	有限
Plus	$20/mo	全部	标准
Pro	$200/mo	全部	Plus 的 6倍
Business	$30/user/mo	全部	团队管理
Enterprise	自定义	全部	自定义限制

促销性的免费访问限时提供，OpenAI 尚未宣布何时结束。对于正式用途，$20/month 的 ChatGPT Plus 是入门门槛来源。

API 定价（用于自定义集成）

模型	输入	输出	缓存输入
GPT-5.3 Codex	$1.75/MTok	$7.00/MTok	$0.44/MTok
GPT-5.4	$2.50/MTok	$15.00/MTok	$0.25/MTok

成本 vs 竞品

工具	每月成本	包含的最佳模型
OpenAI Codex (Plus)	$20/mo	GPT-5.3 Codex
Claude Code (Pro)	$17/mo	Sonnet 4.6
Cursor (Pro)	$20/mo	多模型
GitHub Copilot (Pro)	$10/mo	多模型
Windsurf	$15/mo	多模型

价格为 $20/month 的 Codex Plus 具有竞争力。对于将 Codex 作为主要工具的全职开发人员，$200/month 的 Pro 档位是合理的 —— 6倍的速率限制增长意味着在整个工作日内不太可能达到上限来源。

Codex vs 竞争对手

Codex vs Claude Code

维度	Codex	Claude Code
最佳模型	GPT-5.4 (80.0% SWE-bench)	Opus 4.6 (80.8% SWE-bench)
终端任务	77.3% Terminal-Bench	65.4% Terminal-Bench
多智能体	Codex App worktrees	Agent Teams (tmux)
平台	macOS, Windows, CLI, IDE, Web	Terminal (任何操作系统)
Computer Use	GPT-5.4 原生	Sonnet 4.6/Opus 4.6
上下文	400K (5.3) / 1M (5.4)	1M (Opus/Sonnet)
价格	$20/mo (Plus)	$17/mo (Pro)

结论：Codex 在平台广度和终端任务方面获胜。Claude Code 在原始编码质量和复杂推理方面获胜。对于大多数开发人员来说，选择取决于您更喜欢 Codex App 的 GUI 还是 Claude Code 的终端界面来源。

Codex vs Cursor

维度	Codex	Cursor
最适合	自主任务	交互式编辑
界面	独立 App + CLI	基于 VS Code 的 IDE
代码库感知	良好	极佳 (深度索引)
后台工作	云端 agent	后台 agent
自动补全	通过 IDE 扩展	行业领先
价格	$20/mo	$20/mo

结论：这些工具更多的是互补而非竞争。使用 Cursor 进行交互式编码，使用 Codex 委派自主任务。许多开发人员两者都用。

Codex vs GitHub Copilot

维度	Codex	Copilot
最适合	多智能体工作流	集成 GitHub 的团队
Agent 自主性	高	中 (正在增长)
平台集成	OpenAI 生态系统	GitHub 生态系统
团队管理	通过 ChatGPT 方案	原生管理员控制
价格	$20/mo	$10-39/mo

结论：对于常驻 GitHub 的团队，Copilot 更好。对于追求最大 AI 自主权的个人开发者，Codex 更好。

谁应该使用 Codex？

理想用户

独立开发者：希望通过将常规任务委派给 agent 来实现工作流并行化。
团队负责人：需要在移交任务前快速原型化功能。
DevOps 工程师：Terminal-Bench 的领先地位使 Codex 成为基础设施自动化的最佳工具。
Mac 和 Windows 用户：相比于基于终端的工具，更喜欢原生的应用体验。

不适合人群

追求极致代码质量的开发者：搭载 Opus 4.6 的 Claude Code 仍略胜一筹。
需要管理员控制的大型团队：GitHub Copilot Enterprise 更加成熟。
预算有限的开发者：$15/month 的 Windsurf 或 Aider (免费) 提供了强有力的替代方案。
开发无代码应用的开发者：像 ZBuild 这样的平台允许您通过 AI 辅助可视化地创建应用，这可能比使用任何 AI 工具编写代码都更高效。

大局观：2026年的 AI 编码

Codex 代表了 OpenAI 对开发的愿景，即 AI agent 完成大部分实现工作。Skills 和 Automations 功能预示着一个 Codex 不仅仅是编码助手，而是开发自动化平台的未来。

这一愿景引人入胜，但也存在局限。多智能体编排在可并行化的任务（实现独立功能）中表现良好，但在需要深度协调的任务（影响堆栈每一层的架构更改）中则表现吃力。最理想的状态是将 60-70% 的实现工作委派给 agent，同时将架构、设计和关键路径决策留给人类开发人员。

对于希望在没有深厚编码专业知识的情况下快速构建应用的团队，AI 驱动的应用构建工具如 ZBuild 提供了一种补充方案。与其使用 AI 更快地编写传统代码，您可以可视化地构建应用，并让平台处理底层实现。AI 辅助编码和 AI 驱动的应用构建这两种方法在 2026年可能会长期共存。

结论：7.5/10

OpenAI Codex 是 2026年功能最全的 AI 编码平台，拥有多界面方案（App, CLI, IDE extension）和强大的多智能体能力。GPT-5.3 Codex 的终端原生性能是行业领先的，Skills 系统使其不仅仅是一个代码生成器。

它在任何单一领域都不是最强的 —— Claude Code 写出的代码更好，Cursor 是更好的 IDE，而 Copilot 与 GitHub 的集成更完美。但 Codex 是唯一一个在所有界面上都能相当不错地完成所有工作的工具。

值得购买，如果：您想要一个能在任何地方（终端、桌面、IDE）工作并能运行自主 agent 的单一 AI 编码平台。

可以跳过，如果：您需要最高水平的代码质量（选择 Claude Code）或最深度的 IDE 集成（选择 Cursor）。

类别	评分
代码质量	8/10
多智能体	9/10
开发者体验	7/10
定价	7/10
生态系统	8/10
总分	7.5/10

OpenAI Codex App 2026 评测：这一 Multi-Agent 编程平台值得吗？