實驗
我選取了 10 個真實的編程任務——即開發者每天實際會遇到的那種——並向 GPT-5.4 和 Claude Opus 4.6 提交了完全相同的提示詞。相同的系統提示詞,相同的背景資訊,相同的評估標準。
沒有合成的基準測試。沒有刻意挑選的範例。只有根據三個維度評分的真實任務:
- 正確性 (Correctness)(是否無需修改即可運行?)
- 程式碼質量 (Code quality)(可讀性、types、錯誤處理、edge cases)
- 效率 (Efficiency)(token 使用量、響應時間、所需的後續提示詞數量)
每個維度評分為 1-10 分。每個任務的最高總分為 30 分。
這些模型是透過各自的 API 以標準價格存取的:GPT-5.4 的價格為每百萬 tokens $2.50/$15,Claude Opus 4.6 的價格為每百萬 tokens $15/$75。
以下是這 10 個任務以及具體發生的情況。
任務 1:構建 REST API Endpoint
提示詞: "Create a POST /api/users endpoint in Express.js with TypeScript. Validate email format and password strength (min 8 chars, 1 uppercase, 1 number). Hash the password with bcrypt. Store in PostgreSQL via Prisma. Return the user without the password field. Handle duplicate emails with a 409 status."
GPT-5.4 結果
程式碼乾淨且達生產級別。Zod 驗證 schema 非常精確。bcrypt 雜湊使用了適當的 salt round 常數。Prisma 查詢使用 select 在數據庫層級排除密碼欄位,而不是從響應對象中刪除它——這是一個細微但重要的安全實踐。TypeScript types 非常嚴謹。
Claude Opus 4.6 結果
同樣乾淨且正確。使用了類似的 Zod 驗證方法,但為該 endpoint 添加了 rate limiting middleware,並包含了一條解釋原因的注釋。密碼排除使用了 Prisma 的 omit 功能。添加了帶有特定錯誤類型的 try/catch,用於處理 Prisma 唯一約束衝突。
分數
| 維度 | GPT-5.4 | Opus 4.6 |
|---|---|---|
| 正確性 | 10 | 10 |
| 程式碼質量 | 9 | 9 |
| 效率 | 9 | 8 |
| 總分 | 28 | 27 |
贏家:GPT-5.4(在速度和簡潔性上略勝一籌)
兩者的輸出都非常出色。GPT-5.4 速度更快且使用了更少的 tokens。Opus 在未被要求的情況下添加了 rate limiting middleware——雖然有用但並非需求。對於定義明確的 API 任務,這些模型基本上可以互換使用。
任務 2:構建 React 組件
提示詞: "Create a React component called DataTable that accepts generic typed data, supports sortable columns, pagination (client-side), a search filter, and row selection with checkboxes. Use TypeScript generics. No UI library — just HTML/CSS with CSS modules. Include proper ARIA attributes."
GPT-5.4 結果
交付了一個結構良好的通用組件。TypeScript generics 被正確用於欄位定義和數據類型。排序邏輯清晰,提取了自定義的 useSortable hook。分頁使用了 useMemo 以提高效能。ARIA attributes 正確——role="grid"、在可排序標題上使用 aria-sort、在核取方塊上使用 aria-selected。
Claude Opus 4.6 結果
結構相似但有一些差異。Opus 創建了一個封裝了排序、分頁和過濾邏輯的 useDataTable hook——分離更徹底但抽象程度更高。TypeScript generics 同樣正確。標題單元格缺少 aria-sort。CSS module 包含了一個響應式佈局,在行動裝置上會切換到卡片視圖,這雖然未被要求,但係一個貼心的補充。
分數
| 維度 | GPT-5.4 | Opus 4.6 |
|---|---|---|
| 正確性 | 10 | 9 |
| 程式碼質量 | 9 | 9 |
| 效率 | 9 | 8 |
| 總分 | 28 | 26 |
贏家:GPT-5.4
GPT-5.4 的 ARIA 實作更完整,這對於將在整個應用程式中使用的組件來說非常重要。正如 MindStudio 的比較所指出的,GPT-5.4 在生成 boilerplate(包括 React 組件和 TypeScript 介面)方面表現出色。
任務 3:編寫複雜的 SQL 查詢
提示詞: "Write a PostgreSQL query that returns the top 10 customers by lifetime value (total order amount) who have placed at least 3 orders in the last 12 months, including their most recent order date, average order value, and the percentage change in their spending compared to the previous 12-month period. Use CTEs for readability."
GPT-5.4 結果
三個 CTEs:一個用於當前時期的聚合,一個用於上一個時期的聚合,一個用於百分比計算。乾淨、正確且格式良好。使用了 COALESCE 處理沒有上一個時期數據的客戶。添加了 index hint 注釋。
Claude Opus 4.6 結果
四個結構略有不同的 CTEs:將「最後訂單日期」計算分離到獨立的 CTE 中,以避免相關子查詢。添加了 NULLIF 以防止百分比計算中出現除以零的情況——這是一個 GPT-5.4 遺漏的真實 edge case。在注釋塊中包含了一個視窗函數替代方案。
分數
| 維度 | GPT-5.4 | Opus 4.6 |
|---|---|---|
| 正確性 | 9 | 10 |
| 程式碼質量 | 8 | 9 |
| 效率 | 9 | 8 |
| 總分 | 26 | 27 |
贏家:Claude Opus 4.6
除以零的 edge case 是區分點。在生產環境的 SQL 中,那種 bug 會導致無聲的數據損壞。Opus 總能發現那些在真實數據流水線中至關重要的 edge cases。
任務 4:調試 Race Condition
提示詞: 我提供了來自 Node.js 應用程式的 3 個檔案(總計約 200 行),其中存在間歇性的測試失敗。該 bug 是快取層中的 race condition,並發的 cache misses 可能會觸發重複的數據庫查詢和不一致的狀態。"Find the bug, explain why it only manifests intermittently, and provide a fix."
GPT-5.4 結果
識別出了正確的 cache miss 程式碼路徑。建議使用 async-mutex 添加 mutex lock。修復方案是正確的,但治標不治本——它將所有快取存取序列化了,這會在負載下損害效能。
Claude Opus 4.6 結果
識別出了相同的程式碼路徑,但還追溯到了狀態不一致的第二個問題:快取更新不是原子性的——在讀取檢查和寫入之間存在一個窗口,另一個請求可能會插入其中。Opus 建議使用 "single-flight" 模式(合併並發的相同請求),而不是全局 mutex。該修復方案更具針對性,並為非衝突的 cache keys 保留了並發性。
分數
| 維度 | GPT-5.4 | Opus 4.6 |
|---|---|---|
| 正確性 | 7 | 10 |
| 程式碼質量 | 7 | 9 |
| 效率 | 8 | 8 |
| 總分 | 22 | 27 |
贏家:Claude Opus 4.6
差距明顯。Opus 對並發模型的理解足夠深入,能夠提出有針對性的修復方案。這與 Claude Opus 4.6 在 SWE-bench Verified 上 80.8% 的得分一致,該基準測試專門測試這種真實世界的 bug 解決能力。
任務 5:程式碼審查
提示詞: 我提供了一個 350 行的 pull request,其中添加了一個新的支付處理模組。"Review this PR for bugs, security issues, performance problems, and code quality. Prioritize findings by severity."
GPT-5.4 結果
發現了 5 個問題:支付響應缺少 null 檢查、未處理的 promise rejection、應該可配置的硬編碼 timeout、缺少的等冪性金鑰,以及建議將 magic numbers 提取為常數。按嚴重程度組織。清晰且具可操作性。
Claude Opus 4.6 結果
發現了 8 個問題:除了 GPT-5.4 發現的 5 個問題外,還多了三個——金額驗證中的 TOCTOU (time-of-check-time-of-use) 漏洞、錯誤響應中可能洩露內部堆疊追蹤的信息洩露,以及一個微妙的問題,即如果第一個請求成功但響應遺失,重試邏輯可能會導致重複扣款。每項發現都包含了具體的行號和建議的修復方案。
分數
| 維度 | GPT-5.4 | Opus 4.6 |
|---|---|---|
| 正確性 | 8 | 10 |
| 程式碼質量 | 8 | 10 |
| 效率 | 9 | 8 |
| 總分 | 25 | 28 |
贏家:Claude Opus 4.6
額外發現的三個問題都關乎安全。單是重複扣款的 bug 就能讓公司損失大量金錢和名譽。Opus 在 MRCR v2 上的 76% 得分(多檔案推理)直接轉化為對複雜模組更好的程式碼審查。
任務 6:編寫測試套件
提示詞: "Write comprehensive tests for this authentication middleware using Vitest. Cover: valid tokens, expired tokens, malformed tokens, missing authorization header, revoked tokens, rate limiting, and concurrent authentication requests." 我提供了 middleware 源檔案(約 120 行)。
GPT-5.4 結果
生成了 18 個測試案例,組織在整潔的 describe 塊中。提示詞中的每個場景都被覆蓋到了。添加了三個額外的 edge cases:空字串 token、錯誤演算法的 token 以及僅含空格的授權標頭。Mocks 使用 vi.mock 結構良好。測試描述清晰,遵循「應該 X 當 Y 時」的模式。
Claude Opus 4.6 結果
生成了 15 個測試案例。所有提示場景均已覆蓋。測試結構使用了 helper factory 來創建具有不同屬性的 tokens——雖然巧妙但增加了複雜性。缺少明確要求的「並發身份驗證請求」測試。Mocks 更簡潔,但測試數量較少。
分數
| 維度 | GPT-5.4 | Opus 4.6 |
|---|---|---|
| 正確性 | 10 | 8 |
| 程式碼質量 | 9 | 9 |
| 效率 | 9 | 8 |
| 總分 | 28 | 25 |
贏家:GPT-5.4
GPT-5.4 更忠實地遵循了提示詞,並添加了有意義的 edge cases。正如多項比較指出,GPT-5.4 的測試生成是最好的之一,能夠編寫具有強大 edge case 覆蓋率的全面套件。
任務 7:重構單體模組
提示詞: 我提供了一個 500 行的 Python 模組,用於處理用戶管理——註冊、身份驗證、設定檔更新、密碼重置和電子郵件通知都在一個檔案中。"Refactor this into a clean module structure following SOLID principles. Maintain backward compatibility with the existing public API."
GPT-5.4 結果
拆分為 5 個模組:auth.py、registration.py、profile.py、password.py、notifications.py。添加了一個 __init__.py,重新匯出原始公共函數以實現回溯相容性。分離徹底。每個模組都是獨立的。
然而,它漏掉了更新 registration.py 和 notifications.py 之間的 circular dependency——註冊會發送歡迎電子郵件,而通知模組需要引用回用戶數據。程式碼會在匯入時崩潰。
Claude Opus 4.6 結果
拆分為 6 個模組,分類相同,另外增加了一個用於共享數據類的 types.py。至關重要的是,它識別出了 circular dependency 問題,並通過引入基於事件的模式解決了它——註冊發送一個 "user_created" 事件,而通知模組訂閱該事件。回溯相容的 __init__.py 在方法上是相同的。
Opus 還在每個模組頂部添加了簡短的注釋,解釋什麼屬於這裡,什麼不屬於這裡——為未來的開發者提供指引。
分數
| 維度 | GPT-5.4 | Opus 4.6 |
|---|---|---|
| 正確性 | 6 | 10 |
| 程式碼質量 | 8 | 10 |
| 效率 | 8 | 7 |
| 總分 | 22 | 27 |
贏家:Claude Opus 4.6
circular dependency bug 會導致生產環境失敗。這是 Opus 擅長的多檔案推理類型——它在生成程式碼之前就理解跨檔案依賴關係和架構影響。
任務 8:編寫技術文件
提示詞: "Write API documentation for this payment processing SDK. Include: overview, authentication, rate limits, error codes, 5 endpoint descriptions with request/response examples, a webhook section, and a migration guide from v1 to v2." 我提供了 SDK 源碼。
GPT-5.4 結果
涵蓋所有要求部分的全面文件。Endpoint 描述詳細,配有 curl 範例和響應 schemas。錯誤代碼部分以表格形式組織良好。遷移指南清晰,有前後程式碼對比。Markdown 格式整潔。
Claude Opus 4.6 結果
同樣全面,結構略有不同——在詳細文件之前增加了一個 "Quick Start" 部分,這是開發者文件的一個很好的模式。Webhook 部分更詳細,包括重試行為、簽名驗證程式碼和測試指南。遷移指南包含了一個源碼中沒有的淘汰時間表——它是從版本控制模式中推斷出來的。
分數
| 維度 | GPT-5.4 | Opus 4.6 |
|---|---|---|
| 正確性 | 9 | 9 |
| 程式碼質量 | 9 | 9 |
| 效率 | 9 | 8 |
| 總分 | 27 | 26 |
贏家:平手(GPT-5.4 在效率上多得一分)
兩者都產出了優秀的文件。質量差異微乎其微。GPT-5.4 速度稍快。對於文件任務,任何一個模型都表現良好——這與開發者報告中關於頂尖模型文件質量相當的說法一致。
任務 9:設計系統架構
提示詞: "Design the architecture for a real-time collaborative document editor supporting 10,000 concurrent users. Cover: data model, conflict resolution strategy (CRDTs vs OT), WebSocket infrastructure, storage layer, presence system, and deployment topology. Provide a diagram in Mermaid syntax."
GPT-5.4 結果
選擇了帶有中央伺服器的 OT (Operational Transformation)。架構合理,使用 Redis 處理 presence,PostgreSQL 處理文件存儲,並在負載平衡器後設置了 WebSocket gateway。Mermaid 圖表很整潔。分析很稱職,但遵循標準腳本——它沒有深入分析 CRDTs 和 OT 在此特定規模下的權衡。
Claude Opus 4.6 結果
首先詢問了一個關於文件模型(富文本 vs. 純文本 vs. 結構化數據)的澄清問題,我回答是「富文本」。然後推薦使用 CRDTs(具體為 Yjs)而非 OT,並詳細解釋了為什麼 CRDTs 在此規模下更優越——沒有中央序列器的最終一致性消除了單點故障。
架構中包含了一個新穎的細節:一個「文件網關」層,負責處理 CRDT 合併操作,並同時作為 WebSocket 終端和狀態持久層。Mermaid 圖表包含了帶有協議註釋的數據流箭頭。部署部分推薦了特定的分區策略(按文件 ID 分片),並說明了有關熱分區的推理。
分數
| 維度 | GPT-5.4 | Opus 4.6 |
|---|---|---|
| 正確性 | 8 | 10 |
| 程式碼質量 | 7 | 10 |
| 效率 | 8 | 7 |
| 總分 | 23 | 27 |
贏家:Claude Opus 4.6
架構設計是這些模型之間推理深度差距最明顯的地方。Opus 在生成輸出之前會更明確地對問題進行推理,在需求真正模糊時會仔細推敲 edge cases 並提出澄清問題。
任務 10:編寫 DevOps 部署腳本
提示詞: "Write a GitHub Actions workflow that: builds a Docker image, runs tests, pushes to ECR, deploys to ECS Fargate with blue-green deployment, runs a smoke test against the new deployment, and rolls back automatically if the smoke test fails. Use OIDC for AWS authentication — no hardcoded credentials."
GPT-5.4 結果
一個包含所有要求步驟的完整 workflow 檔案。OIDC 配置正確,使用了帶有角色 ARN 的 aws-actions/configure-aws-credentials。藍綠部署使用了帶有 CODE_DEPLOY 部署控制器的 ECS 服務更新。Smoke test 是一個基於 curl 的健康檢查。回滾是由 smoke test 的結束代碼觸發的。注釋詳盡,生產就緒。
Claude Opus 4.6 結果
同樣完整且正確。使用了相同的 OIDC 方法。主要區別在於 smoke test——Opus 創建了一個更徹底的測試,不僅檢查健康 endpoint,還通過檢查 /version endpoint 驗證了部署是否提供了正確的版本。回滾包含了 Slack 通知步驟。然而,workflow 明顯更冗長——實現相似功能多了 40% 的行數。
分數
| 維度 | GPT-5.4 | Opus 4.6 |
|---|---|---|
| 正確性 | 10 | 10 |
| 程式碼質量 | 9 | 9 |
| 效率 | 9 | 7 |
| 總分 | 28 | 26 |
贏家:GPT-5.4
對於 DevOps 腳本,GPT-5.4 的簡潔性是一個優勢。Workflow 更易於維護和修改。Opus 的增加項(Slack 通知、版本驗證)很好,但並未被要求且增加了複雜性。GPT-5.4 在 Terminal-bench (75.1% vs 65.4%) 上領先,這種優勢在面向終端的任務中得到了體現。
最終計分板
| 任務 | GPT-5.4 | Opus 4.6 | 贏家 |
|---|---|---|---|
| 1. REST API endpoint | 28 | 27 | GPT-5.4 |
| 2. React 組件 | 28 | 26 | GPT-5.4 |
| 3. SQL 查詢 | 26 | 27 | Opus 4.6 |
| 4. 調試 race condition | 22 | 27 | Opus 4.6 |
| 5. 程式碼審查 | 25 | 28 | Opus 4.6 |
| 6. 測試套件 | 28 | 25 | GPT-5.4 |
| 7. 重構模組 | 22 | 27 | Opus 4.6 |
| 8. 文件編寫 | 27 | 26 | 平手 |
| 9. 架構設計 | 23 | 27 | Opus 4.6 |
| 10. DevOps 腳本 | 28 | 26 | GPT-5.4 |
| 總計 | 257 | 266 | Opus 4.6 |
最終得分:Claude Opus 4.6 以 266 比 257 獲勝。
但總分掩蓋了真實的情況。
比分數更重要的模式
看看每個模型在哪裡獲勝:
GPT-5.4 獲勝於:
- API endpoints(定義明確、範圍明確的任務)
- React 組件(帶有清晰規格的 boilerplate)
- 測試編寫(根據規格進行全面覆蓋)
- DevOps 腳本(面向終端、輸出簡潔)
Claude Opus 4.6 獲勝於:
- SQL edge cases(捕捉微妙的數據 bug)
- 調試(理解複雜系統中的根本原因)
- 程式碼審查(發現安全和正確性問題)
- 重構(處理跨檔案依賴)
- 架構(對權衡進行深度推理)
模式很清晰:GPT-5.4 是處理定義明確的編程任務時更快、更便宜、更好的模型。Claude Opus 4.6 則是處理需要跨越複雜性進行推理任務時更深入、更謹慎的模型。
這與 DataCamp 的分析結果一致:GPT-5.4 是最佳的全能模型,而 Opus 4.6 則專精於代理式和深度編程任務。
成本因素
得分差距(9 分)相對較小。成本差距則不然。
| 指標 | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| 輸入價格 | $2.50/MTok | $15/MTok |
| 輸出價格 | $15/MTok | $75/MTok |
| 速度 | 73.4 tok/s | 40.5 tok/s |
| 上下文窗口 | 1M (surcharge >272K) | 1M (flat pricing) |
| 工具搜尋節省 | ~47% token reduction | N/A |
在這項 10 任務測試中,GPT-5.4 的 API 總成本約為 $4.20,而 Opus 4.6 則為 $31.50。這意味著為了解決 3.5% 的質量差距,付出了 7.5 倍的成本差異。
對於一個每天運行數百次 AI 輔助編程任務的團隊來說,數學計算強烈傾向於將 GPT-5.4 用於大部分工作,而將 Opus 保留給那些推理深度能產生實質影響的高風險 10-20% 任務。
聰明的策略:兩者兼施
2026 年的大多數在職開發者並非選擇單一模型,而是選擇何時使用每個模型。這次測試中出現的模式與我們在 ZBuild 使用的模式一致:
日常主力:GPT-5.4(透過 Codex CLI 或 API)
- 編寫新的 endpoints、組件和腳本
- 根據規格生成測試
- 對孤立問題進行快速調試
- DevOps 和 CI/CD 自動化
重型武器:Claude Opus 4.6(透過 Claude Code 或 API)
- 處理具有複雜依賴關係的跨檔案重構
- 審查安全關鍵的程式碼
- 架構設計會議
- 調試大型程式碼庫中不明顯的問題
這種雙模型方法捕捉了兩個模型 95% 的優勢,同時保持成本可控。Portkey 關於在這些模型之間進行選擇的指南也推薦了同樣的混合方法。
基準測試的說明(背景資訊)
上述逐項任務的結果與正式的基準測試一致:
| 基準測試 | GPT-5.4 | Opus 4.6 | 衡量內容 |
|---|---|---|---|
| SWE-bench Verified | ~80% | 80.8% | 真實 GitHub 問題解決 |
| SWE-bench Pro | 57.7% | ~46% | 更難、更嚴格的編程任務 |
| Terminal-bench 2.0 | 75.1% | 65.4% | 終端和系統任務 |
| HumanEval | 93.1% | 90.4% | 函數級別程式碼生成 |
| GPQA Diamond | 92.0-92.8% | 87.4-91.3% | 專家級推理 |
| ARC-AGI-2 | 73.3% | 68.8-69.2% | 新穎推理 |
來源:MindStudio 基準測試, Evolink 分析, Anthropic
GPT-5.4 在大多數基準測試中領先。Opus 4.6 在 SWE-bench Verified 上領先——這是與現實世界 bug 修復聯繫最緊密的基準測試——這解釋了它在我的測試中於調試和重構方面的優勢。
結論
如果你只能選擇一個模型: GPT-5.4。它能以相同或更好的質量處理 80% 的編程任務,成本低 6-7 倍,速度快 80%。Opus 表現更好的那 20% 任務(調試、重構、架構),通常可以通過在 GPT-5.4 上使用更詳細的提示詞來處理。
如果你可以使用兩個模型: 就這麼做。GPT-5.4 用於日常編程,Opus 4.6 用於複雜工作。這不是一種妥協——這是最優策略。
如果成本無所謂且你希望每個任務都有最高質量: Claude Opus 4.6。它贏得了總分,且它的勝利在於那些質量至上的任務(bug 的代價比 boilerplate 更高)。
結果並非我所預期,因為我曾假設更昂貴的模型會佔據主導地位。事實並非如此。這兩個模型擁有真正不同的優勢,最好的策略是了解當前的任務需要哪種優勢。
來源
- OpenAI — Introducing GPT-5.4
- OpenAI — API Pricing
- Anthropic — Introducing Claude Opus 4.6
- Anthropic — Claude Pricing
- MindStudio — GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro Benchmarks
- MindStudio — Which AI Model Is Right for Your Workflow
- Portkey — GPT-5.4 vs Claude Opus 4.6 Guide
- DataCamp — GPT-5.4 vs Claude Opus 4.6 for Agentic Tasks
- Artificial Analysis — GPT-5.4 vs Claude Opus 4.6
- Bind AI — GPT-5.4 vs Claude Opus 4.6 for Coding
- Evolink — SWE-bench Verified 2026: Claude vs GPT
- DEV Community — ChatGPT vs Claude for Coding 2026
- Claude 5 — Opus 4.6 Benchmark Analysis