← 返回新聞
ZBuild News

我將同樣的 10 個程式設計任務交給 GPT-5.4 和 Claude Opus 4.6 — 結果出乎我的意料

一場實測評比,讓 GPT-5.4 和 Claude Opus 4.6 接受同樣的 10 個真實世界程式設計任務 — 從 API endpoints 到 architecture design。每個任務都根據 correctness、code quality 和 efficiency 進行評分。最終的贏家將在最後揭曉。

Published
2026-03-27
Author
ZBuild Team
Reading Time
7 min read
gpt 5.4 vs claude opus 4.6gpt 5.4 codingclaude opus 4.6 codingbest ai for coding 2026gpt 5.4 benchmarksclaude opus 4.6 benchmarks
我將同樣的 10 個程式設計任務交給 GPT-5.4 和 Claude Opus 4.6 — 結果出乎我的意料
ZBuild Teamzh-TW
XLinkedIn
Disclosure: This article is published by ZBuild. Some products or services mentioned may include ZBuild's own offerings. We strive to provide accurate, objective analysis to help you make informed decisions. Pricing and features were accurate at the time of writing.

實驗

我選取了 10 個真實的編程任務——即開發者每天實際會遇到的那種——並向 GPT-5.4 和 Claude Opus 4.6 提交了完全相同的提示詞。相同的系統提示詞,相同的背景資訊,相同的評估標準。

沒有合成的基準測試。沒有刻意挑選的範例。只有根據三個維度評分的真實任務:

  • 正確性 (Correctness)(是否無需修改即可運行?)
  • 程式碼質量 (Code quality)(可讀性、types、錯誤處理、edge cases)
  • 效率 (Efficiency)(token 使用量、響應時間、所需的後續提示詞數量)

每個維度評分為 1-10 分。每個任務的最高總分為 30 分。

這些模型是透過各自的 API 以標準價格存取的:GPT-5.4 的價格為每百萬 tokens $2.50/$15,Claude Opus 4.6 的價格為每百萬 tokens $15/$75

以下是這 10 個任務以及具體發生的情況。


任務 1:構建 REST API Endpoint

提示詞: "Create a POST /api/users endpoint in Express.js with TypeScript. Validate email format and password strength (min 8 chars, 1 uppercase, 1 number). Hash the password with bcrypt. Store in PostgreSQL via Prisma. Return the user without the password field. Handle duplicate emails with a 409 status."

GPT-5.4 結果

程式碼乾淨且達生產級別。Zod 驗證 schema 非常精確。bcrypt 雜湊使用了適當的 salt round 常數。Prisma 查詢使用 select 在數據庫層級排除密碼欄位,而不是從響應對象中刪除它——這是一個細微但重要的安全實踐。TypeScript types 非常嚴謹。

Claude Opus 4.6 結果

同樣乾淨且正確。使用了類似的 Zod 驗證方法,但為該 endpoint 添加了 rate limiting middleware,並包含了一條解釋原因的注釋。密碼排除使用了 Prisma 的 omit 功能。添加了帶有特定錯誤類型的 try/catch,用於處理 Prisma 唯一約束衝突。

分數

維度GPT-5.4Opus 4.6
正確性1010
程式碼質量99
效率98
總分2827

贏家:GPT-5.4(在速度和簡潔性上略勝一籌)

兩者的輸出都非常出色。GPT-5.4 速度更快且使用了更少的 tokens。Opus 在未被要求的情況下添加了 rate limiting middleware——雖然有用但並非需求。對於定義明確的 API 任務,這些模型基本上可以互換使用


任務 2:構建 React 組件

提示詞: "Create a React component called DataTable that accepts generic typed data, supports sortable columns, pagination (client-side), a search filter, and row selection with checkboxes. Use TypeScript generics. No UI library — just HTML/CSS with CSS modules. Include proper ARIA attributes."

GPT-5.4 結果

交付了一個結構良好的通用組件。TypeScript generics 被正確用於欄位定義和數據類型。排序邏輯清晰,提取了自定義的 useSortable hook。分頁使用了 useMemo 以提高效能。ARIA attributes 正確——role="grid"、在可排序標題上使用 aria-sort、在核取方塊上使用 aria-selected

Claude Opus 4.6 結果

結構相似但有一些差異。Opus 創建了一個封裝了排序、分頁和過濾邏輯的 useDataTable hook——分離更徹底但抽象程度更高。TypeScript generics 同樣正確。標題單元格缺少 aria-sort。CSS module 包含了一個響應式佈局,在行動裝置上會切換到卡片視圖,這雖然未被要求,但係一個貼心的補充。

分數

維度GPT-5.4Opus 4.6
正確性109
程式碼質量99
效率98
總分2826

贏家:GPT-5.4

GPT-5.4 的 ARIA 實作更完整,這對於將在整個應用程式中使用的組件來說非常重要。正如 MindStudio 的比較所指出的,GPT-5.4 在生成 boilerplate(包括 React 組件和 TypeScript 介面)方面表現出色。


任務 3:編寫複雜的 SQL 查詢

提示詞: "Write a PostgreSQL query that returns the top 10 customers by lifetime value (total order amount) who have placed at least 3 orders in the last 12 months, including their most recent order date, average order value, and the percentage change in their spending compared to the previous 12-month period. Use CTEs for readability."

GPT-5.4 結果

三個 CTEs:一個用於當前時期的聚合,一個用於上一個時期的聚合,一個用於百分比計算。乾淨、正確且格式良好。使用了 COALESCE 處理沒有上一個時期數據的客戶。添加了 index hint 注釋。

Claude Opus 4.6 結果

四個結構略有不同的 CTEs:將「最後訂單日期」計算分離到獨立的 CTE 中,以避免相關子查詢。添加了 NULLIF 以防止百分比計算中出現除以零的情況——這是一個 GPT-5.4 遺漏的真實 edge case。在注釋塊中包含了一個視窗函數替代方案。

分數

維度GPT-5.4Opus 4.6
正確性910
程式碼質量89
效率98
總分2627

贏家:Claude Opus 4.6

除以零的 edge case 是區分點。在生產環境的 SQL 中,那種 bug 會導致無聲的數據損壞。Opus 總能發現那些在真實數據流水線中至關重要的 edge cases


任務 4:調試 Race Condition

提示詞: 我提供了來自 Node.js 應用程式的 3 個檔案(總計約 200 行),其中存在間歇性的測試失敗。該 bug 是快取層中的 race condition,並發的 cache misses 可能會觸發重複的數據庫查詢和不一致的狀態。"Find the bug, explain why it only manifests intermittently, and provide a fix."

GPT-5.4 結果

識別出了正確的 cache miss 程式碼路徑。建議使用 async-mutex 添加 mutex lock。修復方案是正確的,但治標不治本——它將所有快取存取序列化了,這會在負載下損害效能。

Claude Opus 4.6 結果

識別出了相同的程式碼路徑,但還追溯到了狀態不一致的第二個問題:快取更新不是原子性的——在讀取檢查和寫入之間存在一個窗口,另一個請求可能會插入其中。Opus 建議使用 "single-flight" 模式(合併並發的相同請求),而不是全局 mutex。該修復方案更具針對性,並為非衝突的 cache keys 保留了並發性。

分數

維度GPT-5.4Opus 4.6
正確性710
程式碼質量79
效率88
總分2227

贏家:Claude Opus 4.6

差距明顯。Opus 對並發模型的理解足夠深入,能夠提出有針對性的修復方案。這與 Claude Opus 4.6 在 SWE-bench Verified 上 80.8% 的得分一致,該基準測試專門測試這種真實世界的 bug 解決能力。


任務 5:程式碼審查

提示詞: 我提供了一個 350 行的 pull request,其中添加了一個新的支付處理模組。"Review this PR for bugs, security issues, performance problems, and code quality. Prioritize findings by severity."

GPT-5.4 結果

發現了 5 個問題:支付響應缺少 null 檢查、未處理的 promise rejection、應該可配置的硬編碼 timeout、缺少的等冪性金鑰,以及建議將 magic numbers 提取為常數。按嚴重程度組織。清晰且具可操作性。

Claude Opus 4.6 結果

發現了 8 個問題:除了 GPT-5.4 發現的 5 個問題外,還多了三個——金額驗證中的 TOCTOU (time-of-check-time-of-use) 漏洞、錯誤響應中可能洩露內部堆疊追蹤的信息洩露,以及一個微妙的問題,即如果第一個請求成功但響應遺失,重試邏輯可能會導致重複扣款。每項發現都包含了具體的行號和建議的修復方案。

分數

維度GPT-5.4Opus 4.6
正確性810
程式碼質量810
效率98
總分2528

贏家:Claude Opus 4.6

額外發現的三個問題都關乎安全。單是重複扣款的 bug 就能讓公司損失大量金錢和名譽。Opus 在 MRCR v2 上的 76% 得分(多檔案推理)直接轉化為對複雜模組更好的程式碼審查。


任務 6:編寫測試套件

提示詞: "Write comprehensive tests for this authentication middleware using Vitest. Cover: valid tokens, expired tokens, malformed tokens, missing authorization header, revoked tokens, rate limiting, and concurrent authentication requests." 我提供了 middleware 源檔案(約 120 行)。

GPT-5.4 結果

生成了 18 個測試案例,組織在整潔的 describe 塊中。提示詞中的每個場景都被覆蓋到了。添加了三個額外的 edge cases:空字串 token、錯誤演算法的 token 以及僅含空格的授權標頭。Mocks 使用 vi.mock 結構良好。測試描述清晰,遵循「應該 X 當 Y 時」的模式。

Claude Opus 4.6 結果

生成了 15 個測試案例。所有提示場景均已覆蓋。測試結構使用了 helper factory 來創建具有不同屬性的 tokens——雖然巧妙但增加了複雜性。缺少明確要求的「並發身份驗證請求」測試。Mocks 更簡潔,但測試數量較少。

分數

維度GPT-5.4Opus 4.6
正確性108
程式碼質量99
效率98
總分2825

贏家:GPT-5.4

GPT-5.4 更忠實地遵循了提示詞,並添加了有意義的 edge cases。正如多項比較指出,GPT-5.4 的測試生成是最好的之一,能夠編寫具有強大 edge case 覆蓋率的全面套件。


任務 7:重構單體模組

提示詞: 我提供了一個 500 行的 Python 模組,用於處理用戶管理——註冊、身份驗證、設定檔更新、密碼重置和電子郵件通知都在一個檔案中。"Refactor this into a clean module structure following SOLID principles. Maintain backward compatibility with the existing public API."

GPT-5.4 結果

拆分為 5 個模組:auth.pyregistration.pyprofile.pypassword.pynotifications.py。添加了一個 __init__.py,重新匯出原始公共函數以實現回溯相容性。分離徹底。每個模組都是獨立的。

然而,它漏掉了更新 registration.pynotifications.py 之間的 circular dependency——註冊會發送歡迎電子郵件,而通知模組需要引用回用戶數據。程式碼會在匯入時崩潰。

Claude Opus 4.6 結果

拆分為 6 個模組,分類相同,另外增加了一個用於共享數據類的 types.py。至關重要的是,它識別出了 circular dependency 問題,並通過引入基於事件的模式解決了它——註冊發送一個 "user_created" 事件,而通知模組訂閱該事件。回溯相容的 __init__.py 在方法上是相同的。

Opus 還在每個模組頂部添加了簡短的注釋,解釋什麼屬於這裡,什麼不屬於這裡——為未來的開發者提供指引。

分數

維度GPT-5.4Opus 4.6
正確性610
程式碼質量810
效率87
總分2227

贏家:Claude Opus 4.6

circular dependency bug 會導致生產環境失敗。這是 Opus 擅長的多檔案推理類型——它在生成程式碼之前就理解跨檔案依賴關係和架構影響


任務 8:編寫技術文件

提示詞: "Write API documentation for this payment processing SDK. Include: overview, authentication, rate limits, error codes, 5 endpoint descriptions with request/response examples, a webhook section, and a migration guide from v1 to v2." 我提供了 SDK 源碼。

GPT-5.4 結果

涵蓋所有要求部分的全面文件。Endpoint 描述詳細,配有 curl 範例和響應 schemas。錯誤代碼部分以表格形式組織良好。遷移指南清晰,有前後程式碼對比。Markdown 格式整潔。

Claude Opus 4.6 結果

同樣全面,結構略有不同——在詳細文件之前增加了一個 "Quick Start" 部分,這是開發者文件的一個很好的模式。Webhook 部分更詳細,包括重試行為、簽名驗證程式碼和測試指南。遷移指南包含了一個源碼中沒有的淘汰時間表——它是從版本控制模式中推斷出來的。

分數

維度GPT-5.4Opus 4.6
正確性99
程式碼質量99
效率98
總分2726

贏家:平手(GPT-5.4 在效率上多得一分)

兩者都產出了優秀的文件。質量差異微乎其微。GPT-5.4 速度稍快。對於文件任務,任何一個模型都表現良好——這與開發者報告中關於頂尖模型文件質量相當的說法一致。


任務 9:設計系統架構

提示詞: "Design the architecture for a real-time collaborative document editor supporting 10,000 concurrent users. Cover: data model, conflict resolution strategy (CRDTs vs OT), WebSocket infrastructure, storage layer, presence system, and deployment topology. Provide a diagram in Mermaid syntax."

GPT-5.4 結果

選擇了帶有中央伺服器的 OT (Operational Transformation)。架構合理,使用 Redis 處理 presence,PostgreSQL 處理文件存儲,並在負載平衡器後設置了 WebSocket gateway。Mermaid 圖表很整潔。分析很稱職,但遵循標準腳本——它沒有深入分析 CRDTs 和 OT 在此特定規模下的權衡。

Claude Opus 4.6 結果

首先詢問了一個關於文件模型(富文本 vs. 純文本 vs. 結構化數據)的澄清問題,我回答是「富文本」。然後推薦使用 CRDTs(具體為 Yjs)而非 OT,並詳細解釋了為什麼 CRDTs 在此規模下更優越——沒有中央序列器的最終一致性消除了單點故障。

架構中包含了一個新穎的細節:一個「文件網關」層,負責處理 CRDT 合併操作,並同時作為 WebSocket 終端和狀態持久層。Mermaid 圖表包含了帶有協議註釋的數據流箭頭。部署部分推薦了特定的分區策略(按文件 ID 分片),並說明了有關熱分區的推理。

分數

維度GPT-5.4Opus 4.6
正確性810
程式碼質量710
效率87
總分2327

贏家:Claude Opus 4.6

架構設計是這些模型之間推理深度差距最明顯的地方。Opus 在生成輸出之前會更明確地對問題進行推理,在需求真正模糊時會仔細推敲 edge cases 並提出澄清問題。


任務 10:編寫 DevOps 部署腳本

提示詞: "Write a GitHub Actions workflow that: builds a Docker image, runs tests, pushes to ECR, deploys to ECS Fargate with blue-green deployment, runs a smoke test against the new deployment, and rolls back automatically if the smoke test fails. Use OIDC for AWS authentication — no hardcoded credentials."

GPT-5.4 結果

一個包含所有要求步驟的完整 workflow 檔案。OIDC 配置正確,使用了帶有角色 ARN 的 aws-actions/configure-aws-credentials。藍綠部署使用了帶有 CODE_DEPLOY 部署控制器的 ECS 服務更新。Smoke test 是一個基於 curl 的健康檢查。回滾是由 smoke test 的結束代碼觸發的。注釋詳盡,生產就緒。

Claude Opus 4.6 結果

同樣完整且正確。使用了相同的 OIDC 方法。主要區別在於 smoke test——Opus 創建了一個更徹底的測試,不僅檢查健康 endpoint,還通過檢查 /version endpoint 驗證了部署是否提供了正確的版本。回滾包含了 Slack 通知步驟。然而,workflow 明顯更冗長——實現相似功能多了 40% 的行數。

分數

維度GPT-5.4Opus 4.6
正確性1010
程式碼質量99
效率97
總分2826

贏家:GPT-5.4

對於 DevOps 腳本,GPT-5.4 的簡潔性是一個優勢。Workflow 更易於維護和修改。Opus 的增加項(Slack 通知、版本驗證)很好,但並未被要求且增加了複雜性。GPT-5.4 在 Terminal-bench (75.1% vs 65.4%) 上領先,這種優勢在面向終端的任務中得到了體現。


最終計分板

任務GPT-5.4Opus 4.6贏家
1. REST API endpoint2827GPT-5.4
2. React 組件2826GPT-5.4
3. SQL 查詢2627Opus 4.6
4. 調試 race condition2227Opus 4.6
5. 程式碼審查2528Opus 4.6
6. 測試套件2825GPT-5.4
7. 重構模組2227Opus 4.6
8. 文件編寫2726平手
9. 架構設計2327Opus 4.6
10. DevOps 腳本2826GPT-5.4
總計257266Opus 4.6

最終得分:Claude Opus 4.6 以 266 比 257 獲勝。

但總分掩蓋了真實的情況。


比分數更重要的模式

看看每個模型在哪裡獲勝:

GPT-5.4 獲勝於:

  • API endpoints(定義明確、範圍明確的任務)
  • React 組件(帶有清晰規格的 boilerplate)
  • 測試編寫(根據規格進行全面覆蓋)
  • DevOps 腳本(面向終端、輸出簡潔)

Claude Opus 4.6 獲勝於:

  • SQL edge cases(捕捉微妙的數據 bug)
  • 調試(理解複雜系統中的根本原因)
  • 程式碼審查(發現安全和正確性問題)
  • 重構(處理跨檔案依賴)
  • 架構(對權衡進行深度推理)

模式很清晰:GPT-5.4 是處理定義明確的編程任務時更快、更便宜、更好的模型。Claude Opus 4.6 則是處理需要跨越複雜性進行推理任務時更深入、更謹慎的模型。

這與 DataCamp 的分析結果一致:GPT-5.4 是最佳的全能模型,而 Opus 4.6 則專精於代理式和深度編程任務。


成本因素

得分差距(9 分)相對較小。成本差距則不然。

指標GPT-5.4Claude Opus 4.6
輸入價格$2.50/MTok$15/MTok
輸出價格$15/MTok$75/MTok
速度73.4 tok/s40.5 tok/s
上下文窗口1M (surcharge >272K)1M (flat pricing)
工具搜尋節省~47% token reductionN/A

在這項 10 任務測試中,GPT-5.4 的 API 總成本約為 $4.20,而 Opus 4.6 則為 $31.50。這意味著為了解決 3.5% 的質量差距,付出了 7.5 倍的成本差異

對於一個每天運行數百次 AI 輔助編程任務的團隊來說,數學計算強烈傾向於將 GPT-5.4 用於大部分工作,而將 Opus 保留給那些推理深度能產生實質影響的高風險 10-20% 任務。


聰明的策略:兩者兼施

2026 年的大多數在職開發者並非選擇單一模型,而是選擇何時使用每個模型。這次測試中出現的模式與我們在 ZBuild 使用的模式一致:

日常主力:GPT-5.4(透過 Codex CLI 或 API)

  • 編寫新的 endpoints、組件和腳本
  • 根據規格生成測試
  • 對孤立問題進行快速調試
  • DevOps 和 CI/CD 自動化

重型武器:Claude Opus 4.6(透過 Claude Code 或 API)

  • 處理具有複雜依賴關係的跨檔案重構
  • 審查安全關鍵的程式碼
  • 架構設計會議
  • 調試大型程式碼庫中不明顯的問題

這種雙模型方法捕捉了兩個模型 95% 的優勢,同時保持成本可控。Portkey 關於在這些模型之間進行選擇的指南也推薦了同樣的混合方法。


基準測試的說明(背景資訊)

上述逐項任務的結果與正式的基準測試一致:

基準測試GPT-5.4Opus 4.6衡量內容
SWE-bench Verified~80%80.8%真實 GitHub 問題解決
SWE-bench Pro57.7%~46%更難、更嚴格的編程任務
Terminal-bench 2.075.1%65.4%終端和系統任務
HumanEval93.1%90.4%函數級別程式碼生成
GPQA Diamond92.0-92.8%87.4-91.3%專家級推理
ARC-AGI-273.3%68.8-69.2%新穎推理

來源:MindStudio 基準測試, Evolink 分析, Anthropic

GPT-5.4 在大多數基準測試中領先。Opus 4.6 在 SWE-bench Verified 上領先——這是與現實世界 bug 修復聯繫最緊密的基準測試——這解釋了它在我的測試中於調試和重構方面的優勢。


結論

如果你只能選擇一個模型: GPT-5.4。它能以相同或更好的質量處理 80% 的編程任務,成本低 6-7 倍,速度快 80%。Opus 表現更好的那 20% 任務(調試、重構、架構),通常可以通過在 GPT-5.4 上使用更詳細的提示詞來處理。

如果你可以使用兩個模型: 就這麼做。GPT-5.4 用於日常編程,Opus 4.6 用於複雜工作。這不是一種妥協——這是最優策略。

如果成本無所謂且你希望每個任務都有最高質量: Claude Opus 4.6。它贏得了總分,且它的勝利在於那些質量至上的任務(bug 的代價比 boilerplate 更高)。

結果並非我所預期,因為我曾假設更昂貴的模型會佔據主導地位。事實並非如此。這兩個模型擁有真正不同的優勢,最好的策略是了解當前的任務需要哪種優勢。


來源

返回所有新聞
喜歡這篇文章嗎?
FAQ

Common questions

哪一個模型在整體的程式設計任務中勝出更多?+
Claude Opus 4.6 在 10 個任務中贏得了 5 個,GPT-5.4 贏得 4 個,另有 1 個為平手。然而,GPT-5.4 的勝場集中在高頻率的日常任務(API endpoints、React components、test writing、DevOps scripts),而 Opus 則在複雜且高風險的工作(debugging、refactoring、architecture、code review)中占據主導地位。
哪一個模型在程式設計方面的性價比最高?+
GPT-5.4 顯著更便宜。每百萬 tokens 為 $2.50/$15,而 Claude Opus 4.6 為 $15/$75,GPT-5.4 的每 token 成本大約低 6 倍。結合其更快的速度(73.4 vs 40.5 tokens/sec)以及 tool search 節省了 47% 的 tokens,GPT-5.4 在日常程式設計工作的性價比上是顯而易見的贏家。
Claude Opus 4.6 是否比 GPT-5.4 更擅長 debugging?+
是的,在我們的測試中。Opus 在複雜的多檔案 bugs 中能更快找到 root causes,並識別出 GPT-5.4 遺漏的次要問題。Opus 在 SWE-bench Verified(真實 GitHub issue 解決方案)上的 80.8% 評分反映了這一點 — 它擅長理解 bugs 如何在 codebases 中傳播。
哪一個模型寫出的 React components 更好?+
在我們的測試中,GPT-5.4 生成了更簡潔的 React components — 具備更好的 TypeScript types、更精簡的 JSX,以及開箱即用的正確 accessibility 屬性。差異雖然很小,但在多個組件生成任務中表現一致。
我可以同時使用這兩個模型嗎?+
是的,許多開發者也是這麼做的。一種常見的模式是使用 GPT-5.4(透過 Codex CLI)進行快速原型開發和日常 coding,然後切換到 Claude Opus 4.6(透過 Claude Code)進行深度 refactoring 和 architectural 工作。這種混合方法發揮了每個模型的優勢。
哪一個模型擁有更大的 context window?+
兩者都支援最高 1M tokens。GPT-5.4 預設為 272K context,支付附加費用後可使用 1M(超過 272K 部分為 2 倍 input、1.5 倍 output)。Claude Opus 4.6 則以標準價格提供完整的 1M context,無需支付長文本附加費用。
Recommended Tools

Useful follow-ups related to this article.

Browse All Tools

用 ZBuild 建構

將您的想法變成可運行的應用——無需編程。

本月已有 46,000+ 開發者使用 ZBuild 建構

別再比較了——開始建構吧

描述您想要的——ZBuild 為您建構。

本月已有 46,000+ 開發者使用 ZBuild 建構
More Reading

Related articles