Eksperimen
Saya mengambil 10 tugas coding nyata — jenis tugas yang sebenarnya dilakukan developer setiap hari — dan mengirimkan prompt yang sama persis ke GPT-5.4 dan Claude Opus 4.6. System prompt yang sama, context yang sama, dan kriteria evaluasi yang sama.
Tanpa benchmark sintetis. Tanpa contoh yang dipilih secara khusus (cherry-picked). Hanya tugas nyata yang dinilai berdasarkan tiga dimensi:
- Kebenaran (apakah berfungsi tanpa modifikasi?)
- Kualitas kode (keterbacaan, types, penanganan kesalahan, edge cases)
- Efisiensi (penggunaan tokens, waktu respons, jumlah prompt lanjutan yang diperlukan)
Setiap dimensi dinilai 1-10. Skor maksimum yang mungkin per tugas: 30.
Model-model tersebut diakses melalui API masing-masing dengan harga standar: GPT-5.4 seharga $2.50/$15 per million tokens dan Claude Opus 4.6 seharga $15/$75 per million tokens.
Berikut adalah 10 tugas tersebut dan apa yang sebenarnya terjadi.
Tugas 1: Membangun REST API Endpoint
Prompt: "Create a POST /api/users endpoint in Express.js with TypeScript. Validate email format and password strength (min 8 chars, 1 uppercase, 1 number). Hash the password with bcrypt. Store in PostgreSQL via Prisma. Return the user without the password field. Handle duplicate emails with a 409 status."
Hasil GPT-5.4
Kode yang bersih dan siap produksi. Skema validasi Zod sangat presisi. Hashing bcrypt menggunakan konstanta salt round yang tepat. Query Prisma menggunakan select untuk mengecualikan kolom password di tingkat database daripada menghapusnya dari objek respons — sebuah praktik keamanan yang halus namun penting. TypeScript types sangat ketat.
Hasil Claude Opus 4.6
Juga bersih dan benar. Menggunakan pendekatan validasi Zod yang serupa tetapi menambahkan middleware rate limiting untuk endpoint tersebut dan menyertakan komentar yang menjelaskan alasannya. Pengecualian password menggunakan fitur omit milik Prisma. Menambahkan try/catch dengan tipe error spesifik untuk pelanggaran unique constraint Prisma.
Skor
| Dimensi | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Kebenaran | 10 | 10 |
| Kualitas kode | 9 | 9 |
| Efisiensi | 9 | 8 |
| Total | 28 | 27 |
Pemenang: GPT-5.4 (sedikit lebih unggul dalam hal kecepatan dan keringkasan)
Kedua output sangat baik. GPT-5.4 lebih cepat dan menggunakan lebih sedikit tokens. Opus menambahkan middleware rate limiting tanpa diminta — berguna tetapi tidak diminta. Untuk tugas API yang terdefinisi dengan baik, model-model ini pada dasarnya dapat saling menggantikan.
Tugas 2: Membangun Komponen React
Prompt: "Create a React component called DataTable that accepts generic typed data, supports sortable columns, pagination (client-side), a search filter, and row selection with checkboxes. Use TypeScript generics. No UI library — just HTML/CSS with CSS modules. Include proper ARIA attributes."
Hasil GPT-5.4
Memberikan komponen generik yang terstruktur dengan baik. TypeScript generics digunakan dengan benar untuk definisi kolom dan tipe data. Logika pengurutan bersih dengan hook kustom useSortable yang diekstrak. Pagination menggunakan useMemo untuk performa. Atribut ARIA sudah benar — role="grid", aria-sort pada header yang dapat diurutkan, aria-selected pada checkbox.
Hasil Claude Opus 4.6
Struktur serupa tetapi dengan beberapa perbedaan. Opus membuat hook useDataTable yang merangkum logika pengurutan, pagination, dan pemfilteran — pemisahan yang lebih bersih tetapi lebih banyak abstraksi. TypeScript generics sama benarnya. Melewatkan aria-sort pada sel header. Modul CSS menyertakan tata letak responsif yang beralih ke tampilan kartu di perangkat seluler, yang tidak diminta tetapi merupakan tambahan yang bijaksana.
Skor
| Dimensi | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Kebenaran | 10 | 9 |
| Kualitas kode | 9 | 9 |
| Efisiensi | 9 | 8 |
| Total | 28 | 26 |
Pemenang: GPT-5.4
Implementasi ARIA GPT-5.4 lebih lengkap, yang penting untuk komponen yang akan digunakan di seluruh aplikasi. Seperti yang dicatat oleh perbandingan MindStudio, GPT-5.4 unggul dalam pembuatan boilerplate termasuk komponen React dan antarmuka TypeScript.
Tugas 3: Menulis SQL Query yang Kompleks
Prompt: "Write a PostgreSQL query that returns the top 10 customers by lifetime value (total order amount) who have placed at least 3 orders in the last 12 months, including their most recent order date, average order value, and the percentage change in their spending compared to the previous 12-month period. Use CTEs for readability."
Hasil GPT-5.4
Tiga CTEs: satu untuk agregasi periode saat ini, satu untuk agregasi periode sebelumnya, satu untuk perhitungan persentase. Bersih, benar, diformat dengan baik. Menggunakan COALESCE untuk menangani pelanggan tanpa data periode sebelumnya. Menambahkan komentar index hint.
Hasil Claude Opus 4.6
Empat CTEs dengan struktur yang sedikit berbeda: memisahkan perhitungan "tanggal pesanan terakhir" ke dalam CTE-nya sendiri untuk menghindari correlated subquery. Menambahkan NULLIF untuk mencegah pembagian dengan nol dalam perhitungan persentase — sebuah edge case nyata yang terlewatkan oleh GPT-5.4. Menyertakan alternatif window function dalam blok komentar.
Skor
| Dimensi | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Kebenaran | 9 | 10 |
| Kualitas kode | 8 | 9 |
| Efisiensi | 9 | 8 |
| Total | 26 | 27 |
Pemenang: Claude Opus 4.6
Edge case pembagian dengan nol adalah pembedanya. Dalam SQL produksi, bug semacam itu menyebabkan korupsi data secara diam-diam. Opus secara konsisten memunculkan edge cases yang penting dalam data pipelines dunia nyata.
Tugas 4: Debug sebuah Race Condition
Prompt: Saya menyediakan 3 file (~200 baris total) dari aplikasi Node.js dengan kegagalan pengujian yang intermiten. Bug-nya adalah race condition pada lapisan caching di mana cache misses yang terjadi bersamaan dapat memicu query database duplikat dan status yang tidak konsisten. "Find the bug, explain why it only manifests intermittently, and provide a fix."
Hasil GPT-5.4
Mengidentifikasi jalur kode cache miss yang benar. Menyarankan penambahan mutex lock menggunakan async-mutex. Perbaikannya benar tetapi hanya menangani gejala daripada akar masalahnya — ini menserialisasi semua akses cache, yang akan merusak performa di bawah beban tinggi.
Hasil Claude Opus 4.6
Mengidentifikasi jalur kode yang sama tetapi juga melacak ketidakkonsistenan status ke masalah kedua: pembaruan cache tidak atomik — ada celah antara pemeriksaan baca dan penulisan di mana permintaan lain dapat masuk. Opus menyarankan pola "single-flight" (menggabungkan permintaan identik yang bersamaan) daripada mutex global. Perbaikannya lebih bedah dan mempertahankan konkurensi untuk cache keys yang tidak konflik.
Skor
| Dimensi | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Kebenaran | 7 | 10 |
| Kualitas kode | 7 | 9 |
| Efisiensi | 8 | 8 |
| Total | 22 | 27 |
Pemenang: Claude Opus 4.6
Kesenjangan yang jelas. Opus memahami model konkurensi cukup dalam untuk menyarankan perbaikan yang tepat sasaran. Ini sejalan dengan skor 80.8% Claude Opus 4.6 pada SWE-bench Verified, yang menguji tepat pada penyelesaian bug dunia nyata seperti ini.
Tugas 5: Code Review
Prompt: Saya menyediakan pull request sebanyak 350 baris yang menambahkan modul pemrosesan pembayaran baru. "Review this PR for bugs, security issues, performance problems, and code quality. Prioritize findings by severity."
Hasil GPT-5.4
Menemukan 5 masalah: pemeriksaan null yang hilang pada respons pembayaran, unhandled promise rejection, timeout hardcoded yang seharusnya dapat dikonfigurasi, idempotency key yang hilang, dan saran untuk mengekstrak magic numbers menjadi konstanta. Terorganisir berdasarkan tingkat keparahan. Jelas dan dapat ditindaklanjuti.
Hasil Claude Opus 4.6
Menemukan 8 masalah: 5 masalah yang sama dengan yang ditemukan GPT-5.4 ditambah tiga lagi — kerentanan TOCTOU (time-of-check-time-of-use) dalam validasi jumlah, potensi kebocoran informasi dalam respons kesalahan yang mengekspos internal stack traces, dan masalah halus di mana logika retry dapat menyebabkan pengisian ganda jika permintaan pertama berhasil tetapi responsnya hilang. Setiap temuan menyertakan nomor baris spesifik dan saran perbaikan.
Skor
| Dimensi | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Kebenaran | 8 | 10 |
| Kualitas kode | 8 | 10 |
| Efisiensi | 9 | 8 |
| Total | 25 | 28 |
Pemenang: Claude Opus 4.6
Tiga temuan tambahan semuanya bersifat kritis terhadap keamanan. Bug pengisian ganda saja dapat merugikan perusahaan dalam hal uang dan reputasi secara signifikan. Skor Opus sebesar 76% pada MRCR v2 (penalaran multi-file) diterjemahkan langsung ke code review yang lebih baik pada modul yang kompleks.
Tugas 6: Menulis Test Suite
Prompt: "Write comprehensive tests for this authentication middleware using Vitest. Cover: valid tokens, expired tokens, malformed tokens, missing authorization header, revoked tokens, rate limiting, and concurrent authentication requests." Saya menyediakan file sumber middleware (~120 baris).
Hasil GPT-5.4
Menghasilkan 18 test cases yang diatur dalam blok describe yang bersih. Setiap skenario dari prompt tercakup. Menambahkan tiga edge cases ekstra: token string kosong, token dengan algoritma yang salah, dan authorization header yang hanya berisi spasi. Mocks terstruktur dengan baik menggunakan vi.mock. Deskripsi pengujian jelas dan mengikuti pola "should X when Y".
Hasil Claude Opus 4.6
Menghasilkan 15 test cases. Semua skenario yang diminta tercakup. Struktur pengujian menggunakan helper factory untuk membuat tokens dengan properti berbeda — cerdas tetapi menambah kompleksitas. Melewatkan pengujian "concurrent authentication requests" yang diminta secara eksplisit. Mocks lebih bersih tetapi jumlah pengujian lebih rendah.
Skor
| Dimensi | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Kebenaran | 10 | 8 |
| Kualitas kode | 9 | 9 |
| Efisiensi | 9 | 8 |
| Total | 28 | 25 |
Pemenang: GPT-5.4
GPT-5.4 mengikuti prompt dengan lebih setia dan menambahkan edge cases yang bermakna. Seperti yang dicatat oleh berbagai perbandingan, pembuatan pengujian GPT-5.4 adalah salah satu yang terbaik, menulis suite yang komprehensif dengan cakupan edge case yang kuat.
Tugas 7: Refactor sebuah Modul Monolitik
Prompt: Saya menyediakan modul Python sebanyak 500 baris yang menangani manajemen pengguna — pendaftaran, autentikasi, pembaruan profil, pengaturan ulang kata sandi, dan notifikasi email semuanya dalam satu file. "Refactor this into a clean module structure following SOLID principles. Maintain backward compatibility with the existing public API."
Hasil GPT-5.4
Dipecah menjadi 5 modul: auth.py, registration.py, profile.py, password.py, notifications.py. Menambahkan __init__.py yang mengekspor kembali fungsi publik asli untuk kompatibilitas mundur. Pemisahan yang bersih. Setiap modul berdiri sendiri.
Namun, ia melewatkan pembaruan circular dependency antara registration.py dan notifications.py — pendaftaran mengirimkan email selamat datang, dan modul notifikasi membutuhkan referensi balik ke data pengguna. Kode tersebut akan crash saat diimpor.
Hasil Claude Opus 4.6
Dipecah menjadi 6 modul dengan rincian yang sama ditambah types.py untuk shared data classes. Yang terpenting, ia mengidentifikasi masalah circular dependency dan menyelesaikannya dengan memperkenalkan pola berbasis event — pendaftaran memancarkan event "user_created", dan modul notifikasi berlangganan ke event tersebut. Pendekatan __init__.py yang kompatibel ke belakang identik.
Opus juga menambahkan komentar singkat di bagian atas setiap modul yang menjelaskan apa yang termasuk di sana dan apa yang tidak — bertindak sebagai panduan bagi developer di masa depan.
Skor
| Dimensi | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Kebenaran | 6 | 10 |
| Kualitas kode | 8 | 10 |
| Efisiensi | 8 | 7 |
| Total | 22 | 27 |
Pemenang: Claude Opus 4.6
Bug circular dependency akan menyebabkan kegagalan produksi. Ini adalah jenis penalaran multi-file di mana Opus unggul — ia memahami dependensi lintas file dan implikasi arsitektural sebelum menghasilkan kode.
Tugas 8: Menulis Dokumentasi Teknis
Prompt: "Write API documentation for this payment processing SDK. Include: overview, authentication, rate limits, error codes, 5 endpoint descriptions with request/response examples, a webhook section, and a migration guide from v1 to v2." Saya menyediakan kode sumber SDK.
Hasil GPT-5.4
Dokumentasi komprehensif yang mencakup semua bagian yang diminta. Deskripsi endpoint mendetail dengan contoh curl dan skema respons. Bagian kode kesalahan disusun dengan baik sebagai tabel. Panduan migrasi jelas dengan contoh kode sebelum/sesudah. Format markdown yang bersih.
Hasil Claude Opus 4.6
Juga komprehensif, dengan struktur yang sedikit berbeda — dimulai dengan bagian "Quick Start" sebelum dokumentasi mendetail, yang merupakan pola yang baik untuk dokumentasi developer. Bagian webhook lebih mendetail, mencakup perilaku retry, kode verifikasi tanda tangan, dan panduan pengujian. Panduan migrasi menyertakan lini masa penghentian (deprecation) yang tidak ada dalam kode sumber — ia menyimpulkan ini dari pola versi.
Skor
| Dimensi | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Kebenaran | 9 | 9 |
| Kualitas kode | 9 | 9 |
| Efisiensi | 9 | 8 |
| Total | 27 | 26 |
Pemenang: Seri (GPT-5.4 unggul satu poin dalam efisiensi)
Keduanya menghasilkan dokumentasi yang luar biasa. Perbedaan kualitasnya tidak signifikan. GPT-5.4 sedikit lebih cepat. Untuk tugas dokumentasi, model mana pun berfungsi dengan baik — ini sejalan dengan laporan developer bahwa kualitas dokumentasi sebanding di seluruh model frontier.
Tugas 9: Merancang Arsitektur Sistem
Prompt: "Design the architecture for a real-time collaborative document editor supporting 10,000 concurrent users. Cover: data model, conflict resolution strategy (CRDTs vs OT), WebSocket infrastructure, storage layer, presence system, and deployment topology. Provide a diagram in Mermaid syntax."
Hasil GPT-5.4
Memilih OT (Operational Transformation) dengan server pusat. Arsitektur yang wajar dengan Redis untuk presence, PostgreSQL untuk penyimpanan dokumen, dan WebSocket gateway di balik load balancer. Diagram Mermaid bersih. Analisisnya kompeten tetapi mengikuti aturan standar — tidak menganalisis secara mendalam tradeoff antara CRDTs dan OT untuk skala khusus ini.
Hasil Claude Opus 4.6
Dimulai dengan mengajukan pertanyaan klarifikasi tentang model dokumen (rich text vs. plain text vs. structured data), yang saya jawab sebagai "rich text." Kemudian merekomendasikan CRDTs (khususnya Yjs) daripada OT, dengan penjelasan mendetail mengapa CRDTs lebih unggul pada skala ini — eventual consistency tanpa sequencer pusat menghilangkan single point of failure.
Arsitekturnya menyertakan detail baru: lapisan "document gateway" yang menangani operasi penggabungan CRDT dan bertindak sebagai terminator WebSocket sekaligus lapisan persistensi status. Diagram Mermaid menyertakan panah aliran data dengan anotasi protokol. Bagian deployment merekomendasikan strategi pemartisian tertentu (shard berdasarkan ID dokumen) dengan alasan tentang hot partitions.
Skor
| Dimensi | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Kebenaran | 8 | 10 |
| Kualitas kode | 7 | 10 |
| Efisiensi | 8 | 7 |
| Total | 23 | 27 |
Pemenang: Claude Opus 4.6
Arsitektur adalah tempat di mana kesenjangan kedalaman penalaran antara model-model ini paling terlihat. Opus bernalar lebih eksplisit tentang masalah sebelum menghasilkan output, bekerja melalui edge cases dan mengajukan pertanyaan klarifikasi ketika persyaratan benar-benar ambigu.
Tugas 10: Menulis Script Deployment DevOps
Prompt: "Write a GitHub Actions workflow that: builds a Docker image, runs tests, pushes to ECR, deploys to ECS Fargate with blue-green deployment, runs a smoke test against the new deployment, and rolls back automatically if the smoke test fails. Use OIDC for AWS authentication — no hardcoded credentials."
Hasil GPT-5.4
File workflow yang lengkap dengan semua langkah yang diminta. Konfigurasi OIDC benar menggunakan aws-actions/configure-aws-credentials dengan role ARN. Deployment blue-green menggunakan pembaruan layanan ECS dengan deployment controller CODE_DEPLOY. Smoke test adalah pemeriksaan kesehatan berbasis curl. Rollback dipicu oleh kode keluar smoke test. Dikomentari dengan baik, siap produksi.
Hasil Claude Opus 4.6
Juga lengkap dan benar. Menggunakan pendekatan OIDC yang sama. Perbedaan utamanya ada pada smoke test — Opus membuat pengujian yang lebih menyeluruh yang tidak hanya memeriksa endpoint kesehatan tetapi juga memverifikasi bahwa deployment menyajikan versi yang benar dengan memeriksa endpoint /version. Rollback menyertakan langkah notifikasi Slack. Namun, workflow-nya terasa lebih bertele-tele — 40% lebih banyak baris untuk fungsionalitas yang serupa.
Skor
| Dimensi | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Kebenaran | 10 | 10 |
| Kualitas kode | 9 | 9 |
| Efisiensi | 9 | 7 |
| Total | 28 | 26 |
Pemenang: GPT-5.4
Untuk scripting DevOps, keringkasan GPT-5.4 adalah sebuah keuntungan. Workflow lebih mudah dipelihara dan dimodifikasi. Tambahan Opus (notifikasi Slack, verifikasi versi) memang bagus tetapi tidak diminta dan menambah kompleksitas. GPT-5.4 memimpin pada Terminal-bench (75.1% vs 65.4%), dan keunggulan ini terlihat dalam tugas-tugas yang berorientasi pada terminal.
Papan Skor Akhir
| Tugas | GPT-5.4 | Opus 4.6 | Pemenang |
|---|---|---|---|
| 1. REST API endpoint | 28 | 27 | GPT-5.4 |
| 2. Komponen React | 28 | 26 | GPT-5.4 |
| 3. SQL query | 26 | 27 | Opus 4.6 |
| 4. Debug race condition | 22 | 27 | Opus 4.6 |
| 5. Code review | 25 | 28 | Opus 4.6 |
| 6. Test suite | 28 | 25 | GPT-5.4 |
| 7. Refactor modul | 22 | 27 | Opus 4.6 |
| 8. Dokumentasi | 27 | 26 | Seri |
| 9. Desain arsitektur | 23 | 27 | Opus 4.6 |
| 10. Script DevOps | 28 | 26 | GPT-5.4 |
| Total | 257 | 266 | Opus 4.6 |
Skor akhir: Claude Opus 4.6 menang 266 lawan 257.
Namun skor agregat tersebut menyembunyikan cerita yang sebenarnya.
Pola yang Lebih Penting Daripada Skor
Lihat di mana masing-masing model menang:
GPT-5.4 menang pada:
- API endpoints (tugas yang terdefinisi dengan baik dan terukur)
- Komponen React (boilerplate dengan spesifikasi yang jelas)
- Penulisan tes (cakupan komprehensif dari sebuah spesifikasi)
- Script DevOps (berorientasi terminal, output ringkas)
Claude Opus 4.6 menang pada:
- Edge cases SQL (menangkap bug data yang halus)
- Debugging (memahami akar masalah dalam sistem yang kompleks)
- Code review (menemukan masalah keamanan dan kebenaran)
- Refactoring (menangani dependensi lintas file)
- Arsitektur (penalaran mendalam tentang tradeoff)
Polanya jelas: GPT-5.4 adalah model yang lebih cepat, lebih murah, dan lebih baik untuk tugas coding yang terdefinisi dengan baik. Claude Opus 4.6 adalah model yang lebih dalam dan lebih teliti untuk tugas yang membutuhkan penalaran di tengah kompleksitas.
Ini cocok dengan apa yang ditemukan oleh analisis DataCamp: GPT-5.4 adalah model serbaguna terbaik sementara Opus 4.6 unggul secara khusus pada tugas-tugas agentic dan deep-coding.
Faktor Biaya
Kesenjangan skor (9 poin) relatif kecil. Kesenjangan biaya tidak demikian.
| Metrik | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| Harga input | $2.50/MTok | $15/MTok |
| Harga output | $15/MTok | $75/MTok |
| Kecepatan | 73.4 tok/s | 40.5 tok/s |
| Context window | 1M (biaya tambahan >272K) | 1M (flat pricing) |
| Penghematan tool search | ~47% pengurangan token | N/A |
Untuk pengujian 10 tugas ini, total biaya API kira-kira $4.20 untuk GPT-5.4 dan $31.50 untuk Opus 4.6. Itu adalah perbedaan biaya 7.5x untuk selisih kualitas 3.5%.
Bagi tim yang menjalankan ratusan tugas coding berbantuan AI per hari, perhitungan matematikanya sangat mendukung GPT-5.4 untuk sebagian besar pekerjaan, dengan Opus dicadangkan untuk 10-20% pekerjaan berisiko tinggi di mana kedalaman penalarannya memberikan perbedaan yang nyata.
Strategi Cerdas: Gunakan Keduanya
Sebagian besar developer yang bekerja di tahun 2026 tidak memilih satu model — mereka memilih kapan menggunakan masing-masing model. Pola yang muncul dari pengujian ini sesuai dengan apa yang kami gunakan di ZBuild:
Pilihan harian: GPT-5.4 (melalui Codex CLI atau API)
- Menulis endpoint, komponen, dan script baru
- Menghasilkan tes dari spesifikasi
- Debugging cepat pada masalah yang terisolasi
- Otomatisasi DevOps dan CI/CD
Pekerja berat: Claude Opus 4.6 (melalui Claude Code atau API)
- Refactoring lintas file dengan dependensi yang kompleks
- Meninjau kode yang kritis terhadap keamanan
- Sesi desain arsitektural
- Debugging masalah yang tidak jelas di codebase besar
Pendekatan dua model ini menangkap 95% kekuatan kedua model sambil menjaga biaya tetap terkendali. Panduan Portkey untuk memilih di antara model-model ini merekomendasikan pendekatan hibrida yang sama.
Apa yang Dikatakan Benchmark (untuk Konteks)
Hasil tugas demi tugas di atas sejalan dengan benchmark formal:
| Benchmark | GPT-5.4 | Opus 4.6 | Apa yang Diukur |
|---|---|---|---|
| SWE-bench Verified | ~80% | 80.8% | Penyelesaian masalah GitHub nyata |
| SWE-bench Pro | 57.7% | ~46% | Tugas coding yang lebih sulit dan ketat |
| Terminal-bench 2.0 | 75.1% | 65.4% | Tugas terminal dan sistem |
| HumanEval | 93.1% | 90.4% | Pembuatan kode tingkat fungsi |
| GPQA Diamond | 92.0-92.8% | 87.4-91.3% | Penalaran tingkat ahli |
| ARC-AGI-2 | 73.3% | 68.8-69.2% | Penalaran baru |
Sumber: MindStudio benchmarks, analisis Evolink, Anthropic
GPT-5.4 memimpin di sebagian besar benchmark. Opus 4.6 memimpin pada SWE-bench Verified — benchmark yang paling erat kaitannya dengan perbaikan bug dunia nyata — yang menjelaskan keunggulannya pada debugging dan refactoring dalam pengujian saya.
Putusan
Jika Anda hanya bisa memilih satu model: GPT-5.4. Model ini menangani 80% tugas coding dengan kualitas yang sama atau lebih baik, biaya 6-7x lebih murah, dan 80% lebih cepat. 20% tugas di mana Opus lebih baik (debugging, refactoring, arsitektur) sering kali dapat ditangani dengan prompting yang lebih mendetail pada GPT-5.4.
Jika Anda bisa menggunakan keduanya: Lakukanlah. GPT-5.4 untuk coding harian, Opus 4.6 untuk pekerjaan yang kompleks. Ini bukan kompromi — ini adalah strategi yang optimal.
Jika biaya tidak menjadi masalah dan Anda menginginkan kualitas maksimum pada setiap tugas: Claude Opus 4.6. Ia memenangkan skor keseluruhan dan kemenangannya ada pada tugas-tugas di mana kualitas paling penting (bug lebih mahal daripada boilerplate).
Hasilnya tidak seperti yang saya harapkan karena saya berasumsi model yang lebih mahal akan mendominasi. Ternyata tidak. Kedua model memiliki kekuatan yang benar-benar berbeda, dan strategi terbaik adalah mengetahui kekuatan mana yang Anda butuhkan untuk tugas yang ada di depan Anda.
Sumber
- OpenAI — Introducing GPT-5.4
- OpenAI — API Pricing
- Anthropic — Introducing Claude Opus 4.6
- Anthropic — Claude Pricing
- MindStudio — GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro Benchmarks
- MindStudio — Which AI Model Is Right for Your Workflow
- Portkey — GPT-5.4 vs Claude Opus 4.6 Guide
- DataCamp — GPT-5.4 vs Claude Opus 4.6 for Agentic Tasks
- Artificial Analysis — GPT-5.4 vs Claude Opus 4.6
- Bind AI — GPT-5.4 vs Claude Opus 4.6 for Coding
- Evolink — SWE-bench Verified 2026: Claude vs GPT
- DEV Community — ChatGPT vs Claude for Coding 2026
- Claude 5 — Opus 4.6 Benchmark Analysis