← Back to news
ZBuild News

Claude Sonnet 4.6 vs Opus 4.6: Perbandingan Teknis Lengkap (2026)

Perbandingan teknis mendalam antara Claude Sonnet 4.6 dan Opus 4.6 di setiap dimensi — coding, reasoning, agents, computer use, pricing, dan performa dunia nyata. Termasuk data benchmark, analisis biaya, dan rekomendasi yang jelas untuk berbagai use cases.

Published
2026-03-27
Author
ZBuild Team
Reading Time
12 min read
claude sonnet vs opus completesonnet 4.6 vs opus 4.6 detailedclaude model comparison 2026sonnet vs opus benchmarkswhich claude model to useanthropic models compared
Claude Sonnet 4.6 vs Opus 4.6: Perbandingan Teknis Lengkap (2026)
ZBuild Teamid
XLinkedIn
Disclosure: This article is published by ZBuild. Some products or services mentioned may include ZBuild's own offerings. We strive to provide accurate, objective analysis to help you make informed decisions. Pricing and features were accurate at the time of writing.

Poin-Poin Utama

  • Coding hampir identik: 80.8% vs 79.6% pada SWE-bench Verified — kesenjangan 1.2 poin yang menghilang dalam penggunaan sehari-hari Sumber.
  • Opus berbiaya 5x lebih mahal: $15/$75 vs $3/$15 per juta tokens — Sonnet menghemat 80% pada setiap panggilan API Sumber.
  • Agent Teams hanya tersedia di Opus: Kemampuan untuk menjalankan instansi Claude secara paralel adalah alasan paling kuat untuk menggunakan Opus Sumber.
  • Penalaran adalah perbedaan yang nyata: 91.3% vs 74.1% pada GPQA Diamond — perbedaan 17 poin pada ilmu pengetahuan tingkat PhD Sumber.
  • Penggunaan komputer berakhir seri: 72.5% vs 72.7% pada OSWorld — Sonnet adalah pilihan yang jelas di sini mengingat keunggulan harga 5x lipatnya Sumber.

Claude Sonnet 4.6 vs Opus 4.6: Perbandingan di Setiap Dimensi

Generasi Claude 4.6 dari Anthropic meluncurkan dua model yang berbagi arsitektur yang sama tetapi melayani tujuan yang mendasarinya berbeda. Sonnet 4.6 (dirilis 17 Februari 2026) adalah pekerja keras — cepat, mampu, dan terjangkau. Opus 4.6 (dirilis 5 Februari 2026) adalah unggulan — model paling mumpuni yang pernah dibangun Anthropic, dengan fitur eksklusif yang membenarkan harga premiumnya dalam skenario tertentu.

Ini adalah perbandingan teknis yang lengkap. Bukan panduan keputusan cepat — melainkan pemeriksaan menyeluruh terhadap setiap dimensi yang penting, dengan data untuk mendukung setiap klaim.


Sekilas Spesifikasi

SpesifikasiClaude Sonnet 4.6Claude Opus 4.6
Tanggal Rilis17 Februari 20265 Februari 2026
Biaya Input$3.00 / MTok$15.00 / MTok
Biaya Output$15.00 / MTok$75.00 / MTok
Input Ter-cache$0.30 / MTok$1.50 / MTok
Jendela Konteks1M tokens (beta)1M tokens (GA)
Output Maksimum128K tokens128K tokens
Extended ThinkingYa (adaptif)Ya (adaptif)
Computer UseYaYa
Agent TeamsTidakYa
Pemadatan KonteksYa (beta)Ya

Kedua model mendukung konteks 1M tokens dan output 128K, tetapi ada perbedaan halus: konteks 1M Opus 4.6 sudah tersedia secara umum (GA), sementara Sonnet 4.6 masih dalam tahap beta. Dalam praktiknya, keduanya bekerja secara andal pada 1M tokens, tetapi label GA Anthropic pada Opus menandakan kepercayaan diri yang lebih tinggi pada perilaku konteks panjangnya Sumber.


Perbandingan Benchmark: Gambaran Lengkap

Benchmark Coding

BenchmarkSonnet 4.6Opus 4.6KesenjanganPemenang
SWE-bench Verified79.6%80.8%1.2 ptsOpus (marjinal)
Terminal-Bench 2.0~70%~73%~3 ptsOpus (marjinal)
HumanEval~95%~96%~1 ptSeri

Kesenjangan SWE-bench sebesar 1.2 poin persentase berada dalam batas toleransi untuk tujuan praktis. Kedua model dapat menangani masalah GitHub dunia nyata yang kompleks dengan keandalan tinggi. Ketika Sonnet 4.6 diuji terhadap unggulan sebelumnya (Opus 4.5), pengembang lebih memilih Sonnet 4.6 sebanyak 59% — hasil yang luar biasa untuk model yang lebih murah yang mengalahkan model unggulan generasi sebelumnya Sumber.

Benchmark Penalaran

BenchmarkSonnet 4.6Opus 4.6KesenjanganPemenang
GPQA Diamond74.1%91.3%17.2 ptsOpus (telak)
Humanity's Last Exam~35%~45%~10 ptsOpus (signifikan)
MATH89%~93%~4 ptsOpus (moderat)
MMLU-Pro~82%~87%~5 ptsOpus (moderat)

Di sinilah kedua model ini berbeda secara dramatis. Kesenjangan GPQA Diamond — 17.2 poin persentase — adalah perbedaan performa tunggal terbesar antara kedua model tersebut. GPQA menguji penalaran tingkat pascasarjana dalam fisika, kimia, dan biologi. Jika aplikasi Anda memerlukan penalaran ilmiah tingkat PhD, Opus 4.6 berada di kelas yang berbeda sama sekali Sumber.

Benchmark Agen dan Computer Use

BenchmarkSonnet 4.6Opus 4.6KesenjanganPemenang
OSWorld-Verified72.5%72.7%0.2 ptsSeri
BrowseComp~65%~78%~13 ptsOpus
MRCR v2 (8-needle, 1M)~30%76%~46 ptsOpus (telak)

Dua wawasan kritis di sini:

  1. Computer use adalah persaingan yang sangat ketat. Pada 72.5% vs 72.7%, nol perbedaan praktis dalam kemampuan otomatisasi GUI. Ini menjadikan Sonnet 4.6 pilihan yang jelas untuk tugas-tugas computer use — performa identik dengan biaya 20% Sumber.

  2. Keandalan konteks panjang tidaklah sebanding. Pada benchmark MRCR v2 (yang menguji pengambilan multi-needle di seluruh jendela konteks 1M penuh), Opus 4.6 mendapat skor 76% sementara Sonnet 4.6 mendapat skor sekitar 30%. Untuk tugas yang mengharuskan model mempertahankan pemanggilan yang tepat di seluruh konteks yang sangat panjang — menganalisis seluruh codebase, memproses dokumen hukum yang panjang — Opus secara substansial lebih andal Sumber.

Pekerjaan Kantor dan Pengetahuan

BenchmarkSonnet 4.6Opus 4.6KesenjanganPemenang
GDPval-AA (Pekerjaan Kantor)1633 Elo1606 Elo27 EloSonnet

Ini adalah hasil yang mengejutkan. Pada GDPval-AA — yang mengukur performa pada tugas-tugas pekerjaan kantor dan pengetahuan dunia nyata — Sonnet 4.6 sebenarnya mengungguli Opus 4.6 sebanyak 27 poin Elo. Untuk tugas-tugas seperti menulis email, membuat presentasi, meringkas rapat, dan komunikasi bisnis umum, model yang lebih murah terbukti lebih baik Sumber.


Perbandingan Fitur: Di Luar Benchmark

Agent Teams (Hanya Opus)

Agent Teams adalah fitur eksklusif Opus 4.6 yang paling menarik. Fitur ini memungkinkan Anda menjalankan beberapa agen Claude Code dari satu orchestrator, dengan setiap sub-agen berjalan di panel tmux-nya sendiri Sumber.

Cara kerja Agent Teams:

  1. Anda mendeskripsikan tugas besar kepada orchestrator
  2. Orchestrator memecahnya menjadi sub-tugas yang independen
  3. Setiap sub-tugas ditugaskan ke instansi Claude yang terpisah
  4. Setiap instansi berjalan di panel tmux-nya sendiri dengan konteksnya sendiri
  5. Orchestrator mengoordinasikan hasil dan menangani dependensi

Contoh dunia nyata: Anda meminta Claude untuk "Menyiapkan fitur baru: dasbor pengguna dengan analitik." Orchestrator mungkin membuat:

  • Agen 1: Endpoint API backend untuk data analitik
  • Agen 2: Komponen React frontend untuk dasbor
  • Agen 3: Migrasi database dan seed data
  • Agen 4: Pengujian unit dan integrasi

Keempatnya bekerja secara bersamaan, mengurangi waktu pengerjaan sebanyak 3-4x dibandingkan dengan eksekusi sekuensial.

Mengapa ini penting: Untuk proyek besar di mana tugas-tugas dapat diparalelkan, Agent Teams memberikan pengganda produktivitas yang nyata. Fitur ini saja sudah membenarkan harga premium Opus bagi tim yang mengerjakan produk kompleks.

Extended Thinking (Kedua Model)

Kedua model mendukung extended thinking — kemampuan untuk "memikirkan" masalah kompleks langkah demi langkah sebelum merespons. Namun, mereka menerapkannya secara berbeda:

Sonnet 4.6: Menggunakan penalaran adaptif, di mana model menangkap petunjuk kontekstual tentang seberapa banyak pemikiran yang diperlukan. Untuk pertanyaan sederhana, ia merespons dengan cepat. Untuk penalaran yang kompleks, ia secara otomatis melibatkan pemikiran yang lebih dalam.

Opus 4.6: Juga menggunakan penalaran adaptif tetapi dengan ambang batas yang lebih tinggi. Opus dapat terlibat dalam rantai penalaran yang lebih panjang dan mempertahankan koherensi di lebih banyak langkah penalaran. Ini terlihat sebagai kesenjangan 17 poin pada GPQA — Opus dapat "berpikir lebih keras" ketika masalah menuntutnya.

Kedua model mendukung kontrol anggaran pemikiran eksplisit melalui API, memungkinkan Anda menetapkan tokens pemikiran minimum dan maksimum per permintaan.

Pemadatan Konteks (Kedua Model)

Pemadatan konteks secara otomatis meringkas konteks yang lebih lama ketika percakapan mendekati batas konteks. Alih-alih memotong pesan lama (yang menyebabkan hilangnya informasi), model membuat ringkasan terkompresi yang mempertahankan fakta-fakta kunci dan keputusan Sumber.

Kedua model mendukung fitur ini, tetapi performa konteks panjang Opus 4.6 yang unggul (76% vs ~30% pada MRCR v2) berarti ia mempertahankan lebih banyak nuansa selama pemadatan. Pemadatan Sonnet 4.6 berfungsi tetapi terkadang kehilangan detail halus yang dipertahankan oleh Opus.

Computer Use (Kedua Model)

Kedua model dapat mengoperasikan komputer menggunakan mouse dan keyboard virtual — mengklik tombol, mengisi formulir, menavigasi situs web, memanipulasi spreadsheet. Kemampuannya hampir identik (72.5% vs 72.7% pada OSWorld), menjadikan Sonnet 4.6 pilihan yang jelas untuk tugas-tugas computer use mengingat keunggulan harga 5x lipatnya Sumber.

Aplikasi praktis computer use:

  • Pengisian formulir otomatis di seluruh aplikasi web
  • Pengujian end-to-end pada antarmuka web
  • Ekstraksi data dari sistem lama tanpa API
  • Otomatisasi browser multi-tab untuk tugas penelitian

Analisis Biaya: Faktor 5x

Perbedaan harga antara Sonnet dan Opus tidaklah sedikit — ini adalah 5x lipat di semua jenis token.

Perbandingan Biaya Per Tugas

TugasTokens (kira-kira)Biaya Sonnet 4.6Biaya Opus 4.6Penghematan
Tinjauan kode tunggal10K in / 5K out$0.105$0.52580%
Implementasi fitur50K in / 20K out$0.45$2.2580%
Analisis codebase penuh500K in / 10K out$1.65$8.2580%
Sesi agen yang panjang1M in / 100K out$10.50$52.5080%

Biaya Bulanan pada Skala Besar

Tingkat PenggunaanSonnet 4.6Opus 4.6Penghematan Bulanan
Ringan (10M tokens/hari)~$150/bln~$750/bln$600
Sedang (50M tokens/hari)~$750/bln~$3,750/bln$3,000
Berat (200M tokens/hari)~$3,000/bln~$15,000/bln$12,000

Bagi tim yang memproses volume tokens yang signifikan, penghematan dari penggunaan Sonnet dibandingkan Opus cukup besar untuk mendanai tambahan tenaga teknik Sumber.

Keuntungan Caching

Kedua model mendukung prompt caching, yang secara drastis mengurangi biaya untuk konteks yang berulang (seperti system prompts atau ringkasan codebase):

Jenis TokenSonnet 4.6Opus 4.6
Input reguler$3.00/MTok$15.00/MTok
Input ter-cache$0.30/MTok$1.50/MTok
Diskon cache90%90%

Dengan caching, perbedaan biaya absolut menyempit, tetapi rasio 5x tetap konstan. Alur kerja Sonnet yang ter-cache dengan baik bisa sangat terjangkau untuk penggunaan produksi.


Kecepatan dan Latensi

MetrikSonnet 4.6Opus 4.6
Waktu Menuju Token Pertama~1.0s~2.5s
Kecepatan Output~85 tokens/s~45 tokens/s
Kecepatan Relatif2x lebih cepatBaseline
vs Generasi Sebelumnya30-50% lebih cepat dari Sonnet 4.5~20% lebih cepat dari Opus 4.5

Sonnet 4.6 kira-kira 2x lebih cepat daripada Opus 4.6 baik dalam latensi maupun throughput. Untuk aplikasi yang berhadapan dengan pengguna di mana waktu respons memengaruhi pengalaman, keunggulan kecepatan ini berpadu dengan penghematan biaya untuk menjadikan Sonnet sebagai pilihan default yang jelas Sumber.

Dalam perulangan agen di mana model dipanggil berulang kali, keunggulan kecepatan Sonnet sangat berdampak. Alur kerja agen 10 langkah yang membutuhkan waktu 25 detik per langkah pada Opus hanya membutuhkan ~12 detik per langkah pada Sonnet — menghemat lebih dari 2 menit per eksekusi alur kerja.


Analisis Kasus Penggunaan Dunia Nyata

Kasus Penggunaan 1: Asisten Coding Harian

Rekomendasi: Sonnet 4.6

Untuk coding sehari-hari — mengimplementasikan fitur, memperbaiki bug, menulis tes, meninjau kode — kesenjangan SWE-bench 1.2 poin tidak terlihat. Keunggulan kecepatan Sonnet 4.6 berarti siklus iterasi yang lebih cepat, dan pengurangan biaya 5x lipat berarti Anda dapat menggunakannya lebih bebas tanpa khawatir tentang tagihan.

Kasus Penggunaan 2: Proyek Kompleks dengan Alur Kerja Paralel

Rekomendasi: Opus 4.6

Ketika Anda memerlukan Agent Teams untuk memparalelkan pekerjaan di beberapa agen, Opus adalah satu-satunya pilihan. Proyek refactoring besar yang akan memakan waktu 2 jam bagi satu agen mungkin hanya memakan waktu 40 menit bagi 4 agen yang terkoordinasi. Harga premium dibenarkan oleh penghematan waktu.

Kasus Penggunaan 3: Otomatisasi Komputer

Rekomendasi: Sonnet 4.6

Dengan skor OSWorld yang hampir identik (72.5% vs 72.7%), tidak ada alasan untuk membayar harga premium Opus untuk tugas-tugas computer use. Baik Anda mengotomatiskan formulir web, menguji alur UI, atau mengekstrak data dari aplikasi lama, Sonnet 4.6 memberikan hasil yang sama dengan 20% biaya.

Kasus Penggunaan 4: Penelitian dan Analisis Ilmiah

Rekomendasi: Opus 4.6

Kesenjangan GPQA Diamond 17 poin adalah penentu. Untuk tugas-tugas yang melibatkan fisika, kimia, biologi tingkat pascasarjana, atau matematika tingkat lanjut, Opus 4.6 menunjukkan penalaran yang jauh lebih kuat. Tim peneliti dan aplikasi ilmiah harus menganggarkan untuk Opus.

Kasus Penggunaan 5: Backend API Produksi

Rekomendasi: Sonnet 4.6

Untuk API produksi yang melayani pengguna akhir — chatbot, pembuatan konten, analisis dokumen — Sonnet 4.6 adalah pilihan yang jelas. Waktu respons yang lebih cepat meningkatkan pengalaman pengguna, dan pengurangan biaya 5x membuat kasus penggunaan bervolume tinggi layak secara ekonomi.

Kasus Penggunaan 6: Sesi Agen Berdurasi Panjang

Rekomendasi: Opus 4.6

Jika sesi agen Anda secara teratur melebihi 500K tokens konteks, keandalan konteks panjang Opus 4.6 yang unggul (76% vs ~30% pada MRCR v2) memberikan perbedaan yang berarti. Sonnet 4.6 akan tetap berfungsi pada konteks panjang, tetapi ia kehilangan presisi lebih cepat saat konteks bertambah.

Kasus Penggunaan 7: Membangun Aplikasi

Rekomendasi: Mulai dengan Sonnet 4.6, tingkatkan ke Opus jika diperlukan

Bagi tim yang membangun aplikasi — baik coding secara tradisional atau menggunakan pembangun aplikasi visual seperti ZBuild — Sonnet 4.6 menangani sebagian besar tugas. Simpan Opus untuk 10-15% tugas yang memerlukan kemampuan uniknya (Agent Teams, penalaran mendalam, atau presisi konteks panjang).


Strategi Hibrida: Menggunakan Kedua Model

Pendekatan yang paling hemat biaya di tahun 2026 bukanlah memilih satu model — melainkan menggunakan keduanya secara strategis.

Aturan Perutean

Jenis TugasModelDasar Pemikiran
Coding standarSonnet 4.679.6% SWE-bench dengan biaya 5x lebih murah
Tinjauan kodeSonnet 4.6Kualitas sebanding, kecepatan 2x lipat
Computer useSonnet 4.6Performa identik, biaya 5x lebih murah
Pekerjaan kantorSonnet 4.6Sebenarnya mengungguli Opus (1633 vs 1606 Elo)
Tugas multi-agen kompleksOpus 4.6Eksklusif Agent Teams
Penalaran tingkat PhDOpus 4.691.3% vs 74.1% GPQA
Sesi berdurasi panjang (500K+)Opus 4.676% vs ~30% MRCR v2
Keputusan arsitekturOpus 4.6Lebih baik dalam pengambilan keputusan yang bernuansa

Estimasi Distribusi Biaya

Dengan strategi perutean ini, sebagian besar tim akan menggunakan Sonnet 4.6 untuk 85-90% panggilan API Claude mereka dan Opus 4.6 untuk 10-15% sisanya. Ini mengurangi biaya rata-rata sebesar 70-75% dibandingkan dengan menggunakan Opus untuk semuanya, sambil tetap menjaga kualitas di bagian yang paling penting.


Bagaimana Kedua Model Dibandingkan dengan Kompetitor

Baik Sonnet maupun Opus tidak ada dalam isolasi. Berikut adalah perbandingan mereka dengan model-model terbaik dari penyedia lain:

ModelSWE-benchGPQA DiamondHarga (Input)Kecepatan
Claude Opus 4.680.8%91.3%$15.00/MTokLambat
GPT-5.480.0%~88%$2.50/MTokSedang
Claude Sonnet 4.679.6%74.1%$3.00/MTokCepat
Gemini 3 Flash78.0%90.4%$0.50/MTokSangat Cepat
GPT-5.3 Codex77.3%~75%$1.75/MTokSedang

Observasi penting:

  • GPT-5.4 adalah pesaing kuat dengan input $2.50/MTok — lebih murah daripada Sonnet 4.6 sambil menyamai Opus 4.6 dalam hal coding
  • Gemini 3 Flash mengungguli Sonnet pada GPQA (90.4% vs 74.1%) dengan biaya seperenamnya
  • Opus 4.6 tetap menjadi coder terbaik secara keseluruhan tetapi GPT-5.4 berada dalam ambang batas yang sama

Lanskap kompetitif di tahun 2026 sangat ketat di posisi teratas. Pilihan model semakin bergantung pada persyaratan kasus penggunaan spesifik daripada peringkat kemampuan secara keseluruhan.


Membuat Keputusan

Gunakan Sonnet 4.6 sebagai Default Jika Anda:

  • Membutuhkan model coding dan penalaran serbaguna
  • Ingin meminimalkan biaya API tanpa mengorbankan kualitas
  • Membangun aplikasi yang berhadapan dengan pengguna di mana kecepatan itu penting
  • Menggunakan computer use untuk tugas otomatisasi
  • Menangani pekerjaan kantor dan pengetahuan
  • Membangun aplikasi dengan platform seperti ZBuild dan membutuhkan backend AI yang andal dan hemat biaya

Tingkatkan ke Opus 4.6 Jika Anda:

  • Membutuhkan Agent Teams untuk alur kerja multi-agen paralel
  • Mengerjakan masalah ilmiah atau matematika tingkat PhD
  • Menjalankan sesi agen yang secara teratur melebihi 500K tokens
  • Membutuhkan kualitas coding absolut tertinggi terlepas dari biaya
  • Mengerjakan masalah di mana kesenjangan penalaran 17 poin itu penting
  • Perlu menemukan informasi yang sulit ditemukan secara online (keunggulan BrowseComp)

Intinya

Sonnet 4.6 adalah salah satu rilis model paling mengesankan di tahun 2026 — ia memberikan 98.5% performa coding Opus dengan biaya 20%, dengan kecepatan 2x lipat. Bagi sebagian besar pengembang, ini bukan sekadar "cukup baik" — melainkan pilihan yang lebih baik.

Opus 4.6 tetap penting untuk skenario bernilai tinggi tertentu: Agent Teams, penalaran mendalam, dan keandalan konteks panjang. Ini bukan sebuah kemewahan — melainkan alat khusus untuk masalah khusus.

Gunakan keduanya. Lakukan perutean secara cerdas. Bayar untuk kualitas Opus hanya saat Anda membutuhkan kualitas Opus.


Sumber

Back to all news
Enjoyed this article?
FAQ

Common questions

Apakah Claude Sonnet 4.6 cukup baik untuk menggantikan Opus 4.6?+
Untuk 85-90% tugas, ya. Sonnet 4.6 menyamai Opus 4.6 dalam selisih 1.2 poin pada SWE-bench (79.6% vs 80.8%) dan seri pada computer use (72.5% vs 72.7%). Satu-satunya area di mana Opus unggul secara signifikan adalah reasoning tingkat PhD (91.3% vs 74.1% pada GPQA Diamond) dan reliabilitas long-context (76% vs 18.5% pada MRCR v2). Dengan biaya 5x lebih rendah, Sonnet adalah pilihan default yang tepat bagi sebagian besar pengembang.
Berapa perbedaan harga antara Sonnet 4.6 dan Opus 4.6?+
Opus 4.6 berbiaya $15/$75 per juta input/output tokens. Sonnet 4.6 berbiaya $3/$15 per juta tokens. Hal itu membuat Opus 5x lebih mahal untuk input maupun output. Tugas yang berbiaya $1 di Sonnet akan berbiaya $5 di Opus. Untuk penggunaan produksi volume tinggi, perbedaan ini berakumulasi menjadi ribuan dolar setiap bulan.
Apakah hanya Opus 4.6 yang mendukung Agent Teams?+
Ya. Agent Teams — kemampuan untuk menjalankan beberapa instance Claude yang bekerja secara paralel dari satu orchestrator tunggal — saat ini eksklusif untuk Opus 4.6 di Claude Code. Sonnet 4.6 tidak mendukung Agent Teams, yang berarti Anda tidak dapat memparalelkan pekerjaan di berbagai agents dengan Sonnet.
Model mana yang lebih baik untuk coding?+
Keduanya sangat baik. Pada SWE-bench Verified, Opus 4.6 mencetak skor 80.8% dan Sonnet 4.6 mencetak 79.6% — selisih 1.2 poin yang masih dalam rentang noise untuk sebagian besar tugas praktis. Sonnet 4.6 sebenarnya lebih disukai oleh pengembang sebanyak 59% dibandingkan Opus 4.5 versi sebelumnya. Untuk workflow coding yang sensitif biaya, Sonnet 4.6 adalah pemenang yang jelas.
Kapan saya benar-benar harus menggunakan Opus 4.6 daripada Sonnet 4.6?+
Gunakan Opus 4.6 untuk tiga skenario: (1) Agent Teams — saat Anda membutuhkan workflow multi-agent paralel, (2) sesi agent yang berjalan lama yang memerlukan pemeliharaan konteks lebih dari 500K+ tokens tanpa degradasi, dan (3) tugas reasoning ilmiah tingkat PhD di mana selisih 17 poin GPQA sangat penting. Untuk hal lainnya, Sonnet 4.6 dengan biaya 5x lebih rendah adalah pilihan yang lebih baik.
Recommended Tools

Useful follow-ups related to this article.

Browse All Tools

Bangun dengan ZBuild

Ubah ide Anda menjadi aplikasi yang berfungsi — tanpa coding.

46.000+ developer membangun dengan ZBuild bulan ini

Berhenti membandingkan — mulai membangun

Jelaskan yang Anda inginkan — ZBuild membangunnya untuk Anda.

46.000+ developer membangun dengan ZBuild bulan ini
More Reading

Related articles