Miks ma selle eksperimendi läbi viisin
Kõik avaldavad võrdlustabeleid, mis võrdlevad Claude Sonnet 4.6 ja Opus 4.6. Kiire otsinguga leiab neid kümneid. Kuid benchmarks mõõdavad mudeli jõudlust standardiseeritud ülesannete puhul — need ei ütle teile, mis juhtub siis, kui olete kell 2 öösel süvitsi segases koodibaasis ja üritate uut funktsiooni välja saata.
Tahtsin vastata lihtsamale küsimusele: millal teenib Opus 4.6 oma 5x kõrgema hinna tasa tegelike arendaja igapäevaülesannete puhul?
Nii seadsin ma sisse kontrollitud eksperimendi. Kolme nädala jooksul lasksin iga kodeerimisülesande läbi mõlema mudeli — samad prompts, samad koodibaasid, samad hindamiskriteeriumid. Jälgisin kulusid, väljundi kvaliteeti, valmimisaega ja vajalike täiendavate paranduste arvu.
Arve tuli kokku umbes $500. Siin on kõik, mida ma õppisin.
Seadistus: kuidas ma testi üles ehitasin
Kasutasin Claude API-t otse, mõlema mudeli puhul identsete süsteemi prompts'idega. Ei mingeid kestasid, assistente ega erikonfiguratsioone — lihtsalt puhtad API kutsed, et võrdlus oleks selge.
Testitud mudelid:
- Claude Sonnet 4.6 (claude-sonnet-4-6) — $3 sisend / $15 väljund miljoni tokens kohta
- Claude Opus 4.6 (claude-opus-4-6) — $15 sisend / $75 väljund miljoni tokens kohta
Metoodika:
- Sama prompt iga ülesande jaoks, saadetud mõlemale mudelile sama tunni jooksul
- Iga ülesannet hinnati: korrektsuse, koodi kvaliteedi, terviklikkuse ja vajalike täiendavate prompts'ide arvu põhjal
- Kõik ülesanded pärinesid reaalsetest projektidest — ei mingeid sünteetilisi benchmarks
- Hindasin iga mudelit skaalal 1-10 igas dimensioonis
Hinnakujunduse andmed pärinevad otse Anthropic's official pricing page. Kiiruse mõõtmised pärinevad Artificial Analysis benchmarks.
Stsenaarium 1: Race Condition silumine asünkroonses koodis
Ülesanne: Node.js rakendusel oli vahelduv tõrge, kus andmebaasi kirjutamised toimusid vales järjekorras. Viga ilmnes ainult koormuse all. Andsin mõlemale mudelile asjakohased lähtefailid (umbes 8K tokens konteksti) ja vealogi.
Sonnet 4.6 tulemus: Tuvastas puuduva await Promise ahelas kahe vahetuse jooksul. Soovitas kirjutamised mähkida transaktsiooni. Puhas ja korrektne parandus.
Opus 4.6 tulemus: Tuvastas sama algpõhjuse esimesel vahetusel, kuid läks kaugemale — see märkas teist potentsiaalset race condition'it, mida ma polnud tähele pannud, külgnevas moodulis. Samuti selgitas see, miks viga oli vahelduv (event loop ajastus konkureerivate ühenduste puhul) ja pakkus struktuurset lahendust, kasutades kirjutamisjärjekorda (write queue).
Võitja: Opus 4.6
Erinevus ei seisnenud vea leidmises. Mõlemad leidsid selle. Opus leidis teise vea ja pakkus arhitektuurilist konteksti, mis hoidis ära tulevase probleemi. See ühtib sellega, mida Anthropic teatab Opus 4.6 paremate silumisoskuste kohta ja võimega oma vigu märgata.
Kulu: Sonnet $0.12 | Opus $0.58
Stsenaarium 2: CRUD lõpp-punktide loomine REST API jaoks
Ülesanne: Genereerige täielik komplekt CRUD lõpp-punkte „projektide“ ressursi jaoks Express.js rakenduses koos TypeScript, Prisma ORM, Zod sisendkontrolli ja korraliku veakäsitlusega.
Sonnet 4.6 tulemus: Lõi kõik viis lõpp-punkti (loomine, ühe lugemine, kõigi lugemine koos lehekülgedeks jaotamisega, uuendamine, kustutamine) ühe vastusega. Sisendkontroll oli korrektne, veakäsitlus kindel, TypeScript tüübid täpsed. Valmis kopeerimiseks ja testimiseks.
Opus 4.6 tulemus: Lõi samad viis lõpp-punkti peaaegu identse struktuuriga. Lisas veidi detailsemaid kommentaare. Lisas ka middleware soovituse autentimiseks, mida ma polnud palunud.
Võitja: Sonnet 4.6
Väljundid olid funktsionaalselt identsed. Sonnet oli kiirem, odavam ega lisanud vastusele kutsumata arhitektuurilisi soovitusi. Hästi defineeritud, piiritletud ülesannete puhul nagu CRUD genereerimine, ei lisa Opus'i täiendav arutlussügavus midagi peale kulu.
Kulu: Sonnet $0.08 | Opus $0.41
Stsenaarium 3: Monoliitse komponendi refaktoreerimine väiksemateks osadeks
Ülesanne: 600-realine React komponent, mis tegeleb kasutajaprofiilidega — sealhulgas vormi olek, API kutsed, õiguste kontroll ja renderdamisloogika — tuli jagada väiksemateks, testitavateks osadeks. Esitasin täieliku komponendi ja selle testfaili.
Sonnet 4.6 tulemus: Jagas komponendi neljaks osaks: konteinerkomponent, vormikomponent, õiguste hook ja API hook. Mõistlik jaotus. Siiski unustas ta testfailis kaks imporditeed uuendada ja õiguste hookil oli kaval olekuhalduse probleem, kus see ei memoiseerinud callback'i.
Opus 4.6 tulemus: Jagas viieks osaks puhtama eraldatusega. Lõi eraldi tüüpide faili, uuendas korrektselt kõik impordid, sealhulgas testfaili, ja õiguste hook oli korralikult memoiseeritud. Samuti märkas ta, et algsel komponendil oli potentsiaalne mäluleke efekti puhastamisel ja parandas selle.
Võitja: Opus 4.6
Siin muutub vahe märgatavaks. Mitme faili refaktoreerimine koos sõltuvuste jälgimisega on täpselt see stsenaarium, kus Opus 4.6 skoor 76% MRCR v2 testis (mitme faili arutlus ja koodiülevaatus) tähendab praktilist väärtust. Sonnet'i lahendus vajas kahte parandusringi. Opus saatis korrektse koodi esimesel katsel.
Kulu: Sonnet $0.22 (koos parandustega) | Opus $0.95
Stsenaarium 4: Ühiktestide kirjutamine olemasolevale koodile
Ülesanne: Kirjutage põhjalikud ühiktestid maksete töötlemise moodulile, millel on mitu äärejuhtu — aegunud kaardid, ebapiisavad vahendid, võrgu aegumised, osalised tagasimaksed ja valuuta konverteerimine.
Sonnet 4.6 tulemus: Genereeris 14 testjuhtumit, mis katsid kõik kirjeldatud stsenaariumid. Testid olid hästi struktureeritud selgete describe/it plokkidega. Mock seadistus oli korrektne. Kaasatud oli ka kaks äärejuhtu, mida ma ei olnud selgesõnaliselt maininud (tühi summa, negatiivne summa).
Opus 4.6 tulemus: Genereeris 16 testjuhtumit. Sarnane struktuur. Lisas ühe integratsiooni-tüüpi testi, mis kontrollis kogu maksevoogu otsast lõpuni. Veidi paljusõnalisem testi kirjeldustes.
Võitja: Viik (Sonnet 4.6 väärtuse poolest)
Mõlemad lõid suurepärased testikomplektid. Opus lisas kaks täiendavat testi, kuid need ei olnud oluliselt paremad. Testide genereerimiseks pakub Sonnet samaväärset kvaliteeti 5x madalama kuluga. Kui te ei testi äärmiselt keerulist äriloogikat, on Sonnet õige valik.
Kulu: Sonnet $0.09 | Opus $0.47
Stsenaarium 5: Tehnilise dokumentatsiooni kirjutamine
Ülesanne: Genereerige API dokumentatsioon sisese SDK jaoks — sealhulgas meetodite signatuurid, parameetrite kirjeldused, tagastusväärtused, kasutusnäited ja veakäsitluse juhised 12 avaliku meetodi kohta.
Sonnet 4.6 tulemus: Puhas, hästi organiseeritud dokumentatsioon. Igal meetodil oli kirjeldus, parameetrite tabel, tagastustüüp, näide ja veaosa. Järjepidev vormistus läbivalt.
Opus 4.6 tulemus: Peaaegu identne dokumentatsioon. Opus lisas lõppu sektsiooni „Ühised mustrid“, mis näitas, kuidas meetodid kokku käivad — see oli kena, kuid seda ei palutud.
Võitja: Sonnet 4.6
Dokumentatsioon on ülesanne, kus Sonnet'i lakoonilisus on tegelikult eelis. Nagu märkisid arendajad, kes võrdlesid kahte mudelit, lisab Opus lihtsate ülesannete puhul mõnikord asjatuid selgitusi, raisates tokens ja aega. Dokumentatsiooni puhul soovite selgust ja täielikkust, mitte paljusõnalisust ja filosoofilisust.
Kulu: Sonnet $0.14 | Opus $0.72
Stsenaarium 6: Pull Requesti koodiülevaatus
Ülesanne: Vaadata läbi 400-realine pull request, mis lisas API-le caching kihi. Tahtsin, et mõlemad mudelid tuvastaksid vead, soovitaksid parandusi ja märgistaksid turvaprobleemid.
Sonnet 4.6 tulemus: Leidis kolm probleemi — puuduva cache tühistamise uuendamisel, potentsiaalse mälulekke piiramatust cache kasvust ja soovituse lisada TTL. Hea ja rakendatav tagasiside.
Opus 4.6 tulemus: Leidis samad kolm probleemi pluss veel kaks — timing attack haavatavuse cache võtme genereerimisel ja peene probleemi, kus konkureerivad päringud võivad cache täitmise ajal tagastada aegunud andmeid. Soovitas konkreetset mustrit (read-through cache koos distributed locks'idega) konkurentsi probleemi lahendamiseks.
Võitja: Opus 4.6
Turvalisusega seotud koodiülevaatus on veel üks valdkond, kus Opus ette rebis. Timing attack haavatavus oli reaalne ja mitte-ilmne. See ühtib arendajate teadetega, kes peavad Opus't eriti tugevaks siis, kui viga hõlmab suurt arhitektuurilist pinda.
Kulu: Sonnet $0.11 | Opus $0.53
Stsenaarium 7: Uue funktsiooni kiire prototüüpimine
Ülesanne: Ehitage reaalajas teavitussüsteem, kasutades WebSockets — serveripoolne handler, kliendipoolne hook ja animatsioonidega teavituskomponent. Prioriteet oli aeg, mitte täiuslikkus.
Sonnet 4.6 tulemus: Esitas töötava lahenduse ühe vastusega. WebSocket handler, kohandatud React hook ja teavituskomponent töötasid kõik koos. Animatsioon oli CSS-põhine ja sujuv. Väike viga: puudus reconnection loogika.
Opus 4.6 tulemus: Sarnase kvaliteediga väljund, kuid sisaldas ka reconnection loogikat ja exponential backoff strateegiat. Lisas ka heartbeat mehhanismi. Genereerimine võttis umbes 30% kauem aega madalama token kiiruse tõttu.
Võitja: Sonnet 4.6
Prototüüpimise puhul on kiirus olulisem kui täielikkus. Sonnet'i kiirem väljundi genereerimine (umbes 47 tokens sekundis versus 40 Opus'e puhul) tähendab tihedamaid iteratsioonitsükleid. Reconnection loogika, mille Opus lisas, oli kena, kuid ma oleksin selle niikuinii teises etapis lisanud. Prototüüpimine premeerib kiiret ja „piisavalt head“ väljundit.
Kulu: Sonnet $0.10 | Opus $0.48
Stsenaarium 8: Arhitektuuriliste otsuste langetamine
Ülesanne: Pidime valima monorepo ja polyrepo struktuuri vahel microservices projekti jaoks. Esitasin meeskonna suuruse, deployment nõuded, CI/CD piirangud ja teenuste piirid. Palusin mõlemal mudelil analüüsida kompromisse ja soovitada lähenemisviisi.
Sonnet 4.6 tulemus: Esitas tugeva plusside/miinuste analüüsi. Soovitas monorepo't koos Turborepo'ga meeskonna suuruse põhjal. Mõistlik, kuid mõnevõrra üldine.
Opus 4.6 tulemus: Küsis enne soovituse andmist kolm täpsustavat küsimust — deployment sageduse, teenustevaheliste andmesõltuvuste ja selle kohta, kas meeskonnal on monorepo kogemust. Pärast minu vastamist pakkus see nüansseeritud analüüsi, mis soovitas hübriidset lähenemisviisi: monorepo jagatud teekide ja tihedalt seotud teenuste jaoks, eraldi repos iseseisvalt juurutatavate erineva väljalasketsükliga teenuste jaoks. Samuti kirjeldas see migratsiooniteed praegusest struktuurist.
Võitja: Opus 4.6
Opus saab ebamäärasusega paremini hakkama. Nagu mitmed arendajate raportid kinnitavad, küsib Opus paremaid täpsustavaid küsimusi ja teeb põhjendatumaid eeldusi. Keeruliste arhitektuuriliste otsuste kallal töötavate vaneminseneride jaoks säästab selline käitumine tunde edasi-tagasi suhtlust.
Kulu: Sonnet $0.07 | Opus $0.62
Lõplik tulemuskaart
Siin on mõlema mudeli sooritused kõigis kaheksas stsenaariumis, hinnatuna väljundi kvaliteedi eest skaalal 1-10:
| Stsenaarium | Sonnet 4.6 | Opus 4.6 | Võitja |
|---|---|---|---|
| Race condition silumine | 7 | 9 | Opus |
| CRUD lõpp-punktid | 9 | 9 | Viik (Sonnet väärtuse poolest) |
| Komponendi refaktoreerimine | 6 | 9 | Opus |
| Ühiktestide kirjutamine | 8 | 8.5 | Viik |
| Tehniline dokumentatsioon | 9 | 8 | Sonnet |
| Koodiülevaatus (turvalisus) | 7 | 9 | Opus |
| Kiire prototüüpimine | 9 | 8 | Sonnet |
| Arhitektuurilised otsused | 6 | 9 | Opus |
Opus 4.6 võidud: 4 stsenaariumi (silumine, refaktoreerimine, koodiülevaatus, arhitektuur) Sonnet 4.6 võidud: 2 stsenaariumi (dokumentatsioon, prototüüpimine) Viigid: 2 stsenaariumi (CRUD lõpp-punktid, testide kirjutamine)
Kuid siin on osa, mida tulemuskaart varjab: Sonnet 4.6 oli õige valik 6 juhul 8-st, kui arvestada kulu. Need kaks stsenaariumi, kus see sai märgatavalt madalama skoori (refaktoreerimine ja arhitektuur), on ülesanded, mida enamik arendajaid teeb paar korda nädalas, mitte kümneid kordi päevas.
Kulude reaalsus
Kolme nädala testimise jooksul nägi arve välja järgmine:
| Mudel | Kogukulu | Lõpetatud ülesanded | Keskmine kulu ülesande kohta |
|---|---|---|---|
| Sonnet 4.6 | ~$80 | 127 ülesannet | $0.63 |
| Opus 4.6 | ~$420 | 127 ülesannet | $3.31 |
Opus maksis keskmiselt 5.25x rohkem ülesande kohta. Identse ülesannete komplekti puhul pakkus Sonnet 90% kvaliteedist 19% kuluga.
Kui oleksin kasutanud hübriidlähenemist — Sonnet rutiinsete ülesannete jaoks, Opus ainult nende 20% ülesannete jaoks, mis hõlmasid refaktoreerimist, silumist ja arhitektuuri — oleks minu koguarve olnud umbes $160 asemele $500. See on 68% kokkuhoid peaaegu ilma kvaliteedi kadumiseta.
See on kooskõlas sellega, mida tootmiskasutuse raportid näitavad: hübriidruuteri muster, kus 80-90% päringutest läheb Sonnet'ile ja ainult kriitilised ülesanded suunatakse edasi Opus'ele, säästab 60-80% API kuludest.
Kolm mustrit, mida ma märkasin ja mida benchmarks ei kajasta
1. Opus suudab paremini öelda „oota, ma vajan rohkem teavet“
Ebamääraste prompts'ide puhul kaldub Sonnet valima mõistliku vaikimisi variandi ja sellega edasi minema. Opus peatub ja küsib. See on arhitektuuritöös uskumatult väärtuslik, kuid veidi tüütu rutiinsete ülesannete puhul, kus te tahate lihtsalt, et ta teeks valiku ja liiguks edasi.
2. Sonnet on parem juhiste täpselt täitmisel
Kui andsin detailse spetsifikatsiooni, ehitas Sonnet täpselt seda, mida küsisin. Opus mõnikord „parandas“ asju, mida ma ei palunud parandada — lisades abstraktsioonikihte, soovitades mustreid, kaasates äärejuhte väljaspool ulatust. Ülesannete puhul, kus soovite kuulekust loovuse asemel, võidab Sonnet.
3. Kvaliteedi lõhe suureneb koos konteksti pikkusega
Ülesannete puhul, mille kontekst on alla 10K tokens, suutsin ma mudelitel vaevalt vahet teha. Kui kontekst ületas 30K tokens — suured refaktoreerimised, mitme faili ülevaatused — muutus Opus märgatavalt sidusamaks. See on kooskõlas Opus 4.6 skoori 76% MRCR v2 testis mitme faili arutluskäigu kohta pika konteksti puhul.
Kus benchmarks asuvad (viitena)
Nende jaoks, kes soovivad numbreid, on siin peamised benchmarks seisuga märts 2026:
| Benchmark | Sonnet 4.6 | Opus 4.6 |
|---|---|---|
| SWE-bench Verified | 79.6% | 80.8% |
| GPQA Diamond | 74.1% | 91.3% |
| MRCR v2 (pikk kontekst) | ~18.5% (4.5 ajastu) | 76% |
| Kiirus (tokens/sek) | ~47 | ~40 |
| Max kontekst | 1M tokens | 1M tokens |
| Max väljund | 64K tokens | 128K tokens |
Allikad: Anthropic model overview, Artificial Analysis, Claude 5 benchmark analysis
SWE-bench vahe on vaid 1.2 punkti. Kuid GPQA Diamond vahe (teaduslik arutlus) on massiivne — 17 punkti. Ja MRCR v2 vahe (pika kontekstiga mitme faili töö) on koht, kus elab tegelik praktiline erinevus.
Minu soovitus: Otsustusraamistik
Pärast $500 ja kolmenädalast testimist on siin minu otsustuspuu:
Kasutage Sonnet 4.6, kui:
- Ülesanne on hästi defineeritud selgete nõuetega
- Kirjutate uut koodi nullist (lõpp-punktid, komponendid, skriptid)
- Vajate kiiret iteratsioonikiirust (prototüüpimine, uuriv kodeerimine)
- Genereerite teste või dokumentatsiooni
- Konteksti pikkus on alla 20K tokens
- Teil on piiratud eelarve või tegelete suure päringumahuga
Kasutage Opus 4.6, kui:
- Ülesanne hõlmab refaktoreerimist mitme faili vahel keeruliste sõltuvustega
- Teil on vaja, et mudel arutleks kompromisside üle enne disaini kinnitamist
- Silute mitte-ilmseid probleeme suurtes koodibaasides
- Vaatate üle turvakriitilist koodi
- Konteksti pikkus ületab 30K tokens ja sidusus on oluline
- Vale vastuse kulu ületab mudeli kutse kulu
Kasutage mõlemat (hübriidruuter), kui:
- Ehitate tootmissüsteemi segatüüpi ülesannete keerukusega
- Soovite Sonnet'i 60-80% kulude kokkuhoidu koos Opus'e turvavõrguga raskete probleemide jaoks
Arendustööriistu ehitavate meeskondade jaoks — kasutame selle hübriidse lähenemisviisi versiooni ettevõttes ZBuild — on ruuteri muster saanud 2026. aastaks tööstusharu standardiks.
Mida ma teeksin teisiti
Kui ma viiksin selle eksperimendi uuesti läbi, lisaksin kolmanda dimensiooni: mõõdaks, kui palju follow-up prompts'e iga mudel vajas tootmiskõlbliku väljundini jõudmiseks. Sisetunne ütleb, et see soosiks Opus't keeruliste ülesannete puhul veelgi tugevamalt, sest selle esimese korra täpsus oli mitme failiga töö puhul järjepidevalt kõrgem.
Samuti testiksin Opus'e puhul sisselülitatud laiendatud mõtlemisega (extended thinking), mis teadupärast parandab selle niigi tugevat silumis- ja arhitektuurilist arutlusvõimet.
Kokkuvõte: alustage kõige jaoks Sonnet 4.6-ga. Saate kiiresti teada, millal ülesanne nõuab Opus't. Ülesanded, mis seda nõuavad, on spetsiifilised, suhteliselt harvad ja piisavalt väärtuslikud, et õigustada kõrgemat hinda.
Allikad
- Anthropic — Introducing Claude Opus 4.6
- Anthropic — Claude Models Overview
- Anthropic — Claude Pricing
- Artificial Analysis — Claude Sonnet 4.6 Performance
- Claude 5 — Opus 4.6 Benchmark Analysis
- Bind AI — Sonnet 4.6 vs Opus 4.6 for Coding
- Emergent — Claude Sonnet vs Opus 2026
- DEV Community — Opus 4.6 vs Sonnet 4.6 Coding Comparison
- Macaron — Claude Opus 4.6 for Code Review
- Apiyi — Opus 4.6 vs Sonnet 4.6 Comparison Guide
- Medium — Tested Sonnet 4.6 vs Opus 4.6 for Vibe Coding