Varför jag genomförde detta experiment
Alla publicerar benchmark-tabeller som jämför Claude Sonnet 4.6 och Opus 4.6. Du kan hitta ett dussin av dem med en snabb sökning. Men benchmarks mäter modellprestanda på standardiserade uppgifter — de berättar inte vad som händer när du sitter djupt i en rörig kodbas klockan 02:00 på natten och försöker skeppa en funktion.
Jag ville besvara en enklare fråga: genom de faktiska uppgifter jag utför varje dag som utvecklare, när tjänar Opus 4.6 in sin 5x prispriem?
Så jag satte upp ett kontrollerat experiment. Under tre veckor körde jag varje kodningsuppgift genom båda modellerna — samma prompts, samma kodbaser, samma utvärderingskriterier. Jag spårade kostnad, utdatakvalitet, tid till slutförande och antalet uppföljande korrigeringar som krävdes.
Notan landade på ungefär $500. Här är allt jag lärde mig.
Upplägget: Hur jag strukturerade testet
Jag använde Claude API direkt med identiska system prompts för båda modellerna. Inga wrappers, inga assistenter, inga speciella konfigurationer — bara råa API-anrop så att jämförelsen blev ren.
Modeller som testades:
- Claude Sonnet 4.6 (claude-sonnet-4-6) — $3 input / $15 output per million tokens
- Claude Opus 4.6 (claude-opus-4-6) — $15 input / $75 output per million tokens
Metodik:
- Samma prompt för varje uppgift, skickad till båda modellerna inom samma timme
- Varje uppgift poängsattes på: korrekthet, kodkvalitet, fullständighet och antal uppföljande prompts som krävdes
- Alla uppgifter hämtades från verkliga projekt — inga syntetiska benchmarks
- Jag poängsatte varje modell på en 1-10 skala för varje dimension
Prisdata kommer direkt från Anthropic's officiella prissida. Hastighetsmätningar kommer från Artificial Analysis benchmarks.
Scenario 1: Felsökning av ett race condition i asynkron kod
Uppgiften: En Node.js-applikation hade ett intermittent fel där databasskrivningar slutfördes i fel ordning. Buggen dök bara upp under belastning. Jag gav båda modellerna de relevanta källfilerna (cirka 8K tokens av kontext) och felloggarna.
Sonnet 4.6 resultat: Identifierade den saknade await i en Promise-kedja inom två utbyten. Föreslog att omsluta skrivningarna i en transaction. Ren, korrekt fix.
Opus 4.6 resultat: Identifierade samma grundorsak vid första utbytet men gick längre — den flaggade för ett andra potentiellt race condition som jag inte hade märkt i en närliggande modul. Den förklarade också varför buggen var intermittent (event loop timing under samtidiga anslutningar) och föreslog en strukturell fix med hjälp av en write queue.
Vinnare: Opus 4.6
Skillnaden var inte att hitta buggen. Båda hittade den. Opus hittade den andra buggen och gav arkitektonisk kontext som förhindrade ett framtida problem. Detta stämmer överens med vad Anthropic rapporterar om att Opus 4.6 har bättre debugging-färdigheter och förmågan att upptäcka sina egna misstag.
Kostnad: Sonnet $0.12 | Opus $0.58
Scenario 2: Bygga CRUD-slutpunkter för ett REST API
Uppgiften: Generera en komplett uppsättning CRUD-slutpunkter för en "projects"-resurs i en Express.js-applikation med TypeScript, Prisma ORM, indatavalidering via Zod och korrekt felhantering.
Sonnet 4.6 resultat: Producerade alla fem slutpunkter (create, read one, read all med paginering, update, delete) i ett enda svar. Indatavalidering var korrekt, felhantering var stabil, TypeScript-typer var korrekta. Redo att klistra in och testa.
Opus 4.6 resultat: Producerade samma fem slutpunkter med nästan identisk struktur. Lade till något mer detaljerade kommentarer. Inkluderade även ett förslag på middleware för autentisering som jag inte hade bett om.
Vinnare: Sonnet 4.6
Resultaten var funktionellt identiska. Sonnet var snabbare, billigare och fyllde inte svaret med oombedda arkitekturförslag. För väldefinierade, avgränsade uppgifter som CRUD-generering tillför det extra resonemangsdjupet i Opus ingenting annat än kostnad.
Kostnad: Sonnet $0.08 | Opus $0.41
Scenario 3: Refaktorering av en monolitisk komponent till mindre delar
Uppgiften: En 600-raders React-komponent som hanterar användarprofiler — inklusive formulärstatus, API-anrop, behörighetskontroller och renderingslogik — behövde delas upp i mindre, testbara delar. Jag tillhandahöll hela komponenten plus dess testfil.
Sonnet 4.6 resultat: Delade upp komponenten i fyra delar: en container-komponent, en formulärkomponent, en permissions hook och en API-hook. Rimlig uppdelning. Den missade dock att uppdatera två import-sökvägar i testfilen, och permission hook:en hade ett subtilt problem med tillståndshantering där den inte memoiserade en callback.
Opus 4.6 resultat: Delade upp i fem delar med en renare separation. Den skapade en dedikerad fil för typer, uppdaterade alla imports korrekt inklusive testfilen, och permission hook:en var korrekt memoiserad. Den noterade också att den ursprungliga komponenten hade en potentiell minnesläcka i en effect cleanup och fixade den.
Vinnare: Opus 4.6
Det är här gapet blir verkligt. Refaktorering av flera filer med beroendespårning är exakt det scenario där Opus 4.6:s 76% poäng på MRCR v2 (multi-file reasoning and code review) översätts till praktiskt värde. Sonnet:s lösning behövde två runder av korrigeringar. Opus levererade korrekt vid första försöket.
Kostnad: Sonnet $0.22 (inklusive korrigeringar) | Opus $0.95
Scenario 4: Skriva enhetstester för befintlig kod
Uppgiften: Skriva omfattande enhetstester för en betalningsbehandlingsmodul med flera kantfall — utgångna kort, otillräckliga medel, nätverkstimeouts, partiella återbetalningar och valutaomvandling.
Sonnet 4.6 resultat: Genererade 14 testfall som täckte alla scenarier jag beskrev. Testerna var välstrukturerade med tydliga describe/it-block. Mock-setup var korrekt. Två kantfall jag inte uttryckligen hade nämnt (tomt belopp, negativt belopp) inkluderades.
Opus 4.6 resultat: Genererade 16 testfall. Liknande struktur. Lade till ett test i integrationsstil som verifierade hela betalningsflödet från början till slut. Något mer utförlig i testbeskrivningarna.
Vinnare: Oavgjort (Sonnet 4.6 på värde)
Båda producerade utmärkta testsviter. Opus lade till två extra tester, men de var inte betydligt bättre. För testgenerering levererar Sonnet motsvarande kvalitet till 5x lägre kostnad. Om du inte testar extremt komplex affärslogik är Sonnet det rätta valet.
Kostnad: Sonnet $0.09 | Opus $0.47
Scenario 5: Skriva teknisk dokumentation
Uppgiften: Generera API-dokumentation för ett internt SDK — inklusive metodsignaturer, parameterbeskrivningar, returtyper, användningsexempel och vägledning för felhantering för 12 publika metoder.
Sonnet 4.6 resultat: Ren, välorganiserad dokumentation. Varje metod hade en beskrivning, parametertabell, returtyp, exempel och felsektion. Konsekvent formatering genomgående.
Opus 4.6 resultat: Nästan identisk dokumentation. Opus lade till en sektion för "Vanliga mönster" i slutet som visade hur metoder sätts samman — vilket var trevligt men oombedd.
Vinnare: Sonnet 4.6
Dokumentation är en uppgift där Sonnet:s kortfattade stil faktiskt är en fördel. Som noterats av utvecklare som jämför de två modellerna, lägger Opus ibland till onödiga förklaringar på enkla uppgifter, vilket slösar tokens och tid. För dokumentation vill man ha tydligt och fullständigt, inte ordrikt och filosofiskt.
Kostnad: Sonnet $0.14 | Opus $0.72
Scenario 6: Kodgranskning av en Pull Request
Uppgiften: Granska en 400-raders pull request som lade till ett caching-lager till ett API. Jag ville att båda modellerna skulle identifiera buggar, föreslå förbättringar och flagga för säkerhetsrisker.
Sonnet 4.6 resultat: Hittade tre problem — en saknad cache-invalidering vid uppdatering, en potentiell minnesläcka från obegränsad cache-tillväxt och ett förslag om att lägga till TTL. Bra, agerbar feedback.
Opus 4.6 resultat: Hittade samma tre problem plus ytterligare två — en timing attack-sårbarhet i genereringen av cache-nycklar och ett subtilt problem där samtidiga anrop kunde returnera inaktuell data under cache-populering. Föreslog ett specifikt mönster (read-through cache med distribuerade lås) för att fixa problem med samtidighet.
Vinnare: Opus 4.6
Kodgranskning av säkerhetsrelevant kod är ett annat område där Opus drar ifrån. Timing attack-sårbarheten var verklig och inte uppenbar. Detta stämmer överens med rapporter från utvecklare som anser att Opus är särskilt stark när felet spänner över en stor arkitektonisk yta.
Kostnad: Sonnet $0.11 | Opus $0.53
Scenario 7: Snabb prototypframtagning av en ny funktion
Uppgiften: Bygg ett system för realtidsnotiser med WebSockets — server-side handler, client-side hook och en notiskomponent med animationer. Tid var prioritet, inte perfektion.
Sonnet 4.6 resultat: Levererade en fungerande implementering i ett enda svar. WebSocket-hanteraren, anpassad React hook och notiskomponenten fungerade alla tillsammans. Animationen var CSS-baserad och smidig. Mindre problem: ingen återanslutningslogik.
Opus 4.6 resultat: Liknande kvalitet på utdata men inkluderade återanslutningslogik och en exponential backoff-strategi. Lade även till en heartbeat-mekanism. Tog ungefär 30% längre tid att generera på grund av lägre token-hastighet.
Vinnare: Sonnet 4.6
För prototyper spelar hastighet större roll än fullständighet. Sonnet:s snabbare utdatagenerering (ungefär 47 tokens per sekund jämfört med 40 för Opus) innebär snabbare iterationsloopar. Återanslutningslogiken som Opus lade till var bra, men jag skulle ha lagt till den i ett senare skede ändå. Prototypframtagning gynnas av snabb och tillräckligt bra utdata.
Kostnad: Sonnet $0.10 | Opus $0.48
Scenario 8: Arkitektoniskt beslutsfattande
Uppgiften: Vi behövde välja mellan en monorepo och polyrepo-struktur för ett mikroserviceprojekt. Jag angav teamstorlek, driftsättningskrav, CI/CD-begränsningar och tjänstegränser. Jag bad båda modellerna analysera avvägningar och rekommendera ett tillvägagångssätt.
Sonnet 4.6 resultat: Gav en solid analys av för- och nackdelar. Rekommenderade en monorepo med Turborepo baserat på teamstorlek. Rimligt men något generiskt.
Opus 4.6 resultat: Ställde tre förtydligande frågor innan den gav en rekommendation — om driftsättningsfrekvens, databeroenden mellan tjänster och om teamet hade erfarenhet av monorepo. Efter att jag svarat gav den en nyanserad analys som rekommenderade en hybrid-metod: monorepo för delade bibliotek och tätt kopplade tjänster, separata repon för självständigt driftsatta tjänster med olika lanseringscykler. Den skisserade också en migrationsväg från den nuvarande strukturen.
Vinnare: Opus 4.6
Opus hanterar tvetydighet bättre. Som flera utvecklarrapporter bekräftar, ställer Opus bättre förtydligande frågor och gör mer hållbara antaganden. För seniora ingenjörer som arbetar med komplexa arkitektoniska beslut sparar det beteendet timmar av fram-och-tillbaka.
Kostnad: Sonnet $0.07 | Opus $0.62
Det slutliga resultatkortet
Här är hur varje modell presterade i alla åtta scenarier, poängsatt på en 1-10 skala för utdatakvalitet:
| Scenario | Sonnet 4.6 | Opus 4.6 | Vinnare |
|---|---|---|---|
| Felsökning av race condition | 7 | 9 | Opus |
| CRUD-slutpunkter | 9 | 9 | Oavgjort (Sonnet på värde) |
| Komponent-refaktorering | 6 | 9 | Opus |
| Enhetstestskrivande | 8 | 8.5 | Oavgjort |
| Teknisk dokumentation | 9 | 8 | Sonnet |
| Kodgranskning (säkerhet) | 7 | 9 | Opus |
| Snabb prototypframtagning | 9 | 8 | Sonnet |
| Arkitektoniska beslut | 6 | 9 | Opus |
Opus 4.6 vinner: 4 scenarier (felsökning, refaktorering, kodgranskning, arkitektur) Sonnet 4.6 vinner: 2 scenarier (dokumentation, prototyper) Oavgjort: 2 scenarier (CRUD-slutpunkter, testskrivande)
Men här är den del som resultatkortet döljer: Sonnet 4.6 var det rätta valet i 6 av 8 scenarier när man väger in kostnaden. De två scenarier där den fick märkbart lägre poäng (refaktorering och arkitektur) är uppgifter som de flesta utvecklare gör några gånger i veckan, inte dussintals gånger om dagen.
Kostnadsverkligheten
Under tre veckor av testande såg notan ut så här:
| Modell | Total kostnad | Slutförda uppgifter | Snittkostnad per uppgift |
|---|---|---|---|
| Sonnet 4.6 | ~$80 | 127 uppgifter | $0.63 |
| Opus 4.6 | ~$420 | 127 uppgifter | $3.31 |
Opus kostade i genomsnitt 5.25x mer per uppgift. För identiska uppsättningar uppgifter levererade Sonnet 90% av kvaliteten till 19% av kostnaden.
Om jag hade använt hybrid-metoden — Sonnet för rutinuppgifter, Opus endast för de 20% av uppgifterna som rör refaktorering, felsökning och arkitektur — hade min totala nota varit cirka $160 istället för $500. Det är en minskning med 68% med nästan ingen kvalitetsförlust.
Detta stämmer överens med vad produktionsmiljöer rapporterar: hybrid router-mönstret där 80-90% av anropen går till Sonnet och endast kritiska uppgifter eskalerar till Opus sparar 60-80% på API-kostnader.
Tre mönster jag märkte som benchmarks inte fångar
1. Opus är bättre på att säga "vänta, jag behöver mer information"
Vid tvetydiga prompts tenderar Sonnet att välja en rimlig standardinställning och köra på det. Opus pausar och frågar. Detta är otroligt värdefullt för arkitektoniskt arbete men något irriterande för rutinuppgifter där man bara vill att den ska göra ett val och gå vidare.
2. Sonnet är bättre på att följa instruktioner bokstavligt
När jag gav en detaljerad specifikation byggde Sonnet exakt det jag bad om. Opus "förbättrade" ibland saker som jag inte bett den att förbättra — lade till abstraktionslager, föreslog mönster, inkluderade kantfall utanför omfattningen. För uppgifter där man vill ha lydnad framför kreativitet vinner Sonnet.
3. Kvalitetsgapet vidgas med kontextlängd
För uppgifter under 10K tokens av kontext kunde jag knappt se skillnad på modellerna. När kontexten översteg 30K tokens — stora refaktoreringar, granskningar av flera filer — blev Opus märkbart mer koherent. Detta stämmer överens med Opus 4.6:s 76% poäng på MRCR v2 för resonemang i flera filer i långa kontexter.
Var benchmarks landar (för referens)
För de som vill ha siffrorna, här är de viktigaste benchmarks per mars 2026:
| Benchmark | Sonnet 4.6 | Opus 4.6 |
|---|---|---|
| SWE-bench Verified | 79.6% | 80.8% |
| GPQA Diamond | 74.1% | 91.3% |
| MRCR v2 (lång kontext) | ~18.5% (4.5 era) | 76% |
| Hastighet (tokens/sek) | ~47 | ~40 |
| Max kontext | 1M tokens | 1M tokens |
| Max utdata | 64K tokens | 128K tokens |
Källor: Anthropic model overview, Artificial Analysis, Claude 5 benchmark analysis
SWE-bench-gapet är bara 1.2 punkter. Men GPQA Diamond-gapet (vetenskapligt resonemang) är massivt — 17 punkter. Och MRCR v2-gapet (arbete med flera filer i lång kontext) är där den verkliga praktiska skillnaden finns.
Min rekommendation: Ramverket för beslut
Efter $500 och tre veckor av testande är här mitt beslutsträd:
Använd Sonnet 4.6 när:
- Uppgiften är väldefinierad med tydliga krav
- Du skriver ny kod från grunden (slutpunkter, komponenter, skript)
- Du behöver snabb iterationshastighet (prototyping, explorativ kodning)
- Du genererar tester eller dokumentation
- Kontextlängden är under 20K tokens
- Du har en budget eller hanterar hög anropsvolym
Använd Opus 4.6 när:
- Uppgiften innebär refaktorering över flera filer med komplexa beroenden
- Du behöver att modellen resonerar om avvägningar innan den bestämmer sig för en design
- Du felsöker icke-uppenbara problem i stora kodbaser
- Du granskar säkerhetskritisk kod
- Kontextlängden överstiger 30K tokens och koherens är viktigt
- Kostnaden för ett felaktigt svar överstiger kostnaden för modellanropet
Använd båda (hybrid router) när:
- Du bygger ett produktionssystem med blandad uppgiftskomplexitet
- Du vill ha de 60-80% kostnadsbesparingarna från Sonnet med Opus som säkerhetsnät för svåra problem
För team som bygger utvecklarverktyg — vi använder en version av denna hybridmetod på ZBuild — har router-mönstret blivit industristandard för 2026.
Vad jag skulle göra annorlunda
Om jag körde detta experiment igen skulle jag lägga till en tredje dimension: mäta hur många uppföljande prompts varje modell behövde för att nå ett produktionsklart resultat. Min magkänsla säger att detta skulle gynna Opus ännu mer på komplexa uppgifter, eftersom dess precision vid första försöket konsekvent var högre för arbete med flera filer.
Jag skulle också testa med extended thinking aktiverat för Opus, vilket sägs förbättra dess redan starka förmåga till felsökning och arkitektoniskt resonemang.
Slutsatsen: börja med Sonnet 4.6 för allt. Du kommer att märka — snabbt — när en uppgift kräver Opus. De uppgifter som kräver det är specifika, relativt sällsynta och tillräckligt värdefulla för att motivera premien.
Källor
- Anthropic — Introducing Claude Opus 4.6
- Anthropic — Claude Models Overview
- Anthropic — Claude Pricing
- Artificial Analysis — Claude Sonnet 4.6 Performance
- Claude 5 — Opus 4.6 Benchmark Analysis
- Bind AI — Sonnet 4.6 vs Opus 4.6 for Coding
- Emergent — Claude Sonnet vs Opus 2026
- DEV Community — Opus 4.6 vs Sonnet 4.6 Coding Comparison
- Macaron — Claude Opus 4.6 for Code Review
- Apiyi — Opus 4.6 vs Sonnet 4.6 Comparison Guide
- Medium — Tested Sonnet 4.6 vs Opus 4.6 for Vibe Coding