Hlavní poznatky
- Kódování je téměř identické: 80,8 % vs 79,6 % na SWE-bench Verified — rozdíl 1,2 bodu, který při každodenním používání mizí Zdroj.
- Opus stojí 5x více: $15/$75 vs $3/$15 za milion tokens — Sonnet vám ušetří 80 % na každém volání API Zdroj.
- Agent Teams jsou pouze pro Opus: Možnost spouštět paralelní instance Claude je nejpřesvědčivějším důvodem pro použití Opus Zdroj.
- Skutečný rozdíl je v uvažování: 91,3 % vs 74,1 % na GPQA Diamond — propast 17 bodů u vědy na úrovni PhD Zdroj.
- Computer use je remíza: 72,5 % vs 72,7 % na OSWorld — Sonnet je zde jasnou volbou vzhledem k jeho 5x výhodnější ceně Zdroj.
Claude Sonnet 4.6 vs Opus 4.6: Srovnání ve všech dimenzích
Generace Claude 4.6 od společnosti Anthropic přichází se dvěma modely, které sdílejí stejnou architekturu, ale slouží zásadně odlišným účelům. Sonnet 4.6 (vydaný February 17, 2026) je tahounem — rychlý, schopný a cenově dostupný. Opus 4.6 (vydaný February 5, 2026) je vlajkovou lodí — nejschopnější model, který Anthropic kdy postavil, s exkluzivními funkcemi, které ospravedlňují jeho prémiovou cenu v konkrétních scénářích.
Toto je kompletní technické srovnání. Nejde o rychlý návod k rozhodování — je to důkladné prozkoumání každé dimenze, na které záleží, s daty podloženými každým tvrzením.
Specifikace v kostce
| Specifikace | Claude Sonnet 4.6 | Claude Opus 4.6 |
|---|---|---|
| Release Date | February 17, 2026 | February 5, 2026 |
| Input Cost | $3.00 / MTok | $15.00 / MTok |
| Output Cost | $15.00 / MTok | $75.00 / MTok |
| Cached Input | $0.30 / MTok | $1.50 / MTok |
| Context Window | 1M tokens (beta) | 1M tokens (GA) |
| Max Output | 128K tokens | 128K tokens |
| Extended Thinking | Ano (adaptivní) | Ano (adaptivní) |
| Computer Use | Ano | Ano |
| Agent Teams | Ne | Ano |
| Context Compaction | Ano (beta) | Ano |
Oba modely podporují context window 1M tokens a 128K output, ale je zde jemný rozdíl: 1M kontext u Opus 4.6 je všeobecně dostupný (GA), zatímco u Sonnet 4.6 je stále v beta verzi. V praxi oba fungují spolehlivě při 1M tokens, ale označení GA od Anthropic u Opus signalizuje vyšší důvěru v jeho chování při dlouhém kontextu Zdroj.
Srovnání benchmarků: Celkový obraz
Benchmarky kódování
| Benchmark | Sonnet 4.6 | Opus 4.6 | Rozdíl | Vítěz |
|---|---|---|---|---|
| SWE-bench Verified | 79.6% | 80.8% | 1.2 bodu | Opus (minimálně) |
| Terminal-Bench 2.0 | ~70% | ~73% | ~3 body | Opus (minimálně) |
| HumanEval | ~95% | ~96% | ~1 bod | Remíza |
Rozdíl 1,2 procentního bodu v SWE-bench je pro praktické účely v rámci statistického šumu. Oba modely dokážou s vysokou spolehlivostí řešit složité reálné problémy z GitHub. Když byl Sonnet 4.6 testován proti předchozí vlajkové lodi (Opus 4.5), vývojáři preferovali Sonnet 4.6 v 59 % případů — pozoruhodný výsledek pro levnější model porážející vlajkovou loď předchozí generace Zdroj.
Benchmarky uvažování
| Benchmark | Sonnet 4.6 | Opus 4.6 | Rozdíl | Vítěz |
|---|---|---|---|---|
| GPQA Diamond | 74.1% | 91.3% | 17.2 bodu | Opus (rozhodující) |
| Humanity's Last Exam | ~35% | ~45% | ~10 bodů | Opus (významný) |
| MATH | 89% | ~93% | ~4 body | Opus (mírný) |
| MMLU-Pro | ~82% | ~87% | ~5 bodů | Opus (mírný) |
Zde se modely dramaticky rozcházejí. Rozdíl v GPQA Diamond — 17,2 procentního bodu — je největší výkonnostní rozdíl mezi těmito dvěma modely. GPQA testuje uvažování na úrovni postgraduálního studia ve fyzice, chemii a biologii. Pokud vaše aplikace vyžaduje vědecké uvažování na úrovni PhD, Opus 4.6 je ve zcela jiné třídě Zdroj.
Agentní benchmarky a Computer Use
| Benchmark | Sonnet 4.6 | Opus 4.6 | Rozdíl | Vítěz |
|---|---|---|---|---|
| OSWorld-Verified | 72.5% | 72.7% | 0.2 bodu | Remíza |
| BrowseComp | ~65% | ~78% | ~13 bodů | Opus |
| MRCR v2 (8-needle, 1M) | ~30% | 76% | ~46 bodů | Opus (rozhodující) |
Zde jsou dva kritické poznatky:
-
Computer use je vyrovnaný souboj. S výsledky 72,5 % vs 72,7 % neexistuje žádný praktický rozdíl v možnostech automatizace GUI. Díky tomu je Sonnet 4.6 jasnou volbou pro úlohy Computer use — identický výkon za 20 % ceny Zdroj.
-
Spolehlivost v dlouhém kontextu není ani zdaleka srovnatelná. V benchmarku MRCR v2 (který testuje vyhledávání více informací napříč celým context window 1M), Opus 4.6 dosahuje 76 %, zatímco Sonnet 4.6 pouze zhruba 30 %. Pro úkoly, které vyžadují, aby si model udržel přesné vybavování v rámci velmi dlouhých kontextů — analýza celých codebase, zpracování dlouhých právních dokumentů — je Opus podstatně spolehlivější Zdroj.
Kancelářská a znalostní práce
| Benchmark | Sonnet 4.6 | Opus 4.6 | Rozdíl | Vítěz |
|---|---|---|---|---|
| GDPval-AA (Office Work) | 1633 Elo | 1606 Elo | 27 Elo | Sonnet |
Toto je překvapivý výsledek. V GDPval-AA — který měří výkon v reálných úkolech kancelářské a znalostní práce — Sonnet 4.6 ve skutečnosti překonává Opus 4.6 o 27 bodů Elo. Pro úkoly, jako je psaní e-mailů, tvorba prezentací, shrnutí schůzek a obecná obchodní komunikace, je levnější model prokazatelně lepší Zdroj.
Srovnání funkcí: Nad rámec benchmarků
Agent Teams (pouze pro Opus)
Agent Teams je nejpřesvědčivější exkluzivní funkcí Opus 4.6. Umožňuje spustit více agentů Claude Code z jednoho orchestrátoru, přičemž každý sub-agent běží ve vlastním tmux pane Zdroj.
Jak Agent Teams fungují:
- Orchestrátorovi popíšete velký úkol.
- Orchestrátor jej rozdělí na nezávislé dílčí úkoly.
- Každý dílčí úkol je přiřazen samostatné instanci Claude.
- Každá instance běží ve vlastním tmux pane s vlastním kontextem.
- Orchestrátor koordinuje výsledky a řeší závislosti.
Příklad z reálného světa: Požádáte Claude, aby "vytvořil novou funkci: uživatelský dashboard s analytikou". Orchestrátor může vytvořit:
- Agent 1: Backend API endpointy pro analytická data.
- Agent 2: Frontend komponenty React pro dashboard.
- Agent 3: Migrace databáze a seed data.
- Agent 4: Unit a integrační testy.
Všichni čtyři pracují současně, což zkracuje reálný čas o 3-4x ve srovnání se sekvenčním prováděním.
Proč na tom záleží: U velkých projektů, kde lze úkoly paralelizovat, představují Agent Teams skutečný multiplikátor produktivity. Tato funkce sama o sobě ospravedlňuje příplatek za Opus pro týmy pracující na složitých produktech.
Extended Thinking (oba modely)
Oba modely podporují Extended Thinking — schopnost "promyslet" složité problémy krok za krokem předtím, než odpoví. Implementují to však odlišně:
Sonnet 4.6: Používá adaptivní myšlení, kdy model rozpozná kontextuální vodítka o tom, kolik přemýšlení je potřeba. Na jednoduché otázky odpovídá rychle. U složitého uvažování automaticky zapojuje hlubší myšlení.
Opus 4.6: Také používá adaptivní myšlení, ale s vyšším stropem. Opus dokáže zapojit delší řetězce uvažování a udržet koherenci napříč více kroky myšlení. To se projevuje v 17bodovém rozdílu v GPQA — Opus dokáže "přemýšlet usilovněji", když to problém vyžaduje.
Oba modely podporují explicitní kontrolu rozpočtu myšlení přes API, což vám umožňuje nastavit minimální a maximální tokens myšlení na požadavek.
Context Compaction (oba modely)
Context Compaction automaticky shrnuje starší kontext, když se konverzace blíží limitu kontextu. Místo ořezávání starých zpráv (čímž se ztrácejí informace) model vytváří komprimovaná shrnutí, která uchovávají klíčová fakta a rozhodnutí Zdroj.
Oba modely tuto funkci podporují, ale vynikající výkon Opus 4.6 v dlouhém kontextu (76 % vs ~30 % v MRCR v2) znamená, že si během kompakce zachovává více nuancí. Kompakce u Sonnet 4.6 je funkční, ale občas ztrácí jemné detaily, které Opus uchová.
Computer Use (oba modely)
Oba modely mohou ovládat počítač pomocí virtuální myši a klávesnice — klikat na tlačítka, vyplňovat formuláře, navigovat na webových stránkách, manipulovat s tabulkami. Schopnost je téměř identická (72,5 % vs 72,7 % na OSWorld), což činí Sonnet 4.6 jasnou volbou pro úkoly Computer use vzhledem k jeho 5x nižší ceně Zdroj.
Praktické aplikace Computer use:
- Automatizované vyplňování formulářů napříč webovými aplikacemi.
- End-to-end testování webových rozhraní.
- Extrakce dat ze starších systémů bez API.
- Automatizace prohlížeče s více kartami pro výzkumné úkoly.
Analýza nákladů: Faktor 5x
Cenový rozdíl mezi modely Sonnet a Opus není zanedbatelný — je pětinásobný u všech typů tokens.
Srovnání nákladů na úkol
| Úkol | Tokens (přibližně) | Cena Sonnet 4.6 | Cena Opus 4.6 | Úspora |
|---|---|---|---|---|
| Jedna revize kódu | 10K in / 5K out | $0.105 | $0.525 | 80% |
| Implementace funkce | 50K in / 20K out | $0.45 | $2.25 | 80% |
| Analýza celé codebase | 500K in / 10K out | $1.65 | $8.25 | 80% |
| Dlouhá agentní relace | 1M in / 100K out | $10.50 | $52.50 | 80% |
Měsíční náklady při škálování
| Úroveň využití | Sonnet 4.6 | Opus 4.6 | Měsíční úspora |
|---|---|---|---|
| Nízká (10M tokens/den) | ~$150/měsíc | ~$750/měsíc | $600 |
| Střední (50M tokens/den) | ~$750/měsíc | ~$3,750/měsíc | $3,000 |
| Vysoká (200M tokens/den) | ~$3,000/měsíc | ~$15,000/měsíc | $12,000 |
Pro týmy zpracovávající významné objemy tokens jsou úspory při použití Sonnet místo Opus natolik značné, že mohou financovat další inženýrské pozice Zdroj.
Výhoda cachování
Oba modely podporují prompt caching, což dramaticky snižuje náklady na opakované kontexty (jako jsou systémové prompty nebo shrnutí codebase):
| Typ tokenu | Sonnet 4.6 | Opus 4.6 |
|---|---|---|
| Běžný vstup | $3.00/MTok | $15.00/MTok |
| Cached input | $0.30/MTok | $1.50/MTok |
| Sleva za cache | 90% | 90% |
S cachováním se absolutní rozdíl v nákladech zmenšuje, ale poměr 5x zůstává konstantní. Dobře cachovaná pipeline se Sonnet může být pro produkční použití mimořádně cenově dostupná.
Rychlost a latence
| Metrika | Sonnet 4.6 | Opus 4.6 |
|---|---|---|
| Time to First Token | ~1.0s | ~2.5s |
| Rychlost výstupu | ~85 tokens/s | ~45 tokens/s |
| Relativní rychlost | 2x rychlejší | Základna |
| vs předchozí gen. | o 30-50 % rychlejší než Sonnet 4.5 | o ~20 % rychlejší než Opus 4.5 |
Sonnet 4.6 je přibližně 2x rychlejší než Opus 4.6 v latenci i propustnosti. Pro aplikace orientované na uživatele, kde doba odezvy ovlivňuje zážitek, se tato výhoda v rychlosti sčítá s úsporami nákladů, což činí Sonnet jasnou výchozí volbou Zdroj.
V agentních smyčkách, kde je model volán opakovaně, je rychlostní výhoda Sonnet obzvláště působivá. Pracovní postup agenta o 10 krocích, který trvá 25 sekund na krok u Opus, trvá přibližně 12 sekund na krok u Sonnet — což ušetří více než 2 minuty na jeden běh pracovního postupu.
Analýza reálných případů použití
Případ použití 1: Každodenní asistent kódování
Doporučení: Sonnet 4.6
Pro každodenní kódování — implementaci funkcí, opravu chyb, psaní testů, revizi kódu — je rozdíl 1,2 bodu v SWE-bench nepostřehnutelný. Rychlostní výhoda Sonnet 4.6 znamená rychlejší iterační cykly a 5x nižší náklady znamenají, že jej můžete používat volněji bez obav o účty.
Případ použití 2: Komplexní projekt s paralelními pracovními proudy
Doporučení: Opus 4.6
Když potřebujete Agent Teams k paralelizaci práce napříč více agenty, Opus je jedinou možností. Velký refaktoringový projekt, který by jednomu agentovi trval 2 hodiny, může 4 koordinovaným agentům trvat 40 minut. Příplatek za cenu je ospravedlněn úsporou času.
Případ použití 3: Automatizace počítače
Doporučení: Sonnet 4.6
S prakticky identickým skóre v OSWorld (72,5 % vs 72,7 %) není důvod platit za Opus u úkolů Computer use. Ať už automatizujete webové formuláře, testujete toky uživatelského rozhraní nebo extrahujete data ze starších aplikací, Sonnet 4.6 přinááší stejné výsledky za 20 % ceny.
Případ použití 4: Vědecký výzkum a analýza
Doporučení: Opus 4.6
Rozdíl 17 bodů v GPQA Diamond je rozhodující. Pro úkoly zahrnující fyziku, chemii, biologii na úrovni postgraduálního studia nebo pokročilou matematiku vykazuje Opus 4.6 podstatně silnější uvažování. Výzkumné týmy a vědecké aplikace by měly počítat s rozpočtem na Opus.
Případ použití 5: Produkční API backend
Doporučení: Sonnet 4.6
Pro produkční API sloužící koncovým uživatelům — chatboty, generování obsahu, analýzu dokumentů — je Sonnet 4.6 jasnou volbou. Rychlejší odezvy zlepšují uživatelský zážitek a 5x nižší náklady činí případy použití s vysokým objemem ekonomicky životaschopnými.
Případ použití 6: Dlouhotrvající agentní relace
Doporučení: Opus 4.6
Pokud vaše agentní relace pravidelně překračují 500K tokens kontextu, vynikající spolehlivost Opus 4.6 v dlouhém kontextu (76 % vs ~30 % v MRCR v2) hraje zásadní roli. Sonnet 4.6 bude v dlouhých kontextech stále fungovat, ale s rostoucím kontextem ztrácí přesnost rychleji.
Případ použití 7: Tvorba aplikací
Doporučení: Začněte se Sonnet 4.6, přejděte na Opus v případě potřeby
Pro týmy budující aplikace — ať už kódují tradičně nebo používají vizuální nástroje jako ZBuild — zvládne Sonnet 4.6 drtivou většinu úkolů. Rezervujte si Opus pro 10-15 % úkolů, které vyžadují jeho jedinečné schopnosti (Agent Teams, hluboké uvažování nebo přesnost v dlouhém kontextu).
Hybridní strategie: Používání obou modelů
Nejefektivnějším přístupem v roce 2026 není výběr jednoho modelu — je to jejich strategické kombinování.
Pravidla směrování
| Typ úkolu | Model | Odůvodnění |
|---|---|---|
| Standardní kódování | Sonnet 4.6 | 79,6 % SWE-bench při 5x nižších nákladech |
| Revize kódu | Sonnet 4.6 | Kvalita je srovnatelná, rychlost je 2x vyšší |
| Computer use | Sonnet 4.6 | Identický výkon, 5x nižší náklady |
| Kancelářská práce | Sonnet 4.6 | Ve skutečnosti překonává Opus (1633 vs 1606 Elo) |
| Komplexní multi-agentní úkoly | Opus 4.6 | Exkluzivní funkce Agent Teams |
| Uvažování na úrovni PhD | Opus 4.6 | 91,3 % vs 74,1 % GPQA |
| Dlouhotrvající relace (500K+) | Opus 4.6 | 76 % vs ~30 % MRCR v2 |
| Rozhodování o architektuře | Opus 4.6 | Lepší v nuancovaných úsudcích |
Očekávané rozdělení nákladů
S touto strategií směrování bude většina týmů používat Sonnet 4.6 pro 85-90 % svých volání Claude API a Opus 4.6 pro zbývajících 10-15 %. To snižuje průměrné náklady o 70-75 % ve srovnání s používáním Opus na vše, přičemž kvalita zůstává zachována tam, kde na ní nejvíce záleží.
Jak si oba modely stojí v porovnání s konkurencí
Sonnet ani Opus neexistují v izolaci. Zde je srovnání s nejlepšími modely od jiných poskytovatelů:
| Model | SWE-bench | GPQA Diamond | Cena (Input) | Rychlost |
|---|---|---|---|---|
| Claude Opus 4.6 | 80.8% | 91.3% | $15.00/MTok | Pomalý |
| GPT-5.4 | 80.0% | ~88% | $2.50/MTok | Střední |
| Claude Sonnet 4.6 | 79.6% | 74.1% | $3.00/MTok | Rychlý |
| Gemini 3 Flash | 78.0% | 90.4% | $0.50/MTok | Velmi rychlý |
| GPT-5.3 Codex | 77.3% | ~75% | $1.75/MTok | Střední |
Pozoruhodná pozorování:
- GPT-5.4 je silným konkurentem s cenou $2.50/MTok za vstup — je levnější než Sonnet 4.6 a vyrovná se Opus 4.6 v kódování.
- Gemini 3 Flash překonává Sonnet v GPQA (90,4 % vs 74,1 %) za šestinu ceny.
- Opus 4.6 zůstává nejlepším kodérem celkově, ale GPT-5.4 je v těsném závěsu.
Konkurenční prostředí v roce 2026 je na špici mimořádně vyrovnané. Výběr modelu stále více závisí na specifických požadavcích případu použití spíše než na celkovém žebříčku schopností.
Rozhodování
Zvolte Sonnet 4.6, pokud:
- Potřebujete univerzální model pro kódování a uvažování.
- Chcete minimalizovat náklady na API bez obětování kvality.
- Budujete aplikace pro uživatele, kde záleží na rychlosti.
- Používáte Computer use pro automatizační úkoly.
- Zpracováváte kancelářskou a znalostní práci.
- Vyvíjíte aplikace s platformami jako ZBuild a potřebujete spolehlivý, nákladově efektivní AI backend.
Upgradujte na Opus 4.6, pokud:
- Potřebujete Agent Teams pro paralelní multi-agentní pracovní postupy.
- Pracujete na vědeckých nebo matematických problémech na úrovni PhD.
- Spouštíte agentní relace, které pravidelně překračují 500K tokens.
- Vyžadujete absolutně nejvyšší kvalitu kódování bez ohledu na cenu.
- Pracujete na problémech, kde záleží na 17bodovém rozdílu v uvažování.
- Potřebujete najít těžko dostupné informace online (výhoda BrowseComp).
Verdikt
Sonnet 4.6 je jedním z nejpůsobivějších vydání modelů roku 2026 — přináší 98,5 % výkonu Opus v kódování za 20 % ceny a s 2x vyšší rychlostí. Pro drtivou většinu vývojářů není jen "dost dobrý" — je to lepší volba.
Opus 4.6 zůstává nezbytný pro specifické scénáře s vysokou hodnotou: Agent Teams, hluboké uvažování a spolehlivost v dlouhém kontextu. Není to luxus — je to specializovaný nástroj pro specializované problémy.
Používejte oba. Směrujte chytře. Plaťte za kvalitu Opus pouze tehdy, když kvalitu Opus skutečně potřebujete.
Zdroje
- Anthropic — Introducing Claude Sonnet 4.6
- Anthropic — Introducing Claude Opus 4.6
- Anthropic — What's New in Claude 4.6
- Anthropic — Pricing
- TechCrunch — Anthropic Releases Opus 4.6 with Agent Teams
- Bind AI — Claude Sonnet 4.6 vs Opus 4.6 for Coding
- Digital Applied — Claude Sonnet 4.6 Benchmarks and Pricing Guide
- GLB GPT — Claude Sonnet 4.6 vs Opus 4.6 Ultimate Comparison
- Medium — Claude Sonnet 4.6 Does Better Than Expensive Opus 4.6
- DEV Community — Claude Opus 4.6 vs Sonnet 4.6 Coding Comparison
- Azure — Claude Opus 4.6 on Microsoft Foundry
- Firecrawl — Building with Claude Opus 4.6 Agent Teams