Experiment
Vzal jsem 10 reálných kódovacích úkolů — takových, které vývojáři skutečně dělají každý den — a odeslal přesně stejný prompt pro GPT-5.4 i Claude Opus 4.6. Stejný system prompt, stejný kontext, stejná kritéria hodnocení.
Žádné syntetické benchmarky. Žádné vybrané příklady. Jen skutečné úkoly hodnocené ve třech dimenzích:
- Správnost (funguje to bez úprav?)
- Kvalita kódu (čitelnost, types, zpracování chyb, okrajové případy)
- Efektivita (využití tokens, doba odezvy, počet potřebných následných promptů)
Každá dimenze je hodnocena 1-10. Maximální možný počet bodů za úkol: 30.
K modelům se přistupovalo prostřednictvím jejich příslušných API za standardní ceny: GPT-5.4 za $2.50/$15 per million tokens a Claude Opus 4.6 za $15/$75 per million tokens.
Zde je 10 úkolů a přesně to, co se stalo.
Úkol 1: Sestavení REST API Endpointu
Prompt: "Vytvořte POST /api/users endpoint v Express.js s TypeScript. Validujte formát emailu a sílu hesla (min 8 znaků, 1 velké písmeno, 1 číslo). Hašujte heslo pomocí bcrypt. Uložte do PostgreSQL přes Prisma. Vraťte uživatele bez pole pro heslo. Zpracujte duplicitní emaily se statusem 409."
Výsledek GPT-5.4
Čistý kód připravený pro produkci. Validační schéma Zod bylo přesné. Hašování bcrypt používalo správnou konstantu salt round. Dotaz Prisma používal select k vyloučení pole hesla na úrovni databáze, namísto jeho mazání z objektu odpovědi — což je jemný, ale důležitý bezpečnostní postup. TypeScript types byly precizní.
Výsledek Claude Opus 4.6
Také čisté a správné. Použil podobný přístup k validaci Zod, ale přidal rate limiting middleware pro endpoint a zahrnul komentář vysvětlující proč. Vyloučení hesla využívalo funkci omit v Prisma. Přidal try/catch se specifickými typy chyb pro porušení unikátních omezení Prisma.
Skóre
| Dimenze | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Správnost | 10 | 10 |
| Kvalita kódu | 9 | 9 |
| Efektivita | 9 | 8 |
| Celkem | 28 | 27 |
Vítěz: GPT-5.4 (mírně, díky rychlosti a stručnosti)
Oba výstupy byly vynikající. GPT-5.4 byl rychlejší a spotřeboval méně tokens. Opus přidal rate limiting middleware nevyžádaně — užitečné, ale nebylo to požadováno. Pro dobře definované API úkoly jsou modely v podstatě zaměnitelné.
Úkol 2: Sestavení React komponenty
Prompt: "Vytvořte React komponentu s názvem DataTable, která přijímá generická typovaná data, podporuje řazení sloupců, stránkování (na straně klienta), vyhledávací filtr a výběr řádků pomocí checkboxů. Použijte TypeScript generics. Žádná UI library — pouze HTML/CSS s CSS modules. Zahrňte správné ARIA atributy."
Výsledek GPT-5.4
Dodal dobře strukturovanou generickou komponentu. TypeScript generics byly správně použity pro definici sloupců a datové typy. Logika řazení byla čistá s extrahovaným vlastním useSortable hook. Stránkování používalo useMemo pro výkon. ARIA atributy byly správné — role="grid", aria-sort na hlavičkách řazení, aria-selected na checkboxed.
Výsledek Claude Opus 4.6
Podobná struktura, ale s několika rozdíly. Opus vytvořil hook useDataTable, který zapouzdřil logiku řazení, stránkování a filtrování — čistší oddělení, ale větší abstrakce. TypeScript generics byly stejně správné. Chybělo aria-sort na buňkách hlavičky. CSS module obsahoval responzivní rozvržení, které se na mobilu přepnulo na zobrazení karet, což nebylo požadováno, ale byl to promyšlený doplněk.
Skóre
| Dimenze | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Správnost | 10 | 9 |
| Kvalita kódu | 9 | 9 |
| Efektivita | 9 | 8 |
| Celkem | 28 | 26 |
Vítěz: GPT-5.4
Implementace ARIA v GPT-5.4 byla kompletnější, což je důležité pro komponentu, která bude používána v celé aplikaci. Jak uvádí srovnání MindStudio, GPT-5.4 vyniká v generování boilerplate, včetně React komponent a TypeScript interfaces.
Úkol 3: Zápis komplexního SQL dotazu
Prompt: "Napište PostgreSQL dotaz, který vrátí 10 nejlepších zákazníků podle lifetime value (celková částka objednávek), kteří zadali alespoň 3 objednávky v posledních 12 měsících, včetně data jejich poslední objednávky, průměrné hodnoty objednávky a procentuální změny v jejich výdajích ve srovnání s předchozím 12-měsíčním obdobím. Pro čitelnost použijte CTEs."
Výsledek GPT-5.4
Tři CTEs: jedno pro agregaci v aktuálním období, jedno pro agregaci v předchozím období a jedno pro výpočet procent. Čisté, správné, dobře formátované. Použito COALESCE pro zpracování zákazníků bez dat z předchozího období. Přidán komentář s index hint.
Výsledek Claude Opus 4.6
Čtyři CTEs s mírně odlišnou strukturou: výpočet "data poslední objednávky" byl oddělen do vlastního CTE, aby se zabránilo korelovanému poddotazu. Přidán NULLIF, aby se zabránilo dělení nulou při výpočtu procent — skutečný okrajový případ, který GPT-5.4 přehlédl. Do bloku komentářů byla zahrnuta alternativa s window function.
Skóre
| Dimenze | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Správnost | 9 | 10 |
| Kvalita kódu | 8 | 9 |
| Efektivita | 9 | 8 |
| Celkem | 26 | 27 |
Vítěz: Claude Opus 4.6
Rozhodujícím faktorem byl okrajový případ dělení nulou. V produkčním SQL může takový druh chyby způsobit tiché poškození dat. Opus důsledně odhaluje okrajové případy, které jsou důležité v reálných datových kanálech.
Úkol 4: Ladění Race Condition
Prompt: Poskytl jsem 3 soubory (~200 řádků celkem) z aplikace Node.js s občasným selháním testu. Chyba byla race condition v caching layer, kde souběžné cache misses mohly spustit duplicitní databázové dotazy a nekonzistentní stav. "Najděte chybu, vysvětlete, proč se projevuje pouze přerušovaně, a poskytněte opravu."
Výsledek GPT-5.4
Identifikoval správnou cestu kódu pro cache miss. Navrhl přidání mutex lock pomocí async-mutex. Oprava byla správná, ale řešila příznak spíše než hlavní příčinu — serializovala všechny přístupy k cache, což by při zatížení snížilo výkon.
Výsledek Claude Opus 4.6
Identifikoval stejnou cestu kódu, ale také vystopoval nekonzistentnost stavu k druhému problému: aktualizace cache nebyla atomická — existovalo okno mezi kontrolou čtení a zápisem, kde se mohl vklínit jiný požadavek. Opus navrhl vzor "single-flight" (sloučení souběžných identických požadavků) namísto globálního mutex. Oprava byla chirurgičtější a zachovala souběžnost pro nekolidující klíče cache.
Skóre
| Dimenze | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Správnost | 7 | 10 |
| Kvalita kódu | 7 | 9 |
| Efektivita | 8 | 8 |
| Celkem | 22 | 27 |
Vítěz: Claude Opus 4.6
Jasný rozdíl. Opus porozuměl modelu souběžnosti dostatečně hluboko, aby navrhl cílenou opravu. To odpovídá skóre Claude Opus 4.6 80.8% v SWE-bench Verified, který testuje právě tento druh řešení reálných chyb.
Úkol 5: Code Review
Prompt: Poskytl jsem pull request o 350 řádcích přidávající nový modul pro zpracování plateb. "Zkontrolujte tento pull request z hlediska chyb, bezpečnostních problémů, problémů s výkonem a kvality kódu. Seřaďte nálezy podle závažnosti."
Výsledek GPT-5.4
Našel 5 problémů: chybějící null check u odpovědi na platbu, neošetřené odmítnutí promise, pevně zakódovaný timeout, který by měl být konfigurovatelný, chybějící idempotency key a návrh na extrakci magických čísel do konstant. Organizováno podle závažnosti. Jasné a použitelné.
Výsledek Claude Opus 4.6
Našel 8 problémů: stejných 5 jako GPT-5.4 plus tři další — zranitelnost TOCTOU (time-of-check-time-of-use) při validaci částky, potenciální únik informací v chybové odpovědi, která odhalovala interní stack traces, a jemný problém, kdy by logika opakování mohla způsobit dvojí účtování, pokud by první požadavek uspěl, ale odpověď by se ztratila. Každý nález obsahoval konkrétní číslo řádku a návrh opravy.
Skóre
| Dimenze | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Správnost | 8 | 10 |
| Kvalita kódu | 8 | 10 |
| Efektivita | 9 | 8 |
| Celkem | 25 | 28 |
Vítěz: Claude Opus 4.6
Tři dodatečné nálezy byly všechny kritické z hlediska bezpečnosti. Samotná chyba s dvojím účtováním by mohla firmu stát značné peníze a pověst. Výsledek 76% v MRCR v2 (uvažování nad více soubory) u modelu Opus se přímo promítá do lepšího code review u komplexních modulů.
Úkol 6: Zápis testovací sady
Prompt: "Napište komplexní testy pro tento authentication middleware s použitím Vitest. Pokryjte: platné tokens, expirované tokens, chybně formátované tokens, chybějící authorization header, odvolané tokens, rate limiting a souběžné požadavky na autentizaci." Poskytl jsem zdrojový soubor middleware (~120 řádků).
Výsledek GPT-5.4
Vygeneroval 18 testovacích případů uspořádaných v čistých bloccích describe. Každý scénář z promptu byl pokryt. Přidal tři extra okrajové případy: token jako prázdný řetězec, token s nesprávným algoritmem a authorization header obsahující pouze bílé znaky. Mocks byly dobře strukturované pomocí vi.mock. Popisy testů byly jasné a následovaly vzor "should X when Y".
Výsledek Claude Opus 4.6
Vygeneroval 15 testovacích případů. Všechny požadované scénáře byly pokryty. Struktura testů používala pomocnou factory pro vytváření tokens s různými vlastnostmi — chytré, ale zvýšilo to složitost. Chyběl test pro "souběžné požadavky na autentizaci", který byl explicitně požadován. Mocks byly čistší, ale počet testů byl nižší.
Skóre
| Dimenze | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Správnost | 10 | 8 |
| Kvalita kódu | 9 | 9 |
| Efektivita | 9 | 8 |
| Celkem | 28 | 25 |
Vítěz: GPT-5.4
GPT-5.4 věrněji sledoval prompt a přidal smysluplné okrajové případy. Jak uvádí více srovnání, generování testů u GPT-5.4 patří k nejlepším a vytváří komplexní sady se silným pokrytím okrajových případů.
Úkol 7: Refaktorizace monolitického modulu
Prompt: Poskytl jsem modul v Python o 500 řádcích, který spravoval uživatele — registraci, autentizaci, aktualizace profilu, resety hesla a e-mailová oznámení, vše v jednom souboru. "Refaktorujte toto do čisté struktury modulů podle principů SOLID. Zachovejte zpětnou kompatibilitu se stávajícím veřejným API."
Výsledek GPT-5.4
Rozděleno do 5 modulů: auth.py, registration.py, profile.py, password.py, notifications.py. Přidán __init__.py, který znovu exportoval původní veřejné funkce pro zpětnou kompatibilitu. Čisté oddělení. Každý modul byl samostatný.
Nicméně, přehlédl aktualizaci cyklické závislosti mezi registration.py a notifications.py — registrace odesílá uvítací e-mail a notifikační modul potřeboval referenci zpět na uživatelská data. Kód by při importu spadl.
Výsledek Claude Opus 4.6
Rozděleno do 6 modulů se stejným rozpisem plus types.py pro sdílené datové třídy. Zásadní bylo, že identifikoval problém s cyklickou závislostí a vyřešil jej zavedením vzoru založeného na událostech — registrace vyvolá událost "user_created" a notifikační modul se k ní přihlásí k odběru. Zpětně kompatibilní __init__.py byl v přístupu identický.
Opus také přidal krátký komentář na začátek každého modulu vysvětlující, co tam patří a co ne — sloužící jako průvodce pro budoucí vývojáře.
Skóre
| Dimenze | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Správnost | 6 | 10 |
| Kvalita kódu | 8 | 10 |
| Efektivita | 8 | 7 |
| Celkem | 22 | 27 |
Vítěz: Claude Opus 4.6
Chyba v cyklické závislosti by způsobila selhání v produkci. Toto je typ uvažování nad více soubory, v němž Opus vyniká — rozumí závislostem mezi soubory a architektonickým důsledkům dříve, než vygeneruje kód.
Úkol 8: Zápis technické dokumentace
Prompt: "Napište API dokumentaci pro tento SDK pro zpracování plateb. Zahrňte: přehled, autentizaci, rate limits, chybové kódy, popisy 5 endpointů s příklady požadavků/odpovědí, sekci webhook a průvodce migrací z v1 na v2." Poskytl jsem zdrojový kód SDK.
Výsledek GPT-5.4
Komplexní dokumentace pokrývající všechny požadované sekce. Popisy endpointů byly podrobné s curl příklady a schématy odpovědí. Sekce chybových kódů byla přehledně uspořádána do tabulky. Průvodce migrací byl jasný s příklady kódu před/po. Čisté formátování markdown.
Výsledek Claude Opus 4.6
Také komplexní, s mírně odlišnou strukturou — začal sekcí "Quick Start" před podrobnou dokumentací, což je dobrý vzor pro vývojářskou dokumentaci. Sekce webhook byla podrobnější, včetně chování při opakování, kódu pro ověření podpisu a pokynů pro testování. Průvodce migrací obsahoval časovou osu ukončení podpory, která nebyla ve zdrojovém kódu — odvodil ji ze vzorců verzování.
Skóre
| Dimenze | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Správnost | 9 | 9 |
| Kvalita kódu | 9 | 9 |
| Efektivita | 9 | 8 |
| Celkem | 27 | 26 |
Vítěz: Remíza (GPT-5.4 o jeden bod díky efektivitě)
Oba vytvořili vynikající dokumentaci. Rozdíl v kvalitě je zanedbatelný. GPT-5.4 byl o něco rychlejší. Pro dokumentační úkoly fungují oba modely dobře — to odpovídá zprávám vývojářů, že kvalita dokumentace je u špičkových modelů srovnatelná.
Úkol 9: Návrh systémové architektury
Prompt: "Navrhněte architekturu pro kolaborativní editor dokumentů v reálném čase podporující 10,000 souběžných uživatelů. Pokryjte: datový model, strategii řešení konfliktů (CRDTs vs OT), WebSocket infrastrukturu, ukládací vrstvu, systém přítomnosti (presence system) a topologii nasazení. Poskytněte diagram v syntaxi Mermaid."
Výsledek GPT-5.4
Zvolil OT (Operational Transformation) s centrálním serverem. Rozumná architektura s Redis pro přítomnost, PostgreSQL pro ukládání dokumentů a WebSocket gateway za load balancerem. Diagram Mermaid byl čistý. Analýza byla kompetentní, ale sledovala standardní scénář — neanalyzovala hluboce kompromisy mezi CRDTs a OT pro toto konkrétní měřítko.
Výsledek Claude Opus 4.6
Začal položením upřesňujícího dotazu na model dokumentu (rich text vs. prostý text vs. strukturovaná data), na který jsem odpověděl "rich text". Poté doporučil CRDTs (konkrétně Yjs) před OT, s podrobným vysvětlením, proč jsou CRDTs v tomto měřítku lepší — eventual consistency bez centrálního sekvenceru eliminuje single point of failure.
Architektura obsahovala neotřelý detail: vrstvu "document gateway", která zpracovává operace sloučení CRDT a funguje jako WebSocket terminátor i vrstva pro persistenci stavu. Diagram Mermaid obsahoval šipky toku dat s anotacemi protokolů. Sekce nasazení doporučila konkrétní strategii partitioningu (shardování podle ID dokumentu) s odůvodněním ohledně hot partitions.
Skóre
| Dimenze | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Správnost | 8 | 10 |
| Kvalita kódu | 7 | 10 |
| Efektivita | 8 | 7 |
| Celkem | 23 | 27 |
Vítěz: Claude Opus 4.6
Architektura je oblast, kde je rozdíl v hloubce uvažování mezi těmito modely nejvíce patrný. Opus uvažuje explicitněji o problému před vygenerováním výstupu, prochází okrajové případy a klade doplňující otázky, když jsou požadavky skutečně nejednoznačné.
Úkol 10: Zápis DevOps skriptu pro nasazení
Prompt: "Napište GitHub Actions workflow, které: sestaví Docker image, spustí testy, odešle do ECR, nasadí do ECS Fargate pomocí blue-green deployment, spustí smoke test proti novému nasazení a automaticky provede rollback, pokud smoke test selže. Použijte OIDC pro AWS autentizaci — žádné pevně zakódované přihlašovací údaje."
Výsledek GPT-5.4
Kompletní soubor workflow se všemi požadovanými kroky. Konfigurace OIDC byla správná s použitím aws-actions/configure-aws-credentials s role ARN. Blue-green nasazení využívalo aktualizaci služby ECS s deployment controllerem CODE_DEPLOY. Smoke test byl health check založený na curl. Rollback byl spuštěn exit code smoke testu. Dobře komentované, připravené pro produkci.
Výsledek Claude Opus 4.6
Také kompletní a správné. Použil stejný přístup k OIDC. Klíčový rozdíl byl v smoke testu — Opus vytvořil důkladnější test, který kontroloval nejen health endpoint, ale také ověřoval, zda nasazení poskytuje správnou verzi pomocí kontroly endpointu /version. Rollback obsahoval krok s upozorněním do Slack. Nicméně, workflow bylo znatelně upovídanější — o 40% více řádků pro podobnou funkčnost.
Skóre
| Dimenze | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Správnost | 10 | 10 |
| Kvalita kódu | 9 | 9 |
| Efektivita | 9 | 7 |
| Celkem | 28 | 26 |
Vítěz: GPT-5.4
Pro DevOps skriptování je stručnost GPT-5.4 výhodou. Workflow se snadněji udržuje a upravuje. Doplňky od Opus (Slack notifikace, ověření verze) jsou fajn, ale nebyly požadovány a zvýšily složitost. GPT-5.4 vede v Terminal-bench (75.1% vs 65.4%) a tato výhoda se projevuje v úkolech orientovaných na terminál.
Finální výsledková tabulka
| Úkol | GPT-5.4 | Opus 4.6 | Vítěz |
|---|---|---|---|
| 1. REST API endpoint | 28 | 27 | GPT-5.4 |
| 2. React komponenta | 28 | 26 | GPT-5.4 |
| 3. SQL dotaz | 26 | 27 | Opus 4.6 |
| 4. Ladění race condition | 22 | 27 | Opus 4.6 |
| 5. Code review | 25 | 28 | Opus 4.6 |
| 6. Testovací sada | 28 | 25 | GPT-5.4 |
| 7. Refaktorizace modulu | 22 | 27 | Opus 4.6 |
| 8. Dokumentace | 27 | 26 | Remíza |
| 9. Návrh architektury | 23 | 27 | Opus 4.6 |
| 10. DevOps skript | 28 | 26 | GPT-5.4 |
| Celkem | 257 | 266 | Opus 4.6 |
Konečné skóre: Claude Opus 4.6 vyhrává 266 ku 257.
Ale celkové skóre skrývá skutečný příběh.
Vzorec, který je důležitější než skóre
Podívejte se, kde jednotlivé modely vyhrávají:
GPT-5.4 vyhrává v:
- API endpoints (dobře definované, ohraničené úkoly)
- React komponenty (boilerplate s jasným zadáním)
- Psaní testů (komplexní pokrytí podle specifikace)
- DevOps skripty (orientované na terminál, stručný výstup)
Claude Opus 4.6 vyhrává v:
- SQL okrajové případy (zachycení jemných datových chyb)
- Debugging (pochopení hlavních příčin v komplexních systémech)
- Code review (hledání bezpečnostních problémů a chyb v logice)
- Refaktorizace (zpracování závislostí mezi soubory)
- Architektura (hluboké uvažování o kompromisech)
Vzorec je jasný: GPT-5.4 je rychlejší, levnější a lepší model pro dobře definované kódovací úkoly. Claude Opus 4.6 je hlubší a pečlivější model pro úkoly vyžadující uvažování napříč složitostí.
To odpovídá tomu, co zjistila analýza DataCamp: GPT-5.4 je nejlepší všestranný model, zatímco Opus 4.6 vyniká specificky v agentních a hloubkových programátorských úkolech.
Faktoru ceny
Rozdíl ve skóre (9 bodů) je relativně malý. Rozdíl v ceně nikoliv.
| Metrika | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| Cena za vstup | $2.50/MTok | $15/MTok |
| Cena za výstup | $15/MTok | $75/MTok |
| Rychlost | 73.4 tok/s | 40.5 tok/s |
| Kontextové okno | 1M (příplatek >272K) | 1M (flat pricing) |
| Úspory při tool search | ~47% redukce tokens | N/A |
Pro tento test o 10 úkolech byla celková cena API přibližně $4.20 pro GPT-5.4 a $31.50 pro Opus 4.6. To je 7,5násobný rozdíl v ceně za 3,5% rozdíl v kvalitě.
Pro tým provádějící stovky AI asistovaných kódovacích úkolů denně matematicky silně vítězí GPT-5.4 pro většinu práce, přičemž Opus je vyhrazen pro vysoce rizikových 10-20 %, kde jeho hloubka uvažování přináší podstatný rozdíl.
Chytrá strategie: Používejte oba
Většina pracujících vývojářů v roce 2026 si nevybírá jeden model — vybírají si, kdy který použít. Vzorec, který vyplynul z tohoto testu, odpovídá tomu, co používáme v ZBuild:
Denní dříč: GPT-5.4 (přes Codex CLI nebo API)
- Psaní nových endpoints, komponent a skriptů
- Generování testů ze specifikací
- Rychlé ladění izolovaných problémů
- Automatizace DevOps a CI/CD
Těžká váha: Claude Opus 4.6 (přes Claude Code nebo API)
- Refaktorizace napříč soubory s komplexními závislostmi
- Kontrola bezpečnostně kritického kódu
- Sezení nad architektonickým návrhem
- Ladění nezřejmých problémů ve velkých codebase
Tento přístup využívající oba modely zachycuje 95 % silných stránek obou modelů při zachování zvladatelných nákladů. Průvodce Portkey pro výběr mezi těmito modely doporučuje stejný hybridní přístup.
Co říkají benchmarky (pro kontext)
Výše uvedené výsledky jednotlivých úkolů jsou v souladu s formálními benchmarky:
| Benchmark | GPT-5.4 | Opus 4.6 | Co měří |
|---|---|---|---|
| SWE-bench Verified | ~80% | 80.8% | Řešení reálných GitHub issues |
| SWE-bench Pro | 57.7% | ~46% | Těžší, přísnější kódovací úkoly |
| Terminal-bench 2.0 | 75.1% | 65.4% | Terminálové a systémové úkoly |
| HumanEval | 93.1% | 90.4% | Generování kódu na úrovni funkcí |
| GPQA Diamond | 92.0-92.8% | 87.4-91.3% | Uvažování na expertní úrovni |
| ARC-AGI-2 | 73.3% | 68.8-69.2% | Novátorské uvažování |
Zdroje: MindStudio benchmarks, Evolink analysis, Anthropic
GPT-5.4 vede ve většině benchmarků. Opus 4.6 vede v SWE-bench Verified — benchmarku, který je nejvíce spjat s reálným opravováním chyb — což vysvětluje jeho výhodu v mých testech při ladění a refaktorizaci.
Verdikt
Pokud si můžete vybrat pouze jeden model: GPT-5.4. Zvládá 80 % kódovacích úkolů ve stejné nebo lepší kvalitě, stojí 6-7x méně a je o 80 % rychlejší. Těch 20 % úkolů, kde je Opus lepší (debugging, refaktorizace, architektura), lze často vyřešit detailnějším promptováním v GPT-5.4.
Pokud můžete používat oba: Udělejte to. GPT-5.4 pro každodenní kódování, Opus 4.6 pro složitou práci. Nejedná se o kompromis — je to optimální strategie.
Pokud na ceně nezáleží a chcete maximální kvalitu u každého úkolu: Claude Opus 4.6. Vyhrál celkové skóre a jeho vítězství byla v úkolech, kde na kvalitě záleží nejvíce (chyby stojí více než boilerplate).
Výsledky nebyly takové, jaké jsem očekával, protože jsem předpokládal, že dražší model bude dominovat. Nestalo se tak. Oba modely mají skutečně odlišné silné stránky a nejlepší strategií je vědět, kterou sílu právě potřebujete pro úkol před vámi.
Zdroje
- OpenAI — Introducing GPT-5.4
- OpenAI — API Pricing
- Anthropic — Introducing Claude Opus 4.6
- Anthropic — Claude Pricing
- MindStudio — GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro Benchmarks
- MindStudio — Which AI Model Is Right for Your Workflow
- Portkey — GPT-5.4 vs Claude Opus 4.6 Guide
- DataCamp — GPT-5.4 vs Claude Opus 4.6 for Agentic Tasks
- Artificial Analysis — GPT-5.4 vs Claude Opus 4.6
- Bind AI — GPT-5.4 vs Claude Opus 4.6 for Coding
- Evolink — SWE-bench Verified 2026: Claude vs GPT
- DEV Community — ChatGPT vs Claude for Coding 2026
- Claude 5 — Opus 4.6 Benchmark Analysis