Eksperyment
Wziąłem 10 rzeczywistych zadań programistycznych — takich, które deweloperzy wykonują każdego dnia — i przesłałem dokładnie ten sam prompt do GPT-5.4 oraz Claude Opus 4.6. Ten sam system prompt, ten sam kontekst, te same kryteria oceny.
Żadnych syntetycznych benchmarków. Żadnych starannie dobranych przykładów. Tylko prawdziwe zadania oceniane w trzech wymiarach:
- Poprawność (czy działa bez modyfikacji?)
- Jakość kodu (czytelność, types, obsługa błędów, edge cases)
- Wydajność (zużycie tokens, czas odpowiedzi, liczba potrzebnych promptów uzupełniających)
Każdy wymiar jest oceniany w skali 1-10. Maksymalna możliwa liczba punktów na zadanie: 30.
Modele były dostępne za pośrednictwem ich odpowiednich API w standardowych cenach: GPT-5.4 w cenie $2.50/$15 per million tokens i Claude Opus 4.6 w cenie $15/$75 per million tokens.
Oto 10 zadań i opis tego, co dokładnie się wydarzyło.
Zadanie 1: Zbuduj endpoint REST API
Prompt: "Create a POST /api/users endpoint in Express.js with TypeScript. Validate email format and password strength (min 8 chars, 1 uppercase, 1 number). Hash the password with bcrypt. Store in PostgreSQL via Prisma. Return the user without the password field. Handle duplicate emails with a 409 status."
Wynik GPT-5.4
Czysty kod gotowy do produkcji. Schema walidacji Zod była precyzyjna. Hashowanie bcrypt użyło właściwej stałej salt round. Zapytanie Prisma wykorzystało select, aby wykluczyć pole hasła na poziomie bazy danych, zamiast usuwać je z obiektu odpowiedzi — subtelna, ale ważna praktyka bezpieczeństwa. Typy TypeScript były rygorystyczne.
Wynik Claude Opus 4.6
Również czysty i poprawny kod. Zastosowano podobne podejście do walidacji Zod, ale dodano middleware rate limiting dla endpointu i dołączono komentarz wyjaśniający dlaczego. Wykluczenie hasła wykorzystało funkcję omit w Prisma. Dodano blok try/catch ze specyficznymi typami błędów dla naruszeń unikalnych ograniczeń Prisma.
Wyniki
| Wymiar | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Poprawność | 10 | 10 |
| Jakość kodu | 9 | 9 |
| Wydajność | 9 | 8 |
| Suma | 28 | 27 |
Zwycięzca: GPT-5.4 (nieznacznie, dzięki szybkości i zwięzłości)
Oba wyniki były doskonałe. GPT-5.4 był szybszy i zużył mniej tokens. Opus dodał middleware rate limiting bez prośby — użyteczne, ale niezamówione. W przypadku dobrze zdefiniowanych zadań API, modele te są w zasadzie wymienne.
Zadanie 2: Zbuduj komponent React
Prompt: "Create a React component called DataTable that accepts generic typed data, supports sortable columns, pagination (client-side), a search filter, and row selection with checkboxes. Use TypeScript generics. No UI library — just HTML/CSS with CSS modules. Include proper ARIA attributes."
Wynik GPT-5.4
Dostarczył dobrze sformatowany komponent generyczny. Generics w TypeScript zostały użyte poprawnie dla definicji kolumn i typów danych. Logika sortowania była czysta, z wyodrębnionym niestandardowym hookiem useSortable. Stronicowanie wykorzystywało useMemo dla wydajności. Atrybuty ARIA były poprawne — role="grid", aria-sort na sortowalnych nagłówkach, aria-selected na checkboxach.
Wynik Claude Opus 4.6
Podobna struktura, ale z kilkoma różnicami. Opus stworzył hook useDataTable, który enkapsulował logikę sortowania, stronicowania i filtrowania — czystsza separacja, ale większa abstrakcja. Generics w TypeScript były równie poprawne. Brakowało aria-sort na komórkach nagłówka. Moduł CSS zawierał responsywny układ, który przełączał się na widok kart na urządzeniach mobilnych, co nie było wymagane, ale stanowiło przemyślany dodatek.
Wyniki
| Wymiar | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Poprawność | 10 | 9 |
| Jakość kodu | 9 | 9 |
| Wydajność | 9 | 8 |
| Suma | 28 | 26 |
Zwycięzca: GPT-5.4
Implementacja ARIA w GPT-5.4 była bardziej kompletna, co ma znaczenie dla komponentu, który będzie używany w całej aplikacji. Jak zauważono w porównaniu MindStudio, GPT-5.4 doskonale radzi sobie z generowaniem boilerplate, w tym komponentów React i interfejsów TypeScript.
Zadanie 3: Napisz złożone zapytanie SQL
Prompt: "Write a PostgreSQL query that returns the top 10 customers by lifetime value (total order amount) who have placed at least 3 orders in the last 12 months, including their most recent order date, average order value, and the percentage change in their spending compared to the previous 12-month period. Use CTEs for readability."
Wynik GPT-5.4
Trzy CTEs: jedno dla agregacji bieżącego okresu, jedno dla agregacji poprzedniego okresu, jedno dla obliczenia procentowego. Czyste, poprawne, dobrze sformatowane. Użyto COALESCE do obsługi klientów bez danych z poprzedniego okresu. Dodano komentarz z sugestią indeksu.
Wynik Claude Opus 4.6
Cztery CTEs o nieco innej strukturze: oddzielono obliczenie "daty ostatniego zamówienia" do własnego CTE, aby uniknąć skorelowanego podzapytania. Dodano NULLIF, aby zapobiec dzieleniu przez zero w obliczeniu procentowym — rzeczywisty edge case, który GPT-5.4 pominął. Dołączono alternatywę w postaci funkcji okna (window function) w bloku komentarza.
Wyniki
| Wymiar | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Poprawność | 9 | 10 |
| Jakość kodu | 8 | 9 |
| Wydajność | 9 | 8 |
| Suma | 26 | 27 |
Zwycięzca: Claude Opus 4.6
Edge case z dzieleniem przez zero był czynnikiem decydującym. W produkcyjnym SQL taki błąd powoduje ciche uszkodzenie danych. Opus konsekwentnie ujawnia edge cases, które mają znaczenie w rzeczywistych potokach danych (data pipelines).
Zadanie 4: Debugowanie wyścigu (race condition)
Prompt: Dostarczyłem 3 pliki (łącznie ~200 linii) z aplikacji Node.js z okresowym błędem testów. Błędem był wyścig (race condition) w warstwie buforowania (caching layer), gdzie jednoczesne chybienia pamięci podręcznej mogły wyzwolić duplikaty zapytań do bazy danych i niespójny stan. "Znajdź błąd, wyjaśnij, dlaczego objawia się tylko okresowo, i zaproponuj poprawkę."
Wynik GPT-5.4
Zidentyfikował poprawną ścieżkę kodu dla chybienia pamięci podręcznej. Zasugerował dodanie blokady mutex przy użyciu async-mutex. Poprawka była poprawna, ale leczyła objawy, a nie przyczynę — serializowała wszystkie dostępy do pamięci podręcznej, co obniżyłoby wydajność pod obciążeniem.
Wynik Claude Opus 4.6
Zidentyfikował tę samą ścieżkę kodu, ale prześledził również niespójność stanu do drugiego problemu: aktualizacja pamięci podręcznej nie była atomowa — istniało okno między sprawdzeniem odczytu a zapisem, gdzie inne żądanie mogło się wtrącić. Opus zasugerował wzorzec "single-flight" (łączenie jednoczesnych identycznych żądań) zamiast globalnego mutexu. Poprawka była bardziej precyzyjna i zachowała współbieżność dla niekonfliktujących kluczy pamięci podręcznej.
Wyniki
| Wymiar | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Poprawność | 7 | 10 |
| Jakość kodu | 7 | 9 |
| Wydajność | 8 | 8 |
| Suma | 22 | 27 |
Zwycięzca: Claude Opus 4.6
Wyraźna różnica. Opus zrozumiał model współbieżności na tyle głęboko, by zaproponować ukierunkowaną poprawkę. Jest to zgodne z wynikiem Claude Opus 4.6 wynoszącym 80.8% w SWE-bench Verified, który testuje dokładnie tego rodzaju rozwiązywanie rzeczywistych błędów.
Zadanie 5: Przegląd kodu (Code Review)
Prompt: Dostarczyłem 350-liniowy pull request dodający nowy moduł przetwarzania płatności. "Przejrzyj ten PR pod kątem błędów, problemów z bezpieczeństwem, problemów z wydajnością i jakości kodu. Priorytetyzuj znaleziska według dotkliwości."
Wynik GPT-5.4
Znalazł 5 problemów: brakujący check na null w odpowiedzi płatności, nieobsłużone odrzucenie obietnicy (promise rejection), zakodowany na sztywno timeout, który powinien być konfigurowalny, brak klucza idempotencji oraz sugestię wyodrębnienia magic numbers do stałych. Uporządkowane według dotkliwości. Jasne i możliwe do wdrożenia.
Wynik Claude Opus 4.6
Znalazł 8 problemów: te same 5, które znalazł GPT-5.4, plus trzy dodatkowe — podatność TOCTOU (time-of-check-time-of-use) w walidacji kwoty, potencjalny wyciek informacji w odpowiedzi o błędzie, który ujawniał wewnętrzne stack traces, oraz subtelny problem, w którym logika ponowień mogła spowodować podwójne obciążenie, jeśli pierwsze żądanie powiodło się, ale odpowiedź została utracona. Każde znalezisko zawierało konkretny numer linii i sugerowaną poprawkę.
Wyniki
| Wymiar | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Poprawność | 8 | 10 |
| Jakość kodu | 8 | 10 |
| Wydajność | 9 | 8 |
| Suma | 25 | 28 |
Zwycięzca: Claude Opus 4.6
Trzy dodatkowe znaleziska były krytyczne dla bezpieczeństwa. Sam błąd podwójnego obciążenia mógłby kosztować firmę znaczne pieniądze i reputację. Wynik Opus 76% na MRCR v2 (rozumowanie wieloplikowe) przekłada się bezpośrednio na lepszy Code Review złożonych modułów.
Zadanie 6: Napisz zestaw testów
Prompt: "Write comprehensive tests for this authentication middleware using Vitest. Cover: valid tokens, expired tokens, malformed tokens, missing authorization header, revoked tokens, rate limiting, and concurrent authentication requests." Dostarczyłem plik źródłowy middleware (~120 linii).
Wynik GPT-5.4
Wygenerował 18 przypadków testowych zorganizowanych w czyste bloki describe. Każdy scenariusz z promptu został uwzględniony. Dodano trzy dodatkowe edge cases: token będący pustym ciągiem znaków, token z błędnym algorytmem oraz nagłówek autoryzacji zawierający tylko białe znaki. Mocks były dobrze sformatowane przy użyciu vi.mock. Opisy testów były jasne i zgodne ze wzorcem "should X when Y".
Wynik Claude Opus 4.6
Wygenerował 15 przypadków testowych. Wszystkie scenariusze z promptu zostały uwzględnione. Struktura testów wykorzystywała helper factory do tworzenia tokens o różnych właściwościach — sprytne, ale dodało złożoności. Brakowało testu "concurrent authentication requests", o który wyraźnie proszono. Mocks były czystsze, ale liczba testów była mniejsza.
Wyniki
| Wymiar | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Poprawność | 10 | 8 |
| Jakość kodu | 9 | 9 |
| Wydajność | 9 | 8 |
| Suma | 28 | 25 |
Zwycięzca: GPT-5.4
GPT-5.4 dokładniej podążał za promptem i dodał sensowne edge cases. Jak zauważają liczne porównania, generowanie testów przez GPT-5.4 należy do najlepszych, tworząc kompleksowe zestawy z silnym pokryciem przypadków brzegowych.
Zadanie 7: Refakturyzacja monolitycznego modułu
Prompt: Dostarczyłem 500-liniowy moduł Python, który obsługiwał zarządzanie użytkownikami — rejestrację, uwierzytelnianie, aktualizacje profilu, resetowanie haseł i powiadomienia e-mail, wszystko w jednym pliku. "Refactor this into a clean module structure following SOLID principles. Maintain backward compatibility with the existing public API."
Wynik GPT-5.4
Podzielony na 5 modułów: auth.py, registration.py, profile.py, password.py, notifications.py. Dodano __init__.py, który ponownie eksportował oryginalne funkcje publiczne dla zachowania wstecznej kompatybilności. Czysta separacja. Każdy moduł był samodzielny.
Jednakże, pominął aktualizację cyklicznej zależności między registration.py a notifications.py — rejestracja wysyła e-mail powitalny, a moduł powiadomień potrzebował odniesienia wstecznego do danych użytkownika. Kod wywalałby się przy imporcie.
Wynik Claude Opus 4.6
Podzielony na 6 modułów z tym samym podziałem plus types.py dla współdzielonych klas danych. Co najważniejsze, zidentyfikował problem zależności cyklicznej i rozwiązał go, wprowadzając wzorzec oparty na zdarzeniach — rejestracja emituje zdarzenie "user_created", a moduł powiadomień je subskrybuje. Wstecznie kompatybilny __init__.py był identyczny w podejściu.
Opus dodał również krótki komentarz na górze każdego modułu wyjaśniający, co tam należy, a co nie — służąc jako przewodnik dla przyszłych deweloperów.
Wyniki
| Wymiar | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Poprawność | 6 | 10 |
| Jakość kodu | 8 | 10 |
| Wydajność | 8 | 7 |
| Suma | 22 | 27 |
Zwycięzca: Claude Opus 4.6
Błąd zależności cyklicznej spowodowałby awarię na produkcji. Jest to typ rozumowania wieloplikowego, w którym Opus błyszczy — rozumie zależności między plikami i implikacje architektoniczne przed wygenerowaniem kodu.
Zadanie 8: Napisz dokumentację techniczną
Prompt: "Write API documentation for this payment processing SDK. Include: overview, authentication, rate limits, error codes, 5 endpoint descriptions with request/response examples, a webhook section, and a migration guide from v1 to v2." Dostarczyłem kod źródłowy SDK.
Wynik GPT-5.4
Kompleksowa dokumentacja obejmująca wszystkie wymagane sekcje. Opisy endpointów były szczegółowe, z przykładami curl i schematami odpowiedzi. Sekcja kodów błędów była dobrze zorganizowana w formie tabeli. Przewodnik po migracji był jasny, z przykładami kodu "przed i po". Czyste formatowanie Markdown.
Wynik Claude Opus 4.6
Również kompleksowa, z nieco inną strukturą — zaczynała się od sekcji "Quick Start" przed szczegółową dokumentacją, co jest dobrym wzorcem dla dokumentacji deweloperskiej. Sekcja webhook była bardziej szczegółowa, zawierała informacje o zachowaniu ponowień, kod weryfikacji sygnatury i wskazówki dotyczące testowania. Przewodnik po migracji zawierał harmonogram wycofywania wersji (deprecation timeline), którego nie było w kodzie źródłowym — wywnioskował to z wzorców wersjonowania.
Wyniki
| Wymiar | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Poprawność | 9 | 9 |
| Jakość kodu | 9 | 9 |
| Wydajność | 9 | 8 |
| Suma | 27 | 26 |
Zwycięzca: Remis (GPT-5.4 o jeden punkt dzięki wydajności)
Oba modele stworzyły doskonałą dokumentację. Różnica w jakości jest znikoma. GPT-5.4 był nieco szybszy. W przypadku zadań dokumentacyjnych oba modele działają dobrze — jest to zgodne z raportami deweloperów, że jakość dokumentacji jest porównywalna w czołowych modelach.
Zadanie 9: Zaprojektuj architekturę systemu
Prompt: "Design the architecture for a real-time collaborative document editor supporting 10,000 concurrent users. Cover: data model, conflict resolution strategy (CRDTs vs OT), WebSocket infrastructure, storage layer, presence system, and deployment topology. Provide a diagram in Mermaid syntax."
Wynik GPT-5.4
Wybrał OT (Operational Transformation) z centralnym serwerem. Rozsądna architektura z Redis dla systemu obecności (presence), PostgreSQL do przechowywania dokumentów i WebSocket gateway za load balancerem. Diagram Mermaid był czysty. Analiza była kompetentna, ale podążała za standardowym schematem — nie przeanalizowała głęboko kompromisów między CRDTs a OT dla tej konkretnej skali.
Wynik Claude Opus 4.6
Zaczął od zadania pytania wyjaśniającego o model dokumentu (rich text vs. plain text vs. dane strukturalne), na które odpowiedziałem "rich text". Następnie zarekomendował CRDTs (konkretnie Yjs) zamiast OT, z fasonowanym wyjaśnieniem, dlaczego CRDTs są lepsze w tej skali — ostateczna spójność (eventual consistency) bez centralnego sekwencera eliminuje pojedynczy punkt awarii (single point of failure).
Architektura zawierała nowatorski szczegół: warstwę "document gateway", która obsługuje operacje łączenia CRDT i działa zarówno jako terminator WebSocket, jak i warstwa trwałości stanu. Diagram Mermaid zawierał strzałki przepływu danych z adnotacjami protokołów. Sekcja wdrożenia zalecała konkretną strategię partycjonowania (shard by document ID) wraz z uzasadnieniem dotyczącym "hot partitions".
Wyniki
| Wymiar | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Poprawność | 8 | 10 |
| Jakość kodu | 7 | 10 |
| Wydajność | 8 | 7 |
| Suma | 23 | 27 |
Zwycięzca: Claude Opus 4.6
Architektura to obszar, w którym przepaść w głębi rozumowania między tymi modelami jest najbardziej widoczna. Opus rozumuje bardziej jawnie nad problemem przed wygenerowaniem wyniku, analizując edge cases i zadając pytania wyjaśniające, gdy wymagania są niejednoznaczne.
Zadanie 10: Napisz skrypt wdrożeniowy DevOps
Prompt: "Write a GitHub Actions workflow that: builds a Docker image, runs tests, pushes to ECR, deploys to ECS Fargate with blue-green deployment, runs a smoke test against the new deployment, and rolls back automatically if the smoke test fails. Use OIDC for AWS authentication — no hardcoded credentials."
Wynik GPT-5.4
Kompletny plik workflow ze wszystkimi wymaganymi krokami. Konfiguracja OIDC była poprawna, z użyciem aws-actions/configure-aws-credentials z role ARN. Wdrożenie blue-green wykorzystywało aktualizację usługi ECS z kontrolerem wdrożenia CODE_DEPLOY. Smoke test był testem zdrowia opartym na curl. Rollback był wyzwalany przez kod wyjścia smoke testu. Dobrze skomentowany kod gotowy do produkcji.
Wynik Claude Opus 4.6
Również kompletny i poprawny. Zastosowano to samo podejście OIDC. Kluczowa różnica tkwiła w smoke teście — Opus stworzył bardziej dokładny test, który sprawdzał nie tylko endpoint zdrowia, ale także weryfikował, czy wdrożenie serwuje poprawną wersję, sprawdzając endpoint /version. Rollback zawierał krok powiadomienia na Slack. Jednak workflow był wyraźnie bardziej rozległy — o 40% więcej linii przy podobnej funkcjonalności.
Wyniki
| Wymiar | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Poprawność | 10 | 10 |
| Jakość kodu | 9 | 9 |
| Wydajność | 9 | 7 |
| Suma | 28 | 26 |
Zwycięzca: GPT-5.4
W przypadku skryptów DevOps zwięzłość GPT-5.4 jest zaletą. Workflow jest łatwiejszy w utrzymaniu i modyfikacji. Dodatki Opusa (powiadomienie Slack, weryfikacja wersji) są miłe, ale nie były wymagane i dodały złożoności. GPT-5.4 prowadzi w Terminal-bench (75.1% vs 65.4%), a ta przewaga uwidacznia się w zadaniach zorientowanych na terminal.
Ostateczna tabela wyników
| Zadanie | GPT-5.4 | Opus 4.6 | Zwycięzca |
|---|---|---|---|
| 1. Endpoint REST API | 28 | 27 | GPT-5.4 |
| 2. Komponent React | 28 | 26 | GPT-5.4 |
| 3. Zapytanie SQL | 26 | 27 | Opus 4.6 |
| 4. Debugowanie race condition | 22 | 27 | Opus 4.6 |
| 5. Code Review | 25 | 28 | Opus 4.6 |
| 6. Zestaw testów | 28 | 25 | GPT-5.4 |
| 7. Refakturyzacja modułu | 22 | 27 | Opus 4.6 |
| 8. Dokumentacja | 27 | 26 | Remis |
| 9. Projekt architektury | 23 | 27 | Opus 4.6 |
| 10. Skrypt DevOps | 28 | 26 | GPT-5.4 |
| Suma | 257 | 266 | Opus 4.6 |
Wynik końcowy: Claude Opus 4.6 wygrywa 266 do 257.
Ale łączny wynik ukrywa prawdziwą historię.
Wzorzec, który liczy się bardziej niż wynik
Spójrz na to, w czym wygrywa każdy model:
GPT-5.4 wygrywa w:
- Endpointach API (dobrze zdefiniowane, ograniczone zadania)
- Komponentach React (boilerplate z jasną specyfikacją)
- Pisaniu testów (kompleksowe pokrycie na podstawie specyfikacji)
- Skryptach DevOps (zorientowane na terminal, zwięzły wynik)
Claude Opus 4.6 wygrywa w:
- SQL edge cases (wychwytywanie subtelnych błędów danych)
- Debugowaniu (zrozumienie przyczyn źródłowych w złożonych systemach)
- Code Review (znajdowanie problemów z bezpieczeństwem i poprawnością)
- Refakturyzacji (obsługa zależności międzyplikowych)
- Architekturze (głębokie rozumowanie o kompromisach)
Wzorzec jest jasny: GPT-5.4 to szybszy, tańszy i lepszy model do dobrze zdefiniowanych zadań programistycznych. Claude Opus 4.6 to głębszy, bardziej staranny model do zadań wymagających rozumowania w obliczu złożoności.
Zgadza się to z tym, co wykazała analiza DataCamp: GPT-5.4 jest najlepszym modelem ogólnym, podczas gdy Opus 4.6 błyszczy szczególnie w zadaniach agentowych i głębokim programowaniu.
Czynnik kosztowy
Różnica punktowa (9 punktów) jest relatywnie mała. Różnica w kosztach — nie.
| Metryka | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| Cena za input | $2.50/MTok | $15/MTok |
| Cena za output | $15/MTok | $75/MTok |
| Szybkość | 73.4 tok/s | 40.5 tok/s |
| Okno kontekstowe | 1M (dopłata >272K) | 1M (stała cena) |
| Oszczędności Tool search | ~47% redukcji tokenów | N/A |
Dla tego testu obejmującego 10 zadań, całkowity koszt API wyniósł około $4.20 dla GPT-5.4 i $31.50 dla Opus 4.6. To 7.5-krotna różnica w kosztach przy 3.5% różnicy w jakości.
Dla zespołu wykonującego setki zadań programistycznych wspomaganych przez AI dziennie, matematyka silnie faworyzuje GPT-5.4 dla większości prac, rezerwując Opus dla wysokostawkowych 10-20%, gdzie jego głębia rozumowania robi realną różnicę.
Inteligentna strategia: używaj obu
Większość pracujących deweloperów w 2026 roku nie wybiera jednego modelu — wybierają moment, w którym użyć każdego z nich. Wzorzec, który wyłonił się z tego testu, pasuje do tego, co stosujemy w ZBuild:
Codzienne narzędzie: GPT-5.4 (przez Codex CLI lub API)
- Pisanie nowych endpointów, komponentów i skryptów
- Generowanie testów ze specyfikacji
- Szybkie debugowanie izolowanych problemów
- Automatyzacja DevOps i CI/CD
Większe wyzwania: Claude Opus 4.6 (przez Claude Code lub API)
- Refakturyzacja międzyplikowa ze złożonymi zależnościami
- Przegląd kodu krytycznego pod kątem bezpieczeństwa
- Sesje projektowania architektury
- Debugowanie nieoczywistych problemów w dużych bazach kodu
To podejście wykorzystujące dwa modele pozwala uchwycić 95% mocnych stron obu modeli, utrzymując koszty pod kontrolą. Przewodnik Portkey dotyczący wyboru między tymi modelami rekomenduje to samo hybrydowe podejście.
Co mówią benchmarki (dla kontekstu)
Wyniki poszczególnych zadań powyżej pokrywają się z formalnymi benchmarkami:
| Benchmark | GPT-5.4 | Opus 4.6 | Co mierzy |
|---|---|---|---|
| SWE-bench Verified | ~80% | 80.8% | Rozwiązywanie realnych zgłoszeń GitHub |
| SWE-bench Pro | 57.7% | ~46% | Trudniejsze, bardziej rygorystyczne zadania |
| Terminal-bench 2.0 | 75.1% | 65.4% | Zadania terminalowe i systemowe |
| HumanEval | 93.1% | 90.4% | Generowanie kodu na poziomie funkcji |
| GPQA Diamond | 92.0-92.8% | 87.4-91.3% | Rozumowanie na poziomie eksperckim |
| ARC-AGI-2 | 73.3% | 68.8-69.2% | Nowatorskie rozumowanie |
Źródła: MindStudio benchmarks, Evolink analysis, Anthropic
GPT-5.4 prowadzi w większości benchmarków. Opus 4.6 prowadzi w SWE-bench Verified — benchmarku najbliżej powiązanym z rzeczywistym naprawianiem błędów — co wyjaśnia jego przewagę w debugowaniu i refakturyzacji w moich testach.
Werdykt
Jeśli możesz wybrać tylko jeden model: GPT-5.4. Obsługuje 80% zadań programistycznych przy równej lub lepszej jakości, kosztuje 6-7x mniej i jest o 80% szybszy. Te 20% zadań, w których Opus jest lepszy (debugowanie, refakturyzacja, architektura), często można obsłużyć za pomocą bardziej szczegółowych promptów w GPT-5.4.
Jeśli możesz używać obu: Zrób to. GPT-5.4 do codziennego kodowania, Opus 4.6 do złożonych prac. To nie jest kompromis — to optymalna strategia.
Jeśli koszty nie mają znaczenia i chcesz maksymalnej jakości w każdym zadaniu: Claude Opus 4.6. Wygrał w ogólnej punktacji, a jego zwycięstwa dotyczyły zadań, w których jakość ma największe znaczenie (błędy kosztują więcej niż boilerplate).
Wyniki nie były tym, czego się spodziewałem, ponieważ zakładałem, że droższy model zdominuje zestawienie. Tak się nie stało. Te dwa modele mają autentycznie różne mocne strony, a najlepszą strategią jest wiedza o tym, której siły potrzebujesz do zadania, które masz przed sobą.
Źródła
- OpenAI — Introducing GPT-5.4
- OpenAI — API Pricing
- Anthropic — Introducing Claude Opus 4.6
- Anthropic — Claude Pricing
- MindStudio — GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro Benchmarks
- MindStudio — Which AI Model Is Right for Your Workflow
- Portkey — GPT-5.4 vs Claude Opus 4.6 Guide
- DataCamp — GPT-5.4 vs Claude Opus 4.6 for Agentic Tasks
- Artificial Analysis — GPT-5.4 vs Claude Opus 4.6
- Bind AI — GPT-5.4 vs Claude Opus 4.6 for Coding
- Evolink — SWE-bench Verified 2026: Claude vs GPT
- DEV Community — ChatGPT vs Claude for Coding 2026
- Claude 5 — Opus 4.6 Benchmark Analysis