Эксперимент
Я взял 10 реальных задач по программированию — тех, которые разработчики действительно выполняют каждый день — и отправил абсолютно одинаковый prompt как в GPT-5.4, так и в Claude Opus 4.6. Один и тот же system prompt, тот же контекст, те же критерии оценки.
Никаких синтетических бенчмарков. Никаких специально отобранных примеров. Только реальные задачи, оцененные по трем измерениям:
- Корректность (работает ли код без модификаций?)
- Качество кода (читаемость, types, обработка ошибок, edge cases)
- Эффективность (использование tokens, время ответа, количество необходимых уточняющих prompts)
Каждый критерий оценивается от 1 до 10. Максимально возможный балл за задачу: 30.
Доступ к моделям осуществлялся через их соответствующие API по стандартным тарифам: GPT-5.4 по цене $2.50/$15 за миллион tokens и Claude Opus 4.6 по цене $15/$75 за миллион tokens.
Вот эти 10 задач и то, что именно произошло.
Задача 1: Создание REST API Endpoint
Prompt: "Create a POST /api/users endpoint in Express.js with TypeScript. Validate email format and password strength (min 8 chars, 1 uppercase, 1 number). Hash the password with bcrypt. Store in PostgreSQL via Prisma. Return the user without the password field. Handle duplicate emails with a 409 status."
Результат GPT-5.4
Чистый, готовый к продакшену код. Схема валидации Zod была точной. Хеширование bcrypt использовало правильную константу salt round. Запрос Prisma использовал select для исключения поля password на уровне базы данных, а не просто удалял его из объекта ответа — тонкая, но важная практика безопасности. TypeScript types были строгими.
Результат Claude Opus 4.6
Также чистый и корректный код. Использовался аналогичный подход к валидации с Zod, но добавлено middleware для rate limiting для endpoint и включен комментарий с объяснением причин. Исключение пароля использовало функцию omit в Prisma. Добавлен try/catch со специфическими типами ошибок для Prisma unique constraint violations.
Оценки
| Критерий | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Корректность | 10 | 10 |
| Качество кода | 9 | 9 |
| Эффективность | 9 | 8 |
| Итого | 28 | 27 |
Победитель: GPT-5.4 (с небольшим отрывом по скорости и лаконичности)
Оба результата были отличными. GPT-5.4 работал быстрее и использовал меньше tokens. Opus добавил rate limiting middleware без запроса — полезно, но не требовалось. Для четко определенных задач API модели практически взаимозаменяемы.
Задача 2: Создание React компонента
Prompt: "Create a React component called DataTable that accepts generic typed data, supports sortable columns, pagination (client-side), a search filter, and row selection with checkboxes. Use TypeScript generics. No UI library — just HTML/CSS with CSS modules. Include proper ARIA attributes."
Результат GPT-5.4
Предоставил хорошо структурированный generic компонент. TypeScript generics были правильно использованы для определения колонок и типов данных. Логика сортировки была чистой, с извлеченным кастомным hook useSortable. Пагинация использовала useMemo для производительности. Атрибуты ARIA были верными — role="grid", aria-sort на заголовках с сортировкой, aria-selected на чекбоксах.
Результат Claude Opus 4.6
Схожая структура, но с несколькими отличиями. Opus создал hook useDataTable, который инкапсулировал логику сортировки, пагинации и фильтрации — более чистое разделение, но больше абстракции. TypeScript generics были столь же корректны. Отсутствовал aria-sort на ячейках заголовков. CSS module включал адаптивный макет, который переключался на вид карточек на мобильных устройствах, что не запрашивалось, но было продуманным дополнением.
Оценки
| Критерий | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Корректность | 10 | 9 |
| Качество кода | 9 | 9 |
| Эффективность | 9 | 8 |
| Итого | 28 | 26 |
Победитель: GPT-5.4
Реализация ARIA у GPT-5.4 была более полной, что важно для компонента, который будет использоваться во всем приложении. Как отмечено в сравнении MindStudio, GPT-5.4 превосходит в генерации boilerplate, включая React компоненты и TypeScript interfaces.
Задача 3: Написание сложного SQL запроса
Prompt: "Write a PostgreSQL query that returns the top 10 customers by lifetime value (total order amount) who have placed at least 3 orders in the last 12 months, including their most recent order date, average order value, and the percentage change in their spending compared to the previous 12-month period. Use CTEs for readability."
Результат GPT-5.4
Три CTEs: одна для агрегации текущего периода, одна для агрегации предыдущего периода, одна для расчета процентов. Чисто, правильно, хорошо отформатировано. Использовал COALESCE для обработки клиентов без данных за предыдущий период. Добавил комментарий с подсказкой по index.
Результат Claude Opus 4.6
Четыре CTEs с немного другой структурой: вынес расчет "даты последнего заказа" в отдельную CTE, чтобы избежать коррелированного подзапроса. Добавил NULLIF для предотвращения деления на ноль в расчете процентов — реальный edge case, который GPT-5.4 пропустил. Включил альтернативу с window function в блоке комментариев.
Оценки
| Критерий | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Корректность | 9 | 10 |
| Качество кода | 8 | 9 |
| Эффективность | 9 | 8 |
| Итого | 26 | 27 |
Победитель: Claude Opus 4.6
Edge case с делением на ноль стал решающим фактором. В продакшен SQL такой баг вызывает скрытое повреждение данных. Opus последовательно выявляет edge cases, которые имеют значение в реальных data pipelines.
Задача 4: Отладка Race Condition
Prompt: Я предоставил 3 файла (~200 строк всего) из Node.js приложения с периодическим сбоем теста. Багом было race condition в слое кэширования, где одновременные промахи кэша могли вызвать дублирующие запросы к базе данных и несогласованное состояние. "Find the bug, explain why it only manifests intermittently, and provide a fix."
Результат GPT-5.4
Идентифицировал правильный путь кода с промахом кэша. Предложил добавить mutex lock с использованием async-mutex. Исправление было корректным, но лечило симптом, а не первопричину — оно сериализовало все обращения к кэшу, что могло снизить производительность под нагрузкой.
Результат Claude Opus 4.6
Идентифицировал тот же путь кода, но также проследил несогласованность состояния до второй проблемы: обновление кэша не было атомарным — существовало окно между проверкой чтения и записью, куда мог вклиниться другой запрос. Opus предложил паттерн "single-flight" (объединение одновременных идентичных запросов) вместо глобального mutex. Исправление было более точечным и сохраняло параллелизм для неконфликтующих ключей кэша.
Оценки
| Критерий | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Корректность | 7 | 10 |
| Качество кода | 7 | 9 |
| Эффективность | 8 | 8 |
| Итого | 22 | 27 |
Победитель: Claude Opus 4.6
Явный разрыв. Opus глубоко понял модель параллелизма, чтобы предложить целевое исправление. Это согласуется с результатом Claude Opus 4.6 в 80.8% на SWE-bench Verified, который тестирует именно такой тип решения реальных багов.
Задача 5: Code Review
Prompt: Я предоставил pull request на 350 строк, добавляющий новый модуль обработки платежей. "Review this PR for bugs, security issues, performance problems, and code quality. Prioritize findings by severity."
Результат GPT-5.4
Нашел 5 проблем: отсутствие проверки на null в ответе платежа, необработанный promise rejection, жестко закодированный timeout, который должен быть настраиваемым, отсутствие idempotency key и предложение вынести magic numbers в константы. Организовано по уровню критичности. Четко и применимо на практике.
Результат Claude Opus 4.6
Нашел 8 проблем: те же 5, что и GPT-5.4, плюс еще три — уязвимость TOCTOU (time-of-check-time-of-use) в валидации суммы, потенциальную утечку информации в ответе об ошибке, которая раскрывала внутренние stack traces, и тонкую проблему, где логика повторных попыток могла привести к двойному списанию, если первый запрос прошел успешно, но ответ был потерян. Каждое замечание включало номер конкретной строки и предложенное исправление.
Оценки
| Критерий | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Корректность | 8 | 10 |
| Качество кода | 8 | 10 |
| Эффективность | 9 | 8 |
| Итого | 25 | 28 |
Победитель: Claude Opus 4.6
Три дополнительных замечания были критически важными для безопасности. Один только баг с двойным списанием мог стоить компании значительных денег и репутации. Результат Opus в 76% на MRCR v2 (многофайловое рассуждение) напрямую конвертируется в лучшее code review сложных модулей.
Задача 6: Написание тестового набора
Prompt: "Write comprehensive tests for this authentication middleware using Vitest. Cover: valid tokens, expired tokens, malformed tokens, missing authorization header, revoked tokens, rate limiting, and concurrent authentication requests." Я предоставил исходный файл middleware (~120 строк).
Результат GPT-5.4
Сгенерировал 18 тест-кейсов, организованных в чистые блоки describe. Каждый сценарий из prompt был охвачен. Добавил три дополнительных edge cases: пустая строка token, token с неверным алгоритмом и заголовок авторизации, состоящий только из пробелов. Mocks были хорошо структурированы с использованием vi.mock. Описания тестов были четкими и следовали паттерну "should X when Y".
Результат Claude Opus 4.6
Сгенерировал 15 тест-кейсов. Все запрошенные сценарии охвачены. Структура тестов использовала вспомогательную фабрику для создания tokens с различными свойствами — умно, но добавило сложности. Пропущен тест "concurrent authentication requests", который был явно запрошен. Mocks были чище, но количество тестов было меньше.
Оценки
| Критерий | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Корректность | 10 | 8 |
| Качество кода | 9 | 9 |
| Эффективность | 9 | 8 |
| Итого | 28 | 25 |
Победитель: GPT-5.4
GPT-5.4 более точно следовал prompt и добавил значимые edge cases. Как отмечают многочисленные сравнения, генерация тестов у GPT-5.4 является одной из лучших, создавая всеобъемлющие наборы с сильным покрытием крайних случаев.
Задача 7: Рефакторинг монолитного модуля
Prompt: Я предоставил модуль на Python из 500 строк, который управлял пользователями — регистрация, аутентификация, обновление профиля, сброс пароля и уведомления по электронной почте в одном файле. "Refactor this into a clean module structure following SOLID principles. Maintain backward compatibility with the existing public API."
Результат GPT-5.4
Разделил на 5 модулей: auth.py, registration.py, profile.py, password.py, notifications.py. Добавил __init__.py, который повторно экспортировал оригинальные публичные функции для обратной совместимости. Чистое разделение. Каждый модуль был самодостаточным.
Однако он упустил обновление циклической зависимости между registration.py и notifications.py — регистрация отправляет приветственное письмо, а модулю уведомлений требовалась ссылка обратно на данные пользователя. Код упал бы при импорте.
Результат Claude Opus 4.6
Разделил на 6 модулей с тем же разбиением плюс types.py для общих классов данных. Что крайне важно, он идентифицировал проблему циклической зависимости и решил ее, введя паттерн на основе событий — регистрация генерирует событие "user_created", а модуль уведомлений подписывается на него. Обратно совместимый __init__.py был идентичен по подходу.
Opus также добавил краткий комментарий в начале каждого модуля, объясняющий, что там должно находиться, а что нет — выступая в качестве руководства для будущих разработчиков.
Оценки
| Критерий | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Корректность | 6 | 10 |
| Качество кода | 8 | 10 |
| Эффективность | 8 | 7 |
| Итого | 22 | 27 |
Победитель: Claude Opus 4.6
Баг циклической зависимости привел бы к сбою в продакшене. Это тот тип многофайлового рассуждения, в котором Opus превосходит других — он понимает межфайловые зависимости и архитектурные последствия перед генерацией кода.
Задача 8: Написание технической документации
Prompt: "Write API documentation for this payment processing SDK. Include: overview, authentication, rate limits, error codes, 5 endpoint descriptions with request/response examples, a webhook section, and a migration guide from v1 to v2." Я предоставил исходный код SDK.
Результат GPT-5.4
Исчерпывающая документация, охватывающая все запрошенные разделы. Описания endpoints были подробными, с примерами curl и схемами ответов. Раздел кодов ошибок был хорошо организован в виде таблицы. Руководство по миграции было понятным, с примерами кода "до" и "после". Чистое форматирование markdown.
Результат Claude Opus 4.6
Также исчерпывающая документация с немного другой структурой — она начиналась с раздела "Quick Start" перед подробной документацией, что является хорошим паттерном для документации для разработчиков. Раздел webhook был более детализированным, включая поведение при повторных попытках, код верификации подписи и руководство по тестированию. Руководство по миграции включало график вывода из эксплуатации (deprecation), которого не было в исходном коде — модель вывела это из паттернов версионирования.
Оценки
| Критерий | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Корректность | 9 | 9 |
| Качество кода | 9 | 9 |
| Эффективность | 9 | 8 |
| Итого | 27 | 26 |
Победитель: Ничья (GPT-5.4 на один балл впереди по эффективности)
Обе модели создали отличную документацию. Разница в качестве незначительна. GPT-5.4 был немного быстрее. Для задач по документации хорошо подходит любая модель — это совпадает с отчетами разработчиков о том, что качество документации сопоставимо у всех передовых моделей.
Задача 9: Проектирование системной архитектуры
Prompt: "Design the architecture for a real-time collaborative document editor supporting 10,000 concurrent users. Cover: data model, conflict resolution strategy (CRDTs vs OT), WebSocket infrastructure, storage layer, presence system, and deployment topology. Provide a diagram in Mermaid syntax."
Результат GPT-5.4
Выбрал OT (Operational Transformation) с центральным сервером. Разумная архитектура с Redis для presence, PostgreSQL для хранения документов и WebSocket gateway за load balancer. Диаграмма Mermaid была чистой. Анализ был компетентным, но следовал стандартному шаблону — глубокого анализа компромиссов между CRDTs и OT для данного конкретного масштаба проведено не было.
Результат Claude Opus 4.6
Начал с уточняющего вопроса о модели документа (rich text vs. plain text vs. structured data), на который я ответил "rich text". Затем рекомендовал CRDTs (конкретно Yjs) вместо OT с подробным объяснением того, почему CRDTs превосходят на таком масштабе — итоговая согласованность без центрального секвенсора устраняет единую точку отказа.
Архитектура включала новую деталь: слой "document gateway", который обрабатывает операции слияния CRDTs и выступает одновременно как терминатор WebSocket и слой персистентности состояния. Диаграмма Mermaid включала стрелки потоков данных с аннотациями протоколов. Раздел развертывания рекомендовал конкретную стратегию партиционирования (shard по ID документа) с обоснованием касательно горячих партиций.
Оценки
| Критерий | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Корректность | 8 | 10 |
| Качество кода | 7 | 10 |
| Эффективность | 8 | 7 |
| Итого | 23 | 27 |
Победитель: Claude Opus 4.6
Архитектура — это та область, где разрыв в глубине рассуждений между этими моделями наиболее заметен. Opus рассуждает более явно о проблеме перед генерацией результата, прорабатывая edge cases и задавая уточняющие вопросы, когда требования действительно неоднозначны.
Задача 10: Написание DevOps скрипта развертывания
Prompt: "Write a GitHub Actions workflow that: builds a Docker image, runs tests, pushes to ECR, deploys to ECS Fargate with blue-green deployment, runs a smoke test against the new deployment, and rolls back automatically if the smoke test fails. Use OIDC for AWS authentication — no hardcoded credentials."
Результат GPT-5.4
Полный файл workflow со всеми запрошенными шагами. Конфигурация OIDC была верной с использованием aws-actions/configure-aws-credentials с ARN роли. Blue-green deployment использовал обновление сервиса ECS с контроллером развертывания CODE_DEPLOY. Smoke test представлял собой проверку работоспособности на основе curl. Rollback запускался по коду выхода smoke test. Хорошо прокомментировано, готово к продакшену.
Результат Claude Opus 4.6
Также полный и корректный результат. Использовал тот же подход к OIDC. Ключевое отличие было в smoke test — Opus создал более тщательный тест, который проверял не только endpoint здоровья, но и верифицировал, что развертывание обслуживает правильную версию, проверяя endpoint /version. Rollback включал шаг уведомления в Slack. Однако workflow был заметно более многословным — на 40% больше строк для аналогичной функциональности.
Оценки
| Критерий | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Корректность | 10 | 10 |
| Качество кода | 9 | 9 |
| Эффективность | 9 | 7 |
| Итого | 28 | 26 |
Победитель: GPT-5.4
Для написания DevOps скриптов лаконичность GPT-5.4 является преимуществом. Такой workflow проще поддерживать и изменять. Дополнения Opus (уведомление в Slack, верификация версии) хороши, но не запрашивались и добавили сложности. GPT-5.4 лидирует в Terminal-bench (75.1% против 65.4%), и это преимущество проявляется в терминально-ориентированных задачах.
Итоговая таблица результатов
| Задача | GPT-5.4 | Opus 4.6 | Победитель |
|---|---|---|---|
| 1. REST API endpoint | 28 | 27 | GPT-5.4 |
| 2. React компонент | 28 | 26 | GPT-5.4 |
| 3. SQL запрос | 26 | 27 | Opus 4.6 |
| 4. Отладка race condition | 22 | 27 | Opus 4.6 |
| 5. Code review | 25 | 28 | Opus 4.6 |
| 6. Тестовый набор | 28 | 25 | GPT-5.4 |
| 7. Рефакторинг модуля | 22 | 27 | Opus 4.6 |
| 8. Документация | 27 | 26 | Ничья |
| 9. Системный дизайн | 23 | 27 | Opus 4.6 |
| 10. DevOps скрипт | 28 | 26 | GPT-5.4 |
| Итого | 257 | 266 | Opus 4.6 |
Финальный счет: Claude Opus 4.6 побеждает со счетом 266 против 257.
Но общий счет скрывает настоящую историю.
Паттерн, который важнее счета
Посмотрите, где выигрывает каждая модель:
GPT-5.4 побеждает в:
- API endpoints (четко определенные, ограниченные задачи)
- React компоненты (boilerplate с ясными спецификациями)
- Написание тестов (всеобъемлющее покрытие по спецификации)
- DevOps скрипты (терминально-ориентированные, лаконичные результаты)
Claude Opus 4.6 побеждает в:
- SQL edge cases (отлов тонких багов в данных)
- Отладка (понимание первопричин в сложных системах)
- Code review (поиск проблем безопасности и корректности)
- Рефакторинг (обработка межфайловых зависимостей)
- Архитектура (глубокие рассуждения о компромиссах)
Паттерн ясен: GPT-5.4 — это более быстрая, дешевая и качественная модель для четко определенных задач кодинга. Claude Opus 4.6 — это более глубокая и внимательная модель для задач, требующих рассуждений в условиях сложности.
Это совпадает с тем, что обнаружил анализ DataCamp: GPT-5.4 — лучшая универсальная модель, в то время как Opus 4.6 превосходит именно в агентских и глубоких задачах программирования.
Фактор стоимости
Разрыв в баллах (9 очков) относительно невелик. Разрыв в стоимости — велик.
| Метрика | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| Цена input | $2.50/MTok | $15/MTok |
| Цена output | $15/MTok | $75/MTok |
| Скорость | 73.4 tok/s | 40.5 tok/s |
| Context window | 1M (надбавка >272K) | 1M (плоская цена) |
| Экономия Tool search | ~47% сокращение tokens | N/A |
Для этого теста из 10 задач общая стоимость API составила примерно $4.20 для GPT-5.4 и $31.50 для Opus 4.6. Это 7.5-кратная разница в стоимости при разрыве в качестве в 3.5%.
Для команды, выполняющей сотни задач по программированию с помощью AI в день, математика решительно говорит в пользу GPT-5.4 для большинства работ, оставляя Opus для высокоответственных 10-20% случаев, где глубина рассуждений имеет принципиальное значение.
Умная стратегия: используйте оба
Большинство практикующих разработчиков в 2026 году не выбирают одну модель — они выбирают, когда использовать каждую. Паттерн, выявленный в ходе этого теста, совпадает с тем, что мы используем в ZBuild:
Рабочая лошадка: GPT-5.4 (через Codex CLI или API)
- Написание новых endpoints, компонентов и скриптов
- Генерация тестов по спецификациям
- Быстрая отладка изолированных проблем
- Автоматизация DevOps и CI/CD
Тяжелая артиллерия: Claude Opus 4.6 (через Claude Code или API)
- Межфайловый рефакторинг со сложными зависимостями
- Проверка критически важного для безопасности кода
- Сессии по архитектурному дизайну
- Отладка неочевидных проблем в крупных кодовых базах
Этот подход с двумя моделями позволяет использовать 95% сильных сторон обеих моделей, сохраняя при этом расходы под контролем. Руководство Portkey по выбору между этими моделями рекомендует тот же гибридный подход.
Что говорят бенчмарки (для контекста)
Результаты по каждой задаче выше согласуются с официальными бенчмарками:
| Бенчмарк | GPT-5.4 | Opus 4.6 | Что измеряет |
|---|---|---|---|
| SWE-bench Verified | ~80% | 80.8% | Решение реальных GitHub issues |
| SWE-bench Pro | 57.7% | ~46% | Более сложные, строгие задачи кодинга |
| Terminal-bench 2.0 | 75.1% | 65.4% | Терминальные и системные задачи |
| HumanEval | 93.1% | 90.4% | Генерация кода на уровне функций |
| GPQA Diamond | 92.0-92.8% | 87.4-91.3% | Рассуждения экспертного уровня |
| ARC-AGI-2 | 73.3% | 68.8-69.2% | Новые типы рассуждений |
Источники: MindStudio benchmarks, Evolink analysis, Anthropic
GPT-5.4 лидирует в большинстве бенчмарков. Opus 4.6 лидирует в SWE-bench Verified — бенчмарке, наиболее тесно связанном с исправлением реальных багов, — что объясняет его преимущество в отладке и рефакторинге в моих тестах.
Вердикт
Если вы можете выбрать только одну модель: GPT-5.4. Она справляется с 80% задач программирования с тем же или лучшим качеством, стоит в 6-7 раз дешевле и работает на 80% быстрее. Те 20% задач, где Opus лучше (отладка, рефакторинг, архитектура), часто можно решить с помощью более детальных prompts в GPT-5.4.
Если вы можете использовать обе: Сделайте это. GPT-5.4 для повседневного кодинга, Opus 4.6 для сложной работы. Это не компромисс — это оптимальная стратегия.
Если стоимость не имеет значения и вы хотите максимального качества в каждой задаче: Claude Opus 4.6. Она набрала больше баллов в общем зачете, и её победы пришлись на те задачи, где качество важнее всего (баги стоят дороже, чем boilerplate).
Результаты оказались не такими, как я ожидал, потому что я предполагал, что более дорогая модель будет доминировать. Этого не произошло. У двух моделей действительно разные сильные стороны, и лучшая стратегия — знать, какая сила вам нужна для задачи, стоящей перед вами.
Источники
- OpenAI — Introducing GPT-5.4
- OpenAI — API Pricing
- Anthropic — Introducing Claude Opus 4.6
- Anthropic — Claude Pricing
- MindStudio — GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro Benchmarks
- MindStudio — Which AI Model Is Right for Your Workflow
- Portkey — GPT-5.4 vs Claude Opus 4.6 Guide
- DataCamp — GPT-5.4 vs Claude Opus 4.6 for Agentic Tasks
- Artificial Analysis — GPT-5.4 vs Claude Opus 4.6
- Bind AI — GPT-5.4 vs Claude Opus 4.6 for Coding
- Evolink — SWE-bench Verified 2026: Claude vs GPT
- DEV Community — ChatGPT vs Claude for Coding 2026
- Claude 5 — Opus 4.6 Benchmark Analysis