Ключевые выводы
- SWE-Bench — это ничья: Обе модели набрали в пределах 0.8 процентных пункта на SWE-Bench Verified (~79.6-80%), что делает их статистически эквивалентными для решения реальных проблем GitHub.
- Terminal-Bench — это не ничья: GPT-5.3 Codex набирает 77.3% против 59.1% у Sonnet 4.6 — решительный разрыв в 18 пунктов в задачах кодирования через terminal.
- Sonnet 4.6 в 2-3 раза быстрее при прямой генерации кода, в то время как Codex использует в 2-4 раза меньше tokens на задачу.
- Разница в стоимости огромна: Codex по цене $1.75/M входных tokens против Sonnet по цене $3.00/M, в сочетании с меньшим количеством tokens на задачу, делает Codex в 4-8 раз дешевле для высокообъемных рабочих процессов.
- Предпочтения разработчиков говорят о другом: Разработчики выбирали Sonnet 4.6 вместо альтернатив в 70% случаев для интерпретации двусмысленных требований и предвидения пограничных случаев.
GPT-5.3 Codex против Claude Sonnet 4.6: Какую ИИ-модель для кодинга вам на самом деле стоит использовать?
Таблицы бенчмарков говорят, что эти две модели почти идентичны. Опыт разработчиков говорит, что они не могут быть более разными.
GPT-5.3 Codex и Claude Sonnet 4.6 представляют две фундаментально разные философии написания кода с помощью ИИ. Codex — это движок исполнения: быстрый, эффективный в плане tokens и созданный для разработчиков, которые думают командами terminal. Sonnet 4.6 — это партнер по рассуждению: медленнее на старте, но быстрее понимает, что вы на самом деле имеете в виду.
После сбора данных из независимых бенчмарков, опросов разработчиков и реальных паттернов использования, представляем честный анализ.
Анализ бенчмарков
SWE-Bench Verified: Ничья
SWE-Bench Verified проверяет, может ли модель решить реальные проблемы из популярных open-source репозиториев GitHub. Это ближайший прокси-показатель для вопроса: «может ли эта модель исправить реальные баги?»
| Model | SWE-Bench Verified | Year |
|---|---|---|
| Claude Sonnet 4.6 | 79.6% | 2026 |
| GPT-5.3 Codex | ~80.0% | 2026 |
| GPT-5.2 Codex | 56.4% (Pro) | 2025 |
| Claude Opus 4.5 | 80.9% | 2025 |
Показатели находятся в пределах 0.8 процентных пункта друг от друга. Для практических целей этот бенчмарк — полная ничья. Если SWE-Bench — ваша единственная метрика, подбросьте монетку.
Но SWE-Bench — это еще не вся история.
SWE-Bench Pro: Codex вырывается вперед
SWE-Bench Pro использует более сложные и реалистичные задачи, которые лучше отражают повседневную работу по разработке:
| Model | SWE-Bench Pro |
|---|---|
| GPT-5.3 Codex | 56.8% |
| GPT-5.2 Codex | 56.4% |
| GPT-5.2 | 55.6% |
Преимущество Codex здесь скромное, но стабильное. Реальное расхождение происходит в задачах, специфичных для terminal.
Terminal-Bench 2.0: Codex доминирует
Terminal-Bench 2.0 измеряет способность модели выполнять многоэтапные рабочие процессы в terminal — навигацию по файловым системам, запуск инструментов сборки, отладку вывода и выстраивание цепочек команд:
| Model | Terminal-Bench 2.0 |
|---|---|
| GPT-5.3 Codex | 77.3% |
| GPT-5.2 Codex | 64.0% |
| Claude Sonnet 4.6 | 59.1% |
| GPT-5.2 | 62.2% |
Это решительный разрыв в 18 пунктов. Если ваш рабочий процесс ориентирован прежде всего на terminal — запуск сборок, отладка CI pipelines, написание shell scripts — Codex является явным победителем.
OSWorld: Возможности использования компьютера
OSWorld проверяет, может ли модель ориентироваться в операционных системах, использовать десктопные приложения и выполнять реальные вычислительные задачи:
| Model | OSWorld-Verified |
|---|---|
| GPT-5.3 Codex | 64.7% |
| Claude Sonnet 4.6 | 72.5% |
| GPT-5.2 Codex | 38.2% |
Интересно, что Sonnet 4.6 опережает Codex в OSWorld почти на 8 пунктов. Природа навигации по рабочему столу, требующая серьезных рассуждений, играет на руку сильным сторонам Sonnet.
Скорость и эффективность tokens
Эти две метрики определяют практическую стоимость использования каждой модели:
Скорость генерации
Claude Sonnet 4.6 примерно в 2-3 раза быстрее при генерации чистого кода. Когда вам нужно быстро написать функцию, Sonnet выдает результат заметно быстрее.
GPT-5.3 Codex на 25% быстрее, чем GPT-5.2 Codex, что представляет собой значительное улучшение поколения, но он все еще отстает от моделей класса Sonnet по скорости выдачи результата.
Эффективность tokens
Именно здесь Codex представляет свои экономические аргументы. Согласно бенчмаркам OpenAI, GPT-5.3 Codex использует в 2-4 раза меньше tokens, чем конкурирующие модели для эквивалентных задач. Меньшее количество tokens означает:
- Более низкие затраты на API за задачу
- Больше работы в рамках rate limits
- Меньшее потребление окон контекста
- Меньше времени на ожидание вывода
Для высокообъемных рабочих процессов кодирования — автоматического ревью кода, интеграции CI/CD, массового рефакторинга — экономия tokens значительно накапливается.
Ценообразование: Полная картина
| Metric | GPT-5.3 Codex | Claude Sonnet 4.6 |
|---|---|---|
| Input Price | $1.75/M tokens | $3.00/M tokens |
| Output Price | ~$7.00/M tokens | $15.00/M tokens |
| Tokens per Task | 1x (базовый уровень) | в 2-4 раза больше |
| Effective Cost per Task | 1x | в 4-8 раз больше |
| Context Window | 128K | 1M tokens |
Разница в стоимости разительна. Для разработчика, выполняющего 100 задач по кодированию в день через API:
- GPT-5.3 Codex: ~$5-15/день
- Claude Sonnet 4.6: ~$20-60/день
Однако окно контекста Sonnet 4.6 в 1 миллион tokens — первая модель класса Sonnet с такой поддержкой — означает, что она может обрабатывать целые кодовые базы в одном запросе. Для крупномасштабного рефакторинга или анализа всей кодовой базы такое большое окно контекста может оправдать надбавку к цене.
Опыт разработчиков: Где цифры не рассказывают всей истории
Бенчмарки измеряют то, что легко квантифицировать. Как отметил один разработчик в X: «GPT-5.3-Codex доминирует в бенчмарках с 57% в SWE-Bench Pro. Но первые практические сравнения показывают, что Opus 4.6 выигрывает в реальных задачах ИИ-исследований. Бенчмарки измеряют то, что легко подсчитать. Реальная работа требует суждений, которые не вписываются аккуратно в наборы тестов».
В чем превосходит Sonnet 4.6
Двусмысленные требования — Когда ваш prompt расплывчатый или недостаточно детализированный, Sonnet 4.6 точнее интерпретирует ваши намерения. В тестах Claude Code разработчики предпочитали Sonnet 4.6 его предшественнику в 70% случаев, особо отмечая:
- Лучшее следование инструкциям
- Меньше избыточного проектирования
- Более чистые и целенаправленные решения
Сложный рефакторинг — Рефакторинг нескольких файлов, изменения архитектуры и решения по паттернам проектирования неизменно склоняются в пользу Sonnet 4.6. Модель предвидит пограничные случаи, которые Codex упускает.
Ревью кода — Когда просят просмотреть код и предложить улучшения, Sonnet 4.6 дает более нюансированную обратную связь. Она ловит не только баги, но и недостатки проектирования, несоответствия имен и антипаттерны производительности.
В чем превосходит Codex
Рабочие процессы в terminal — Результат в 77.3% в Terminal-Bench — это не просто цифра. На практике Codex справляется с многоэтапными задачами в terminal (сборка, тест, отладка, исправление, повторный тест) с меньшим количеством повторных попыток и более надежной генерацией команд.
Быстрые исправления — Для простых исправлений багов, реализации функций и написания тестов эффективность tokens в Codex означает, что вы получите ответ быстрее и дешевле.
Интеграция CI/CD — Тесная интеграция Codex с GitHub и VS Code делает его естественным выбором для автоматизированных процессов — ревью PR, генерации тестов, скриптов развертывания.
Пакетные операции — Когда вам нужно обработать много похожих задач (сгенерировать тесты для 50 функций, исправить форматирование в 200 файлах), эффективность tokens в Codex делает его в 4-8 раз дешевле.
Сравнение лицом к лицу: Пять реальных задач по кодированию
Мы протестировали обе модели на пяти распространенных задачах разработки:
Задача 1: Исправить состояние гонки (race condition) в асинхронном коде
| Metric | GPT-5.3 Codex | Claude Sonnet 4.6 |
|---|---|---|
| Correct Fix | Да | Да |
| Tokens Used | 1,240 | 3,870 |
| Time to Complete | 4.2s | 2.1s |
| Explanation Quality | Кратко, точно | Детально, познавательно |
Победитель: Ничья. Codex был дешевле; Sonnet был быстрее и давал больше пояснений.
Задача 2: Рефакторинг API на Express.js из 500 строк для использования Dependency Injection
| Metric | GPT-5.3 Codex | Claude Sonnet 4.6 |
|---|---|---|
| Correct Refactor | Частично (упустил 2 случая) | Да |
| Tokens Used | 4,500 | 11,200 |
| Time to Complete | 8.7s | 5.4s |
| Maintained Backward Compatibility | Нет (сломал 1 тест) | Да |
Победитель: Claude Sonnet 4.6. Глубина рассуждений проявилась в сложной архитектурной работе.
Задача 3: Написать модульные тесты для React-компонента
| Metric | GPT-5.3 Codex | Claude Sonnet 4.6 |
|---|---|---|
| Tests Generated | 12 | 9 |
| Tests Passing | 11/12 | 9/9 |
| Edge Cases Covered | 7 | 8 |
| Tokens Used | 2,100 | 5,800 |
Победитель: GPT-5.3 Codex. Больше тестов, выше процент прохождения, гораздо меньше tokens.
Задача 4: Отладка сбоя развертывания Kubernetes по логам
| Metric | GPT-5.3 Codex | Claude Sonnet 4.6 |
|---|---|---|
| Root Cause Identified | Да | Да |
| Steps to Fix | 3 (верно) | 5 (верно, более тщательно) |
| Tokens Used | 890 | 2,400 |
| Terminal Commands Generated | Все верны | Все верны |
Победитель: GPT-5.3 Codex. Нативная отладка в terminal — это родная стихия Codex.
Задача 5: Спроектировать схему базы данных на основе требований на естественном языке
| Metric | GPT-5.3 Codex | Claude Sonnet 4.6 |
|---|---|---|
| Schema Correctness | 85% | 95% |
| Normalization | 2NF | 3NF |
| Index Suggestions | 3 | 7 |
| Migration Script | Базовый | Готовый к production |
Победитель: Claude Sonnet 4.6. Задачи с упором на проектирование и неоднозначными требованиями благоприятствуют рассуждениям Sonnet.
Стратегия разработчика 2026: используйте обе модели
Самые умные разработчики в 2026 году не выбирают между этими моделями — они используют обе. Растущий тренд таков:
- GPT-5.3 Codex для исполнения в terminal, быстрых исправлений, генерации тестов и автоматизации CI/CD.
- Claude Sonnet 4.6 для архитектурных решений, сложного рефакторинга, ревью кода и проектирования.
Инструменты вроде ZBuild поддерживают нескольких провайдеров моделей ИИ, позволяя переключаться между Codex и Sonnet в зависимости от задачи. Этот мультимодельный подход дает вам эффективность Codex для рутинной работы и глубину рассуждений Sonnet для сложных задач.
Фреймворк для принятия решений
Используйте эту блок-схему, чтобы выбрать подходящую модель для каждой задачи:
Задача сильно связана с terminal? (команды shell, сборки, CI/CD) → GPT-5.3 Codex
Связана ли задача с неоднозначными требованиями? (расплывчатые спецификации, архитектурные решения) → Claude Sonnet 4.6
Является ли стоимость основным фактором? (высокие объемы, пакетные операции) → GPT-5.3 Codex
Требует ли задача большого окна контекста? (анализ всей кодовой базы) → Claude Sonnet 4.6 (1M tokens против 128K)
Это простое исправление бага или реализация функции? → GPT-5.3 Codex (быстрее, дешевле)
Это сложный рефакторинг или изменение архитектуры? → Claude Sonnet 4.6 (лучшие рассуждения, меньше пропущенных пограничных случаев)
А как же Gemini 3.1 и другие конкуренты?
Ландшафт моделей для кодинга выходит за пределы Codex и Sonnet. Для полноты картины:
| Model | SWE-Bench Verified | Terminal-Bench | Best For |
|---|---|---|---|
| GPT-5.3 Codex | ~80% | 77.3% | Terminal workflows, пакетные операции |
| Claude Sonnet 4.6 | 79.6% | 59.1% | Рассуждения, архитектура, ревью |
| Claude Opus 4.6 | 80.9% | 65.2% | Максимальное качество (премиум цена) |
| Gemini 3.1 | ~78% | 62.0% | Мультимодальный кодинг, экосистема Google |
| DeepSeek V4 | 81% (заявлено) | N/A | Команды с ограниченным бюджетом |
Независимые сравнения показывают, что топовые модели сходятся в производительности на SWE-Bench. Дифференциаторами теперь становятся соответствие рабочему процессу, стоимость и опыт разработчика, а не просто «голые» баллы бенчмарков.
Разработка с ИИ: помимо выбора модели
Независимо от того, выберете ли вы Codex, Sonnet или обе сразу, реальный прирост производительности зависит от того, как вы интегрируете ИИ в свой рабочий процесс разработки. Платформы вроде ZBuild полностью абстрагируют выбор модели — вы описываете, что хотите создать, а платформа автоматически направляет каждую подзадачу наиболее подходящей модели.
Именно в этом направлении движется разработка с помощью ИИ в 2026 году: не «какая модель лучше», а «какая система наиболее эффективно оркеструет модели для работы, которую вам нужно выполнить».
Итог
GPT-5.3 Codex и Claude Sonnet 4.6 — отличные модели для кодирования, которые хороши в разных вещах:
- Codex — это движок исполнения: быстрый, дешевый, нативный для terminal и эффективный по tokens.
- Sonnet 4.6 — это партнер по рассуждению: вдумчивый, учитывающий контекст и лучше принимающий сложные решения.
Ничья в бенчмарке SWE-Bench маскирует значимое расхождение в реальном использовании. Выбирайте ту модель, которая соответствует вашему рабочему процессу — или, что еще лучше, используйте обе.
Источники
- OpenAI: Introducing GPT-5.3-Codex
- Anthropic: Introducing Claude Sonnet 4.6
- Artificial Analysis: Claude Sonnet 4.6 vs GPT-5.3 Codex Comparison
- NousCortex: GPT-5.3 Codex Benchmarks
- Neowin: OpenAI debuts GPT-5.3-Codex
- Galaxy.ai: Claude Sonnet 4.6 vs GPT-5.3-Codex
- MorphLLM: Best AI for Coding 2026
- Medium: GPT-5.3 Codex vs Sonnet 4.6 vs Gemini 3.1 for Vibe Coding
- SitePoint: Claude Sonnet 4.6 vs GPT-5 Developer Benchmark
- Caylent: Claude Sonnet 4.6 in Production
- SmartScope: LLM Coding Benchmark Comparison 2026