Основной вывод
Ландшафт моделей AI с открытым исходным кодом в 2026 году представляет собой гонку трех участников: Gemma 4 от Google, Llama 4 от Meta и Qwen 3.5 от Alibaba. Каждое семейство доминирует в разных аспектах: Gemma 4 выигрывает в эффективности и лицензировании, Llama 4 лидирует в чистом масштабе и длине контекста, а Qwen 3.5 превосходит в мультиязычном охвате и разнообразии моделей. «Лучшая» модель полностью зависит от ваших ограничений при развертывании, целевых рынков и бюджета на оборудование.
Gemma 4 vs Llama 4 vs Qwen 3.5: Полное сравнение
Краткий обзор претендентов
Прежде чем переходить к деталям, взглянем на общую ситуацию:
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Разработчик | Google DeepMind | Meta | Alibaba Cloud |
| Дата выпуска | April 2, 2026 | April 2025 (Scout/Maverick) | Q1 2026 |
| Лицензия | Apache 2.0 | Meta Custom License | Apache 2.0 (большинство моделей) |
| Размеры моделей | E2B, E4B, 26B MoE, 31B Dense | Scout 109B, Maverick 400B | Множество (от 0.6B до 397B) |
| Макс. контекст | 256K | 10M (Scout) | 128K |
| Мультимодальность | Текст, Изображение, Видео, Аудио | Текст, Изображение | Текст, Изображение |
| Режим мышления | Да (настраиваемый) | Нет | Да (гибридный) |
Источник: Соответствующие анонсы моделей от Google, Meta и Alibaba
Размеры моделей и архитектура
Gemma 4: Четыре размера, две архитектуры
Gemma 4 предлагает наиболее дифференцированную линейку:
| Модель | Всего параметров | Активные параметры | Архитектура |
|---|---|---|---|
| E2B | 2.3B | 2.3B | Dense |
| E4B | 4.5B | 4.5B | Dense |
| 26B MoE | 26B | 3.8B | Mixture of Experts |
| 31B Dense | 31B | 31B | Dense |
Модель 26B MoE является выдающейся — она обеспечивает качество, близкое к флагманскому, активируя при этом всего 3.8B параметров на каждый token. Это означает, что она работает примерно с той же скоростью и затратами памяти, что и модель E4B, имея при этом доступ к 26B параметрам знаний. На Arena AI она набирает 1441 балл и занимает 6-е место среди открытых моделей, несмотря на минимальные требования к вычислительным ресурсам.
Llama 4: Две массивные модели
Meta в Llama 4 придерживается противоположного подхода — меньше моделей, но гораздо большего размера:
| Модель | Всего параметров | Активные параметры | Архитектура |
|---|---|---|---|
| Scout | 109B | ~17B | Mixture of Experts (16 экспертов) |
| Maverick | 400B | ~17B | Mixture of Experts (128 экспертов) |
Обе модели Llama 4 используют архитектуру MoE. Scout активирует примерно 17B параметров на token из пула в 109B. Maverick активирует аналогичное количество из 400B общих параметров, используя 128 экспертов для большей емкости знаний. Ключевой компромисс: даже при эффективности MoE, этим моделям требуется значительно больше памяти для хранения полного набора параметров.
Определяющей особенностью Llama 4 Scout является окно контекста в 10 миллионов tokens — самое длинное среди всех крупных открытых моделей. Это позволяет обрабатывать целые кодовые базы, длинные транскрипты видео или массивные коллекции документов в одном prompt.
Qwen 3.5: Самый широкий диапазон
Семейство Qwen 3.5 от Alibaba предлагает наибольшее количество размеров моделей:
| Модель | Параметры | Архитектура |
|---|---|---|
| Qwen 3.5 0.6B | 0.6B | Dense |
| Qwen 3.5 1.7B | 1.7B | Dense |
| Qwen 3.5 4B | 4B | Dense |
| Qwen 3.5 8B | 8B | Dense |
| Qwen 3.5 14B | 14B | Dense |
| Qwen 3.5 32B | 32B | Dense |
| Qwen 3.5 72B | 72B | Dense |
| Qwen 3.5 MoE (A22B) | 397B | Mixture of Experts |
Qwen 3.5 заполняет каждую нишу по количеству параметров. Модель 0.6B работает практически на любом устройстве. Модель 397B MoE соответствует Llama 4 Maverick по общему количеству параметров. Такая широта означает, что всегда найдется модель Qwen, которая точно соответствует вашим аппаратным ограничениям.
Qwen 3.5 также предлагает гибридный режим мышления, позволяющий пользователям переключаться между быстрыми ответами и глубокими рассуждениями внутри одной и той же модели — аналогично настраиваемому режиму мышления в Gemma 4.
Сравнение бенчмарков
Рассуждение и знания
| Бенчмарк | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B | Qwen 3.5 MoE |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 79.6% | 81.4% | 83.1% |
| AIME 2026 | 89.2% | — | 79.8% | 85.6% |
| BigBench Extra Hard | 74% | — | 62% | 68% |
| Arena AI Score | 1452 (3-е место) | 1417 | 1438 | 1449 |
Источники: Arena AI, соответствующие технические отчеты
Gemma 4 31B лидирует в бенчмарках на рассуждение, что примечательно, учитывая, что это самая маленькая флагманская модель в этом сравнении (31B против 400B против 72B/397B). Режим мышления играет здесь важную роль — Gemma 4 с включенным мышлением превосходит другие модели в задачах, требующих пошаговых логических выводов.
Производительность с поправкой на эффективность
Чистые результаты бенчмарков не дают полной картины. Если учесть активные параметры — вычислительную стоимость одного token — ситуация меняется:
| Модель | Arena AI Score | Активные параметры | Баллы на 1B активных |
|---|---|---|---|
| Gemma 4 26B MoE | 1441 | 3.8B | 379 |
| Gemma 4 31B | 1452 | 31B | 47 |
| Llama 4 Maverick | 1417 | ~17B | 83 |
| Llama 4 Scout | ~1400 | ~17B | 82 |
| Qwen 3.5 72B | 1438 | 72B | 20 |
| Qwen 3.5 MoE | 1449 | ~22B | 66 |
Gemma 4 26B MoE доминирует по эффективности. Она достигает оценки Arena AI 1441, активируя при этом всего 3.8B параметров — соотношение баллов к активным параметрам в 4-5 раз лучше, чем у конкурентов. Для сценариев развертывания, где стоимость вывода имеет значение (а это большинство производственных сценариев), такое преимущество в эффективности напрямую конвертируется в экономию средств.
Производительность в написании кода
| Бенчмарк | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B |
|---|---|---|---|
| HumanEval+ | 82.3% | 85.1% | 83.7% |
| LiveCodeBench | 46.8% | 51.2% | 49.5% |
| MultiPL-E (Python) | 79.4% | 83.6% | 81.2% |
Llama 4 Maverick немного опережает конкурентов в бенчмарках по кодингу в абсолютных показателях, что ожидаемо, учитывая преимущество в 400B параметров. Однако возможности структурированного использования инструментов и режим мышления Gemma 4 делают ее более практичной для агентских рабочих процессов разработки, где модели необходимо планировать, исполнять и итерировать, а не просто генерировать код за один проход.
Лицензирование: Скрытый решающий фактор
Для коммерческого развертывания лицензирование может быть важнее бенчмарков:
Gemma 4: Apache 2.0
- Нет ограничений по использованию — используйте для любых целей
- Нет порогов по количеству пользователей — никаких лимитов в зависимости от размера компании
- Полные права на модификацию — свободное изменение и перераспределение
- Стандартный юридический аудит — Apache 2.0 хорошо понятна юридическим отделам по всему миру
Llama 4: Meta Custom License
- Бесплатно для большинства видов коммерческого использования — но с условиями
- Ограничение 700M MAU — компании, превышающие 700 миллионов активных пользователей в месяц, должны запрашивать отдельную лицензию у Meta
- Политика допустимого использования — определенные варианты использования запрещены
- Кастомная лицензия — требуется юридический анализ для оценки конкретных требований к соблюдению
Qwen 3.5: Apache 2.0 (Большинство моделей)
- Apache 2.0 для большинства размеров моделей — та же свобода, что и у Gemma 4
- Некоторые более крупные модели могут иметь другие условия — уточняйте для каждой модели
- Стандартный юридический аудит — Apache 2.0 хорошо изучена
Для стартапов и предприятий разница в лицензировании существенна. Apache 2.0 (Gemma 4 и большинство моделей Qwen 3.5) не требует специального юридического аудита, помимо стандартного соблюдения норм open-source. Кастомная лицензия Meta требует детального рассмотрения порога в 700M MAU и политики допустимого использования. На практике порог 700M MAU затрагивает лишь горстку компаний в мире, но кастомная лицензия создает дополнительные сложности независимо от размера компании.
Мультимодальные возможности
| Возможность | Gemma 4 | Llama 4 | Qwen 3.5 |
|---|---|---|---|
| Текст | Все модели | Все модели | Все модели |
| Изображения | Все модели | Все модели | Большинство моделей |
| Видео | Только E2B, E4B | Нет | Нет |
| Аудио | Только E2B, E4B | Нет | Нет |
| Режим мышления | Да (настраиваемый) | Нет | Да (гибридный) |
Gemma 4 обладает самой широкой мультимодальной поддержкой. Тот факт, что возможности работы с видео и аудио доступны в самых маленьких моделях (E2B и E4B), а не в самых крупных, является примечательным дизайнерским решением, которое позволяет реализовать мультимодальный AI на устройствах.
Llama 4 поддерживает обработку текста и изображений в обеих моделях, но лишена нативной поддержки видео и аудио. Qwen 3.5 предлагает аналогичные возможности работы с текстом и изображениями без нативной обработки видео или аудио.
Окна контекста
| Модель | Окно контекста |
|---|---|
| Llama 4 Scout | 10,000,000 tokens |
| Gemma 4 31B/26B MoE | 256,000 tokens |
| Gemma 4 E2B/E4B | 128,000 tokens |
| Qwen 3.5 (большинство моделей) | 128,000 tokens |
| Llama 4 Maverick | 1,000,000 tokens |
Окно контекста в 10M tokens у Llama 4 Scout находится в отдельной категории. Оно примерно в 40 раз больше максимума Gemma 4 и позволяет реализовать сценарии использования, недоступные для других открытых моделей:
- Обработка целых крупных кодовых баз (миллионы строк) в одном prompt
- Анализ истории переписки за несколько лет для приложений обслуживания клиентов
- Обработка целых книг или коллекций научных работ
Однако использование окна контекста в 10M требует соответствующего оборудования. Объем памяти, необходимый для хранения KV cache для 10M tokens, огромен, что делает эту возможность практичной только на оборудовании серверного класса.
Для большинства приложений окон контекста Gemma 4 (256K) и Qwen 3.5 (128K) более чем достаточно. Окно в 256K может вместить примерно 750-1000 страниц текста или более 50,000 строк кода.
Требования к оборудованию
Локальный запуск
| Модель | RAM (4-bit) | RAM (FP16) | Доступно для потребителя? |
|---|---|---|---|
| Gemma 4 E2B | ~5 GB | ~5 GB | Да (ноутбук/телефон) |
| Gemma 4 E4B | ~5 GB | ~9 GB | Да (ноутбук) |
| Gemma 4 26B MoE | ~18 GB | ~52 GB | Да (RTX 4090) |
| Gemma 4 31B | ~20 GB | ~62 GB | Да (RTX 4090) |
| Qwen 3.5 8B | ~6 GB | ~16 GB | Да (ноутбук) |
| Qwen 3.5 32B | ~20 GB | ~64 GB | Да (RTX 4090) |
| Qwen 3.5 72B | ~42 GB | ~144 GB | Нет (серверная GPU) |
| Llama 4 Scout | ~70 GB | ~218 GB | Нет (сервер с несколькими GPU) |
| Llama 4 Maverick | ~250 GB | ~800 GB | Нет (кластер GPU) |
Для разработчиков, которые хотят запускать модели локально — на ноутбуке из соображений конфиденциальности или на одной GPU для экономии — Gemma 4 и небольшие модели Qwen 3.5 являются единственными практичными вариантами. Gemma 4 E2B и E4B работают практически на любом современном компьютере. Модели 26B MoE и 31B Dense помещаются на одну RTX 4090 или RTX 5090.
Модели Llama 4 по сути являются решениями серверного класса. Даже при агрессивной квантовании Scout требует систем с несколькими GPU, а Maverick — кластера GPU. Это ограничивает использование Llama 4 организациями с облачными бюджетами на вычисления или собственной инфраструктурой GPU.
Мультиязычная поддержка
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Поддерживаемые языки | 35+ | 12 | 29+ |
| Языки предварительного обучения | 140+ | — | 100+ |
| Качество CJK | Хорошее | Адекватное | Отличное |
| Арабский/Иврит | Хорошее | Адекватное | Хорошее |
| Малоресурсные языки | Умеренное | Ограниченное | Умеренное |
Qwen 3.5 — лучший выбор для приложений, ориентированных на азиатские рынки, особенно на китайский, японский и корейский языки. Данные для обучения Alibaba включают обширные объемы высококачественного текста CJK, что дает моделям Qwen измеримое преимущество в этих языках.
Gemma 4 предлагает самую широкую официальную языковую поддержку (35+ языков) с предварительным обучением на 140+ языках. Это обеспечивает достойное качество в широком диапазоне языков, делая ее самым универсальным выбором для глобальных приложений.
Поддержка 12 языков в Llama 4 является наиболее ограниченной. Хотя она охватывает самые популярные мировые языки, остаются значительные пробелы для приложений, ориентированных на рынки с менее распространенными языками.
Рекомендации по использованию
Выбирайте Gemma 4, когда:
- Вам нужна максимальная эффективность — 26B MoE обеспечивает флагманское качество при 3.8B активных параметрах
- Лицензирование имеет значение — Apache 2.0 без ограничений — самый простой путь к коммерческому развертыванию
- Вам нужен мультимодальный AI на периферии — E2B/E4B с поддержкой видео и аудио работают на потребительских устройствах
- Вы хотите настраиваемое мышление — Переключайтесь между быстрым и глубоким рассуждением для каждого запроса
- Вы строите агентские рабочие процессы — Структурированное использование инструментов встроено в модель
Выбирайте Llama 4, когда:
- Вам нужен максимальный контекст — 10M tokens в Scout не имеют аналогов
- Чистые баллы бенчмарков важнее всего — 400B параметров Maverick дают преимущество в некоторых тестах
- У вас есть оборудование серверного класса — Облачные развертывания, где стоимость GPU приемлема
- Вы находитесь в экосистеме Meta — Интеграция с инфраструктурой AI от Meta
- Вы не достигаете порога в 700M MAU — Что относится к 99.99% компаний
Выбирайте Qwen 3.5, когда:
- Вы ориентируетесь на азиатские рынки — Лучшее качество языков CJK среди открытых моделей
- Вам нужен конкретный размер модели — 8 размеров от 0.6B до 397B заполняют любую нишу
- Вы хотите гибридное мышление — Аналогично настраиваемому режиму мышления Gemma 4
- Вам нужны модели специально для кода — Варианты Qwen Code оптимизированы для программирования
- Вам нужен Apache 2.0 с большим выбором размеров — Большинство моделей используют Apache 2.0
Разработка приложений с открытыми моделями
Независимо от того, какую модель вы выберете, развертывание открытой модели в продакшене требует создания прикладного слоя вокруг нее — API эндпоинтов, пользовательских интерфейсов, аутентификации, хранения базы данных для диалогов и инфраструктуры развертывания.
Для команд, создающих продукты на базе AI, модель — это лишь часть целого. Платформы, такие как ZBuild, берут на себя «каркас» приложения — фронтенд, бэкенд, базу данных и развертывание — чтобы вы могли сосредоточить свои инженерные усилия на интеграции модели, prompt engineering и пользовательском опыте, которые выделяют ваш продукт.
Сравнение моделей наиболее важно на уровне интеграции. Грамотно построенное приложение может переключаться между Gemma 4, Llama 4 или Qwen 3.5 в зависимости от конкретной задачи — используя Gemma 4 MoE для запросов, чувствительных к эффективности, Llama 4 Scout для задач с длинным контекстом и Qwen 3.5 для контента на языках CJK.
Тонкая настройка и кастомизация
Все три семейства моделей поддерживают тонкую настройку, но практический опыт различается:
Gemma 4
- Поддержка LoRA и QLoRA для всех размеров
- Apache 2.0 означает отсутствие ограничений на распространение весов после тонкой настройки
- Доступны блокноты Google Colab для начала тонкой настройки на бесплатных GPU
- Интеграция с Keras через KerasNLP для высокоуровневых рабочих процессов настройки
- E2B и E4B настраиваются на одной потребительской GPU за считанные часы
Llama 4
- Поддержка LoRA и QLoRA через Hugging Face transformers
- Кастомная лицензия Meta распространяется на производные модели после настройки — ограничение 700M MAU сохраняется
- Большие размеры моделей означают, что тонкая настройка Scout (109B) или Maverick (400B) требует систем с несколькими GPU
- Torchtune от Meta предоставляет официальные рецепты тонкой настройки
Qwen 3.5
- Поддержка LoRA, QLoRA и полной тонкой настройки с подробной документацией
- Apache 2.0 для большинства моделей означает неограниченное распространение весов
- Широкий диапазон размеров позволяет настраивать модель 4B на ноутбуке или 72B на сервере
- Сильные данные для настройки на китайском/CJK доступны через экосистему Alibaba
Для большинства сценариев тонкой настройки Gemma 4 E4B или 26B MoE являются лучшей отправной точкой. Модели достаточно малы для настройки на потребительском оборудовании, достаточно мощны для получения высококачественных результатов и лицензированы достаточно свободно для развертывания где угодно.
Тренд на конвергенцию
Глядя на данные в целом, самым поразительным наблюдением является то, как быстро открытые модели догоняют по возможностям проприетарные. Результат Gemma 4 31B в MMLU Pro, равный 85.2%, находится на расстоянии вытянутой руки от проприетарных показателей Claude Sonnet 4.6 и GPT-5.4 — и все это при нулевой стоимости вывода, не считая оборудования.
Дифференциация между семействами открытых моделей смещается от вопроса «какая из них умнее» к вопросу «какая лучше соответствует вашим ограничениям при развертывании». Требования к оборудованию, условия лицензирования, мультимодальные возможности и языковая поддержка теперь значат столько же, сколько и чистые баллы бенчмарков.
Для большинства разработчиков и компаний в 2026 году вопрос больше не стоит «должен ли я использовать открытую модель?», а звучит так: «какая открытая модель подходит под мои конкретные нужды?» — и это признак того, насколько зрелой стала эта экосистема.
Вердикт
В 2026 году не существует единственной «лучшей» модели с открытым исходным кодом. Правильный выбор зависит от ваших специфических требований:
- Лучшая общая эффективность: Gemma 4 26B MoE — 3.8B активных параметров, 6-е место в рейтинге Arena AI, Apache 2.0
- Лучшее чистое качество (открытая модель): Gemma 4 31B Dense — 85.2% MMLU Pro, 3-е место в рейтинге Arena AI
- Лучшая для длинных документов: Llama 4 Scout — окно контекста 10M tokens
- Лучшая для азиатских языков: Qwen 3.5 — превосходная производительность в CJK
- Лучшая для потребительского оборудования: Gemma 4 E2B — 5GB RAM, работает на телефонах
- Самая разрешительная лицензия: Gemma 4 и Qwen 3.5 (Apache 2.0)
- Наибольшее количество вариантов размеров: Qwen 3.5 — 8 размеров от 0.6B до 397B
Если вам нужно выбрать только одно семейство и вы отдаете приоритет эффективности, лицензированию и мультимодальным возможностям, Gemma 4 является самым сильным универсальным выбором в апреле 2026 года.
Источники
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Llama 4 Announcement - Meta AI
- Llama 4 License
- Qwen 3.5 - Alibaba Cloud / Qwen Team
- Qwen 3.5 Technical Report
- Arena AI Open Model Rankings
- Gemma 4 on Ollama
- Open Source LLM Comparison 2026 - Artificial Analysis
- Gemma 4 vs Llama 4 Analysis - The Decoder
- Open Model Benchmark Aggregator - Hugging Face