Основной вывод
Google Gemma 4 — это самое мощное семейство моделей с открытыми весами из когда-либо выпущенных под по-настоящему разрешительной лицензией. Модель 31B Dense набирает 85.2% в MMLU Pro и занимает 3-е место среди всех открытых моделей на Arena AI, в то время как 26B MoE достигает почти идентичного качества, используя всего 3.8B активных параметров. Впервые Gemma поставляется под лицензией Apache 2.0, устраняя любые юридические препятствия, которые сдерживали коммерческое внедрение предыдущих поколений.
Google Gemma 4: Все, что вам нужно знать
Обзор релиза
Google DeepMind выпустила Gemma 4 April 2, 2026, представив четыре размера моделей, созданных на той же технологической основе, что и Gemini 3. Это поколение представляет собой самый большой скачок в семействе Gemma по всем измерениям: качество модели, мультимодальные возможности, длина контекста и условия лицензирования.
Ключевые изменения по сравнению с Gemma 3:
- Лицензия Apache 2.0 — отсутствие ограничений на использование, никакой кастомной лицензии, полная коммерческая свобода.
- Четыре размера моделей вместо трех, включая новую архитектуру MoE.
- Нативная мультимодальная поддержка во всех размерах (текст, изображения, видео, аудио).
- Настраиваемый режим размышления (thinking mode) с цепочками рассуждений длиной более 4,000 tokens.
- Контекстное окно 256K в более крупных моделях (по сравнению с лимитами Gemma 3).
- Поддержка более 35 языков, предварительное обучение на 140+ языках.
- Структурированное использование инструментов (tool use) для агентных рабочих процессов.
Четыре размера моделей
Gemma 4 поставляется в четырех различных размерах, каждый из которых ориентирован на разные сценарии развертывания:
| Модель | Параметры | Активные параметры | Архитектура | Контекст | Модальности |
|---|---|---|---|---|---|
| E2B | 2.3B эффективных | 2.3B | Dense | 128K | Текст, Изображение, Видео, Аудио |
| E4B | 4.5B эффективных | 4.5B | Dense | 128K | Текст, Изображение, Видео, Аудио |
| 26B MoE | 26B всего | 3.8B | Mixture of Experts | 256K | Текст, Изображение |
| 31B Dense | 31B | 31B | Dense | 256K | Текст, Изображение |
E2B и E4B: Edge-модели
Самые маленькие модели Gemma 4 разработаны для развертывания непосредственно на устройствах. Имея 2.3B и 4.5B эффективных параметров соответственно, они работают на смартфонах, планшетах и ноутбуках, потребляя всего 5GB RAM при использовании 4-bit квантования.
Что делает эти модели примечательными, так это их широта модальностей. Несмотря на то, что они являются самыми маленькими в семействе, E2B и E4B — единственные модели Gemma 4, которые поддерживают все четыре входные модальности: текст, изображения, видео и аудио. Это осознанный выбор дизайна — устройства на периферии (edge devices) с камерами и микрофонами получают наибольшую выгоду от мультимодальных возможностей.
Обе модели поддерживают контекстное окно 128K tokens, что является щедрым показателем для их количества параметров и достаточным для большинства сценариев использования на устройствах.
26B MoE: Максимальная эффективность
Модель 26B Mixture of Experts, пожалуй, является самой интересной в линейке Gemma 4. Она содержит 26B параметров в общей сложности, но активирует только 3.8B параметров для любого конкретного входного сигнала — это примерно та же стоимость вычислений, что и у модели E4B, но с доступом к значительно большему объему знаний и возможностей.
На Arena AI модель 26B MoE занимает 6-е место среди всех открытых моделей с результатом 1441, несмотря на использование всего 3.8B активных параметров. Этот коэффициент эффективности беспрецедентен — ни одна другая модель не достигает сопоставимого качества при такой стоимости вычислений.
Архитектура MoE направляет каждый токен через специализированные экспертные подсети, что позволяет модели сохранять большую емкость знаний, сохраняя при этом низкую стоимость инференса. Для сценариев развертывания, где требуются сильные рассуждения, но память GPU ограничена, 26B MoE является оптимальным выбором.
31B Dense: Максимальное качество
Модель 31B Dense — это флагман Gemma 4. Каждый параметр активен для каждого токена, что обеспечивает наиболее стабильные и высококачественные результаты для всех типов задач.
На Arena AI 31B Dense занимает 3-е место среди всех открытых моделей с результатом 1452. В MMLU Pro она достигает 85.2%, что позволяет конкурировать с моделями, в несколько раз превышающими ее по размеру. Результат 89.2% на AIME 2026 демонстрирует сильные математические рассуждения, а 74% на BigBench Extra Hard (по сравнению с 19% в предыдущих поколениях) показывает колоссальное улучшение в задачах на сложные рассуждения.
Бенчмарки: Полные данные
Рассуждения и знания
| Бенчмарк | 31B Dense | 26B MoE | Примечания |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Знания уровня выпускника вуза |
| AIME 2026 | 89.2% | — | Соревновательная математика |
| BigBench Extra Hard | 74% | — | Выше с 19% в пред. поколении |
| Arena AI Score | 1452 (3-е) | 1441 (6-е) | Рейтинги открытых моделей |
Источник: технический отчет Google DeepMind
BigBench Extra Hard: Выдающийся результат
Скачок с 19% до 74% на BigBench Extra Hard заслуживает особого внимания. Этот бенчмарк тестирует сложные многошаговые рассуждения, логическую дедукцию и задачи, требующие подлинного понимания, а не просто сопоставления шаблонов. Улучшение на 55 процентных пунктов за одно поколение свидетельствует о фундаментальных достижениях в архитектуре рассуждений Gemma 4, а не просто о масштабировании.
Это улучшение, вероятно, связано с настраиваемым режимом размышления (thinking mode) и базовой технологией Gemini 3, на которой построена Gemma 4. Режим размышления генерирует расширенные цепочки рассуждений, которые помогают модели пошагово решать сложные задачи.
Контекст рейтингов Arena AI
Arena AI ранжирует модели на основе прямого сравнения предпочтений пользователей. Результат 31B Dense (1452) и 3-е место среди открытых моделей ставят ее выше многих моделей с существенно большим количеством параметров. Для контекста:
- Модели, занимающие места выше, обычно имеют 70B+ параметров.
- Результат 26B MoE (1441) при всего 3.8B активных параметров является прорывом в эффективности.
- Обе модели значительно превосходят предыдущую Gemma 3 27B.
Мультимодальные возможности
Понимание изображений
Все четыре модели Gemma 4 обрабатывают изображения нативно. Возможности включают:
- Описание и анализ изображений — детальное понимание визуального контента.
- OCR и парсинг документов — извлечение текста из изображений, чеков, скриншотов.
- Интерпретация графиков и диаграмм — понимание визуализации данных.
- Визуальные рассуждения — ответы на вопросы, требующие понимания пространственных отношений.
Видео и аудио (только E2B/E4B)
Меньшие модели E2B и E4B добавляют нативную обработку видео и аудио:
- Понимание видео — анализ видеоконтента без покадрового извлечения.
- Транскрипция и понимание аудио — обработка речи и окружающих звуков.
- Кросс-модальные рассуждения — ответы на вопросы, охватывающие текст, изображения, видео и аудио.
Этот выбор дизайна отражает фокус Google на развертывании на устройствах. Мобильные устройства записывают видео и аудио нативно, поэтому модели, разработанные для этих устройств, поддерживают эти модальности.
Настраиваемый режим размышления (Thinking Mode)
Gemma 4 представляет настраиваемый режим размышления (thinking mode), который генерирует более 4,000 tokens внутренних рассуждений перед выдачей ответа. Это похоже на возможности расширенного мышления, представленные в моделях Claude и o-series от OpenAI, но реализованное в модели с открытыми весами.
Как это работает
Когда режим размышления включен, модель:
- Получает входной промпт.
- Генерирует внутреннюю цепочку рассуждений (видимую или скрытую, в зависимости от конфигурации).
- Использует цепочку рассуждений для создания более качественного итогового ответа.
Режим размышления можно переключать для каждого запроса, что позволяет разработчикам:
- Включать размышление для сложных задач по математике, логике, кодингу и анализу.
- Выключать размышление для простых запросов, чата и приложений, чувствительных к задержкам.
- Настраивать глубину размышления в зависимости от ожидаемой сложности задачи.
Влияние на качество
Режим размышления является основным драйвером высоких показателей Gemma 4 в бенчмарках. Результат 89.2% в AIME 2026 и 74% в BigBench Extra Hard достигнуты именно с включенным режимом размышления. Без него эти показатели были бы заметно ниже — аналогично паттерну, наблюдаемому в других моделях с возможностями расширенного мышления.
Apache 2.0: Почему смена лицензии важна
Предыдущие поколения Gemma поставлялись под кастомной лицензией Google, которая включала ограничения на:
- Использование в определенных приложениях.
- Условия перераспространения.
- Ограничения коммерческого развертывания при крупномасштабном использовании.
Gemma 4 переходит на Apache 2.0, ту же лицензию, которую используют такие проекты, как Kubernetes, TensorFlow и Apache HTTP Server. Это означает:
- Никаких ограничений на использование — используйте для чего угодно, включая коммерческие продукты.
- Никаких ограничений на перераспространение — свободно делитесь модифицированными весами.
- Никаких требований к указанию авторства, кроме условий лицензии — стандартное уведомление Apache 2.0.
- Никакого одобрения от Google не требуется — развертывайте на любом масштабе без разрешения.
- Совместимость с другими open-source лицензиями — легкая интеграция в существующие проекты.
Для предприятий и стартапов, создающих продукты на базе открытых моделей, это устраняет необходимость в юридической проверке, которую требовала кастомная лицензия Gemma. Это также делает Gemma 4 напрямую сопоставимой с моделями Llama от Meta (которые используют свою кастомную лицензию с некоторыми ограничениями) и позиционирует ее как семейство высококачественных открытых моделей с самой разрешительной лицензией на рынке.
Языковая поддержка
Gemma 4 поддерживает более 35 языков для инференса и была предварительно обучена на 140+ языках. Это делает ее одной из самых мультиязычных открытых моделей, наряду с моделями Qwen, которые также делают упор на широкий языковой охват.
Поддерживаемые языки включают основные мировые языки (английский, китайский, испанский, французский, немецкий, японский, корейский, арабский, хинди, португальский, русский), а также многие языки с меньшим цифровым следом. Предварительное обучение на 140+ языках означает, что модель обладает определенными способностями и в языках помимо официально поддерживаемых 35, хотя качество может варьироваться.
Для приложений, ориентированных на глобальную аудиторию или неанглоговорящие рынки, такая широкая поддержка языков снижает потребность в специализированной тонкой настройке (fine-tuning) или отдельных моделях для каждого языка.
Структурированное использование инструментов и агентные процессы
Gemma 4 включает нативную поддержку структурированного использования инструментов (tool use), что позволяет создавать агентные рабочие процессы, в которых модель может:
- Вызывать внешние API с правильно отформатированными запросами.
- Парсить структурированные ответы от инструментов и сервисов.
- Объединять несколько вызовов инструментов для выполнения сложных задач.
- Обрабатывать ошибки и повторные попытки при выполнении инструментов.
Эта возможность особенно актуальна для интеграции с Android Studio, где Gemma 4 обеспечивает локальные агентные процессы написания кода. Модель может понимать контекст кода, предлагать изменения, выполнять инструменты и итерировать — и все это локально на машине разработчика без отправки кода на внешние серверы.
Для разработчиков, создающих AI-агентов, структурированное использование инструментов в Gemma 4 обеспечивает полностью локальную и приватную основу. В сочетании с лицензией Apache 2.0 это позволяет создавать и развертывать агентные приложения без какой-либо зависимости от внешних поставщиков моделей.
Системные требования
Локальное развертывание через Ollama
| Модель | Требуемая RAM (4-bit) | Требуемая RAM (FP16) | Рекомендация по GPU |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Любой современный GPU / Только CPU |
| E4B | ~5 GB | ~9 GB | Любой современный GPU / Только CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
Источник: библиотека моделей Ollama
Модели E2B и E4B специально разработаны для развертывания на периферии. Они комфортно работают на ноутбуках, настольных процессорах и даже на некоторых смартфонах. Модели 26B MoE и 31B Dense требуют специализированного GPU, но остаются доступными для индивидуальных разработчиков с потребительскими видеокартами.
Оптимизация NVIDIA
NVIDIA выпустила оптимизированные версии Gemma 4 для GPU серии RTX, обеспечивающие:
- Ускоренный инференс благодаря специфическим для GPU оптимизациям ядер.
- Улучшенное использование памяти на картах серий RTX 4000 и 5000.
- Интеграцию с TensorRT для производственного развертывания.
- Поддержку CUDA graph для снижения накладных расходов при повторяющемся инференсе.
Что изменилось по сравнению с Gemma 3
| Функция | Gemma 3 | Gemma 4 |
|---|---|---|
| Лицензия | Gemma License (ограниченная) | Apache 2.0 (неограниченная) |
| Размеры моделей | 3 размера | 4 размера (добавлена MoE) |
| Контекстное окно | До 128K | До 256K |
| Модальности | Текст, Изображение | Текст, Изображение, Видео, Аудио |
| Режим размышления | Нет | Да (настраиваемый) |
| Использование инструментов | Ограниченное | Структурированное использование |
| Языки | 30+ | 35+ (обучена на 140+) |
| BigBench Extra Hard | 19% | 74% |
Улучшения коснулись каждого аспекта. Наиболее значимыми изменениями для разработчиков являются лицензия Apache 2.0 (устраняет юридические трения), режим размышления (повышает качество на сложных задачах) и архитектура MoE (обеспечивает флагманское качество при малой стоимости вычислений).
Практические сценарии использования
Кодинг и разработка
Структурированное использование инструментов и режим размышления в Gemma 4 делают ее эффективной для:
- Локального автодополнения и генерации кода.
- Ревью кода и поиска багов.
- Автоматической генерации тестов.
- Написания документации.
- Агентных процессов разработки в Android Studio.
Обработка документов
Благодаря контекстному окну 256K и мультимодальной поддержке:
- Обработка целых кодовых баз или длинных документов в одном промпте.
- Извлечение информации из изображений документов, чеков и форм.
- Анализ графиков и визуализаций данных.
- Саммаризация объемных научных статей или юридических документов.
Создание приложений на базе AI
Для разработчиков, создающих продукты с функциями AI, Gemma 4 предоставляет мощный слой инференса — как на устройстве, так и на собственном сервере. Модель берет на себя интеллектуальную часть — понимание запросов, генерацию ответов, обработку изображений — в то время как ваш фреймворк приложения управляет всем остальным. Инструменты, такие как ZBuild, могут ускорить создание оболочки приложения (фронтенд, бэкенд, база данных, деплой), позволяя вам сосредоточить усилия на интеграции AI, где возможности Gemma 4 наиболее важны.
Развертывание на Edge и Mobile
Модели E2B и E4B открывают сценарии использования, которые ранее были невозможны с открытыми моделями:
- Ассистенты на устройствах, работающие офлайн.
- Конфиденциальные функции AI, которые никогда не отправляют данные на внешние серверы.
- Обработка видео и аудио в реальном времени на мобильных устройствах.
- Встроенный AI в IoT и робототехнических приложениях.
Как начать работу
Ollama (самый быстрый путь)
# Установить Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Загрузить и запустить Gemma 4
ollama run gemma4:e2b # Самая маленькая, работает везде
ollama run gemma4:e4b # Маленькая, более широкие возможности
ollama run gemma4:26b-moe # MoE, лучшая эффективность
ollama run gemma4:31b # Dense, самое высокое качество
Hugging Face
Все модели Gemma 4 доступны на Hugging Face с полной интеграцией в transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google предоставляет бесплатный доступ к API Gemma 4 через AI Studio для экспериментов и прототипирования, а Vertex AI доступен для производственного развертывания.
Gemma 4 в конкурентной среде
Чтобы понять место Gemma 4 в более широкой экосистеме:
| Модель | Параметры | Лицензия | MMLU Pro | Arena AI | Контекст |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B активных) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B активных) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B активных) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B активных) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B достигает самого высокого балла MMLU Pro и рейтинга Arena AI среди открытых моделей — при наименьшем общем количестве параметров. Такая эффективность использования параметров является прямым результатом технологической базы Gemini 3 и настраиваемого режима размышления.
История эффективности модели 26B MoE еще более впечатляющая. Она занимает 6-е место на Arena AI, активируя всего 3.8B параметров на токен. Ни одна другая модель не достигает сопоставимого соотношения качества к вычислениям. Для производственных развертываний, где стоимость инференса масштабируется вместе с использованием, эта эффективность напрямую конвертируется в экономию средств.
По сравнению с проприетарными моделями, бенчмарки Gemma 4 31B конкурентоспособны с предложениями среднего уровня от Anthropic и OpenAI. Хотя топовые проприетарные модели все еще лидируют в самых сложных задачах, разрыв резко сократился — при этом Gemma 4 обеспечивает нулевую стоимость за токен и полную свободу Apache 2.0.
Вердикт
Gemma 4 устанавливает новый стандарт для моделей с открытыми весами в 2026 году. Сочетание лицензии Apache 2.0, четырех четко дифференцированных размеров моделей, нативной мультимодальной поддержки, настраиваемого режима размышления и результатов бенчмарков, сопоставимых с гораздо более крупными моделями, делает ее самым практичным семейством открытых моделей на сегодняшний день.
31B Dense — правильный выбор, когда требуется максимальное качество. 26B MoE — оптимальный вариант, когда нужно высокое качество при минимальных затратах на вычисления. E2B и E4B идеально подходят для развертывания на периферии и AI на устройствах. Впервые в истории семейства Gemma лицензия не ограничивает ни один из этих сценариев использования.
Источники
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers