Что такое Google Gemma 4 и когда она была выпущена?

Google Gemma 4 — это семейство моделей с открытыми весами (open-weight) от Google DeepMind, выпущенное 2 апреля 2026 года. Оно включает 4 размера — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total) и 31B Dense. Все модели выпущены под лицензией Apache 2.0, самой разрешительной из когда-либо использовавшихся для релизов Gemma.

Является ли Gemma 4 действительно open source?

Да. Gemma 4 — это первое поколение Gemma, выпущенное под лицензией Apache 2.0, которая разрешает неограниченное коммерческое использование, модификацию и перераспространение без необходимости получения разрешения от Google. Предыдущие модели Gemma использовали кастомную лицензию Google Gemma, которая накладывала ограничения на использование.

Какой размер контекстного окна поддерживает Gemma 4?

Меньшие модели (E2B и E4B) поддерживают контекстное окно (context window) в 128K токенов. Более крупные модели (26B MoE и 31B Dense) поддерживают окно в 256K токенов. Это значительное улучшение по сравнению с лимитами контекста в Gemma 3, позволяющее обрабатывать целые кодовые базы или длинные документы в одном промпте.

Может ли Gemma 4 обрабатывать изображения, видео и аудио?

Да. Все четыре модели Gemma 4 являются нативно мультимодальными и поддерживают текстовые и визуальные входные данные. Модели E2B и E4B идут еще дальше, обладая нативными возможностями обработки видео и аудио. Это делает Gemma 4 первым семейством моделей с открытыми весами (open-weight), где даже самые маленькие модели имеют широчайшую поддержку модальностей.

Как работает режим мышления в Gemma 4?

Gemma 4 включает настраиваемый режим мышления (thinking mode), который генерирует более 4,000 токенов внутренних рассуждений перед выдачей ответа. Эту цепочку мыслей (chain-of-thought) можно включать или выключать для каждого запроса, позволяя разработчикам выбирать между быстрыми ответами для простых задач и глубоким анализом для сложных проблем, таких как математика, логика и программирование.

Какое оборудование нужно для локального запуска Gemma 4?

Gemma 4 E2B и E4B работают на устройствах с оперативной памятью от 5GB при использовании 4-bit quantization, включая смартфоны и ноутбуки. Модели 26B MoE требуется около 18GB RAM, а 31B Dense — около 20GB RAM. Все модели запускаются через Ollama с поддержкой оптимизации для NVIDIA RTX GPU.

Основной вывод

Google Gemma 4 — это самое мощное семейство моделей с открытыми весами из когда-либо выпущенных под по-настоящему разрешительной лицензией. Модель 31B Dense набирает 85.2% в MMLU Pro и занимает 3-е место среди всех открытых моделей на Arena AI, в то время как 26B MoE достигает почти идентичного качества, используя всего 3.8B активных параметров. Впервые Gemma поставляется под лицензией Apache 2.0, устраняя любые юридические препятствия, которые сдерживали коммерческое внедрение предыдущих поколений.

Google Gemma 4: Все, что вам нужно знать

Обзор релиза

Google DeepMind выпустила Gemma 4 April 2, 2026, представив четыре размера моделей, созданных на той же технологической основе, что и Gemini 3. Это поколение представляет собой самый большой скачок в семействе Gemma по всем измерениям: качество модели, мультимодальные возможности, длина контекста и условия лицензирования.

Ключевые изменения по сравнению с Gemma 3:

Лицензия Apache 2.0 — отсутствие ограничений на использование, никакой кастомной лицензии, полная коммерческая свобода.
Четыре размера моделей вместо трех, включая новую архитектуру MoE.
Нативная мультимодальная поддержка во всех размерах (текст, изображения, видео, аудио).
Настраиваемый режим размышления (thinking mode) с цепочками рассуждений длиной более 4,000 tokens.
Контекстное окно 256K в более крупных моделях (по сравнению с лимитами Gemma 3).
Поддержка более 35 языков, предварительное обучение на 140+ языках.
Структурированное использование инструментов (tool use) для агентных рабочих процессов.

Четыре размера моделей

Gemma 4 поставляется в четырех различных размерах, каждый из которых ориентирован на разные сценарии развертывания:

Модель	Параметры	Активные параметры	Архитектура	Контекст	Модальности
E2B	2.3B эффективных	2.3B	Dense	128K	Текст, Изображение, Видео, Аудио
E4B	4.5B эффективных	4.5B	Dense	128K	Текст, Изображение, Видео, Аудио
26B MoE	26B всего	3.8B	Mixture of Experts	256K	Текст, Изображение
31B Dense	31B	31B	Dense	256K	Текст, Изображение

Источник: Google AI Blog

E2B и E4B: Edge-модели

Самые маленькие модели Gemma 4 разработаны для развертывания непосредственно на устройствах. Имея 2.3B и 4.5B эффективных параметров соответственно, они работают на смартфонах, планшетах и ноутбуках, потребляя всего 5GB RAM при использовании 4-bit квантования.

Что делает эти модели примечательными, так это их широта модальностей. Несмотря на то, что они являются самыми маленькими в семействе, E2B и E4B — единственные модели Gemma 4, которые поддерживают все четыре входные модальности: текст, изображения, видео и аудио. Это осознанный выбор дизайна — устройства на периферии (edge devices) с камерами и микрофонами получают наибольшую выгоду от мультимодальных возможностей.

Обе модели поддерживают контекстное окно 128K tokens, что является щедрым показателем для их количества параметров и достаточным для большинства сценариев использования на устройствах.

26B MoE: Максимальная эффективность

Модель 26B Mixture of Experts, пожалуй, является самой интересной в линейке Gemma 4. Она содержит 26B параметров в общей сложности, но активирует только 3.8B параметров для любого конкретного входного сигнала — это примерно та же стоимость вычислений, что и у модели E4B, но с доступом к значительно большему объему знаний и возможностей.

На Arena AI модель 26B MoE занимает 6-е место среди всех открытых моделей с результатом 1441, несмотря на использование всего 3.8B активных параметров. Этот коэффициент эффективности беспрецедентен — ни одна другая модель не достигает сопоставимого качества при такой стоимости вычислений.

Архитектура MoE направляет каждый токен через специализированные экспертные подсети, что позволяет модели сохранять большую емкость знаний, сохраняя при этом низкую стоимость инференса. Для сценариев развертывания, где требуются сильные рассуждения, но память GPU ограничена, 26B MoE является оптимальным выбором.

31B Dense: Максимальное качество

Модель 31B Dense — это флагман Gemma 4. Каждый параметр активен для каждого токена, что обеспечивает наиболее стабильные и высококачественные результаты для всех типов задач.

На Arena AI 31B Dense занимает 3-е место среди всех открытых моделей с результатом 1452. В MMLU Pro она достигает 85.2%, что позволяет конкурировать с моделями, в несколько раз превышающими ее по размеру. Результат 89.2% на AIME 2026 демонстрирует сильные математические рассуждения, а 74% на BigBench Extra Hard (по сравнению с 19% в предыдущих поколениях) показывает колоссальное улучшение в задачах на сложные рассуждения.

Бенчмарки: Полные данные

Рассуждения и знания

Бенчмарк	31B Dense	26B MoE	Примечания
MMLU Pro	85.2%	—	Знания уровня выпускника вуза
AIME 2026	89.2%	—	Соревновательная математика
BigBench Extra Hard	74%	—	Выше с 19% в пред. поколении
Arena AI Score	1452 (3-е)	1441 (6-е)	Рейтинги открытых моделей

Источник: технический отчет Google DeepMind

BigBench Extra Hard: Выдающийся результат

Скачок с 19% до 74% на BigBench Extra Hard заслуживает особого внимания. Этот бенчмарк тестирует сложные многошаговые рассуждения, логическую дедукцию и задачи, требующие подлинного понимания, а не просто сопоставления шаблонов. Улучшение на 55 процентных пунктов за одно поколение свидетельствует о фундаментальных достижениях в архитектуре рассуждений Gemma 4, а не просто о масштабировании.

Это улучшение, вероятно, связано с настраиваемым режимом размышления (thinking mode) и базовой технологией Gemini 3, на которой построена Gemma 4. Режим размышления генерирует расширенные цепочки рассуждений, которые помогают модели пошагово решать сложные задачи.

Контекст рейтингов Arena AI

Arena AI ранжирует модели на основе прямого сравнения предпочтений пользователей. Результат 31B Dense (1452) и 3-е место среди открытых моделей ставят ее выше многих моделей с существенно большим количеством параметров. Для контекста:

Модели, занимающие места выше, обычно имеют 70B+ параметров.
Результат 26B MoE (1441) при всего 3.8B активных параметров является прорывом в эффективности.
Обе модели значительно превосходят предыдущую Gemma 3 27B.

Мультимодальные возможности

Понимание изображений

Все четыре модели Gemma 4 обрабатывают изображения нативно. Возможности включают:

Описание и анализ изображений — детальное понимание визуального контента.
OCR и парсинг документов — извлечение текста из изображений, чеков, скриншотов.
Интерпретация графиков и диаграмм — понимание визуализации данных.
Визуальные рассуждения — ответы на вопросы, требующие понимания пространственных отношений.

Видео и аудио (только E2B/E4B)

Меньшие модели E2B и E4B добавляют нативную обработку видео и аудио:

Понимание видео — анализ видеоконтента без покадрового извлечения.
Транскрипция и понимание аудио — обработка речи и окружающих звуков.
Кросс-модальные рассуждения — ответы на вопросы, охватывающие текст, изображения, видео и аудио.

Этот выбор дизайна отражает фокус Google на развертывании на устройствах. Мобильные устройства записывают видео и аудио нативно, поэтому модели, разработанные для этих устройств, поддерживают эти модальности.

Настраиваемый режим размышления (Thinking Mode)

Gemma 4 представляет настраиваемый режим размышления (thinking mode), который генерирует более 4,000 tokens внутренних рассуждений перед выдачей ответа. Это похоже на возможности расширенного мышления, представленные в моделях Claude и o-series от OpenAI, но реализованное в модели с открытыми весами.

Как это работает

Когда режим размышления включен, модель:

Получает входной промпт.
Генерирует внутреннюю цепочку рассуждений (видимую или скрытую, в зависимости от конфигурации).
Использует цепочку рассуждений для создания более качественного итогового ответа.

Режим размышления можно переключать для каждого запроса, что позволяет разработчикам:

Включать размышление для сложных задач по математике, логике, кодингу и анализу.
Выключать размышление для простых запросов, чата и приложений, чувствительных к задержкам.
Настраивать глубину размышления в зависимости от ожидаемой сложности задачи.

Влияние на качество

Режим размышления является основным драйвером высоких показателей Gemma 4 в бенчмарках. Результат 89.2% в AIME 2026 и 74% в BigBench Extra Hard достигнуты именно с включенным режимом размышления. Без него эти показатели были бы заметно ниже — аналогично паттерну, наблюдаемому в других моделях с возможностями расширенного мышления.

Apache 2.0: Почему смена лицензии важна

Предыдущие поколения Gemma поставлялись под кастомной лицензией Google, которая включала ограничения на:

Использование в определенных приложениях.
Условия перераспространения.
Ограничения коммерческого развертывания при крупномасштабном использовании.

Gemma 4 переходит на Apache 2.0, ту же лицензию, которую используют такие проекты, как Kubernetes, TensorFlow и Apache HTTP Server. Это означает:

Никаких ограничений на использование — используйте для чего угодно, включая коммерческие продукты.
Никаких ограничений на перераспространение — свободно делитесь модифицированными весами.
Никаких требований к указанию авторства, кроме условий лицензии — стандартное уведомление Apache 2.0.
Никакого одобрения от Google не требуется — развертывайте на любом масштабе без разрешения.
Совместимость с другими open-source лицензиями — легкая интеграция в существующие проекты.

Для предприятий и стартапов, создающих продукты на базе открытых моделей, это устраняет необходимость в юридической проверке, которую требовала кастомная лицензия Gemma. Это также делает Gemma 4 напрямую сопоставимой с моделями Llama от Meta (которые используют свою кастомную лицензию с некоторыми ограничениями) и позиционирует ее как семейство высококачественных открытых моделей с самой разрешительной лицензией на рынке.

Языковая поддержка

Gemma 4 поддерживает более 35 языков для инференса и была предварительно обучена на 140+ языках. Это делает ее одной из самых мультиязычных открытых моделей, наряду с моделями Qwen, которые также делают упор на широкий языковой охват.

Поддерживаемые языки включают основные мировые языки (английский, китайский, испанский, французский, немецкий, японский, корейский, арабский, хинди, португальский, русский), а также многие языки с меньшим цифровым следом. Предварительное обучение на 140+ языках означает, что модель обладает определенными способностями и в языках помимо официально поддерживаемых 35, хотя качество может варьироваться.

Для приложений, ориентированных на глобальную аудиторию или неанглоговорящие рынки, такая широкая поддержка языков снижает потребность в специализированной тонкой настройке (fine-tuning) или отдельных моделях для каждого языка.

Структурированное использование инструментов и агентные процессы

Gemma 4 включает нативную поддержку структурированного использования инструментов (tool use), что позволяет создавать агентные рабочие процессы, в которых модель может:

Вызывать внешние API с правильно отформатированными запросами.
Парсить структурированные ответы от инструментов и сервисов.
Объединять несколько вызовов инструментов для выполнения сложных задач.
Обрабатывать ошибки и повторные попытки при выполнении инструментов.

Эта возможность особенно актуальна для интеграции с Android Studio, где Gemma 4 обеспечивает локальные агентные процессы написания кода. Модель может понимать контекст кода, предлагать изменения, выполнять инструменты и итерировать — и все это локально на машине разработчика без отправки кода на внешние серверы.

Для разработчиков, создающих AI-агентов, структурированное использование инструментов в Gemma 4 обеспечивает полностью локальную и приватную основу. В сочетании с лицензией Apache 2.0 это позволяет создавать и развертывать агентные приложения без какой-либо зависимости от внешних поставщиков моделей.

Системные требования

Локальное развертывание через Ollama

Модель	Требуемая RAM (4-bit)	Требуемая RAM (FP16)	Рекомендация по GPU
E2B	~5 GB	~5 GB	Любой современный GPU / Только CPU
E4B	~5 GB	~9 GB	Любой современный GPU / Только CPU
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Источник: библиотека моделей Ollama

Модели E2B и E4B специально разработаны для развертывания на периферии. Они комфортно работают на ноутбуках, настольных процессорах и даже на некоторых смартфонах. Модели 26B MoE и 31B Dense требуют специализированного GPU, но остаются доступными для индивидуальных разработчиков с потребительскими видеокартами.

Оптимизация NVIDIA

NVIDIA выпустила оптимизированные версии Gemma 4 для GPU серии RTX, обеспечивающие:

Ускоренный инференс благодаря специфическим для GPU оптимизациям ядер.
Улучшенное использование памяти на картах серий RTX 4000 и 5000.
Интеграцию с TensorRT для производственного развертывания.
Поддержку CUDA graph для снижения накладных расходов при повторяющемся инференсе.

Источник: NVIDIA AI Blog

Что изменилось по сравнению с Gemma 3

Функция	Gemma 3	Gemma 4
Лицензия	Gemma License (ограниченная)	Apache 2.0 (неограниченная)
Размеры моделей	3 размера	4 размера (добавлена MoE)
Контекстное окно	До 128K	До 256K
Модальности	Текст, Изображение	Текст, Изображение, Видео, Аудио
Режим размышления	Нет	Да (настраиваемый)
Использование инструментов	Ограниченное	Структурированное использование
Языки	30+	35+ (обучена на 140+)
BigBench Extra Hard	19%	74%

Улучшения коснулись каждого аспекта. Наиболее значимыми изменениями для разработчиков являются лицензия Apache 2.0 (устраняет юридические трения), режим размышления (повышает качество на сложных задачах) и архитектура MoE (обеспечивает флагманское качество при малой стоимости вычислений).

Практические сценарии использования

Кодинг и разработка

Структурированное использование инструментов и режим размышления в Gemma 4 делают ее эффективной для:

Локального автодополнения и генерации кода.
Ревью кода и поиска багов.
Автоматической генерации тестов.
Написания документации.
Агентных процессов разработки в Android Studio.

Обработка документов

Благодаря контекстному окну 256K и мультимодальной поддержке:

Обработка целых кодовых баз или длинных документов в одном промпте.
Извлечение информации из изображений документов, чеков и форм.
Анализ графиков и визуализаций данных.
Саммаризация объемных научных статей или юридических документов.

Создание приложений на базе AI

Для разработчиков, создающих продукты с функциями AI, Gemma 4 предоставляет мощный слой инференса — как на устройстве, так и на собственном сервере. Модель берет на себя интеллектуальную часть — понимание запросов, генерацию ответов, обработку изображений — в то время как ваш фреймворк приложения управляет всем остальным. Инструменты, такие как ZBuild, могут ускорить создание оболочки приложения (фронтенд, бэкенд, база данных, деплой), позволяя вам сосредоточить усилия на интеграции AI, где возможности Gemma 4 наиболее важны.

Развертывание на Edge и Mobile

Модели E2B и E4B открывают сценарии использования, которые ранее были невозможны с открытыми моделями:

Ассистенты на устройствах, работающие офлайн.
Конфиденциальные функции AI, которые никогда не отправляют данные на внешние серверы.
Обработка видео и аудио в реальном времени на мобильных устройствах.
Встроенный AI в IoT и робототехнических приложениях.

Как начать работу

Ollama (самый быстрый путь)

# Установить Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Загрузить и запустить Gemma 4
ollama run gemma4:e2b      # Самая маленькая, работает везде
ollama run gemma4:e4b      # Маленькая, более широкие возможности
ollama run gemma4:26b-moe  # MoE, лучшая эффективность
ollama run gemma4:31b      # Dense, самое высокое качество

Hugging Face

Все модели Gemma 4 доступны на Hugging Face с полной интеграцией в transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google предоставляет бесплатный доступ к API Gemma 4 через AI Studio для экспериментов и прототипирования, а Vertex AI доступен для производственного развертывания.

Gemma 4 в конкурентной среде

Чтобы понять место Gemma 4 в более широкой экосистеме:

Модель	Параметры	Лицензия	MMLU Pro	Arena AI	Контекст
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B активных)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B активных)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B активных)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B активных)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B достигает самого высокого балла MMLU Pro и рейтинга Arena AI среди открытых моделей — при наименьшем общем количестве параметров. Такая эффективность использования параметров является прямым результатом технологической базы Gemini 3 и настраиваемого режима размышления.

История эффективности модели 26B MoE еще более впечатляющая. Она занимает 6-е место на Arena AI, активируя всего 3.8B параметров на токен. Ни одна другая модель не достигает сопоставимого соотношения качества к вычислениям. Для производственных развертываний, где стоимость инференса масштабируется вместе с использованием, эта эффективность напрямую конвертируется в экономию средств.

По сравнению с проприетарными моделями, бенчмарки Gemma 4 31B конкурентоспособны с предложениями среднего уровня от Anthropic и OpenAI. Хотя топовые проприетарные модели все еще лидируют в самых сложных задачах, разрыв резко сократился — при этом Gemma 4 обеспечивает нулевую стоимость за токен и полную свободу Apache 2.0.

Вердикт

Gemma 4 устанавливает новый стандарт для моделей с открытыми весами в 2026 году. Сочетание лицензии Apache 2.0, четырех четко дифференцированных размеров моделей, нативной мультимодальной поддержки, настраиваемого режима размышления и результатов бенчмарков, сопоставимых с гораздо более крупными моделями, делает ее самым практичным семейством открытых моделей на сегодняшний день.

31B Dense — правильный выбор, когда требуется максимальное качество. 26B MoE — оптимальный вариант, когда нужно высокое качество при минимальных затратах на вычисления. E2B и E4B идеально подходят для развертывания на периферии и AI на устройствах. Впервые в истории семейства Gemma лицензия не ограничивает ни один из этих сценариев использования.

Google Gemma 4: Полное руководство по характеристикам, бенчмаркам и нововведениям (2026)