Ключевой вывод
Запуск Gemma 4 локально занимает менее 5 минут с Ollama: установите Ollama, запустите одну команду, и у вас будет полностью функциональная модель AI, работающая на вашем собственном оборудовании с 0 затрат на API, 0 данных, покидающих вашу машину, и 0 ограничений по использованию под лицензией Apache 2.0. Модель E2B работает на любом ноутбуке. Модель 26B MoE помещается на одну RTX 4090 и обеспечивает качество, сопоставимое с моделями, количество активных параметров которых в 10 раз больше.
Запуск Gemma 4 локально: полное руководство
Почему стоит запускать Gemma 4 локально?
Прежде чем переходить к настройке, вот почему локальный инференс важен в 2026 году:
- Конфиденциальность — Ваши данные никогда не покидают вашу машину. Промпты не отправляются на внешние серверы. Это критически важно для проприетарного кода, юридических документов, медицинских данных или любой конфиденциальной информации.
- Стоимость — 0 затрат за token после разовых инвестиций в оборудование. Активные пользователи экономят сотни долларов в месяц по сравнению с ценами на API.
- Задержка — Отсутствие сетевых задержек. Модели E2B и E4B отвечают за миллисекунды на современном оборудовании.
- Надежность — Никаких лимитов API, никаких сбоев, никаких изменений в политике провайдеров. Ваша модель всегда доступна.
- Настройка — Свободно выполняйте fine-tune, квантование и модификацию модели под лицензией Apache 2.0.
- Оффлайн-доступ — Работает без интернет-соединения после загрузки модели.
Gemma 4 особенно хорошо подходит для локального развертывания, так как Google разработала модели меньшего размера специально для использования на edge-устройствах и локальном оборудовании. Модели E2B и E4B не являются второстепенными — это первоклассные модели, оптимизированные под ограничения локального железа.
Предварительные требования
Требования к оборудованию по моделям
| Модель | Минимальная RAM | Рекомендуемая VRAM | Жизнеспособно только на CPU? | Место на диске |
|---|---|---|---|---|
| E2B (4-bit) | 5 GB | 4 GB | Да | ~1.5 GB |
| E4B (4-bit) | 5 GB | 4 GB | Да | ~2.8 GB |
| E4B (FP16) | 9 GB | 9 GB | Медленно | ~9 GB |
| 26B MoE (4-bit) | 18 GB | 16 GB | Очень медленно | ~15 GB |
| 26B MoE (FP16) | 52 GB | 48 GB | Нет | ~52 GB |
| 31B Dense (4-bit) | 20 GB | 18 GB | Очень медленно | ~18 GB |
| 31B Dense (FP16) | 62 GB | 48 GB+ | Нет | ~62 GB |
Ключевой вывод: Если у вас есть ноутбук, выпущенный после 2022 года, вы можете запустить E2B или E4B. Если у вас RTX 4090 (24GB VRAM) или Apple M-series Mac с 32GB+ RAM, вы можете запустить 26B MoE или 31B Dense с квантованием 4-bit.
Программные требования
- Операционная система: macOS, Linux или Windows
- Ollama: Версия 0.6+ (скачать с ollama.com)
- GPU драйверы (опционально): NVIDIA CUDA 12+ для NVIDIA GPUs, дополнительные драйверы не требуются для Apple Silicon
Шаг 1: Установка Ollama
macOS
Скачайте с ollama.com/download или используйте Homebrew:
brew install ollama
Linux
Скрипт установки в одну строку:
curl -fsSL https://ollama.com/install.sh | sh
Windows
Скачайте установщик с ollama.com/download и запустите его. Ollama работает как фоновая служба на Windows.
Проверка установки
ollama --version
Вы должны увидеть ollama version 0.6.x или выше. Если номер версии отображается, Ollama установлена правильно.
Источник: Руководство по установке Ollama
Шаг 2: Загрузка модели Gemma 4
Выберите модель, соответствующую вашему оборудованию:
Для ноутбуков и легких рабочих нагрузок
# Самая маленькая модель — работает на любом современном ноутбуке (5GB RAM)
ollama pull gemma4:e2b
# Маленькая модель с более широкими возможностями (5-9GB RAM)
ollama pull gemma4:e4b
Для настольных ПК с дискретной GPU
# Лучшая эффективность — флагманское качество при 3.8B активных параметров (18GB RAM)
ollama pull gemma4:26b-moe
# Самое высокое качество — полные 31B параметров (20GB RAM)
ollama pull gemma4:31b
Указание квантования
По умолчанию Ollama загружает рекомендуемое квантование для каждой модели (обычно Q4_K_M для хорошего баланса качества и размера). Вы можете указать другие варианты:
# Выше качество, больше размер
ollama pull gemma4:31b-q5_K_M
# Меньше размер, чуть ниже качество
ollama pull gemma4:31b-q3_K_M
# Полная точность (требует гораздо больше RAM)
ollama pull gemma4:31b-fp16
Загрузка займет несколько минут в зависимости от вашего интернет-соединения. Размер моделей варьируется от ~1.5GB (E2B 4-bit) до ~62GB (31B FP16).
Шаг 3: Запуск Gemma 4
Интерактивный чат
ollama run gemma4:e4b
Это откроет интерактивную сессию чата. Введите ваш запрос и нажмите Enter:
>>> What are the key differences between REST and GraphQL APIs?
Модель ответит прямо в вашем терминале. Введите /bye для выхода.
Одиночный запрос (не интерактивный)
echo "Explain the Builder design pattern in Python with an example" | ollama run gemma4:26b-moe
С режимом размышления (Thinking Mode)
Gemma 4 поддерживает настраиваемый режим размышления для сложных задач. Включите его, добавив системный промпт:
ollama run gemma4:31b --system "Think step by step before answering. Show your reasoning process."
Для задач по математике, логике и сложному анализу режим размышления значительно улучшает качество ответов. Модель сгенерирует 4,000+ tokens внутреннего рассуждения перед выдачей финального ответа.
Шаг 4: Использование локального API
Ollama предоставляет REST API на localhost:11434, который совместим с форматом API OpenAI. Это означает, что любой инструмент или библиотека, поддерживающая API OpenAI, может подключиться к вашей локальной Gemma 4 простым изменением URL.
Тестирование API с помощью curl
curl http://localhost:11434/api/generate -d '{
"model": "gemma4:26b-moe",
"prompt": "Write a Python function to parse CSV files with error handling",
"stream": false
}'
Эндпоинт, совместимый с OpenAI
curl http://localhost:11434/v1/chat/completions -d '{
"model": "gemma4:26b-moe",
"messages": [
{"role": "user", "content": "Explain async/await in JavaScript"}
]
}'
Источник: Документация API Ollama
Шаг 5: Интеграция в ваше приложение
Python
import requests
def ask_gemma(prompt, model="gemma4:26b-moe"):
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": model,
"prompt": prompt,
"stream": False
}
)
return response.json()["response"]
# Usage
answer = ask_gemma("What is the time complexity of merge sort?")
print(answer)
Python с OpenAI SDK
from openai import OpenAI
# Point to local Ollama instead of OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # Ollama doesn't require a real API key
)
response = client.chat.completions.create(
model="gemma4:26b-moe",
messages=[
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a React hook for debounced search"}
]
)
print(response.choices[0].message.content)
Node.js / TypeScript
const response = await fetch("http://localhost:11434/v1/chat/completions", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({
model: "gemma4:26b-moe",
messages: [
{ role: "user", content: "Explain the Observer pattern with a TypeScript example" }
]
})
});
const data = await response.json();
console.log(data.choices[0].message.content);
Использование с LangChain
from langchain_community.llms import Ollama
llm = Ollama(model="gemma4:26b-moe")
response = llm.invoke("Summarize the key principles of clean architecture")
print(response)
Использование с LlamaIndex
from llama_index.llms.ollama import Ollama
llm = Ollama(model="gemma4:26b-moe", request_timeout=120.0)
response = llm.complete("What are the SOLID principles in software engineering?")
print(response)
Объяснение вариантов квантования
Квантование уменьшает размер модели и использование памяти за счет использования чисел с более низкой точностью для представления весов модели. Компромисс заключается в балансе между качеством и использованием ресурсов:
| Квантование | Бит на вес | Влияние на качество | Экономия памяти | Лучше всего для |
|---|---|---|---|---|
| FP16 | 16 bits | Нет (полное качество) | Базовая линия | Серверы с большим объемом VRAM |
| Q8_0 | 8 bits | Незначительное | ~50% | Высококачественный локальный инференс |
| Q6_K | 6 bits | Очень незначительное | ~62% | Локальное использование с упором на качество |
| Q5_K_M | 5 bits | Незначительное | ~69% | Хороший баланс |
| Q4_K_M | 4 bits | Небольшое | ~75% | Рекомендуемый стандарт |
| Q3_K_M | 3 bits | Умеренное | ~81% | Ограниченное оборудование |
| Q2_K | 2 bits | Значительное | ~87% | Экстремальные ограничения |
Q4_K_M — это "золотая середина" для большинства пользователей. Разница в качестве по сравнению с FP16 достаточно мала, чтобы большинство задач давало неразличимые результаты, в то время как экономия памяти в 75% превращает модель из категории "нужен сервер" в категорию "работает на моем ноутбуке".
Выбор правильного квантования
Для Gemma 4 E2B/E4B: Используйте значение по умолчанию (Q4_K_M). Эти модели и так достаточно малы, поэтому более высокое квантование не меняет пользовательский опыт значимым образом.
Для Gemma 4 26B MoE: Q4_K_M помещается в 18GB RAM, что укладывается в 24GB VRAM видеокарты RTX 4090 с запасом для KV cache. Если у вас 48GB+ VRAM (A6000, две GPU), рассмотрите Q8_0 для немного лучшего качества.
Для Gemma 4 31B Dense: Q4_K_M при 20GB помещается в RTX 4090 с небольшим запасом. Q5_K_M дает чуть лучшие результаты, но требует ~24GB, потребляя всю доступную VRAM. Если у вас 32GB+ VRAM (RTX 5090, A6000), стоит перейти на Q6_K или Q8_0.
Настройка производительности
Перенос вычислений на GPU (GPU Offloading)
Ollama автоматически переносит слои модели на GPU, если доступна VRAM. Если только часть модели помещается в VRAM, Ollama распределяет нагрузку между GPU и CPU. Вы можете управлять этим:
# Принудительно перенести все слои на GPU (ошибка при нехватке VRAM)
OLLAMA_NUM_GPU=999 ollama run gemma4:26b-moe
# Использовать только CPU (полезно для тестирования)
OLLAMA_NUM_GPU=0 ollama run gemma4:e4b
Конфигурация контекстного окна
По умолчанию Ollama использует контекстное окно в 2048 tokens для эффективности. Чтобы использовать полные возможности контекста Gemma 4:
# Установить контекстное окно в 32K tokens
ollama run gemma4:26b-moe --num-ctx 32768
# Установить контекстное окно в 128K tokens (требует больше RAM)
ollama run gemma4:26b-moe --num-ctx 131072
Важно: Большие контекстные окна потребляют больше RAM для KV cache. Окно в 128K на модели 31B может потребовать от 8 до 16GB дополнительной RAM помимо весов модели. Начните с 32K и увеличивайте только если того требует ваша задача.
Параллельные запросы
Ollama поддерживает обработку нескольких запросов одновременно:
# Разрешить до 4 параллельных запросов
OLLAMA_NUM_PARALLEL=4 ollama serve
Каждый параллельный запрос добавляет накладные расходы на память для своего KV cache. На GPU с 24GB, запускающем 26B MoE на Q4_K_M (~18GB), у вас есть примерно 6GB запаса — этого достаточно для 2-3 одновременных запросов с короткими контекстами.
Настройки Keep-Alive
По умолчанию Ollama держит модели загруженными в памяти в течение 5 минут после последнего запроса. Настройте это под свои нужды:
# Держать модель загруженной 1 час
OLLAMA_KEEP_ALIVE=3600 ollama serve
# Держать модель загруженной бесконечно
OLLAMA_KEEP_ALIVE=-1 ollama serve
# Выгружать сразу после каждого запроса (экономит память)
OLLAMA_KEEP_ALIVE=0 ollama serve
Оптимизация NVIDIA RTX
NVIDIA выпустила оптимизированные сборки Gemma 4 для RTX GPU. Эти оптимизации включают:
- Кастомные ядра CUDA для механизма attention в Gemma 4
- Интеграция TensorRT-LLM для ускорения инференса
- Поддержка Flash Attention для снижения потребления памяти при работе с длинным контекстом
- Оптимизированное управление KV cache для лучшей пропускной способности
Установка NVIDIA-оптимизированной Gemma 4
Если у вас GPU серии RTX 4000 или 5000:
# Проверьте ваш GPU
nvidia-smi
# Загрузите NVIDIA-оптимизированную версию (если доступна в Ollama)
ollama pull gemma4:31b-nvidia
В качестве альтернативы используйте NVIDIA AI Workbench или TensorRT-LLM напрямую для максимальной производительности. Оптимизированные версии от NVIDIA могут обеспечить на 30-50% более быстрый инференс на RTX GPU по сравнению со стандартными сборками Ollama.
Реальные тесты производительности
Измерено на типичных конфигурациях оборудования:
Tokens в секунду (Скорость генерации)
| Модель | RTX 4090 (24GB) | RTX 3090 (24GB) | M3 Max (36GB) | Только CPU (32GB) |
|---|---|---|---|---|
| E2B (Q4) | ~150 tok/s | ~120 tok/s | ~100 tok/s | ~30 tok/s |
| E4B (Q4) | ~100 tok/s | ~80 tok/s | ~70 tok/s | ~15 tok/s |
| 26B MoE (Q4) | ~40 tok/s | ~30 tok/s | ~25 tok/s | ~3 tok/s |
| 31B Dense (Q4) | ~30 tok/s | ~20 tok/s | ~20 tok/s | ~2 tok/s |
Контекст: Скорость чтения человека составляет примерно 4-5 tokens в секунду. Любая модель, генерирующая более 10 tok/s, ощущается как "мгновенная" при интерактивном использовании. Модели E2B и E4B достаточно быстры для потоковой передачи в реальном времени практически на любом оборудовании.
Время до первого токена (Задержка)
| Модель | RTX 4090 | M3 Max | Только CPU |
|---|---|---|---|
| E2B | <100ms | <200ms | <500ms |
| E4B | <200ms | <300ms | ~1s |
| 26B MoE | ~500ms | ~1s | ~5s |
| 31B Dense | ~800ms | ~1.5s | ~8s |
Для интерактивных приложений время до первого токена важнее, чем общая скорость генерации. Модели E2B и E4B начинают генерацию почти мгновенно даже на CPU, что делает их идеальными для чат-интерфейсов реального времени.
Распространенные варианты использования
Локальный помощник по программированию
Используйте Gemma 4 как приватного помощника по коду, который никогда не отправляет ваш код на внешние серверы:
ollama run gemma4:26b-moe --system "You are an expert software engineer. When given code, analyze it for bugs, suggest improvements, and explain your reasoning. Be concise and practical."
Используйте это в паре с расширениями VS Code, такими как Continue или Twinny, которые поддерживают Ollama в качестве бэкенда.
Анализ документов
Обрабатывайте конфиденциальные документы локально:
echo "Analyze this contract clause and identify potential risks: [paste clause]" | ollama run gemma4:31b
С контекстом 256K модель 31B может обрабатывать документы объемом до ~750 страниц — этого достаточно для большинства контрактов, исследовательских работ и технической документации.
Локальный RAG (Retrieval-Augmented Generation)
Объедините Gemma 4 с локальной векторной базой данных для создания полностью приватной системы RAG:
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
# Use Gemma 4 for both embeddings and generation
embeddings = OllamaEmbeddings(model="gemma4:e4b")
llm = Ollama(model="gemma4:26b-moe")
# Create vector store from your documents
vectorstore = Chroma.from_documents(documents, embeddings)
# Query with RAG
retriever = vectorstore.as_retriever()
docs = retriever.get_relevant_documents("What is our refund policy?")
context = "\n".join([doc.page_content for doc in docs])
response = llm.invoke(f"Based on this context:\n{context}\n\nAnswer: What is our refund policy?")
Встраивание AI-функций в приложения
Для разработчиков, создающих приложения с AI-возможностями, запуск Gemma 4 локально через API Ollama — это кратчайший путь к рабочему прототипу. API, совместимый с OpenAI, означает, что вы можете начать с локальной Gemma 4 для разработки и переключиться на облачные API для продакшена без изменения кода приложения.
Платформы вроде ZBuild могут взять на себя инфраструктуру приложения — фронтенд, бэкенд, аутентификацию, базу данных — пока вы фокусируетесь на слое интеграции AI. Направьте AI-эндпоинт вашего приложения на localhost:11434 во время разработки и переключитесь на облачный эндпоинт, когда будете готовы к масштабированию.
Устранение неполадок
Ошибки "Out of memory"
Если вы видите ошибки памяти:
- Попробуйте меньшее квантование:
ollama pull gemma4:31b-q3_K_M - Уменьшите контекстное окно:
--num-ctx 4096 - Закройте другие приложения, использующие GPU
- Переключитесь на модель меньшего размера: 26B MoE обеспечивает качество, близкое к 31B, при меньших затратах памяти
Низкая скорость генерации
Если генерация медленнее, чем ожидалось:
- Проверьте использование GPU:
nvidia-smi(должно быть высокое использование GPU) - Убедитесь, что модель полностью помещается в VRAM — частичный перенос на CPU работает значительно медленнее
- Уменьшите
--num-ctx, чтобы освободить VRAM для вычислений - Проверьте, не используют ли GPU другие процессы
Модель не найдена
Если ollama run gemma4:26b-moe выдает ошибку:
# Список доступных моделей
ollama list
# Поиск моделей Gemma 4
ollama search gemma4
# Загрузка конкретной модели
ollama pull gemma4:26b-moe
Отказ в соединении с API
Если приложения не могут подключиться к localhost:11434:
# Проверьте, запущена ли Ollama
ollama list
# Запустите сервер Ollama вручную
ollama serve
# Проверьте порт
curl http://localhost:11434/api/tags
Дерево принятия решений по выбору модели
Используйте это, чтобы быстро выбрать подходящую модель:
У вас есть дискретная GPU с 16GB+ VRAM?
- Да → Вам нужно максимальное качество или максимальная эффективность?
- Максимальное качество →
gemma4:31b(Q4_K_M, требуется 20GB) - Максимальная эффективность →
gemma4:26b-moe(Q4_K_M, требуется 18GB)
- Максимальное качество →
- Нет → У вас есть 8GB+ RAM?
- Да →
gemma4:e4b(Q4_K_M, лучшее качество) - Нет →
gemma4:e2b(Q4_K_M, работает на 5GB)
- Да →
Для большинства разработчиков с современным десктопом или игровым ПК: Начните с gemma4:26b-moe. Она предлагает лучшее соотношение качества и ресурсов во всем семействе Gemma 4.
Что вы можете создать
Запуская Gemma 4 локально, вы получаете бесплатный AI-бэкенд для:
- Чат-приложений с полной конфиденциальностью разговоров
- Инструментов анализа кода, которые работают с проприетарными кодовыми базами
- Конвейеров обработки документов для конфиденциальных данных
- Локальных AI-ассистентов, работающих оффлайн
- Прототипов AI-функций перед переходом на платные облачные API
- Дообученных моделей для специфических задач (Apache 2.0 позволяет это свободно)
Лицензия Apache 2.0 означает, что всё, что вы создаете, принадлежит вам — никаких ограничений по использованию, никакого распределения доходов, никакого одобрения не требуется. Запускайте локально, развертывайте на своих серверах, встраивайте в свои продукты. Вот как выглядит по-настоящему открытый AI.
Источники
- Gemma 4 Announcement - Google Blog
- Gemma 4 on Ollama
- Ollama Installation Guide
- Ollama API Documentation
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 Hugging Face Models
- Continue.dev - Local AI Code Assistant
- LangChain Ollama Integration
- Google AI for Developers - Gemma