Сколько RAM мне нужно для локального запуска Gemma 4?

Gemma 4 E2B и E4B работают даже с 5GB RAM при 4-bit quantization — подойдет любой современный ноутбук. Модели 26B MoE требуется около 18GB RAM (помещается в 24GB VRAM видеокарты RTX 4090). Модели 31B Dense требуется около 20GB RAM. Для запуска только на CPU добавьте на 20-30% больше RAM, чем размер весов модели.

Какую модель Gemma 4 выбрать для локального использования?

Для ноутбуков без дискретной GPU: E2B (самая быстрая и легкая). Для ноутбуков с GPU или настольных ПК: E4B (лучшее качество, все еще легкая). Для ПК с RTX 4090 или аналогом: 26B MoE (лучшее соотношение качества и вычислительной мощности). Для рабочих станций с 24GB+ VRAM: 31B Dense (максимальное качество). 26B MoE — оптимальный выбор для большинства разработчиков.

Является ли использование Gemma 4 локально бесплатным?

Да. Gemma 4 выпущена под лицензией Apache 2.0, которая разрешает неограниченное использование, включая коммерческие приложения. Ollama также является бесплатным ПО с открытым исходным кодом. Единственные затраты — ваше оборудование. Никаких сборов за API, лимитов на использование или лицензионных ограничений.

Насколько быстро работает Gemma 4 локально по сравнению с облачными API?

На RTX 4090 Gemma 4 E4B генерирует 80-120 tokens per second. 26B MoE генерирует 30-50 tokens/sec. 31B Dense генерирует 20-35 tokens/sec. Облачные API, такие как Google AI Studio, могут быть быстрее для самых крупных моделей, но добавляют сетевую задержку 100-500ms на запрос. Для интерактивного использования локальный запуск малых моделей кажется мгновенным.

Могу ли я использовать Gemma 4 локально как API для моих приложений?

Да. Ollama предоставляет локальный REST API на порту 11434, который совместим с форматом OpenAI API. Любое приложение, фреймворк или инструмент, поддерживающий OpenAI API, может подключиться к локальной Gemma 4, указав base URL http://localhost:11434/v1. Это включает Python, Node.js и большинство AI-фреймворков.

Поддерживает ли Gemma 4 ускорение на GPU в Ollama?

Да. Ollama автоматически определяет и использует NVIDIA GPUs (CUDA), Apple Silicon (Metal) и AMD GPUs (ROCm). Никакой дополнительной настройки не требуется — если ваш GPU имеет достаточно VRAM для размещения модели, Ollama будет использовать его автоматически. NVIDIA также выпустила RTX-оптимизированные версии Gemma 4 для дополнительного прироста производительности.

Ключевой вывод

Запуск Gemma 4 локально занимает менее 5 минут с Ollama: установите Ollama, запустите одну команду, и у вас будет полностью функциональная модель AI, работающая на вашем собственном оборудовании с 0 затрат на API, 0 данных, покидающих вашу машину, и 0 ограничений по использованию под лицензией Apache 2.0. Модель E2B работает на любом ноутбуке. Модель 26B MoE помещается на одну RTX 4090 и обеспечивает качество, сопоставимое с моделями, количество активных параметров которых в 10 раз больше.

Запуск Gemma 4 локально: полное руководство

Почему стоит запускать Gemma 4 локально?

Прежде чем переходить к настройке, вот почему локальный инференс важен в 2026 году:

Конфиденциальность — Ваши данные никогда не покидают вашу машину. Промпты не отправляются на внешние серверы. Это критически важно для проприетарного кода, юридических документов, медицинских данных или любой конфиденциальной информации.
Стоимость — 0 затрат за token после разовых инвестиций в оборудование. Активные пользователи экономят сотни долларов в месяц по сравнению с ценами на API.
Задержка — Отсутствие сетевых задержек. Модели E2B и E4B отвечают за миллисекунды на современном оборудовании.
Надежность — Никаких лимитов API, никаких сбоев, никаких изменений в политике провайдеров. Ваша модель всегда доступна.
Настройка — Свободно выполняйте fine-tune, квантование и модификацию модели под лицензией Apache 2.0.
Оффлайн-доступ — Работает без интернет-соединения после загрузки модели.

Gemma 4 особенно хорошо подходит для локального развертывания, так как Google разработала модели меньшего размера специально для использования на edge-устройствах и локальном оборудовании. Модели E2B и E4B не являются второстепенными — это первоклассные модели, оптимизированные под ограничения локального железа.

Предварительные требования

Требования к оборудованию по моделям

Модель	Минимальная RAM	Рекомендуемая VRAM	Жизнеспособно только на CPU?	Место на диске
E2B (4-bit)	5 GB	4 GB	Да	~1.5 GB
E4B (4-bit)	5 GB	4 GB	Да	~2.8 GB
E4B (FP16)	9 GB	9 GB	Медленно	~9 GB
26B MoE (4-bit)	18 GB	16 GB	Очень медленно	~15 GB
26B MoE (FP16)	52 GB	48 GB	Нет	~52 GB
31B Dense (4-bit)	20 GB	18 GB	Очень медленно	~18 GB
31B Dense (FP16)	62 GB	48 GB+	Нет	~62 GB

Ключевой вывод: Если у вас есть ноутбук, выпущенный после 2022 года, вы можете запустить E2B или E4B. Если у вас RTX 4090 (24GB VRAM) или Apple M-series Mac с 32GB+ RAM, вы можете запустить 26B MoE или 31B Dense с квантованием 4-bit.

Программные требования

Операционная система: macOS, Linux или Windows
Ollama: Версия 0.6+ (скачать с ollama.com)
GPU драйверы (опционально): NVIDIA CUDA 12+ для NVIDIA GPUs, дополнительные драйверы не требуются для Apple Silicon

Шаг 1: Установка Ollama

macOS

Скачайте с ollama.com/download или используйте Homebrew:

brew install ollama

Linux

Скрипт установки в одну строку:

curl -fsSL https://ollama.com/install.sh | sh

Windows

Скачайте установщик с ollama.com/download и запустите его. Ollama работает как фоновая служба на Windows.

Проверка установки

ollama --version

Вы должны увидеть ollama version 0.6.x или выше. Если номер версии отображается, Ollama установлена правильно.

Источник: Руководство по установке Ollama

Шаг 2: Загрузка модели Gemma 4

Выберите модель, соответствующую вашему оборудованию:

Для ноутбуков и легких рабочих нагрузок

# Самая маленькая модель — работает на любом современном ноутбуке (5GB RAM)
ollama pull gemma4:e2b

# Маленькая модель с более широкими возможностями (5-9GB RAM)
ollama pull gemma4:e4b

Для настольных ПК с дискретной GPU

# Лучшая эффективность — флагманское качество при 3.8B активных параметров (18GB RAM)
ollama pull gemma4:26b-moe

# Самое высокое качество — полные 31B параметров (20GB RAM)
ollama pull gemma4:31b

Указание квантования

По умолчанию Ollama загружает рекомендуемое квантование для каждой модели (обычно Q4_K_M для хорошего баланса качества и размера). Вы можете указать другие варианты:

# Выше качество, больше размер
ollama pull gemma4:31b-q5_K_M

# Меньше размер, чуть ниже качество
ollama pull gemma4:31b-q3_K_M

# Полная точность (требует гораздо больше RAM)
ollama pull gemma4:31b-fp16

Загрузка займет несколько минут в зависимости от вашего интернет-соединения. Размер моделей варьируется от ~1.5GB (E2B 4-bit) до ~62GB (31B FP16).

Шаг 3: Запуск Gemma 4

Интерактивный чат

ollama run gemma4:e4b

Это откроет интерактивную сессию чата. Введите ваш запрос и нажмите Enter:

>>> What are the key differences between REST and GraphQL APIs?

Модель ответит прямо в вашем терминале. Введите /bye для выхода.

Одиночный запрос (не интерактивный)

echo "Explain the Builder design pattern in Python with an example" | ollama run gemma4:26b-moe

С режимом размышления (Thinking Mode)

Gemma 4 поддерживает настраиваемый режим размышления для сложных задач. Включите его, добавив системный промпт:

ollama run gemma4:31b --system "Think step by step before answering. Show your reasoning process."

Для задач по математике, логике и сложному анализу режим размышления значительно улучшает качество ответов. Модель сгенерирует 4,000+ tokens внутреннего рассуждения перед выдачей финального ответа.

Шаг 4: Использование локального API

Ollama предоставляет REST API на localhost:11434, который совместим с форматом API OpenAI. Это означает, что любой инструмент или библиотека, поддерживающая API OpenAI, может подключиться к вашей локальной Gemma 4 простым изменением URL.

Тестирование API с помощью curl

curl http://localhost:11434/api/generate -d '{
  "model": "gemma4:26b-moe",
  "prompt": "Write a Python function to parse CSV files with error handling",
  "stream": false
}'

Эндпоинт, совместимый с OpenAI

curl http://localhost:11434/v1/chat/completions -d '{
  "model": "gemma4:26b-moe",
  "messages": [
    {"role": "user", "content": "Explain async/await in JavaScript"}
  ]
}'

Источник: Документация API Ollama

Шаг 5: Интеграция в ваше приложение

Python

import requests

def ask_gemma(prompt, model="gemma4:26b-moe"):
    response = requests.post(
        "http://localhost:11434/api/generate",
        json={
            "model": model,
            "prompt": prompt,
            "stream": False
        }
    )
    return response.json()["response"]

# Usage
answer = ask_gemma("What is the time complexity of merge sort?")
print(answer)

Python с OpenAI SDK

from openai import OpenAI

# Point to local Ollama instead of OpenAI
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # Ollama doesn't require a real API key
)

response = client.chat.completions.create(
    model="gemma4:26b-moe",
    messages=[
        {"role": "system", "content": "You are a helpful coding assistant."},
        {"role": "user", "content": "Write a React hook for debounced search"}
    ]
)
print(response.choices[0].message.content)

Node.js / TypeScript

const response = await fetch("http://localhost:11434/v1/chat/completions", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "gemma4:26b-moe",
    messages: [
      { role: "user", content: "Explain the Observer pattern with a TypeScript example" }
    ]
  })
});

const data = await response.json();
console.log(data.choices[0].message.content);

Использование с LangChain

from langchain_community.llms import Ollama

llm = Ollama(model="gemma4:26b-moe")
response = llm.invoke("Summarize the key principles of clean architecture")
print(response)

Использование с LlamaIndex

from llama_index.llms.ollama import Ollama

llm = Ollama(model="gemma4:26b-moe", request_timeout=120.0)
response = llm.complete("What are the SOLID principles in software engineering?")
print(response)

Объяснение вариантов квантования

Квантование уменьшает размер модели и использование памяти за счет использования чисел с более низкой точностью для представления весов модели. Компромисс заключается в балансе между качеством и использованием ресурсов:

Квантование	Бит на вес	Влияние на качество	Экономия памяти	Лучше всего для
FP16	16 bits	Нет (полное качество)	Базовая линия	Серверы с большим объемом VRAM
Q8_0	8 bits	Незначительное	~50%	Высококачественный локальный инференс
Q6_K	6 bits	Очень незначительное	~62%	Локальное использование с упором на качество
Q5_K_M	5 bits	Незначительное	~69%	Хороший баланс
Q4_K_M	4 bits	Небольшое	~75%	Рекомендуемый стандарт
Q3_K_M	3 bits	Умеренное	~81%	Ограниченное оборудование
Q2_K	2 bits	Значительное	~87%	Экстремальные ограничения

Q4_K_M — это "золотая середина" для большинства пользователей. Разница в качестве по сравнению с FP16 достаточно мала, чтобы большинство задач давало неразличимые результаты, в то время как экономия памяти в 75% превращает модель из категории "нужен сервер" в категорию "работает на моем ноутбуке".

Выбор правильного квантования

Для Gemma 4 E2B/E4B: Используйте значение по умолчанию (Q4_K_M). Эти модели и так достаточно малы, поэтому более высокое квантование не меняет пользовательский опыт значимым образом.

Для Gemma 4 26B MoE: Q4_K_M помещается в 18GB RAM, что укладывается в 24GB VRAM видеокарты RTX 4090 с запасом для KV cache. Если у вас 48GB+ VRAM (A6000, две GPU), рассмотрите Q8_0 для немного лучшего качества.

Для Gemma 4 31B Dense: Q4_K_M при 20GB помещается в RTX 4090 с небольшим запасом. Q5_K_M дает чуть лучшие результаты, но требует ~24GB, потребляя всю доступную VRAM. Если у вас 32GB+ VRAM (RTX 5090, A6000), стоит перейти на Q6_K или Q8_0.

Настройка производительности

Перенос вычислений на GPU (GPU Offloading)

Ollama автоматически переносит слои модели на GPU, если доступна VRAM. Если только часть модели помещается в VRAM, Ollama распределяет нагрузку между GPU и CPU. Вы можете управлять этим:

# Принудительно перенести все слои на GPU (ошибка при нехватке VRAM)
OLLAMA_NUM_GPU=999 ollama run gemma4:26b-moe

# Использовать только CPU (полезно для тестирования)
OLLAMA_NUM_GPU=0 ollama run gemma4:e4b

Конфигурация контекстного окна

По умолчанию Ollama использует контекстное окно в 2048 tokens для эффективности. Чтобы использовать полные возможности контекста Gemma 4:

# Установить контекстное окно в 32K tokens
ollama run gemma4:26b-moe --num-ctx 32768

# Установить контекстное окно в 128K tokens (требует больше RAM)
ollama run gemma4:26b-moe --num-ctx 131072

Важно: Большие контекстные окна потребляют больше RAM для KV cache. Окно в 128K на модели 31B может потребовать от 8 до 16GB дополнительной RAM помимо весов модели. Начните с 32K и увеличивайте только если того требует ваша задача.

Параллельные запросы

Ollama поддерживает обработку нескольких запросов одновременно:

# Разрешить до 4 параллельных запросов
OLLAMA_NUM_PARALLEL=4 ollama serve

Каждый параллельный запрос добавляет накладные расходы на память для своего KV cache. На GPU с 24GB, запускающем 26B MoE на Q4_K_M (~18GB), у вас есть примерно 6GB запаса — этого достаточно для 2-3 одновременных запросов с короткими контекстами.

Настройки Keep-Alive

По умолчанию Ollama держит модели загруженными в памяти в течение 5 минут после последнего запроса. Настройте это под свои нужды:

# Держать модель загруженной 1 час
OLLAMA_KEEP_ALIVE=3600 ollama serve

# Держать модель загруженной бесконечно
OLLAMA_KEEP_ALIVE=-1 ollama serve

# Выгружать сразу после каждого запроса (экономит память)
OLLAMA_KEEP_ALIVE=0 ollama serve

Оптимизация NVIDIA RTX

NVIDIA выпустила оптимизированные сборки Gemma 4 для RTX GPU. Эти оптимизации включают:

Кастомные ядра CUDA для механизма attention в Gemma 4
Интеграция TensorRT-LLM для ускорения инференса
Поддержка Flash Attention для снижения потребления памяти при работе с длинным контекстом
Оптимизированное управление KV cache для лучшей пропускной способности

Установка NVIDIA-оптимизированной Gemma 4

Если у вас GPU серии RTX 4000 или 5000:

# Проверьте ваш GPU
nvidia-smi

# Загрузите NVIDIA-оптимизированную версию (если доступна в Ollama)
ollama pull gemma4:31b-nvidia

В качестве альтернативы используйте NVIDIA AI Workbench или TensorRT-LLM напрямую для максимальной производительности. Оптимизированные версии от NVIDIA могут обеспечить на 30-50% более быстрый инференс на RTX GPU по сравнению со стандартными сборками Ollama.

Реальные тесты производительности

Измерено на типичных конфигурациях оборудования:

Tokens в секунду (Скорость генерации)

Модель	RTX 4090 (24GB)	RTX 3090 (24GB)	M3 Max (36GB)	Только CPU (32GB)
E2B (Q4)	~150 tok/s	~120 tok/s	~100 tok/s	~30 tok/s
E4B (Q4)	~100 tok/s	~80 tok/s	~70 tok/s	~15 tok/s
26B MoE (Q4)	~40 tok/s	~30 tok/s	~25 tok/s	~3 tok/s
31B Dense (Q4)	~30 tok/s	~20 tok/s	~20 tok/s	~2 tok/s

Контекст: Скорость чтения человека составляет примерно 4-5 tokens в секунду. Любая модель, генерирующая более 10 tok/s, ощущается как "мгновенная" при интерактивном использовании. Модели E2B и E4B достаточно быстры для потоковой передачи в реальном времени практически на любом оборудовании.

Время до первого токена (Задержка)

Модель	RTX 4090	M3 Max	Только CPU
E2B	<100ms	<200ms	<500ms
E4B	<200ms	<300ms	~1s
26B MoE	~500ms	~1s	~5s
31B Dense	~800ms	~1.5s	~8s

Для интерактивных приложений время до первого токена важнее, чем общая скорость генерации. Модели E2B и E4B начинают генерацию почти мгновенно даже на CPU, что делает их идеальными для чат-интерфейсов реального времени.

Распространенные варианты использования

Локальный помощник по программированию

Используйте Gemma 4 как приватного помощника по коду, который никогда не отправляет ваш код на внешние серверы:

ollama run gemma4:26b-moe --system "You are an expert software engineer. When given code, analyze it for bugs, suggest improvements, and explain your reasoning. Be concise and practical."

Используйте это в паре с расширениями VS Code, такими как Continue или Twinny, которые поддерживают Ollama в качестве бэкенда.

Анализ документов

Обрабатывайте конфиденциальные документы локально:

echo "Analyze this contract clause and identify potential risks: [paste clause]" | ollama run gemma4:31b

С контекстом 256K модель 31B может обрабатывать документы объемом до ~750 страниц — этого достаточно для большинства контрактов, исследовательских работ и технической документации.

Локальный RAG (Retrieval-Augmented Generation)

Объедините Gemma 4 с локальной векторной базой данных для создания полностью приватной системы RAG:

from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma

# Use Gemma 4 for both embeddings and generation
embeddings = OllamaEmbeddings(model="gemma4:e4b")
llm = Ollama(model="gemma4:26b-moe")

# Create vector store from your documents
vectorstore = Chroma.from_documents(documents, embeddings)

# Query with RAG
retriever = vectorstore.as_retriever()
docs = retriever.get_relevant_documents("What is our refund policy?")
context = "\n".join([doc.page_content for doc in docs])
response = llm.invoke(f"Based on this context:\n{context}\n\nAnswer: What is our refund policy?")

Встраивание AI-функций в приложения

Для разработчиков, создающих приложения с AI-возможностями, запуск Gemma 4 локально через API Ollama — это кратчайший путь к рабочему прототипу. API, совместимый с OpenAI, означает, что вы можете начать с локальной Gemma 4 для разработки и переключиться на облачные API для продакшена без изменения кода приложения.

Платформы вроде ZBuild могут взять на себя инфраструктуру приложения — фронтенд, бэкенд, аутентификацию, базу данных — пока вы фокусируетесь на слое интеграции AI. Направьте AI-эндпоинт вашего приложения на localhost:11434 во время разработки и переключитесь на облачный эндпоинт, когда будете готовы к масштабированию.

Устранение неполадок

Ошибки "Out of memory"

Если вы видите ошибки памяти:

Попробуйте меньшее квантование: ollama pull gemma4:31b-q3_K_M
Уменьшите контекстное окно: --num-ctx 4096
Закройте другие приложения, использующие GPU
Переключитесь на модель меньшего размера: 26B MoE обеспечивает качество, близкое к 31B, при меньших затратах памяти

Низкая скорость генерации

Если генерация медленнее, чем ожидалось:

Проверьте использование GPU: nvidia-smi (должно быть высокое использование GPU)
Убедитесь, что модель полностью помещается в VRAM — частичный перенос на CPU работает значительно медленнее
Уменьшите --num-ctx, чтобы освободить VRAM для вычислений
Проверьте, не используют ли GPU другие процессы

Модель не найдена

Если ollama run gemma4:26b-moe выдает ошибку:

# Список доступных моделей
ollama list

# Поиск моделей Gemma 4
ollama search gemma4

# Загрузка конкретной модели
ollama pull gemma4:26b-moe

Отказ в соединении с API

Если приложения не могут подключиться к localhost:11434:

# Проверьте, запущена ли Ollama
ollama list

# Запустите сервер Ollama вручную
ollama serve

# Проверьте порт
curl http://localhost:11434/api/tags

Дерево принятия решений по выбору модели

Используйте это, чтобы быстро выбрать подходящую модель:

У вас есть дискретная GPU с 16GB+ VRAM?

Да → Вам нужно максимальное качество или максимальная эффективность?
- Максимальное качество → gemma4:31b (Q4_K_M, требуется 20GB)
- Максимальная эффективность → gemma4:26b-moe (Q4_K_M, требуется 18GB)
Нет → У вас есть 8GB+ RAM?
- Да → gemma4:e4b (Q4_K_M, лучшее качество)
- Нет → gemma4:e2b (Q4_K_M, работает на 5GB)

Для большинства разработчиков с современным десктопом или игровым ПК: Начните с gemma4:26b-moe. Она предлагает лучшее соотношение качества и ресурсов во всем семействе Gemma 4.

Что вы можете создать

Запуская Gemma 4 локально, вы получаете бесплатный AI-бэкенд для:

Чат-приложений с полной конфиденциальностью разговоров
Инструментов анализа кода, которые работают с проприетарными кодовыми базами
Конвейеров обработки документов для конфиденциальных данных
Локальных AI-ассистентов, работающих оффлайн
Прототипов AI-функций перед переходом на платные облачные API
Дообученных моделей для специфических задач (Apache 2.0 позволяет это свободно)

Лицензия Apache 2.0 означает, что всё, что вы создаете, принадлежит вам — никаких ограничений по использованию, никакого распределения доходов, никакого одобрения не требуется. Запускайте локально, развертывайте на своих серверах, встраивайте в свои продукты. Вот как выглядит по-настоящему открытый AI.

Запуск Gemma 4 локально за 5 минут: полное руководство по настройке Ollama (2026)