Peamine järeldus
Gemma 4 lokaalne käivitamine võtab Ollama abil vähem kui 5 minutit: installi Ollama, käivita üks käsk ja sul on täielikult võimekas AI mudel, mis töötab sinu enda riistvaral ilma API kuludeta, andmete masinast lahkumiseta ja kasutuspiiranguteta Apache 2.0 litsentsi alusel. E2B mudel töötab igal sülearvutil. 26B MoE mudel mahub ühele RTX 4090 kaardile ja pakub kvaliteeti, mis konkureerib mudelitega, millel on 10x rohkem aktiivseid parameetreid.
Käivita Gemma 4 lokaalselt: Täielik juhend
Miks käivitada Gemma 4 lokaalselt?
Enne seadistamisse süvenemist on siin põhjused, miks lokaalne käitamine on 2026. aastal oluline:
- Privaatsus — Sinu andmed ei lahku kunagi sinu masinast. Ühtegi viipa (prompt) ei saadeta välistesse serveritesse. See on kriitiline konfidentsiaalse koodi, juriidiliste dokumentide, meditsiiniliste andmete või muu tundliku teabe puhul.
- Maksumus — Pärast ühekordset investeeringut riistvarasse on tokeni kulu null. Suurkasutajad säästavad sadu dollareid kuus võrreldes API hinnakirjadega.
- Viivitus — Puuduvad võrguühendusest tingitud viivitused. E2B ja E4B mudelid vastavad kaasaegsel riistvaral millisekunditega.
- Töökindlus — Puuduvad API kasutuspiirangud, teenusekatkestused või pakkujapoolsed poliitikamuudatused. Sinu mudel on alati saadaval.
- Kohandatavus — Peenhäälesta (fine-tune), kvandi (quantize) ja muuda mudelit vabalt Apache 2.0 litsentsi alusel.
- Võrguühenduseta juurdepääs — Pärast mudeli allalaadimist töötab see ilma internetiühenduseta.
Gemma 4 on lokaalseks kasutuselevõtuks eriti hästi sobiv, kuna Google disainis väiksemad mudelid spetsiaalselt seadmetes (edge) kasutamiseks. E2B ja E4B mudelid ei ole teisejärgulised — need on esmaklassilised mudelid, mis on optimeeritud lokaalse riistvara piirangutele.
Eeltingimused
Riistvaranõuded mudelite kaupa
| Mudel | Minimaalne RAM | Soovituslik VRAM | Kasutatav ainult CPU-ga? | Kettaruum |
|---|---|---|---|---|
| E2B (4-bit) | 5 GB | 4 GB | Jah | ~1.5 GB |
| E4B (4-bit) | 5 GB | 4 GB | Jah | ~2.8 GB |
| E4B (FP16) | 9 GB | 9 GB | Aeglane | ~9 GB |
| 26B MoE (4-bit) | 18 GB | 16 GB | Väga aeglane | ~15 GB |
| 26B MoE (FP16) | 52 GB | 48 GB | Ei | ~52 GB |
| 31B Dense (4-bit) | 20 GB | 18 GB | Väga aeglane | ~18 GB |
| 31B Dense (FP16) | 62 GB | 48 GB+ | Ei | ~62 GB |
Peamine järeldus: Kui sul on pärast 2022. aastat toodetud sülearvuti, saad käivitada E2B või E4B mudelit. Kui sul on RTX 4090 (24GB VRAM) või Apple M-seeria Mac 32GB+ RAM-iga, saad käivitada 26B MoE või 31B Dense mudelit 4-bit kvantimisega.
Tarkvaranõuded
- Operatsioonisüsteem: macOS, Linux või Windows
- Ollama: Versioon 0.6+ (laadi alla ollama.com)
- GPU draiverid (valikuline): NVIDIA CUDA 12+ NVIDIA GPU-de jaoks, Apple Silicon puhul täiendavaid draivereid vaja pole
1. samm: Installi Ollama
macOS
Laadi alla aadressilt ollama.com/download/mac või kasuta Homebrew:
brew install ollama
Linux
Üherealine installiskript:
curl -fsSL https://ollama.com/install.sh | sh
Windows
Laadi installiprogramm alla aadressilt ollama.com/download/windows ja käivita see. Ollama töötab Windowsis taustateenusena.
Kontrolli installatsiooni
ollama --version
Sa peaksid nägema ollama version 0.6.x või kõrgemat versiooni. Kui näed versiooninumbrit, on Ollama korrektselt installitud.
Allikas: Ollama installijuhend
2. samm: Tõmba Gemma 4 mudel
Vali mudel, mis vastab sinu riistvarale:
Sülearvutitele ja kergetele töökoormustele
# Väikseim mudel — töötab igal kaasaegsel sülearvutil (5GB RAM)
ollama pull gemma4:e2b
# Väike mudel laiema võimekusega (5-9GB RAM)
ollama pull gemma4:e4b
Eraldiseisva GPU-ga lauaarvutitele
# Parim efektiivsus — lipulaeva kvaliteet 3.8B aktiivse parameetriga (18GB RAM)
ollama pull gemma4:26b-moe
# Kõrgeim kvaliteet — täielikud 31B parameetrit (20GB RAM)
ollama pull gemma4:31b
Kvantimise täpsustamine
Vaikimisi tõmbab Ollama iga mudeli jaoks soovitusliku kvantimise (tavaliselt Q4_K_M hea kvaliteedi ja suuruse tasakaalu saavutamiseks). Sa saad määrata erinevaid kvantimisi:
# Kõrgem kvaliteet, suurem maht
ollama pull gemma4:31b-q5_K_M
# Väiksem maht, veidi madalam kvaliteet
ollama pull gemma4:31b-q3_K_M
# Täispiinlikkus (vajab palju rohkem RAM-i)
ollama pull gemma4:31b-fp16
Allalaadimine võtab aega paar minutit, sõltuvalt sinu internetiühendusest. Mudelite suurused ulatuvad ~1.5GB-st (E2B 4-bit) kuni ~62GB-ni (31B FP16).
3. samm: Käivita Gemma 4
Interaktiivne vestlus
ollama run gemma4:e4b
See avab interaktiivse vestlussessiooni. Trüki oma viip ja vajuta Enter:
>>> What are the key differences between REST and GraphQL APIs?
Mudel vastab otse sinu terminalis. Väljumiseks trüki /bye.
Üksik viip (mitte-interaktiivne)
echo "Explain the Builder design pattern in Python with an example" | ollama run gemma4:26b-moe
Mõtlemisrežiimiga
Gemma 4 toetab seadistatavat mõtlemisrežiimi keeruliste ülesannete jaoks. Luba see, lisades süsteemse viiba:
ollama run gemma4:31b --system "Think step by step before answering. Show your reasoning process."
Matemaatika, loogika ja keeruliste analüüsiülesannete puhul parandab mõtlemisrežiim vastuse kvaliteeti märkimisväärselt. Mudel genereerib enne lõpliku vastuse andmist 4000+ tokenit sisemist arutluskäiku.
4. samm: Kasuta lokaalset API-t
Ollama pakub REST API-t aadressil localhost:11434, mis on ühilduv OpenAI API vorminguga. See tähendab, et iga tööriist või teek, mis toetab OpenAI API-t, saab ühenduda sinu lokaalse Gemma 4-ga lihtsa URL-i muudatusega.
Testi API-t curl abil
curl http://localhost:11434/api/generate -d '{
"model": "gemma4:26b-moe",
"prompt": "Write a Python function to parse CSV files with error handling",
"stream": false
}'
OpenAI-ühilduv lõpp-punkt
curl http://localhost:11434/v1/chat/completions -d '{
"model": "gemma4:26b-moe",
"messages": [
{"role": "user", "content": "Explain async/await in JavaScript"}
]
}'
Allikas: Ollama API dokumentatsioon
5. samm: Integreeri oma rakendusega
Python
import requests
def ask_gemma(prompt, model="gemma4:26b-moe"):
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": model,
"prompt": prompt,
"stream": False
}
)
return response.json()["response"]
# Kasutamine
answer = ask_gemma("What is the time complexity of merge sort?")
print(answer)
Python koos OpenAI SDK-ga
from openai import OpenAI
# Suuna lokaalsele Ollama-le OpenAI asemel
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # Ollama ei vaja päris API võtit
)
response = client.chat.completions.create(
model="gemma4:26b-moe",
messages=[
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a React hook for debounced search"}
]
)
print(response.choices[0].message.content)
Node.js / TypeScript
const response = await fetch("http://localhost:11434/v1/chat/completions", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({
model: "gemma4:26b-moe",
messages: [
{ role: "user", content: "Explain the Observer pattern with a TypeScript example" }
]
})
});
const data = await response.json();
console.log(data.choices[0].message.content);
LangChain kasutamine
from langchain_community.llms import Ollama
llm = Ollama(model="gemma4:26b-moe")
response = llm.invoke("Summarize the key principles of clean architecture")
print(response)
LlamaIndex kasutamine
from llama_index.llms.ollama import Ollama
llm = Ollama(model="gemma4:26b-moe", request_timeout=120.0)
response = llm.complete("What are the SOLID principles in software engineering?")
print(response)
Kvantimisvalikute selgitus
Kvantimine vähendab mudeli suurust ja mälukasutust, kasutades mudeli kaalude esitamiseks madalama täpsusega arve. Valik on kvaliteedi ja ressursikasutuse vahel:
| Kvantimine | Bitte kaalu kohta | Mõju kvaliteedile | Mälusääst | Parim valik |
|---|---|---|---|---|
| FP16 | 16 bitti | Puudub (täiskvaliteet) | Baastase | Piisava VRAM-iga serverid |
| Q8_0 | 8 bitti | Tühine | ~50% | Kvaliteetne lokaalne käitus |
| Q6_K | 6 bitti | Väga väike | ~62% | Kvaliteedile suunatud lokaalne kasutus |
| Q5_K_M | 5 bitti | Väike | ~69% | Hea tasakaal |
| Q4_K_M | 4 bitti | Väike | ~75% | Soovituslik vaikimisi seade |
| Q3_K_M | 3 bitti | Mõõdukas | ~81% | Piiratud riistvara |
| Q2_K | 2 bitti | Märkimisväärne | ~87% | Äärmuslikud piirangud |
Q4_K_M on kuldne kesktee enamiku kasutajate jaoks. Kvaliteedi erinevus võrreldes FP16-ga on piisavalt väike, et enamik ülesandeid annab eristamatuid tulemusi, samas kui 75% mälusääst tähendab erinevust "vajab serverit" ja "töötab minu sülearvutis" vahel.
Õige kvantimise valimine
Mudelitele Gemma 4 E2B/E4B: Kasuta vaikimisi seadet (Q4_K_M). Need mudelid on juba piisavalt väikesed, et suurem kvantimine ei muuda kasutajakogemust oluliselt.
Mudelile Gemma 4 26B MoE: Q4_K_M mahub 18GB RAM-i, mis jääb RTX 4090 24GB VRAM-i piiresse, jättes ruumi ka KV cache jaoks. Kui sul on 48GB+ VRAM (A6000, kaksik-GPU), kaalu Q8_0 marginaalselt parema kvaliteedi saavutamiseks.
Mudelile Gemma 4 31B Dense: Q4_K_M mahub 20GB-ga napilt RTX 4090 mällu. Q5_K_M annab veidi paremaid tulemusi, kuid vajab ~24GB, tarbides kogu vaba VRAM-i. Kui sul on 32GB+ VRAM (RTX 5090, A6000), on Q6_K või Q8_0 uuendust väärt.
Jõudluse tuunimine
GPU koormuse jaotus (Offloading)
Ollama suunab mudeli kihid automaatselt GPU-sse, kui VRAM on saadaval. Kui ainult osa mudelist mahub VRAM-i, jagab Ollama selle GPU ja CPU vahel. Sa saad seda kontrollida:
# Sunni kõik kihid GPU-sse (ebaõnnestub, kui VRAM-i on vähe)
OLLAMA_NUM_GPU=999 ollama run gemma4:26b-moe
# Sunni ainult CPU kasutus (kasulik testimiseks)
OLLAMA_NUM_GPU=0 ollama run gemma4:e4b
Kontekstiakna seadistamine
Efektiivsuse huvides kasutab Ollama vaikimisi 2048 tokeni suurust kontekstiakent. Gemma 4 täieliku kontekstivõimekuse kasutamiseks:
# Sea kontekstiaken 32K tokenile
ollama run gemma4:26b-moe --num-ctx 32768
# Sea kontekstiaken 128K tokenile (vajab rohkem RAM-i)
ollama run gemma4:26b-moe --num-ctx 131072
Oluline: Suuremad kontekstiaknad tarbivad KV cache jaoks rohkem RAM-i. 128K kontekstiaken 31B mudelil võib vajada täiendavalt 8-16GB RAM-i lisaks mudeli kaaludele. Alusta 32K-st ja suurenda seda vaid juhul, kui sinu kasutusjuht seda nõuab.
Samaaegsed päringud
Ollama toetab mitme päringu samaaegset teenindamist:
# Luba kuni 4 samaaegset päringut
OLLAMA_NUM_PARALLEL=4 ollama serve
Iga samaaegne päring lisab mälukulu oma KV cache jaoks. 24GB GPU-l, kus töötab 26B MoE Q4_K_M seadistuses (~18GB), on sul umbes 6GB vaba ruumi — piisavalt 2-3 lühikese kontekstiga samaaegse päringu jaoks.
Keep-Alive seaded
Vaikimisi hoiab Ollama mudeleid mälus 5 minutit pärast viimast päringut. Kohanda seda vastavalt oma vajadustele:
# Hoia mudel mälus 1 tund
OLLAMA_KEEP_ALIVE=3600 ollama serve
# Hoia mudel mälus määramata aja
OLLAMA_KEEP_ALIVE=-1 ollama serve
# Eemalda mälust kohe pärast iga päringut (säästab mälu)
OLLAMA_KEEP_ALIVE=0 ollama serve
NVIDIA RTX optimeerimine
NVIDIA on välja andnud optimeeritud Gemma 4 versioonid RTX GPU-de jaoks. Need optimeerimised sisaldavad:
- Kohandatud CUDA kernelid Gemma 4 attention mehhanismi jaoks
- TensorRT-LLM integratsioon kiiremaks genereerimiseks
- Flash Attention tugi väiksemaks mälukasutuseks pika kontekstiga genereerimisel
- Optimeeritud KV cache haldus parema läbilaskevõime saavutamiseks
NVIDIA-optimeeritud Gemma 4 installimine
Kui sul on RTX 4000 või 5000 seeria GPU:
# Kontrolli oma GPU-d
nvidia-smi
# Tõmba NVIDIA-optimeeritud versioon (kui see on Ollama-s saadaval)
ollama pull gemma4:31b-nvidia
Teise võimalusena kasuta maksimaalse jõudluse saavutamiseks NVIDIA AI Workbench-i või otse TensorRT-LLM-i. NVIDIA-optimeeritud versioonid võivad RTX GPU-del pakkuda 30-50% kiiremat genereerimist võrreldes standardsete Ollama versioonidega.
Reaalse elu jõudlustestid
Mõõdetud tavalistel riistvarakonfiguratsioonidel:
Tokenid sekundis (genereerimiskiirus)
| Mudel | RTX 4090 (24GB) | RTX 3090 (24GB) | M3 Max (36GB) | Ainult CPU (32GB) |
|---|---|---|---|---|
| E2B (Q4) | ~150 tok/s | ~120 tok/s | ~100 tok/s | ~30 tok/s |
| E4B (Q4) | ~100 tok/s | ~80 tok/s | ~70 tok/s | ~15 tok/s |
| 26B MoE (Q4) | ~40 tok/s | ~30 tok/s | ~25 tok/s | ~3 tok/s |
| 31B Dense (Q4) | ~30 tok/s | ~20 tok/s | ~20 tok/s | ~2 tok/s |
Kontekst: Inimese lugemiskiirus on umbes 4-5 tokenit sekundis. Iga mudel, mis genereerib üle 10 tok/s, tundub interaktiivsel kasutusel "instantne". E2B ja E4B mudelid on piisavalt kiired reaalajas voogedastuseks peaaegu igal riistvaral.
Aeg esimese tokenini (viivitus)
| Mudel | RTX 4090 | M3 Max | Ainult CPU |
|---|---|---|---|
| E2B | <100ms | <200ms | <500ms |
| E4B | <200ms | <300ms | ~1s |
| 26B MoE | ~500ms | ~1s | ~5s |
| 31B Dense | ~800ms | ~1.5s | ~8s |
Interaktiivsete rakenduste puhul on aeg esimese tokenini olulisem kui genereerimiskiirus. E2B ja E4B mudelid alustavad genereerimist peaaegu koheselt isegi CPU-l, muutes need ideaalseks reaalajas vestlusliideste jaoks.
Tavalised kasutusjuhud
Lokaalne koodiassistent
Kasuta Gemma 4 privaatse koodiassistendina, mis ei saada kunagi sinu koodi välistesse serveritesse:
ollama run gemma4:26b-moe --system "You are an expert software engineer. When given code, analyze it for bugs, suggest improvements, and explain your reasoning. Be concise and practical."
Kasuta seda koos VS Code laiendustega nagu Continue või Twinny, mis toetavad Ollama-t taustasüsteemina.
Dokumendianalüüs
Töötle tundlikke dokumente lokaalselt:
echo "Analyze this contract clause and identify potential risks: [paste clause]" | ollama run gemma4:31b
256K kontekstiga suudab 31B mudel töödelda kuni ~750 lehekülje pikkuseid dokumente — piisav enamiku lepingute, teadustööde ja tehnilise dokumentatsiooni jaoks.
Lokaalne RAG (Retrieval-Augmented Generation)
Kombineeri Gemma 4 lokaalse vektoriandmebaasiga täielikult privaatse RAG süsteemi loomiseks:
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
# Kasuta Gemma 4 nii embeddingute kui ka genereerimise jaoks
embeddings = OllamaEmbeddings(model="gemma4:e4b")
llm = Ollama(model="gemma4:26b-moe")
# Loo oma dokumentidest vektorsalv
vectorstore = Chroma.from_documents(documents, embeddings)
# Päring koos RAG-iga
retriever = vectorstore.as_retriever()
docs = retriever.get_relevant_documents("What is our refund policy?")
context = "\n".join([doc.page_content for doc in docs])
response = llm.invoke(f"Based on this context:\n{context}\n\nAnswer: What is our refund policy?")
AI-funktsioonide ehitamine rakendustesse
Arendajatele, kes ehitavad AI võimekusega rakendusi, on Gemma 4 käitamine lokaalselt Ollama API kaudu kiireim tee töötava prototüübini. OpenAI-ühilduv API tähendab, et saad arenduseks kasutada lokaalset Gemma 4 ja minna üle pilve-API-dele ilma rakenduse koodi muutmata.
Platvormid nagu ZBuild saavad hallata rakenduse infrastruktuuri — frontend, backend, autentimine, andmebaas —, samal ajal kui sina keskendud AI integratsioonikihile. Suuna oma rakenduse AI lõpp-punkt arenduse ajal aadressile localhost:11434 ja vaheta see pilve lõpp-punkti vastu, kui oled valmis skaleerima.
Tõrkeotsing
"Out of memory" vead
Kui näed mäluga seotud vigu:
- Proovi väiksemat kvantimist:
ollama pull gemma4:31b-q3_K_M - Vähenda kontekstiakent:
--num-ctx 4096 - Sulge teised GPU-mahukad rakendused
- Vaheta väiksema mudeli vastu: 26B MoE pakub 31B mudelile sarnast kvaliteeti väiksema mälukuluga
Aeglane genereerimiskiirus
Kui genereerimine on oodatust aeglasem:
- Kontrolli GPU kasutust:
nvidia-smi(peaks näitama suurt GPU kasutust) - Veendu, et mudel mahub täielikult VRAM-i — osaline CPU-le suunamine on oluliselt aeglasem
- Vähenda
--num-ctx, et vabastada VRAM-i arvutuste jaoks - Kontrolli, kas teised protsessid kasutavad GPU-d
Mudelit ei leitud
Kui ollama run gemma4:26b-moe ebaõnnestub:
# Loetle saadaolevad mudelid
ollama list
# Otsi Gemma 4 mudeleid
ollama search gemma4
# Tõmba konkreetne mudel
ollama pull gemma4:26b-moe
API ühendusest keelduti
Kui rakendused ei saa ühendust aadressiga localhost:11434:
# Kontrolli, kas Ollama töötab
ollama list
# Käivita Ollama server manuaalselt
ollama serve
# Kontrolli porti
curl http://localhost:11434/api/tags
Mudeli valiku otsustuspuu
Kasuta seda sobiva mudeli kiireks valimiseks:
Kas sul on eraldiseisev GPU 16GB+ VRAM-iga?
- Jah → Kas soovid maksimaalset kvaliteeti või maksimaalset efektiivsust?
- Maksimaalne kvaliteet →
gemma4:31b(Q4_K_M, vajab 20GB) - Maksimaalne efektiivsus →
gemma4:26b-moe(Q4_K_M, vajab 18GB)
- Maksimaalne kvaliteet →
- Ei → Kas sul on 8GB+ RAM-i?
- Jah →
gemma4:e4b(Q4_K_M, parem kvaliteet) - No →
gemma4:e2b(Q4_K_M, töötab 5GB-ga)
- Jah →
Enamikule arendajatele kaasaegse laua- või mänguriarvutiga: Alusta mudelist gemma4:26b-moe. See pakub parimat kvaliteedi ja ressursikulu suhet kogu Gemma 4 perekonnas.
Mida saad ehitada
Lokaalselt töötava Gemma 4-ga on sul tasuta AI taustasüsteem järgmiste asjade jaoks:
- Vestlusrakendused täieliku privaatsusega
- Koodianalüüsi tööriistad, mis töötavad konfidentsiaalsetel koodibaasidel
- Dokumenditöötluse ahelad tundlike andmete jaoks
- Lokaalsed AI assistendid, mis töötavad võrguühenduseta
- AI-funktsioonide prototüübid enne pilve-API kuludele pühendumist
- Peenhäälestatud mudelid valdkonnaspetsiifiliste ülesannete jaoks (Apache 2.0 lubab seda vabalt)
Apache 2.0 litsents tähendab, et kõik, mida sa ehitad, on sinu — ei mingeid kasutuspiiranguid, tulude jagamist ega heakskiidu vajadust. Käivita seda lokaalselt, võta see kasutusele oma serverites või põimi oma toodetesse. See ongi tõeliselt avatud AI.
Allikad
- Gemma 4 Announcement - Google Blog
- Gemma 4 on Ollama
- Ollama Installation Guide
- Ollama API Documentation
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 Hugging Face Models
- Continue.dev - Local AI Code Assistant
- LangChain Ollama Integration
- Google AI for Developers - Gemma