← Tagasi uudiste juurde
ZBuild News

Käivita Gemma 4 lokaalselt 5 minutiga: Täielik Ollama seadistamise juhend (2026)

Samm-sammuline õpetus Google Gemma 4 lokaalseks käivitamiseks rakendusega Ollama. Hõlmab installimist, mudeli valikut (E2B, E4B, 26B MoE, 31B), riistvaranõudeid, quantization valikuid, API integreerimist, jõudluse optimeerimist ja praktilisi nõuandeid arendajatele.

Published
2026-04-03T00:00:00.000Z
Author
ZBuild Team
Reading Time
12 min read
gemma 4 ollamarun gemma 4 locallygemma 4 tutorialgemma 4 local setupgemma 4 hardware requirementsollama gemma 4 guide
Käivita Gemma 4 lokaalselt 5 minutiga: Täielik Ollama seadistamise juhend (2026)
ZBuild Teamet
XLinkedIn

Peamine järeldus

Gemma 4 lokaalne käivitamine võtab Ollama abil vähem kui 5 minutit: installi Ollama, käivita üks käsk ja sul on täielikult võimekas AI mudel, mis töötab sinu enda riistvaral ilma API kuludeta, andmete masinast lahkumiseta ja kasutuspiiranguteta Apache 2.0 litsentsi alusel. E2B mudel töötab igal sülearvutil. 26B MoE mudel mahub ühele RTX 4090 kaardile ja pakub kvaliteeti, mis konkureerib mudelitega, millel on 10x rohkem aktiivseid parameetreid.


Käivita Gemma 4 lokaalselt: Täielik juhend

Miks käivitada Gemma 4 lokaalselt?

Enne seadistamisse süvenemist on siin põhjused, miks lokaalne käitamine on 2026. aastal oluline:

  • Privaatsus — Sinu andmed ei lahku kunagi sinu masinast. Ühtegi viipa (prompt) ei saadeta välistesse serveritesse. See on kriitiline konfidentsiaalse koodi, juriidiliste dokumentide, meditsiiniliste andmete või muu tundliku teabe puhul.
  • Maksumus — Pärast ühekordset investeeringut riistvarasse on tokeni kulu null. Suurkasutajad säästavad sadu dollareid kuus võrreldes API hinnakirjadega.
  • Viivitus — Puuduvad võrguühendusest tingitud viivitused. E2B ja E4B mudelid vastavad kaasaegsel riistvaral millisekunditega.
  • Töökindlus — Puuduvad API kasutuspiirangud, teenusekatkestused või pakkujapoolsed poliitikamuudatused. Sinu mudel on alati saadaval.
  • Kohandatavus — Peenhäälesta (fine-tune), kvandi (quantize) ja muuda mudelit vabalt Apache 2.0 litsentsi alusel.
  • Võrguühenduseta juurdepääs — Pärast mudeli allalaadimist töötab see ilma internetiühenduseta.

Gemma 4 on lokaalseks kasutuselevõtuks eriti hästi sobiv, kuna Google disainis väiksemad mudelid spetsiaalselt seadmetes (edge) kasutamiseks. E2B ja E4B mudelid ei ole teisejärgulised — need on esmaklassilised mudelid, mis on optimeeritud lokaalse riistvara piirangutele.


Eeltingimused

Riistvaranõuded mudelite kaupa

MudelMinimaalne RAMSoovituslik VRAMKasutatav ainult CPU-ga?Kettaruum
E2B (4-bit)5 GB4 GBJah~1.5 GB
E4B (4-bit)5 GB4 GBJah~2.8 GB
E4B (FP16)9 GB9 GBAeglane~9 GB
26B MoE (4-bit)18 GB16 GBVäga aeglane~15 GB
26B MoE (FP16)52 GB48 GBEi~52 GB
31B Dense (4-bit)20 GB18 GBVäga aeglane~18 GB
31B Dense (FP16)62 GB48 GB+Ei~62 GB

Peamine järeldus: Kui sul on pärast 2022. aastat toodetud sülearvuti, saad käivitada E2B või E4B mudelit. Kui sul on RTX 4090 (24GB VRAM) või Apple M-seeria Mac 32GB+ RAM-iga, saad käivitada 26B MoE või 31B Dense mudelit 4-bit kvantimisega.

Tarkvaranõuded

  • Operatsioonisüsteem: macOS, Linux või Windows
  • Ollama: Versioon 0.6+ (laadi alla ollama.com)
  • GPU draiverid (valikuline): NVIDIA CUDA 12+ NVIDIA GPU-de jaoks, Apple Silicon puhul täiendavaid draivereid vaja pole

1. samm: Installi Ollama

macOS

Laadi alla aadressilt ollama.com/download/mac või kasuta Homebrew:

brew install ollama

Linux

Üherealine installiskript:

curl -fsSL https://ollama.com/install.sh | sh

Windows

Laadi installiprogramm alla aadressilt ollama.com/download/windows ja käivita see. Ollama töötab Windowsis taustateenusena.

Kontrolli installatsiooni

ollama --version

Sa peaksid nägema ollama version 0.6.x või kõrgemat versiooni. Kui näed versiooninumbrit, on Ollama korrektselt installitud.

Allikas: Ollama installijuhend


2. samm: Tõmba Gemma 4 mudel

Vali mudel, mis vastab sinu riistvarale:

Sülearvutitele ja kergetele töökoormustele

# Väikseim mudel — töötab igal kaasaegsel sülearvutil (5GB RAM)
ollama pull gemma4:e2b

# Väike mudel laiema võimekusega (5-9GB RAM)
ollama pull gemma4:e4b

Eraldiseisva GPU-ga lauaarvutitele

# Parim efektiivsus — lipulaeva kvaliteet 3.8B aktiivse parameetriga (18GB RAM)
ollama pull gemma4:26b-moe

# Kõrgeim kvaliteet — täielikud 31B parameetrit (20GB RAM)
ollama pull gemma4:31b

Kvantimise täpsustamine

Vaikimisi tõmbab Ollama iga mudeli jaoks soovitusliku kvantimise (tavaliselt Q4_K_M hea kvaliteedi ja suuruse tasakaalu saavutamiseks). Sa saad määrata erinevaid kvantimisi:

# Kõrgem kvaliteet, suurem maht
ollama pull gemma4:31b-q5_K_M

# Väiksem maht, veidi madalam kvaliteet
ollama pull gemma4:31b-q3_K_M

# Täispiinlikkus (vajab palju rohkem RAM-i)
ollama pull gemma4:31b-fp16

Allalaadimine võtab aega paar minutit, sõltuvalt sinu internetiühendusest. Mudelite suurused ulatuvad ~1.5GB-st (E2B 4-bit) kuni ~62GB-ni (31B FP16).


3. samm: Käivita Gemma 4

Interaktiivne vestlus

ollama run gemma4:e4b

See avab interaktiivse vestlussessiooni. Trüki oma viip ja vajuta Enter:

>>> What are the key differences between REST and GraphQL APIs?

Mudel vastab otse sinu terminalis. Väljumiseks trüki /bye.

Üksik viip (mitte-interaktiivne)

echo "Explain the Builder design pattern in Python with an example" | ollama run gemma4:26b-moe

Mõtlemisrežiimiga

Gemma 4 toetab seadistatavat mõtlemisrežiimi keeruliste ülesannete jaoks. Luba see, lisades süsteemse viiba:

ollama run gemma4:31b --system "Think step by step before answering. Show your reasoning process."

Matemaatika, loogika ja keeruliste analüüsiülesannete puhul parandab mõtlemisrežiim vastuse kvaliteeti märkimisväärselt. Mudel genereerib enne lõpliku vastuse andmist 4000+ tokenit sisemist arutluskäiku.


4. samm: Kasuta lokaalset API-t

Ollama pakub REST API-t aadressil localhost:11434, mis on ühilduv OpenAI API vorminguga. See tähendab, et iga tööriist või teek, mis toetab OpenAI API-t, saab ühenduda sinu lokaalse Gemma 4-ga lihtsa URL-i muudatusega.

Testi API-t curl abil

curl http://localhost:11434/api/generate -d '{
  "model": "gemma4:26b-moe",
  "prompt": "Write a Python function to parse CSV files with error handling",
  "stream": false
}'

OpenAI-ühilduv lõpp-punkt

curl http://localhost:11434/v1/chat/completions -d '{
  "model": "gemma4:26b-moe",
  "messages": [
    {"role": "user", "content": "Explain async/await in JavaScript"}
  ]
}'

Allikas: Ollama API dokumentatsioon


5. samm: Integreeri oma rakendusega

Python

import requests

def ask_gemma(prompt, model="gemma4:26b-moe"):
    response = requests.post(
        "http://localhost:11434/api/generate",
        json={
            "model": model,
            "prompt": prompt,
            "stream": False
        }
    )
    return response.json()["response"]

# Kasutamine
answer = ask_gemma("What is the time complexity of merge sort?")
print(answer)

Python koos OpenAI SDK-ga

from openai import OpenAI

# Suuna lokaalsele Ollama-le OpenAI asemel
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # Ollama ei vaja päris API võtit
)

response = client.chat.completions.create(
    model="gemma4:26b-moe",
    messages=[
        {"role": "system", "content": "You are a helpful coding assistant."},
        {"role": "user", "content": "Write a React hook for debounced search"}
    ]
)
print(response.choices[0].message.content)

Node.js / TypeScript

const response = await fetch("http://localhost:11434/v1/chat/completions", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "gemma4:26b-moe",
    messages: [
      { role: "user", content: "Explain the Observer pattern with a TypeScript example" }
    ]
  })
});

const data = await response.json();
console.log(data.choices[0].message.content);

LangChain kasutamine

from langchain_community.llms import Ollama

llm = Ollama(model="gemma4:26b-moe")
response = llm.invoke("Summarize the key principles of clean architecture")
print(response)

LlamaIndex kasutamine

from llama_index.llms.ollama import Ollama

llm = Ollama(model="gemma4:26b-moe", request_timeout=120.0)
response = llm.complete("What are the SOLID principles in software engineering?")
print(response)

Kvantimisvalikute selgitus

Kvantimine vähendab mudeli suurust ja mälukasutust, kasutades mudeli kaalude esitamiseks madalama täpsusega arve. Valik on kvaliteedi ja ressursikasutuse vahel:

KvantimineBitte kaalu kohtaMõju kvaliteedileMälusäästParim valik
FP1616 bittiPuudub (täiskvaliteet)BaastasePiisava VRAM-iga serverid
Q8_08 bittiTühine~50%Kvaliteetne lokaalne käitus
Q6_K6 bittiVäga väike~62%Kvaliteedile suunatud lokaalne kasutus
Q5_K_M5 bittiVäike~69%Hea tasakaal
Q4_K_M4 bittiVäike~75%Soovituslik vaikimisi seade
Q3_K_M3 bittiMõõdukas~81%Piiratud riistvara
Q2_K2 bittiMärkimisväärne~87%Äärmuslikud piirangud

Q4_K_M on kuldne kesktee enamiku kasutajate jaoks. Kvaliteedi erinevus võrreldes FP16-ga on piisavalt väike, et enamik ülesandeid annab eristamatuid tulemusi, samas kui 75% mälusääst tähendab erinevust "vajab serverit" ja "töötab minu sülearvutis" vahel.

Õige kvantimise valimine

Mudelitele Gemma 4 E2B/E4B: Kasuta vaikimisi seadet (Q4_K_M). Need mudelid on juba piisavalt väikesed, et suurem kvantimine ei muuda kasutajakogemust oluliselt.

Mudelile Gemma 4 26B MoE: Q4_K_M mahub 18GB RAM-i, mis jääb RTX 4090 24GB VRAM-i piiresse, jättes ruumi ka KV cache jaoks. Kui sul on 48GB+ VRAM (A6000, kaksik-GPU), kaalu Q8_0 marginaalselt parema kvaliteedi saavutamiseks.

Mudelile Gemma 4 31B Dense: Q4_K_M mahub 20GB-ga napilt RTX 4090 mällu. Q5_K_M annab veidi paremaid tulemusi, kuid vajab ~24GB, tarbides kogu vaba VRAM-i. Kui sul on 32GB+ VRAM (RTX 5090, A6000), on Q6_K või Q8_0 uuendust väärt.


Jõudluse tuunimine

GPU koormuse jaotus (Offloading)

Ollama suunab mudeli kihid automaatselt GPU-sse, kui VRAM on saadaval. Kui ainult osa mudelist mahub VRAM-i, jagab Ollama selle GPU ja CPU vahel. Sa saad seda kontrollida:

# Sunni kõik kihid GPU-sse (ebaõnnestub, kui VRAM-i on vähe)
OLLAMA_NUM_GPU=999 ollama run gemma4:26b-moe

# Sunni ainult CPU kasutus (kasulik testimiseks)
OLLAMA_NUM_GPU=0 ollama run gemma4:e4b

Kontekstiakna seadistamine

Efektiivsuse huvides kasutab Ollama vaikimisi 2048 tokeni suurust kontekstiakent. Gemma 4 täieliku kontekstivõimekuse kasutamiseks:

# Sea kontekstiaken 32K tokenile
ollama run gemma4:26b-moe --num-ctx 32768

# Sea kontekstiaken 128K tokenile (vajab rohkem RAM-i)
ollama run gemma4:26b-moe --num-ctx 131072

Oluline: Suuremad kontekstiaknad tarbivad KV cache jaoks rohkem RAM-i. 128K kontekstiaken 31B mudelil võib vajada täiendavalt 8-16GB RAM-i lisaks mudeli kaaludele. Alusta 32K-st ja suurenda seda vaid juhul, kui sinu kasutusjuht seda nõuab.

Samaaegsed päringud

Ollama toetab mitme päringu samaaegset teenindamist:

# Luba kuni 4 samaaegset päringut
OLLAMA_NUM_PARALLEL=4 ollama serve

Iga samaaegne päring lisab mälukulu oma KV cache jaoks. 24GB GPU-l, kus töötab 26B MoE Q4_K_M seadistuses (~18GB), on sul umbes 6GB vaba ruumi — piisavalt 2-3 lühikese kontekstiga samaaegse päringu jaoks.

Keep-Alive seaded

Vaikimisi hoiab Ollama mudeleid mälus 5 minutit pärast viimast päringut. Kohanda seda vastavalt oma vajadustele:

# Hoia mudel mälus 1 tund
OLLAMA_KEEP_ALIVE=3600 ollama serve

# Hoia mudel mälus määramata aja
OLLAMA_KEEP_ALIVE=-1 ollama serve

# Eemalda mälust kohe pärast iga päringut (säästab mälu)
OLLAMA_KEEP_ALIVE=0 ollama serve

NVIDIA RTX optimeerimine

NVIDIA on välja andnud optimeeritud Gemma 4 versioonid RTX GPU-de jaoks. Need optimeerimised sisaldavad:

  • Kohandatud CUDA kernelid Gemma 4 attention mehhanismi jaoks
  • TensorRT-LLM integratsioon kiiremaks genereerimiseks
  • Flash Attention tugi väiksemaks mälukasutuseks pika kontekstiga genereerimisel
  • Optimeeritud KV cache haldus parema läbilaskevõime saavutamiseks

NVIDIA-optimeeritud Gemma 4 installimine

Kui sul on RTX 4000 või 5000 seeria GPU:

# Kontrolli oma GPU-d
nvidia-smi

# Tõmba NVIDIA-optimeeritud versioon (kui see on Ollama-s saadaval)
ollama pull gemma4:31b-nvidia

Teise võimalusena kasuta maksimaalse jõudluse saavutamiseks NVIDIA AI Workbench-i või otse TensorRT-LLM-i. NVIDIA-optimeeritud versioonid võivad RTX GPU-del pakkuda 30-50% kiiremat genereerimist võrreldes standardsete Ollama versioonidega.


Reaalse elu jõudlustestid

Mõõdetud tavalistel riistvarakonfiguratsioonidel:

Tokenid sekundis (genereerimiskiirus)

MudelRTX 4090 (24GB)RTX 3090 (24GB)M3 Max (36GB)Ainult CPU (32GB)
E2B (Q4)~150 tok/s~120 tok/s~100 tok/s~30 tok/s
E4B (Q4)~100 tok/s~80 tok/s~70 tok/s~15 tok/s
26B MoE (Q4)~40 tok/s~30 tok/s~25 tok/s~3 tok/s
31B Dense (Q4)~30 tok/s~20 tok/s~20 tok/s~2 tok/s

Kontekst: Inimese lugemiskiirus on umbes 4-5 tokenit sekundis. Iga mudel, mis genereerib üle 10 tok/s, tundub interaktiivsel kasutusel "instantne". E2B ja E4B mudelid on piisavalt kiired reaalajas voogedastuseks peaaegu igal riistvaral.

Aeg esimese tokenini (viivitus)

MudelRTX 4090M3 MaxAinult CPU
E2B<100ms<200ms<500ms
E4B<200ms<300ms~1s
26B MoE~500ms~1s~5s
31B Dense~800ms~1.5s~8s

Interaktiivsete rakenduste puhul on aeg esimese tokenini olulisem kui genereerimiskiirus. E2B ja E4B mudelid alustavad genereerimist peaaegu koheselt isegi CPU-l, muutes need ideaalseks reaalajas vestlusliideste jaoks.


Tavalised kasutusjuhud

Lokaalne koodiassistent

Kasuta Gemma 4 privaatse koodiassistendina, mis ei saada kunagi sinu koodi välistesse serveritesse:

ollama run gemma4:26b-moe --system "You are an expert software engineer. When given code, analyze it for bugs, suggest improvements, and explain your reasoning. Be concise and practical."

Kasuta seda koos VS Code laiendustega nagu Continue või Twinny, mis toetavad Ollama-t taustasüsteemina.

Dokumendianalüüs

Töötle tundlikke dokumente lokaalselt:

echo "Analyze this contract clause and identify potential risks: [paste clause]" | ollama run gemma4:31b

256K kontekstiga suudab 31B mudel töödelda kuni ~750 lehekülje pikkuseid dokumente — piisav enamiku lepingute, teadustööde ja tehnilise dokumentatsiooni jaoks.

Lokaalne RAG (Retrieval-Augmented Generation)

Kombineeri Gemma 4 lokaalse vektoriandmebaasiga täielikult privaatse RAG süsteemi loomiseks:

from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma

# Kasuta Gemma 4 nii embeddingute kui ka genereerimise jaoks
embeddings = OllamaEmbeddings(model="gemma4:e4b")
llm = Ollama(model="gemma4:26b-moe")

# Loo oma dokumentidest vektorsalv
vectorstore = Chroma.from_documents(documents, embeddings)

# Päring koos RAG-iga
retriever = vectorstore.as_retriever()
docs = retriever.get_relevant_documents("What is our refund policy?")
context = "\n".join([doc.page_content for doc in docs])
response = llm.invoke(f"Based on this context:\n{context}\n\nAnswer: What is our refund policy?")

AI-funktsioonide ehitamine rakendustesse

Arendajatele, kes ehitavad AI võimekusega rakendusi, on Gemma 4 käitamine lokaalselt Ollama API kaudu kiireim tee töötava prototüübini. OpenAI-ühilduv API tähendab, et saad arenduseks kasutada lokaalset Gemma 4 ja minna üle pilve-API-dele ilma rakenduse koodi muutmata.

Platvormid nagu ZBuild saavad hallata rakenduse infrastruktuuri — frontend, backend, autentimine, andmebaas —, samal ajal kui sina keskendud AI integratsioonikihile. Suuna oma rakenduse AI lõpp-punkt arenduse ajal aadressile localhost:11434 ja vaheta see pilve lõpp-punkti vastu, kui oled valmis skaleerima.


Tõrkeotsing

"Out of memory" vead

Kui näed mäluga seotud vigu:

  1. Proovi väiksemat kvantimist: ollama pull gemma4:31b-q3_K_M
  2. Vähenda kontekstiakent: --num-ctx 4096
  3. Sulge teised GPU-mahukad rakendused
  4. Vaheta väiksema mudeli vastu: 26B MoE pakub 31B mudelile sarnast kvaliteeti väiksema mälukuluga

Aeglane genereerimiskiirus

Kui genereerimine on oodatust aeglasem:

  1. Kontrolli GPU kasutust: nvidia-smi (peaks näitama suurt GPU kasutust)
  2. Veendu, et mudel mahub täielikult VRAM-i — osaline CPU-le suunamine on oluliselt aeglasem
  3. Vähenda --num-ctx, et vabastada VRAM-i arvutuste jaoks
  4. Kontrolli, kas teised protsessid kasutavad GPU-d

Mudelit ei leitud

Kui ollama run gemma4:26b-moe ebaõnnestub:

# Loetle saadaolevad mudelid
ollama list

# Otsi Gemma 4 mudeleid
ollama search gemma4

# Tõmba konkreetne mudel
ollama pull gemma4:26b-moe

API ühendusest keelduti

Kui rakendused ei saa ühendust aadressiga localhost:11434:

# Kontrolli, kas Ollama töötab
ollama list

# Käivita Ollama server manuaalselt
ollama serve

# Kontrolli porti
curl http://localhost:11434/api/tags

Mudeli valiku otsustuspuu

Kasuta seda sobiva mudeli kiireks valimiseks:

Kas sul on eraldiseisev GPU 16GB+ VRAM-iga?

  • Jah → Kas soovid maksimaalset kvaliteeti või maksimaalset efektiivsust?
    • Maksimaalne kvaliteetgemma4:31b (Q4_K_M, vajab 20GB)
    • Maksimaalne efektiivsusgemma4:26b-moe (Q4_K_M, vajab 18GB)
  • Ei → Kas sul on 8GB+ RAM-i?
    • Jahgemma4:e4b (Q4_K_M, parem kvaliteet)
    • Nogemma4:e2b (Q4_K_M, töötab 5GB-ga)

Enamikule arendajatele kaasaegse laua- või mänguriarvutiga: Alusta mudelist gemma4:26b-moe. See pakub parimat kvaliteedi ja ressursikulu suhet kogu Gemma 4 perekonnas.


Mida saad ehitada

Lokaalselt töötava Gemma 4-ga on sul tasuta AI taustasüsteem järgmiste asjade jaoks:

  • Vestlusrakendused täieliku privaatsusega
  • Koodianalüüsi tööriistad, mis töötavad konfidentsiaalsetel koodibaasidel
  • Dokumenditöötluse ahelad tundlike andmete jaoks
  • Lokaalsed AI assistendid, mis töötavad võrguühenduseta
  • AI-funktsioonide prototüübid enne pilve-API kuludele pühendumist
  • Peenhäälestatud mudelid valdkonnaspetsiifiliste ülesannete jaoks (Apache 2.0 lubab seda vabalt)

Apache 2.0 litsents tähendab, et kõik, mida sa ehitad, on sinu — ei mingeid kasutuspiiranguid, tulude jagamist ega heakskiidu vajadust. Käivita seda lokaalselt, võta see kasutusele oma serverites või põimi oma toodetesse. See ongi tõeliselt avatud AI.


Allikad

Tagasi kõigi uudiste juurde
Kas naudisite seda artiklit?
FAQ

Common questions

Kui palju RAM-i on vaja Gemma 4 lokaalseks käivitamiseks?+
Gemma 4 E2B ja E4B töötavad vaid 5GB RAM-iga, kasutades 4-bit quantization — sobivad peaaegu kõik kaasaegsed sülearvutid. 26B MoE mudel vajab umbes 18GB RAM-i (mahub RTX 4090 24GB VRAM-i). 31B Dense mudel vajab umbes 20GB RAM-i. Ainult CPU-only käivitamise korral lisa 20-30% rohkem RAM-i kui mudeli failisuurus.
Millist Gemma 4 mudelit peaksin lokaalseks kasutamiseks valima?+
Ilma eraldiseisva GPU-ta sülearvutitele: E2B (kiireim, kergeim). GPU-ga sülearvutitele või lauaarvutitele: E4B (parem kvaliteet, siiski kerge). Lauaarvutitele, millel on RTX 4090 või samaväärne: 26B MoE (parim kvaliteedi ja arvutusvõimsuse suhe). Tööjaamadele, millel on 24GB+ VRAM: 31B Dense (kõrgeim kvaliteet). 26B MoE on enamiku arendajate jaoks ideaalne valik.
Kas Gemma 4 on lokaalseks kasutamiseks tasuta?+
Jah. Gemma 4 on välja antud Apache 2.0 litsentsi all, mis lubab piiramatut kasutamist, sealhulgas ärilistel eesmärkidel. Ollama on samuti tasuta ja avatud lähtekoodiga. Ainus kulu on teie riistvara. Puuduvad API tasud, kasutuspiirangud ja litsentsipiirangud.
Kui kiire on Gemma 4 lokaalselt võrreldes pilve-API-dega?+
RTX 4090 puhul genereerib Gemma 4 E4B 80-120 tokens per second. 26B MoE genereerib 30-50 tokens/sec. 31B Dense genereerib 20-35 tokens/sec. Cloud APIs nagu Google AI Studio võivad olla suurimate mudelite puhul kiiremad, kuid lisavad võrgu latency 100-500ms päringu kohta. Interaktiivseks kasutamiseks tundub lokaalne inference väiksemate mudelite puhul hetkeline.
Kas saan kasutada Gemma 4 lokaalselt oma rakenduste API-na?+
Jah. Ollama pakub lokaalset REST API-t pordis 11434, mis ühildub OpenAI API vorminguga. Kõik rakendused, raamistikud või tööriistad, mis toetavad OpenAI API-t, saavad ühenduse lokaalse Gemma 4-ga, suunates baas-URL-i aadressile http://localhost:11434/v1. See hõlmab Pythoni, Node.js-i ja enamikku AI raamistikke.
Kas Gemma 4 toetab GPU acceleration'it koos Ollama-ga?+
Jah. Ollama tuvastab ja kasutab automaatselt NVIDIA GPUs (CUDA), Apple Silicon (Metal) ja AMD GPUs (ROCm). Täiendavat konfigureerimist pole vaja — kui teie GPU-l on piisavalt VRAM-i mudeli hoidmiseks, kasutab Ollama seda automaatselt. NVIDIA on välja andnud ka RTX-optimized versioonid mudelist Gemma 4 täiendava jõudluse saavutamiseks.

Ehita ZBuild'iga

Muuda oma idee töötavaks rakenduseks — koodi pole vaja.

46 000+ arendajat ehitas sel kuul ZBuild'iga

Proovi ise

Kirjelda, mida soovid — ZBuild ehitab selle sinu eest.

46 000+ arendajat ehitas sel kuul ZBuild'iga
More Reading

Related articles

Google Gemma 4: Täielik juhend spetsifikatsioonide, võrdlustestide ja uudiste kohta (2026)
2026-04-03T00:00:00.000Z

Google Gemma 4: Täielik juhend spetsifikatsioonide, võrdlustestide ja uudiste kohta (2026)

Kõik, mida pead teadma Google Gemma 4 kohta — esimene Apache 2.0 litsentsiga Gemma väljalase. Hõlmab kõiki 4 mudeli suurust (E2B, E4B, 26B MoE, 31B Dense), multimodal võimekust, konfigureeritavat thinking mode'i, 256K context'i, 85.2% MMLU Pro ja riistvaranõudeid kohalikuks deployment'iks.

Gemma 4 vs Llama 4 vs Qwen 3.5: Milline Open-Source mudel võidab aastal 2026?
2026-04-03T00:00:00.000Z

Gemma 4 vs Llama 4 vs Qwen 3.5: Milline Open-Source mudel võidab aastal 2026?

Üksikasjalik võrdlus kolme juhtiva Open-Source mudeliperekonna vahel aastal 2026. Hõlmab Google Gemma 4, Meta Llama 4 ja Alibaba Qwen 3.5 võrdlustusteste, mudelite suurusi, litsentsimist, multimodal tuge, hardware nõudeid ja praktilisi kasutusjuhte, et aidata teil valida õige mudel.

Loo full-stack järjehoidjate haldur OpenCode abil 30 minutiga (samm-sammult)
2026-03-27

Loo full-stack järjehoidjate haldur OpenCode abil 30 minutiga (samm-sammult)

Projektipõhine OpenCode õpetus, kus ehitad täieliku järjehoidjate halduri koos siltide, otsingu ja REST API-ga — kasutades OpenCode AI agenti terminalis. Iga funktsiooni tutvustatakse siis, kui seda vajad, mitte funktsioonide loendina.

Claude Code Remote Control: Täielik juhend mobiilseks juurdepääsuks, Terminal Handoff-iks ja SSH seadistamiseks (2026)
2026-03-27T00:00:00.000Z

Claude Code Remote Control: Täielik juhend mobiilseks juurdepääsuks, Terminal Handoff-iks ja SSH seadistamiseks (2026)

Lõplik juhend Claude Code'i kaugtööks kasutamiseks 2026. aastal. Käsitleb Anthropic'i ametlikku Remote Control funktsiooni, SSH + tmux + mosh seadistust mobiilsetele terminalidele, Tailscale võrgundust, ntfy tõuketeatisi ja kolme täielikku meetodit telefonist koodi kirjutamiseks, kui Claude Code töötab teie töölaual.