← Back to news
ZBuild News

Google Gemma 4: Vollständiger Leitfaden zu Spezifikationen, Benchmarks und was es Neues gibt (2026)

Alles, was Sie über Google Gemma 4 wissen müssen — die erste unter der Apache 2.0-Lizenz veröffentlichte Gemma-Version. Deckt alle 4 Modellgrößen (E2B, E4B, 26B MoE, 31B Dense), multimodale Fähigkeiten, einen konfigurierbaren Thinking-Modus, 256K Kontext, 85.2% MMLU Pro und Hardwareanforderungen für die lokale Bereitstellung ab.

Published
2026-04-03T00:00:00.000Z
Author
ZBuild Team
Reading Time
13 min read
gemma 4google gemma 4gemma 4 releasegemma 4 benchmarksgemma 4 specsgemma 4 open source
Google Gemma 4: Vollständiger Leitfaden zu Spezifikationen, Benchmarks und was es Neues gibt (2026)
ZBuild Teamde
XLinkedIn

Wichtigste Erkenntnis

Google Gemma 4 ist die leistungsfähigste Open-Weight-Modellfamilie, die jemals unter einer wirklich permissiven Lizenz veröffentlicht wurde. Das 31B Dense Modell erzielt 85.2% bei MMLU Pro und belegt Platz 3 unter allen offenen Modellen auf Arena AI — während das 26B MoE eine nahezu identische Qualität mit nur 3.8B aktiven Parametern erreicht. Zum ersten Mal wird Gemma unter Apache 2.0 bereitgestellt, wodurch alle Lizenzierungshürden beseitigt werden, die die kommerzielle Nutzung früherer Generationen gebremst haben.


Google Gemma 4: Alles, was Sie wissen müssen

Überblick über die Veröffentlichung

Google DeepMind hat Gemma 4 am April 2, 2026 veröffentlicht und damit vier Modellgrößen eingeführt, die auf derselben Technologiegrundlage wie Gemini 3 basieren. Diese Generation stellt den größten Sprung in der Gemma Familie in jeder Dimension dar: Modellqualität, multimodale Fähigkeiten, Kontextlänge und Lizenzbedingungen.

Die wichtigsten Änderungen gegenüber Gemma 3:

  • Apache 2.0 Lizenzierung — keine Nutzungsbeschränkungen, keine benutzerdefinierte Lizenz, volle kommerzielle Freiheit
  • Vier Modellgrößen statt drei, einschließlich einer neuen MoE Architektur
  • Native multimodale Unterstützung über alle Größen hinweg (Text, Bilder, Video, Audio)
  • Konfigurierbarer Thinking-Modus mit über 4,000+ Token Reasoning-Ketten
  • 256K Kontextfenster bei größeren Modellen (statt der Limits von Gemma 3)
  • 35+ unterstützte Sprachen, vortrainiert auf 140+ Sprachen
  • Strukturierte Tool-Nutzung für agentische Workflows

Die vier Modellgrößen

Gemma 4 wird in vier verschiedenen Größen ausgeliefert, die jeweils auf unterschiedliche Einsatzszenarien abzielen:

ModellParameterAktive ParameterArchitekturKontextModalitäten
E2B2.3B effektiv2.3BDense128KText, Bild, Video, Audio
E4B4.5B effektiv4.5BDense128KText, Bild, Video, Audio
26B MoE26B gesamt3.8BMixture of Experts256KText, Bild
31B Dense31B31BDense256KText, Bild

Quelle: Google AI Blog

E2B und E4B: Die Edge-Modelle

Die kleinsten Gemma 4 Modelle sind für den On-Device-Einsatz konzipiert. Mit 2.3B bzw. 4.5B effektiven Parametern laufen sie auf Smartphones, Tablets und Laptops mit nur 5GB RAM unter Verwendung von 4-bit Quantisierung.

Was diese Modelle bemerkenswert macht, ist ihre modale Breite. Obwohl sie die kleinsten in der Familie sind, sind E2B und E4B die einzigen Gemma 4 Modelle, die alle vier Eingangsmodalitäten unterstützen: Text, Bilder, Video und Audio. Dies ist eine bewusste Designentscheidung — Edge-Geräte mit Kameras und Mikrofonen profitieren am meisten von multimodalen Fähigkeiten.

Beide Modelle unterstützen 128K Token Kontextfenster, was für ihre Parameteranzahl großzügig ist und für die meisten On-Device-Anwendungsfälle ausreicht.

26B MoE: Maximale Effizienz

Das 26B Mixture of Experts Modell ist wohl das interessanteste Modell im Gemma 4 Line-up. Es enthält insgesamt 26B Parameter, aktiviert aber für jede gegebene Eingabe nur 3.8B Parameter — was in etwa die gleichen Rechenkosten wie beim E4B Modell verursacht, jedoch Zugriff auf drastisch mehr Wissen und Fähigkeiten bietet.

Auf Arena AI belegt das 26B MoE mit einem Score von 1441 den 6. Platz unter allen offenen Modellen, obwohl es nur 3.8B aktive Parameter nutzt. Dieses Effizienzverhältnis ist beispiellos — kein anderes Modell erreicht eine vergleichbare Qualität bei diesen Rechenkosten.

Die MoE Architektur leitet jeden Token durch spezialisierte Experten-Subnetzwerke, was es dem Modell ermöglicht, eine große Wissenskapazität aufrechtzuerhalten, während die Inferenzkosten niedrig bleiben. Für Einsatzszenarien, in denen starkes logisches Denken erforderlich ist, aber nur begrenzt GPU-Speicher zur Verfügung steht, ist das 26B MoE die optimale Wahl.

31B Dense: Maximale Qualität

Das 31B Dense Modell ist das Flaggschiff von Gemma 4. Jeder Parameter ist für jeden Token aktiv, was zu den konsistentesten und qualitativ hochwertigsten Ergebnissen über alle Aufgabentypen hinweg führt.

Auf Arena AI belegt das 31B Dense den 3. Platz unter allen offenen Modellen mit einem Score von 1452. Bei MMLU Pro erreicht es 85.2% — was mit Modellen konkurriert, die um ein Vielfaches größer sind. Der Score von 89.2% bei AIME 2026 beweist ein starkes mathematisches Reasoning, während 74% bei BigBench Extra Hard (gegenüber 19% in früheren Generationen) eine massive Verbesserung bei komplexen Reasoning-Aufgaben zeigen.


Benchmarks: Die vollständigen Daten

Logisches Denken und Wissen

Benchmark31B Dense26B MoENotizen
MMLU Pro85.2%Wissen auf Graduiertenniveau
AIME 202689.2%Wettbewerbsmathematik
BigBench Extra Hard74%Vorher 19% in der letzten Gen
Arena AI Score1452 (3.)1441 (6.)Rankings offener Modelle

Quelle: Google DeepMind technischer Bericht

BigBench Extra Hard: Das herausragende Ergebnis

Der Sprung von 19% auf 74% bei BigBench Extra Hard verdient besondere Aufmerksamkeit. Dieser Benchmark testet komplexes, mehrstufiges Reasoning, logische Deduktion und Aufgaben, die echtes Verständnis anstelle von Mustererkennung erfordern. Eine Verbesserung um 55 Prozentpunkte in einer einzigen Generation deutet auf fundamentale Fortschritte in der Reasoning-Architektur von Gemma 4 hin, nicht nur auf Skalierung.

Diese Verbesserung steht wahrscheinlich im Zusammenhang mit dem konfigurierbaren Thinking-Modus und der zugrunde liegenden Gemini 3 Technologie, auf der Gemma 4 aufbaut. Der Thinking-Modus erzeugt erweiterte Reasoning-Ketten, die dem Modell helfen, komplexe Probleme Schritt für Schritt zu lösen.

Kontext der Arena AI Rankings

Arena AI bewertet Modelle basierend auf direkten Vergleichen der menschlichen Präferenz. Dass das 31B Dense Modell 1452 erzielt und den 3. Platz unter den offenen Modellen belegt, platziert es über vielen Modellen mit deutlich mehr Parametern. Zum Kontext:

  • Modelle, die darüber gerankt sind, sind in der Regel 70B+ Parametermodelle
  • Dass das 26B MoE 1441 mit nur 3.8B aktiven Parametern erreicht, ist ein Effizienzdurchbruch
  • Beide Modelle übertreffen das vorherige Gemma 3 27B um einen signifikanten Vorsprung

Multimodale Fähigkeiten

Bildverständnis

Alle vier Gemma 4 Modelle verarbeiten Bilder nativ. Zu den Fähigkeiten gehören:

  • Bildbeschreibung und -analyse — detailliertes Verständnis visueller Inhalte
  • OCR und Dokumenten-Parsing — Extrahieren von Text aus Bildern, Quittungen, Screenshots
  • Interpretation von Diagrammen und Schemata — Verständnis von Datenvisualisierungen
  • Visuelles Reasoning — Beantwortung von Fragen, die das Verständnis räumlicher Beziehungen erfordern

Video und Audio (nur E2B/E4B)

Die kleineren Modelle E2B und E4B bieten zusätzlich native Video- und Audioverarbeitung:

  • Videoverständnis — Analyse von Videoinhalten ohne Frame-für-Frame Extraktion
  • Audio-Transkription und -Verständnis — Verarbeitung von Sprache und Umgebungsgeräuschen
  • Cross-modales Reasoning — Beantwortung von Fragen, die Text-, Bild-, Video- und Audio-Inputs umspannen

Diese Designentscheidung spiegelt den Fokus von Google auf Edge-Einsätze wider. Mobile Geräte erfassen Video und Audio nativ, daher unterstützen die für diese Geräte entwickelten Modelle diese Modalitäten.


Konfigurierbarer Thinking-Modus

Gemma 4 führt einen konfigurierbaren Thinking-Modus ein, der über 4,000+ Token internes Reasoning generiert, bevor eine Antwort erstellt wird. Dies ähnelt den erweiterten Thinking-Fähigkeiten, die man von Claude-Modellen und der o-Serie von OpenAI kennt, ist jedoch in einem Open-Weight-Modell implementiert.

Wie es funktioniert

Wenn der Thinking-Modus aktiviert ist, geht das Modell wie folgt vor:

  1. Empfängt den Input-Prompt
  2. Generiert eine interne Reasoning-Kette (je nach Konfiguration sichtbar oder verborgen)
  3. Nutzt die Reasoning-Kette, um eine qualitativ hochwertigere finale Antwort zu erstellen

Der Thinking-Modus kann pro Anfrage umgeschaltet werden, was Entwicklern folgendes ermöglicht:

  • Thinking aktivieren für komplexe Mathematik, Logik, Coding und Analyseaufgaben
  • Thinking deaktivieren für einfache Abfragen, Chat und latenzkritische Anwendungen
  • Thinking-Tiefe anpassen basierend auf der erwarteten Komplexität der Aufgabe

Auswirkungen auf die Qualität

Der Thinking-Modus ist ein Haupttreiber für die starken Benchmark-Ergebnisse von Gemma 4. Der AIME 2026 Score von 89.2% und der BigBench Extra Hard Score von 74% werden beide mit aktiviertem Thinking-Modus erreicht. Ohne Thinking-Modus wären diese Werte deutlich niedriger — ähnlich dem Muster, das bei anderen Modellen mit erweiterten Reasoning-Fähigkeiten beobachtet wird.


Apache 2.0: Warum der Lizenzwechsel wichtig ist

Frühere Gemma Generationen wurden unter der benutzerdefinierten Gemma Lizenz von Google veröffentlicht, die Einschränkungen enthielt für:

  • Die Nutzung in bestimmten Anwendungen
  • Weitergabebedingungen
  • Beschränkungen beim kommerziellen Einsatz für großflächige Nutzung

Gemma 4 wechselt zu Apache 2.0, derselben Lizenz, die auch von Projekten wie Kubernetes, TensorFlow und Apache HTTP Server verwendet wird. Das bedeutet:

  • Keine Nutzungsbeschränkungen — Nutzung für alles, einschließlich kommerzieller Produkte
  • Keine Einschränkungen bei der Weitergabe — modifizierte Gewichte frei teilen
  • Keine Attributierungsanforderungen über die Lizenz hinaus — Standard Apache 2.0 Hinweis
  • Keine Genehmigung von Google erforderlich — Einsatz in beliebigem Umfang ohne Erlaubnis
  • Kompatibel mit anderen Open-Source-Lizenzen — einfache Integration in bestehende Projekte

Für Unternehmen und Startups, die Produkte auf Basis offener Modelle entwickeln, entfällt damit der rechtliche Prüfungsaufwand, den die benutzerdefinierte Lizenz von Gemma erforderte. Zudem macht es Gemma 4 direkt vergleichbar mit den Llama Modellen von Meta (die ihre eigene benutzerdefinierte Lizenz mit einigen Einschränkungen nutzen) und positioniert es als die am permissivsten lizenzierte, hochwertige Open-Modellfamilie auf dem Markt.


Sprachunterstützung

Gemma 4 unterstützt 35+ Sprachen für die Inferenz und wurde auf 140+ Sprachen vortrainiert. Dies macht es zu einem der am stärksten multilingualen offenen Modelle, neben den Qwen Modellen, die ebenfalls eine breite Sprachabdeckung betonen.

Zu den unterstützten Sprachen gehören die wichtigsten Weltsprachen (Englisch, Chinesisch, Spanisch, Französisch, Deutsch, Japanisch, Koreanisch, Arabisch, Hindi, Portugiesisch, Russisch) sowie viele Sprachen mit kleinerem digitalen Fußabdruck. Das Vortraining auf 140+ Sprachen bedeutet, dass das Modell über gewisse Fähigkeiten in Sprachen verfügt, die über die offiziell unterstützten 35 hinausgehen, wobei die Qualität variieren kann.

Für Anwendungen, die auf ein globales Publikum oder nicht-englische Märkte abzielen, reduziert diese breite Sprachunterstützung die Notwendigkeit für spezialisiertes Fine-Tuning oder separate Modelle pro Sprache.


Strukturierte Tool-Nutzung und agentische Workflows

Gemma 4 enthält native Unterstützung für die strukturierte Tool-Nutzung, was agentische Workflows ermöglicht, bei denen das Modell:

  • Externe APIs aufrufen kann mit korrekt formatierten Anfragen
  • Strukturierte Antworten von Tools und Services parsen kann
  • Mehrere Tool-Aufrufe verketten kann, um komplexe Aufgaben zu lösen
  • Fehler und Retries bei der Tool-Ausführung handhaben kann

Diese Fähigkeit ist besonders relevant für die Android Studio Integration, wo Gemma 4 lokale agentische Coding-Workflows antreibt. Das Modell kann Code-Kontexte verstehen, Änderungen vorschlagen, Tools ausführen und iterieren — alles lokal auf dem Rechner des Entwicklers, ohne Code an externe Server zu senden.

Für Entwickler, die KI-Agenten bauen, bietet die strukturierte Tool-Nutzung von Gemma 4 ein vollständig lokales, privates Fundament. In Kombination mit der Apache 2.0 Lizenz ermöglicht dies den Aufbau und Einsatz agentischer Anwendungen ohne Abhängigkeit von externen Modellanbietern.


Hardware-Anforderungen

Lokaler Einsatz via Ollama

ModellBenötigter RAM (4-bit)Benötigter RAM (FP16)GPU-Empfehlung
E2B~5 GB~5 GBJede moderne GPU / nur CPU
E4B~5 GB~9 GBJede moderne GPU / nur CPU
26B MoE~18 GB~52 GBRTX 4090 / RTX 5090
31B Dense~20 GB~62 GBRTX 4090 / RTX 5090

Quelle: Ollama Modell-Bibliothek

Die E2B und E4B Modelle sind speziell für den Edge-Einsatz konzipiert. Sie laufen problemlos auf Laptops, Desktop-CPUs und sogar auf einigen Smartphones. Die 26B MoE und 31B Dense Modelle erfordern dedizierte GPU-Hardware, bleiben aber für einzelne Entwickler mit Consumer-GPUs zugänglich.

NVIDIA Optimierung

NVIDIA hat optimierte Versionen von Gemma 4 für RTX GPUs veröffentlicht, die Folgendes bieten:

  • Schnellere Inferenz durch GPU-spezifische Kernel-Optimierungen
  • Bessere Speicherauslastung auf Karten der RTX 4000 und 5000 Serie
  • TensorRT Integration für den Produktionseinsatz
  • CUDA Graph Support für reduzierten Overhead bei wiederholter Inferenz

Quelle: NVIDIA AI Blog


Was sich gegenüber Gemma 3 geändert hat

FeatureGemma 3Gemma 4
LizenzGemma Lizenz (eingeschränkt)Apache 2.0 (uneingeschränkt)
Modellgrößen3 Größen4 Größen (MoE hinzugefügt)
KontextfensterBis zu 128KBis zu 256K
ModalitätenText, BildText, Bild, Video, Audio
Thinking-ModusNeinJa (konfigurierbar)
Tool-NutzungBegrenztStrukturierte Tool-Nutzung
Sprachen30+35+ (vortrainiert auf 140+)
BigBench Extra Hard19%74%

Jede Dimension wurde verbessert. Die einflussreichsten Änderungen für Entwickler sind die Apache 2.0 Lizenz (beseitigt rechtliche Hürden), der Thinking-Modus (verbessert die Qualität bei schwierigen Aufgaben) und die MoE Architektur (bietet Flaggschiff-Qualität bei einem Bruchteil der Rechenkosten).


Praktische Anwendungsfälle

Programmierung und Entwicklung

Die strukturierte Tool-Nutzung und der Thinking-Modus von Gemma 4 machen es effektiv für:

  • Lokale Code-Vervollständigung und -Generierung
  • Code-Review und Fehlererkennung
  • Automatisierte Testgenerierung
  • Schreiben von Dokumentationen
  • Agentische Coding-Workflows in Android Studio

Dokumentenverarbeitung

Mit 256K Kontextfenstern und multimodaler Unterstützung:

  • Ganze Codebasen oder lange Dokumente in einem einzigen Prompt verarbeiten
  • Informationen aus Bildern von Dokumenten, Quittungen und Formularen extrahieren
  • Diagramme und Datenvisualisierungen analysieren
  • Umfangreiche Forschungspapiere oder juristische Dokumente zusammenfassen

Entwicklung von KI-gestützten Anwendungen

Für Entwickler, die Produkte mit KI-Fähigkeiten bauen, bietet Gemma 4 eine starke On-Device- oder selbstgehostete Inferenzschicht. Das Modell übernimmt die Intelligenz — Verständnis von Abfragen, Generierung von Antworten, Verarbeitung von Bildern — während Ihr App-Framework den Rest erledigt. Tools wie ZBuild können den Aufbau des App-Gerüsts (Frontend, Backend, Datenbank, Deployment) beschleunigen, sodass Sie sich auf die KI-Integrationsschicht konzentrieren können, in der die Fähigkeiten von Gemma 4 am wichtigsten sind.

Edge- und Mobile-Einsatz

Die E2B und E4B Modelle eröffnen Anwendungsfälle, die zuvor mit offenen Modellen unmöglich waren:

  • On-Device-Assistenten, die offline funktionieren
  • Datenschutzfreundliche KI-Funktionen, die niemals Daten an externe Server senden
  • Echtzeit-Video- und Audioverarbeitung auf mobilen Geräten
  • Eingebettete KI in IoT- und Robotik-Anwendungen

Erste Schritte

Ollama (Schnellster Weg)

# Ollama installieren
curl -fsSL https://ollama.com/install.sh | sh

# Gemma 4 laden und ausführen
ollama run gemma4:e2b      # Kleinste Version, läuft überall
ollama run gemma4:e4b      # Klein, breitere Fähigkeiten
ollama run gemma4:26b-moe  # MoE, beste Effizienz
ollama run gemma4:31b      # Dense, höchste Qualität

Hugging Face

Alle Gemma 4 Modelle sind auf Hugging Face mit vollständiger Transformers-Integration verfügbar:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google bietet kostenlosen API-Zugriff auf Gemma 4 über AI Studio für Experimente und Prototyping an, wobei Vertex AI für den Produktionseinsatz zur Verfügung steht.


Gemma 4 im Wettbewerbsumfeld

Um zu verstehen, wo Gemma 4 im breiteren Ökosystem steht:

ModellParameterLizenzMMLU ProArena AIKontext
Gemma 4 31B31BApache 2.085.2%1452256K
Gemma 4 26B MoE26B (3.8B aktiv)Apache 2.01441256K
Llama 4 Maverick400B (~17B aktiv)Meta Lizenz79.6%14171M
Llama 4 Scout109B (~17B aktiv)Meta Lizenz~140010M
Qwen 3.5 72B72BApache 2.081.4%1438128K
Qwen 3.5 MoE397B (~22B aktiv)Apache 2.083.1%1449128K

Gemma 4 31B erreicht den höchsten MMLU Pro Score und das beste Arena AI Ranking unter den offenen Modellen — mit den wenigsten Gesamtparametern. Diese Parameter-Effizienz ist ein direktes Ergebnis der Gemini 3 Technologiegrundlage und des konfigurierbaren Thinking-Modus.

Die Effizienz-Story des 26B MoE Modells ist noch beeindruckender. Es belegt den 6. Platz auf Arena AI, während es nur 3.8B Parameter pro Token aktiviert. Kein anderes Modell erreicht ein vergleichbares Verhältnis von Qualität zu Rechenaufwand. Für Produktionseinsätze, bei denen die Inferenzkosten mit der Nutzung skalieren, übersetzt sich diese Effizienz direkt in Kosteneinsparungen.

Im Vergleich zu proprietären Modellen sind die Benchmarks von Gemma 4 31B wettbewerbsfähig mit Mid-Tier-Angeboten von Anthropic und OpenAI. Während die Top-Proprietär-Modelle bei den schwierigsten Aufgaben immer noch führen, hat sich die Lücke dramatisch verringert — und Gemma 4 kommt mit null Kosten pro Token und der vollen Apache 2.0 Freiheit.


Fazit

Gemma 4 setzt im Jahr 2026 einen neuen Standard für Open-Weight-Modelle. Die Kombination aus Apache 2.0 Lizenzierung, vier gut differenzierten Modellgrößen, nativer multimodaler Unterstützung, konfigurierbarem Thinking-Modus und Benchmark-Werten, die mit viel größeren Modellen konkurrieren, macht es zur praktischsten offenen Modellfamilie auf dem Markt.

Das 31B Dense Modell ist die richtige Wahl, wenn maximale Qualität benötigt wird. Das 26B MoE ist die richtige Wahl, wenn starke Qualität bei minimalen Rechenkosten gefragt ist. E2B und E4B sind die richtige Wahl für Edge-Deployment und On-Device-KI. Zum ersten Mal in der Gemma Familie schränkt die Lizenz keinen dieser Anwendungsfälle ein.


Quellen

Back to all news
Enjoyed this article?
FAQ

Common questions

Was ist Google Gemma 4 und wann wurde es veröffentlicht?+
Google Gemma 4 ist eine am 2. April 2026 veröffentlichte Open-Weight-Modellfamilie von Google DeepMind. Sie umfasst 4 Größen — E2B (2.3B effektiv), E4B (4.5B effektiv), 26B MoE (3.8B aktiv / 26B gesamt) und 31B Dense. Alle Modelle werden unter Apache 2.0 veröffentlicht, der freizügigsten Lizenz, die jemals für ein Gemma-Release verwendet wurde.
Ist Gemma 4 wirklich Open Source?+
Ja. Gemma 4 ist die erste Gemma-Generation, die unter der Apache 2.0-Lizenz veröffentlicht wurde, was eine uneingeschränkte kommerzielle Nutzung, Modifikation und Weiterverteilung ermöglicht, ohne dass eine Erlaubnis von Google erforderlich ist. Frühere Gemma-Modelle verwendeten die benutzerdefinierte Gemma-Lizenz von Google, die Nutzungsbeschränkungen auferlegte.
Welches Kontextfenster unterstützt Gemma 4?+
Die kleineren Modelle (E2B und E4B) unterstützen 128K Token Kontextfenster. Die größeren Modelle (26B MoE und 31B Dense) unterstützen 256K Token Kontextfenster. Dies ist eine wesentliche Verbesserung gegenüber den Kontextbeschränkungen von Gemma 3 und ermöglicht die Verarbeitung ganzer Codebasen oder langer Dokumente in einem einzigen Prompt.
Kann Gemma 4 Bilder, Videos und Audio verarbeiten?+
Ja. Alle vier Gemma 4-Modelle sind nativ multimodal und unterstützen Text- und Bildeingaben. Die E2B- und E4B-Modelle gehen mit nativen Video- und Audioverarbeitungsfunktionen noch weiter. Dies macht Gemma 4 zur ersten Open-Weight-Modellfamilie, bei der die kleinsten Modelle die breiteste Unterstützung für Modalitäten bieten.
Wie funktioniert der Thinking-Modus von Gemma 4?+
Gemma 4 enthält einen konfigurierbaren Thinking-Modus, der mehr als 4.000 Token an internem Reasoning generiert, bevor eine Antwort erstellt wird. Dieses Chain-of-Thought-Reasoning kann pro Anfrage ein- oder ausgeschaltet werden, sodass Entwickler zwischen schnelleren Antworten für einfache Aufgaben und tieferem Reasoning für komplexe Probleme wie Mathematik, Logik und Programmierung wählen können.
Welche Hardware benötige ich, um Gemma 4 lokal auszuführen?+
Gemma 4 E2B und E4B laufen auf Geräten mit nur 5GB RAM unter Verwendung von 4-Bit-Quantisierung, einschließlich Smartphones und Laptops. Das 26B MoE-Modell benötigt etwa 18GB RAM und das 31B Dense etwa 20GB RAM. Alle Modelle laufen über Ollama mit verfügbarer NVIDIA RTX GPU-Optimierung.

Mit ZBuild bauen

Verwandle deine Idee in eine funktionierende App — kein Programmieren nötig.

46.000+ Entwickler haben diesen Monat mit ZBuild gebaut

Jetzt selbst ausprobieren

Beschreibe, was du willst — ZBuild baut es für dich.

46.000+ Entwickler haben diesen Monat mit ZBuild gebaut
More Reading

Related articles

Grok 5 Vollständiger Guide: Release-Datum, 6T Parameter, Colossus 2 & xAIs AGI-Ambitionen (2026)
2026-03-27T00:00:00.000Z

Grok 5 Vollständiger Guide: Release-Datum, 6T Parameter, Colossus 2 & xAIs AGI-Ambitionen (2026)

Alles Wissenswerte über Grok 5 Stand März 2026 — das 6-Billionen-Parameter-Modell, das auf dem Colossus 2 Supercluster von xAI trainiert wird. Wir behandeln das verzögerte Release-Datum, technische Spezifikationen, Elon Musks 10% AGI-Behauptung, Benchmark-Vorhersagen und was dies für die AI-Industrie bedeutet.

Claude Sonnet 4.6 Complete Guide: Benchmarks, Pricing, Capabilities und wann man es verwendet (2026)
2026-03-27T00:00:00.000Z

Claude Sonnet 4.6 Complete Guide: Benchmarks, Pricing, Capabilities und wann man es verwendet (2026)

Der definitive Guide zu Claude Sonnet 4.6 — Anthropic's Mid-Tier-Modell, veröffentlicht am 17. Februar 2026. Deckt alle Benchmarks ab (SWE-bench 79.6%, OSWorld 72.5%, ARC-AGI-2 58.3%), API pricing ($3/$15 pro Million Tokens), Extended Thinking, 1M Context Window und detaillierte Vergleiche mit Opus 4.6 und GPT-5.4.

DeepSeek V4 Release: Specs, Benchmarks & Alles, was wir über das 1T Open-Source-Modell wissen (2026)
2026-03-27T00:00:00.000Z

DeepSeek V4 Release: Specs, Benchmarks & Alles, was wir über das 1T Open-Source-Modell wissen (2026)

Ein vollständiger Guide zu DeepSeek V4 — dem Open-Source-Modell mit 1 trillion Parametern, Engram memory, million-token context und 81% SWE-Bench. Wir behandeln Architektur, Benchmarks, Pricing, den Release-Zeitplan und den Vergleich mit GPT-5.4 und Claude Opus 4.6.

Harness Engineering: Der vollständige Leitfaden für den Aufbau von Systemen für AI Agents und Codex im Jahr 2026
2026-03-27T00:00:00.000Z

Harness Engineering: Der vollständige Leitfaden für den Aufbau von Systemen für AI Agents und Codex im Jahr 2026

Lernen Sie Harness Engineering kennen – die neue Disziplin für das Design von Systemen, die AI Coding Agents in großem Maßstab einsatzfähig machen. Behandelt das Millionen-Zeilen-Codex-Experiment von OpenAI, Golden Principles, Dependency Layers, Repository-first Architecture, Garbage Collection und die praktische Umsetzung für Ihr eigenes Team.