מהו Google Gemma 4 ומתי הוא שוחרר?

Google Gemma 4 היא משפחת מודלים ב-open-weight של Google DeepMind ששוחררה ב-April 2, 2026. היא כוללת 4 גדלים — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total), ו-31B Dense. כל המודלים שוחררו תחת Apache 2.0, הרישיון המתירני ביותר ששימש אי פעם לשחרור Gemma.

האם Gemma 4 הוא באמת open source?

כן. Gemma 4 הוא דור ה-Gemma הראשון ששוחרר תחת רישיון Apache 2.0, המאפשר שימוש מסחרי ללא הגבלה, שינוי והפצה מחדש ללא צורך באישור מ-Google. מודלי Gemma קודמים השתמשו ברישיון Gemma המותאם של Google שהטיל מגבלות שימוש.

באיזה context window תומך Gemma 4?

המודלים הקטנים יותר (E2B ו-E4B) תומכים ב-128K token context windows. המודלים הגדולים יותר (26B MoE ו-31B Dense) תומכים ב-256K token context windows. זהו שיפור משמעותי לעומת מגבלות ה-context של Gemma 3 ומאפשר עיבוד של codebases שלמים או מסמכים ארוכים ב-prompt אחד.

האם Gemma 4 יכול לעבד תמונות, וידאו ואודיו?

כן. כל ארבעת מודלי Gemma 4 הם natively multimodal ותומכים בקלט של טקסט ותמונות. מודלי E2B ו-E4B הולכים רחוק יותר עם יכולות עיבוד native של וידאו ואודיו. זה הופך את Gemma 4 למשפחת מודלי open-weight הראשונה שבה למודלים הקטנים ביותר יש את התמיכה הרחבה ביותר ב-modality.

איך עובד ה-thinking mode של Gemma 4?

Gemma 4 כולל thinking mode ניתן להגדרה המייצר 4,000+ tokens של הסקה פנימית לפני הפקת תשובה. ניתן להפעיל או לכבות את ה-chain-of-thought reasoning הזה לכל בקשה, מה שמאפשר למפתחים לבחור בין תגובות מהירות למשימות פשוטות לבין הסקה עמוקה יותר לבעיות מורכבות כמו מתמטיקה, לוגיקה ו-coding.

איזו חומרה אני צריך כדי להריץ את Gemma 4 מקומית?

Gemma 4 E2B ו-E4B רצים על מכשירים עם החל מ-5GB RAM באמצעות 4-bit quantization, כולל סמארטפונים ולפטופים. מודל ה-26B MoE דורש בערך 18GB RAM וה-31B Dense דורש בערך 20GB RAM. כל המודלים רצים דרך Ollama עם אופטימיזציית NVIDIA RTX GPU זמינה.

תובנה מרכזית

Google Gemma 4 היא משפחת המודלים בעלי open-weight החזקה ביותר ששוחררה אי פעם תחת רישיון מתירני באמת. מודל ה-31B Dense משיג 85.2% ב-MMLU Pro ומדורג במקום ה-3 מבין כל המודלים הפתוחים ב-Arena AI — בעוד ש-26B MoE משיג איכות כמעט זהה עם 3.8B active parameters בלבד. לראשונה, Gemma מופץ תחת Apache 2.0, מה שמסיר כל חיכוך ברישוי שעיכב אימוץ מסחרי של דורות קודמים.

Google Gemma 4: כל מה שצריך לדעת

סקירת שחרור

Google DeepMind שחררה את Gemma 4 ב-April 2, 2026, והציגה ארבעה גדלי מודלים הבנויים על אותו בסיס טכנולוגי כמו Gemini 3. דור זה מייצג את הקפיצה הגדולה ביותר במשפחת Gemma בכל מימד: איכות המודל, יכולות multimodal, אורך ה-context, ותנאי הרישוי.

השינויים המרכזיים מ-Gemma 3:

רישוי Apache 2.0 — ללא הגבלות שימוש, ללא רישיון מותאם אישית, חופש מסחרי מלא
ארבעה גדלי מודלים במקום שלושה, כולל ארכיטקטורת MoE חדשה
תמיכה ב-multimodal מקורי בכל הגדלים (text, images, video, audio)
thinking mode ניתן להגדרה עם שרשראות reasoning של מעל 4,000 tokens
חלונות context של 256K במודלים הגדולים (עלייה מהמגבלות של Gemma 3)
מעל 35 שפות נתמכות, מאומן מראש על 140+ שפות
שימוש מובנה ב-tool use עבור agentic workflows

ארבעת גדלי המודלים

Gemma 4 מופץ בארבעה גדלים נפרדים, כל אחד מהם מיועד לתרחישי פריסה שונים:

מודל	Parameters	Active Params	ארכיטקטורה	Context	Modalities
E2B	2.3B effective	2.3B	Dense	128K	Text, Image, Video, Audio
E4B	4.5B effective	4.5B	Dense	128K	Text, Image, Video, Audio
26B MoE	26B total	3.8B	Mixture of Experts	256K	Text, Image
31B Dense	31B	31B	Dense	256K	Text, Image

מקור: Google AI Blog

E2B ו-E4B: מודלי ה-Edge

מודלי Gemma 4 הקטנים ביותר מיועדים לפריסת on-device. עם 2.3B ו-4.5B effective parameters בהתאמה, הם רצים על סמארטפונים, טאבלטים ומחשבים ניידים עם פחות מ-5GB RAM תוך שימוש ב-4-bit quantization.

מה שהופך את המודלים האלו למדהימים הוא רוחב ה-modality שלהם. למרות שהם הקטנים ביותר במשפחה, E2B ו-E4B הם מודלי Gemma 4 היחידים התומכים בכל ארבעת ה-input modalities: text, images, video, ו-audio. זוהי בחירה עיצובית מכוונת — מכשירי edge עם מצלמות ומיקרופונים מפיקים את המרב מיכולות multimodal.

שני המודלים תומכים בחלונות context של 128K tokens, מה שנחשב לנדיב ביחס לכמות ה-parameters שלהם ומספיק לרוב מקרי הבוחן ב-on-device.

26B MoE: יעילות מקסימלית

מודל ה-26B Mixture of Experts הוא ללא ספק המודל המעניין ביותר בנבחרת Gemma 4. הוא מכיל 26B total parameters אך מפעיל רק 3.8B parameters עבור כל קלט נתון — בערך אותה עלות compute כמו מודל ה-E4B אך עם גישה לידע ויכולות רבות משמעותית.

ב-Arena AI, ה-26B MoE מדורג במקום ה-6 מבין כל המודלים הפתוחים עם ציון של 1441, למרות שימוש ב-3.8B active parameters בלבד. יחס היעילות הזה הוא חסר תקדים — אף מודל אחר לא משיג איכות דומה בעלות compute זו.

ארכיטקטורת ה-MoE מנתבת כל token דרך תתי-רשתות מומחים ייעודיות, מה שמאפשר למודל לשמור על קיבולת ידע גדולה תוך שמירה על עלות inference נמוכה. עבור תרחישי פריסה שבהם דרוש reasoning חזק אך זכרון ה-GPU מוגבל, ה-26B MoE הוא הבחירה האופטימלית.

31B Dense: איכות מקסימלית

מודל ה-31B Dense הוא ספינת הדגל של Gemma 4. כל parameter פעיל עבור כל token, מה שמעניק לו את הפלטים העקביים והאיכותיים ביותר בכל סוגי המשימות.

ב-Arena AI, ה-31B Dense מדורג במקום ה-3 מבין כל המודלים הפתוחים עם ציון של 1452. ב-MMLU Pro, הוא משיג 85.2% — תחרותי מול מודלים הגדולים ממנו פי כמה. הציון של 89.2% ב-AIME 2026 מדגים reasoning מתמטי חזק, בעוד ש-74% ב-BigBench Extra Hard (עלייה מ-19% בדורות הקודמים) מראה שיפור עצום במשימות reasoning מורכבות.

Benchmarks: הנתונים המלאים

Reasoning וידע

Benchmark	31B Dense	26B MoE	הערות
MMLU Pro	85.2%	—	ידע ברמת תואר שני
AIME 2026	89.2%	—	מתמטיקה תחרותית
BigBench Extra Hard	74%	—	עלייה מ-19% בדור הקודם
Arena AI Score	1452 (מקום 3)	1441 (מקום 6)	דירוג מודלים פתוחים

מקור: Google DeepMind technical report

BigBench Extra Hard: התוצאה הבולטת

הקפיצה מ-19% ל-74% ב-BigBench Extra Hard ראויה לתשומת לב מיוחדת. Benchmark זה בוחן reasoning רב-שלבי מורכב, הסקה לוגית ומשימות הדורשות הבנה אמיתית ולא רק התאמת תבניות. שיפור של 55 נקודות האחוז בדור בודד מעיד על התקדמות יסודית בארכיטקטורת ה-reasoning של Gemma 4, ולא רק scaling.

שיפור זה קשור ככל הנראה ל-thinking mode הניתן להגדרה ולטכנולוגיית ה-Gemini 3 שבבסיס Gemma 4. ה-thinking mode מייצר שרשראות reasoning מורחבות שעוזרות למודל לעבוד על בעיות מורכבות צעד אחר צעד.

הקשר לדירוגי Arena AI

Arena AI מדרגת מודלים על סמך השוואות העדפה אנושיות ראש בראש. הציון 1452 של 31B Dense והדירוג במקום ה-3 בין המודלים הפתוחים מציבים אותו מעל מודלים רבים עם משמעותית יותר parameters. לצורך ההקשר:

מודלים המדורגים מעליו הם בדרך כלל מודלים של 70B+ parameters
ה-26B MoE המשיג 1441 עם 3.8B active parameters בלבד הוא פריצת דרך ביעילות
שני המודלים עוקפים את Gemma 3 27B הקודם בפער ניכר

יכולות Multimodal

הבנת תמונה

כל ארבעת מודלי Gemma 4 מעבדים תמונות באופן מקורי. היכולות כוללות:

תיאור וניתוח תמונה — הבנה מפורטת של תוכן חזותי
OCR וניתוח מסמכים — חילוץ טקסט מתמונות, קבלות, צילומי מסך
פרשנות גרפים ודיאגרמות — הבנת ויזואליזציה של נתונים
Visual reasoning — מענה על שאלות הדורשות הבנת יחסים מרחביים

וידאו ואודיו (E2B/E4B בלבד)

מודלי ה-E2B וה-E4B הקטנים יותר מוסיפים עיבוד וידאו ואודיו מקורי:

הבנת וידאו — ניתוח תוכן וידאו ללא חילוץ frame-by-frame
תמלול והבנת אודיו — עיבוד דיבור ואודיו סביבתי
Cross-modal reasoning — מענה על שאלות המשתרעות על קלטי טקסט, תמונה, וידאו ואודיו

בחירה עיצובית זו משקפת את המיקוד של Google בפריסת edge. מכשירים ניידים לוכדים וידאו ואודיו באופן טבעי, לכן המודלים המיועדים למכשירים אלו תומכים ב-modalities אלו.

thinking mode ניתן להגדרה

Gemma 4 מציג thinking mode ניתן להגדרה המייצר מעל 4,000 tokens של reasoning פנימי לפני הפקת תגובה. זה דומה ליכולות ה-extended thinking שנראו במודלים של Claude ובסדרת o של OpenAI, אך מיושם במודל open-weight.

איך זה עובד

כאשר thinking mode מופעל, המודל:

מקבל את ה-input prompt
מייצר שרשרת reasoning פנימית (גלויה או חסויה, בהתאם להגדרה)
משתמש בשרשרת ה-reasoning כדי להפיק תגובה סופית באיכות גבוהה יותר

ניתן להחליף את ה-thinking mode לכל בקשה (request), מה שמאפשר למפתחים:

להפעיל thinking עבור משימות מתמטיקה מורכבות, לוגיקה, coding וניתוח
לכבות thinking עבור שאילתות פשוטות, chat ואפליקציות רגישות ל-latency
להתאים את עומק ה-thinking בהתאם למורכבות הצפויה של המשימה

השפעה על האיכות

ה-thinking mode הוא המניע העיקרי מאחורי ביצועי ה-benchmark החזקים של Gemma 4. ציון ה-AIME 2026 של 89.2% וציון ה-BigBench Extra Hard של 74% הושגו שניהם עם thinking mode מופעל. ללא thinking mode, ציונים אלו היו נמוכים משמעותית — בדומה לדפוס שנראה במודלים אחרים עם יכולות reasoning מורחבות.

Apache 2.0: למה שינוי הרישיון חשוב

דורות קודמים של Gemma הופצו תחת רישיון Gemma המותאם של Google, שכלל הגבלות על:

שימוש באפליקציות מסוימות
תנאי הפצה מחדש
הגבלות פריסה מסחרית לשימוש בקנה מידה גדול

Gemma 4 עובר ל-Apache 2.0, אותו רישיון המשמש פרויקטים כמו Kubernetes, TensorFlow, ו-Apache HTTP Server. המשמעות היא:

ללא הגבלות שימוש — השתמשו בו לכל דבר, כולל מוצרים מסחריים
ללא מגבלות הפצה מחדש — שתפו weights ששונו באופן חופשי
ללא דרישות attribution מעבר לרישיון — הודעת Apache 2.0 סטנדרטית
אין צורך באישור Google — פריסה בכל קנה מידה ללא רשות
תואם לרישיונות קוד פתוח אחרים — קל לשילוב בפרויקטים קיימים

עבור ארגונים וסטארט-אפים הבונים מוצרים על גבי מודלים פתוחים, זה מסיר את עומס הבדיקה המשפטית שרישיון ה-Gemma המותאם דרש. זה גם הופך את Gemma 4 לבר-השוואה ישירה למודלי Llama של Meta (שמשתמשים ברישיון מותאם משלהם עם כמה הגבלות) ומציב אותו כמשפחת המודלים הפתוחים האיכותיים ביותר עם הרישוי המתירני ביותר הקיים.

תמיכה בשפות

Gemma 4 תומך ב-35+ שפות ל-inference ואומן מראש על 140+ שפות. זה הופך אותו לאחד המודלים הפתוחים הרב-לשוניים ביותר הקיימים, לצד המודלים של Qwen שגם הם מדגישים כיסוי שפה נרחב.

שפות נתמכות כוללות שפות עולמיות מרכזיות (אנגלית, סינית, ספרדית, צרפתית, גרמנית, יפנית, קוריאנית, ערבית, הינדי, פורטוגזית, רוסית) וכן שפות רבות עם טביעת רגל דיגיטלית קטנה יותר. האימון המוקדם על 140+ שפות אומר שלמודל יש יכולת מסוימת בשפות מעבר ל-35 הנתמכות רשמית, אם כי האיכות עשויה להשתנות.

עבור אפליקציות המיועדות לקהלים גלובליים או לשווקים שאינם דוברי אנגלית, תמיכה רחבה זו בשפות מפחיתה את הצורך ב-fine-tuning ייעודי או במודלים נפרדים לכל שפה.

שימוש מובנה בכלים ו-Agentic Workflows

Gemma 4 כולל תמיכה מקורית ב-structured tool use, המאפשרת workflows סוכנותיים שבהם המודל יכול:

לקרוא ל-APIs חיצוניים עם בקשות בפורמט תקין
לנתח תגובות מובנות מכלים ושירותים
לשרשר מספר קריאות לכלים לביצוע משימות מורכבות
לטפל בשגיאות ובניסיונות חוזרים בביצוע הכלים

יכולת זו רלוונטית במיוחד עבור אינטגרציה עם Android Studio, שם Gemma 4 מניע workflows מקומיים של agentic coding. המודל יכול להבין הקשר קוד, להציע שינויים, לבצע כלים ולבצע איטרציות — הכל רץ מקומית על מכשיר המפתח מבלי לשלוח קוד לשרתים חיצוניים.

עבור מפתחים הבונים סוכני AI, ה-structured tool use של Gemma 4 מספק בסיס מקומי ופרטי לחלוטין. בשילוב עם רישיון Apache 2.0, הדבר מאפשר בנייה ופריסה של אפליקציות סוכנותיות ללא תלות בספקי מודלים חיצוניים.

דרישות חומרה

פריסה מקומית באמצעות Ollama

מודל	RAM דרוש (4-bit)	RAM דרוש (FP16)	המלצת GPU
E2B	~5 GB	~5 GB	כל GPU מודרני / CPU בלבד
E4B	~5 GB	~9 GB	כל GPU מודרני / CPU בלבד
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

מקור: Ollama model library

מודלי ה-E2B וה-E4B תוכננו במיוחד לפריסת edge. הם רצים בנוחות על מחשבים ניידים, מעבדי desktop ואפילו סמארטפונים מסוימים. מודלי ה-26B MoE וה-31B Dense דורשים חומרת GPU ייעודית אך נותרים נגישים למפתחים בודדים עם GPUs ברמת הצרכן.

אופטימיזציה של NVIDIA

NVIDIA שחררה גרסאות ממוטבות של Gemma 4 עבור RTX GPUs, המספקות:

Inference מהיר יותר באמצעות אופטימיזציות kernel ספציפיות ל-GPU
ניצול זיכרון טוב יותר בכרטיסי סדרת RTX 4000 ו-5000
אינטגרציה של TensorRT לפריסת ייצור
תמיכה ב-CUDA graph להפחתת עומס ב-inference חוזר

מקור: NVIDIA AI Blog

מה השתנה מ-Gemma 3

תכונה	Gemma 3	Gemma 4
רישיון	Gemma License (מוגבל)	Apache 2.0 (לא מוגבל)
גדלי מודלים	3 גדלים	4 גדלים (נוסף MoE)
חלון Context	עד 128K	עד 256K
Modalities	Text, Image	Text, Image, Video, Audio
thinking mode	לא	כן (ניתן להגדרה)
שימוש בכלים	מוגבל	Structured tool use
שפות	30+	35+ (מאומן מראש על 140+)
BigBench Extra Hard	19%	74%

כל מימד השתפר. השינויים המשפיעים ביותר עבור מפתחים הם רישיון Apache 2.0 (מסיר חיכוך משפטי), ה-thinking mode (משפר איכות במשימות קשות), וארכיטקטורת ה-MoE (מספקת איכות של ספינת דגל בחלקיק מעלות ה-compute).

מקרי בוחן פרקטיים

תכנות ופיתוח

ה-structured tool use וה-thinking mode של Gemma 4 הופכים אותו ליעיל עבור:

השלמת קוד ויצירת קוד מקומית
סקירת קוד וזיהוי באגים
יצירת בדיקות אוטומטיות
כתיבת תיעוד
workflows של agentic coding ב-Android Studio

עיבוד מסמכים

עם חלונות context של 256K ותמיכה ב-multimodal:

עיבוד בסיסי קוד שלמים או מסמכים ארוכים ב-prompt בודד
חילוץ מידע מתמונות של מסמכים, קבלות וטפסים
ניתוח גרפים וויזואליזציות נתונים
סיכום מאמרים מחקריים ארוכים או מסמכים משפטיים

בניית אפליקציות מבוססות AI

עבור מפתחים הבונים מוצרים המשלבים יכולות AI, Gemma 4 מספק שכבת inference חזקה on-device או self-hosted. המודל מטפל באינטליגנציה — הבנת שאילתות, יצירת תגובות, עיבוד תמונות — בעוד שתשתית האפליקציה שלכם מטפלת בכל השאר. כלים כמו ZBuild יכולים להאיץ את בניית מעטפת האפליקציה (frontend, backend, database, פריסה), ומאפשרים לכם למקד את מאמץ הפיתוח בשכבת האינטגרציה של ה-AI שבה היכולות של Gemma 4 הן המשמעותיות ביותר.

פריסת Edge ומובייל

מודלי ה-E2B וה-E4B פותחים מקרי בוחן שהיו בלתי אפשריים בעבר עם מודלים פתוחים:

עוזרים on-device שעובדים offline
תכונות AI שומרות פרטיות שלעולם לא שולחות נתונים לשרתים חיצוניים
עיבוד וידאו ואודיו בזמן אמת במכשירים ניידים
AI משובץ באפליקציות IoT ורובוטיקה

איך להתחיל

Ollama (הדרך המהירה ביותר)

# התקנת Ollama
curl -fsSL https://ollama.com/install.sh | sh

# הורדה והרצה של Gemma 4
ollama run gemma4:e2b      # הכי קטן, רץ בכל מקום
ollama run gemma4:e4b      # קטן, יכולת רחבה יותר
ollama run gemma4:26b-moe  # MoE, היעילות הטובה ביותר
ollama run gemma4:31b      # Dense, האיכות הגבוהה ביותר

Hugging Face

כל מודלי Gemma 4 זמינים ב-Hugging Face עם אינטגרציית transformers מלאה:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google מספקת גישת API בחינם ל-Gemma 4 דרך AI Studio לניסויים ובניית אב-טיפוס, כאשר Vertex AI זמין לפריסת ייצור.

Gemma 4 בנוף התחרותי

כדי להבין היכן Gemma 4 ממוקם באקו-סיסטם הרחב:

מודל	Parameters	רישיון	MMLU Pro	Arena AI	Context
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B active)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B active)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B active)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B active)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B משיג את ציון ה-MMLU Pro ודירוג ה-Arena AI הגבוהים ביותר מבין המודלים הפתוחים — עם הכי מעט total parameters. יעילות ה-parameters הזו היא תוצאה ישירה של בסיס טכנולוגיית Gemini 3 וה-thinking mode הניתן להגדרה.

סיפור היעילות של מודל ה-26B MoE משכנע עוד יותר. הוא מדורג במקום ה-6 ב-Arena AI תוך הפעלת 3.8B parameters בלבד לכל token. אף מודל אחר לא משיג יחס איכות-ל-compute דומה. עבור פריסות ייצור שבהן עלות ה-inference גדלה עם השימוש, יעילות זו מתורגמת ישירות לחיסכון בעלויות.

בהשוואה למודלים קנייניים, ה-benchmarks של Gemma 4 31B תחרותיים מול הצעות בדרג הביניים של Anthropic ו-OpenAI. בעוד שהמודלים הקנייניים המובילים עדיין מובילים במשימות הקשות ביותר, הפער הצטמצם באופן דרמטי — ו-Gemma 4 מגיע עם עלות אפס לכל token וחופש מלא של Apache 2.0.

פסק דין

Gemma 4 קובע סטנדרט חדש למודלי open-weight בשנת 2026. השילוב של רישוי Apache 2.0, ארבעה גדלי מודלים מובחנים היטב, תמיכה מקורית ב-multimodal, מצב thinking mode ניתן להגדרה וציוני benchmark תחרותיים מול מודלים גדולים בהרבה, הופך אותה למשפחת המודלים הפתוחים הפרקטית ביותר הקיימת.

ה-31B Dense הוא הבחירה הנכונה כשזקוקים לאיכות מקסימלית. ה-26B MoE הוא הבחירה הנכונה כשזקוקים לאיכות חזקה בעלות compute מינימלית. ה-E2B וה-E4B הם הבחירות הנכונות לפריסת edge ו-AI בתוך המכשיר. לראשונה במשפחת Gemma, הרישיון אינו מגביל אף אחד ממקרי הבוחן הללו.

Google Gemma 4: מדריך מלא ל-Specs, Benchmarks, ומה חדש (2026)