תובנה מרכזית
Google Gemma 4 היא משפחת המודלים בעלי open-weight החזקה ביותר ששוחררה אי פעם תחת רישיון מתירני באמת. מודל ה-31B Dense משיג 85.2% ב-MMLU Pro ומדורג במקום ה-3 מבין כל המודלים הפתוחים ב-Arena AI — בעוד ש-26B MoE משיג איכות כמעט זהה עם 3.8B active parameters בלבד. לראשונה, Gemma מופץ תחת Apache 2.0, מה שמסיר כל חיכוך ברישוי שעיכב אימוץ מסחרי של דורות קודמים.
Google Gemma 4: כל מה שצריך לדעת
סקירת שחרור
Google DeepMind שחררה את Gemma 4 ב-April 2, 2026, והציגה ארבעה גדלי מודלים הבנויים על אותו בסיס טכנולוגי כמו Gemini 3. דור זה מייצג את הקפיצה הגדולה ביותר במשפחת Gemma בכל מימד: איכות המודל, יכולות multimodal, אורך ה-context, ותנאי הרישוי.
השינויים המרכזיים מ-Gemma 3:
- רישוי Apache 2.0 — ללא הגבלות שימוש, ללא רישיון מותאם אישית, חופש מסחרי מלא
- ארבעה גדלי מודלים במקום שלושה, כולל ארכיטקטורת MoE חדשה
- תמיכה ב-multimodal מקורי בכל הגדלים (text, images, video, audio)
- thinking mode ניתן להגדרה עם שרשראות reasoning של מעל 4,000 tokens
- חלונות context של 256K במודלים הגדולים (עלייה מהמגבלות של Gemma 3)
- מעל 35 שפות נתמכות, מאומן מראש על 140+ שפות
- שימוש מובנה ב-tool use עבור agentic workflows
ארבעת גדלי המודלים
Gemma 4 מופץ בארבעה גדלים נפרדים, כל אחד מהם מיועד לתרחישי פריסה שונים:
| מודל | Parameters | Active Params | ארכיטקטורה | Context | Modalities |
|---|---|---|---|---|---|
| E2B | 2.3B effective | 2.3B | Dense | 128K | Text, Image, Video, Audio |
| E4B | 4.5B effective | 4.5B | Dense | 128K | Text, Image, Video, Audio |
| 26B MoE | 26B total | 3.8B | Mixture of Experts | 256K | Text, Image |
| 31B Dense | 31B | 31B | Dense | 256K | Text, Image |
E2B ו-E4B: מודלי ה-Edge
מודלי Gemma 4 הקטנים ביותר מיועדים לפריסת on-device. עם 2.3B ו-4.5B effective parameters בהתאמה, הם רצים על סמארטפונים, טאבלטים ומחשבים ניידים עם פחות מ-5GB RAM תוך שימוש ב-4-bit quantization.
מה שהופך את המודלים האלו למדהימים הוא רוחב ה-modality שלהם. למרות שהם הקטנים ביותר במשפחה, E2B ו-E4B הם מודלי Gemma 4 היחידים התומכים בכל ארבעת ה-input modalities: text, images, video, ו-audio. זוהי בחירה עיצובית מכוונת — מכשירי edge עם מצלמות ומיקרופונים מפיקים את המרב מיכולות multimodal.
שני המודלים תומכים בחלונות context של 128K tokens, מה שנחשב לנדיב ביחס לכמות ה-parameters שלהם ומספיק לרוב מקרי הבוחן ב-on-device.
26B MoE: יעילות מקסימלית
מודל ה-26B Mixture of Experts הוא ללא ספק המודל המעניין ביותר בנבחרת Gemma 4. הוא מכיל 26B total parameters אך מפעיל רק 3.8B parameters עבור כל קלט נתון — בערך אותה עלות compute כמו מודל ה-E4B אך עם גישה לידע ויכולות רבות משמעותית.
ב-Arena AI, ה-26B MoE מדורג במקום ה-6 מבין כל המודלים הפתוחים עם ציון של 1441, למרות שימוש ב-3.8B active parameters בלבד. יחס היעילות הזה הוא חסר תקדים — אף מודל אחר לא משיג איכות דומה בעלות compute זו.
ארכיטקטורת ה-MoE מנתבת כל token דרך תתי-רשתות מומחים ייעודיות, מה שמאפשר למודל לשמור על קיבולת ידע גדולה תוך שמירה על עלות inference נמוכה. עבור תרחישי פריסה שבהם דרוש reasoning חזק אך זכרון ה-GPU מוגבל, ה-26B MoE הוא הבחירה האופטימלית.
31B Dense: איכות מקסימלית
מודל ה-31B Dense הוא ספינת הדגל של Gemma 4. כל parameter פעיל עבור כל token, מה שמעניק לו את הפלטים העקביים והאיכותיים ביותר בכל סוגי המשימות.
ב-Arena AI, ה-31B Dense מדורג במקום ה-3 מבין כל המודלים הפתוחים עם ציון של 1452. ב-MMLU Pro, הוא משיג 85.2% — תחרותי מול מודלים הגדולים ממנו פי כמה. הציון של 89.2% ב-AIME 2026 מדגים reasoning מתמטי חזק, בעוד ש-74% ב-BigBench Extra Hard (עלייה מ-19% בדורות הקודמים) מראה שיפור עצום במשימות reasoning מורכבות.
Benchmarks: הנתונים המלאים
Reasoning וידע
| Benchmark | 31B Dense | 26B MoE | הערות |
|---|---|---|---|
| MMLU Pro | 85.2% | — | ידע ברמת תואר שני |
| AIME 2026 | 89.2% | — | מתמטיקה תחרותית |
| BigBench Extra Hard | 74% | — | עלייה מ-19% בדור הקודם |
| Arena AI Score | 1452 (מקום 3) | 1441 (מקום 6) | דירוג מודלים פתוחים |
מקור: Google DeepMind technical report
BigBench Extra Hard: התוצאה הבולטת
הקפיצה מ-19% ל-74% ב-BigBench Extra Hard ראויה לתשומת לב מיוחדת. Benchmark זה בוחן reasoning רב-שלבי מורכב, הסקה לוגית ומשימות הדורשות הבנה אמיתית ולא רק התאמת תבניות. שיפור של 55 נקודות האחוז בדור בודד מעיד על התקדמות יסודית בארכיטקטורת ה-reasoning של Gemma 4, ולא רק scaling.
שיפור זה קשור ככל הנראה ל-thinking mode הניתן להגדרה ולטכנולוגיית ה-Gemini 3 שבבסיס Gemma 4. ה-thinking mode מייצר שרשראות reasoning מורחבות שעוזרות למודל לעבוד על בעיות מורכבות צעד אחר צעד.
הקשר לדירוגי Arena AI
Arena AI מדרגת מודלים על סמך השוואות העדפה אנושיות ראש בראש. הציון 1452 של 31B Dense והדירוג במקום ה-3 בין המודלים הפתוחים מציבים אותו מעל מודלים רבים עם משמעותית יותר parameters. לצורך ההקשר:
- מודלים המדורגים מעליו הם בדרך כלל מודלים של 70B+ parameters
- ה-26B MoE המשיג 1441 עם 3.8B active parameters בלבד הוא פריצת דרך ביעילות
- שני המודלים עוקפים את Gemma 3 27B הקודם בפער ניכר
יכולות Multimodal
הבנת תמונה
כל ארבעת מודלי Gemma 4 מעבדים תמונות באופן מקורי. היכולות כוללות:
- תיאור וניתוח תמונה — הבנה מפורטת של תוכן חזותי
- OCR וניתוח מסמכים — חילוץ טקסט מתמונות, קבלות, צילומי מסך
- פרשנות גרפים ודיאגרמות — הבנת ויזואליזציה של נתונים
- Visual reasoning — מענה על שאלות הדורשות הבנת יחסים מרחביים
וידאו ואודיו (E2B/E4B בלבד)
מודלי ה-E2B וה-E4B הקטנים יותר מוסיפים עיבוד וידאו ואודיו מקורי:
- הבנת וידאו — ניתוח תוכן וידאו ללא חילוץ frame-by-frame
- תמלול והבנת אודיו — עיבוד דיבור ואודיו סביבתי
- Cross-modal reasoning — מענה על שאלות המשתרעות על קלטי טקסט, תמונה, וידאו ואודיו
בחירה עיצובית זו משקפת את המיקוד של Google בפריסת edge. מכשירים ניידים לוכדים וידאו ואודיו באופן טבעי, לכן המודלים המיועדים למכשירים אלו תומכים ב-modalities אלו.
thinking mode ניתן להגדרה
Gemma 4 מציג thinking mode ניתן להגדרה המייצר מעל 4,000 tokens של reasoning פנימי לפני הפקת תגובה. זה דומה ליכולות ה-extended thinking שנראו במודלים של Claude ובסדרת o של OpenAI, אך מיושם במודל open-weight.
איך זה עובד
כאשר thinking mode מופעל, המודל:
- מקבל את ה-input prompt
- מייצר שרשרת reasoning פנימית (גלויה או חסויה, בהתאם להגדרה)
- משתמש בשרשרת ה-reasoning כדי להפיק תגובה סופית באיכות גבוהה יותר
ניתן להחליף את ה-thinking mode לכל בקשה (request), מה שמאפשר למפתחים:
- להפעיל thinking עבור משימות מתמטיקה מורכבות, לוגיקה, coding וניתוח
- לכבות thinking עבור שאילתות פשוטות, chat ואפליקציות רגישות ל-latency
- להתאים את עומק ה-thinking בהתאם למורכבות הצפויה של המשימה
השפעה על האיכות
ה-thinking mode הוא המניע העיקרי מאחורי ביצועי ה-benchmark החזקים של Gemma 4. ציון ה-AIME 2026 של 89.2% וציון ה-BigBench Extra Hard של 74% הושגו שניהם עם thinking mode מופעל. ללא thinking mode, ציונים אלו היו נמוכים משמעותית — בדומה לדפוס שנראה במודלים אחרים עם יכולות reasoning מורחבות.
Apache 2.0: למה שינוי הרישיון חשוב
דורות קודמים של Gemma הופצו תחת רישיון Gemma המותאם של Google, שכלל הגבלות על:
- שימוש באפליקציות מסוימות
- תנאי הפצה מחדש
- הגבלות פריסה מסחרית לשימוש בקנה מידה גדול
Gemma 4 עובר ל-Apache 2.0, אותו רישיון המשמש פרויקטים כמו Kubernetes, TensorFlow, ו-Apache HTTP Server. המשמעות היא:
- ללא הגבלות שימוש — השתמשו בו לכל דבר, כולל מוצרים מסחריים
- ללא מגבלות הפצה מחדש — שתפו weights ששונו באופן חופשי
- ללא דרישות attribution מעבר לרישיון — הודעת Apache 2.0 סטנדרטית
- אין צורך באישור Google — פריסה בכל קנה מידה ללא רשות
- תואם לרישיונות קוד פתוח אחרים — קל לשילוב בפרויקטים קיימים
עבור ארגונים וסטארט-אפים הבונים מוצרים על גבי מודלים פתוחים, זה מסיר את עומס הבדיקה המשפטית שרישיון ה-Gemma המותאם דרש. זה גם הופך את Gemma 4 לבר-השוואה ישירה למודלי Llama של Meta (שמשתמשים ברישיון מותאם משלהם עם כמה הגבלות) ומציב אותו כמשפחת המודלים הפתוחים האיכותיים ביותר עם הרישוי המתירני ביותר הקיים.
תמיכה בשפות
Gemma 4 תומך ב-35+ שפות ל-inference ואומן מראש על 140+ שפות. זה הופך אותו לאחד המודלים הפתוחים הרב-לשוניים ביותר הקיימים, לצד המודלים של Qwen שגם הם מדגישים כיסוי שפה נרחב.
שפות נתמכות כוללות שפות עולמיות מרכזיות (אנגלית, סינית, ספרדית, צרפתית, גרמנית, יפנית, קוריאנית, ערבית, הינדי, פורטוגזית, רוסית) וכן שפות רבות עם טביעת רגל דיגיטלית קטנה יותר. האימון המוקדם על 140+ שפות אומר שלמודל יש יכולת מסוימת בשפות מעבר ל-35 הנתמכות רשמית, אם כי האיכות עשויה להשתנות.
עבור אפליקציות המיועדות לקהלים גלובליים או לשווקים שאינם דוברי אנגלית, תמיכה רחבה זו בשפות מפחיתה את הצורך ב-fine-tuning ייעודי או במודלים נפרדים לכל שפה.
שימוש מובנה בכלים ו-Agentic Workflows
Gemma 4 כולל תמיכה מקורית ב-structured tool use, המאפשרת workflows סוכנותיים שבהם המודל יכול:
- לקרוא ל-APIs חיצוניים עם בקשות בפורמט תקין
- לנתח תגובות מובנות מכלים ושירותים
- לשרשר מספר קריאות לכלים לביצוע משימות מורכבות
- לטפל בשגיאות ובניסיונות חוזרים בביצוע הכלים
יכולת זו רלוונטית במיוחד עבור אינטגרציה עם Android Studio, שם Gemma 4 מניע workflows מקומיים של agentic coding. המודל יכול להבין הקשר קוד, להציע שינויים, לבצע כלים ולבצע איטרציות — הכל רץ מקומית על מכשיר המפתח מבלי לשלוח קוד לשרתים חיצוניים.
עבור מפתחים הבונים סוכני AI, ה-structured tool use של Gemma 4 מספק בסיס מקומי ופרטי לחלוטין. בשילוב עם רישיון Apache 2.0, הדבר מאפשר בנייה ופריסה של אפליקציות סוכנותיות ללא תלות בספקי מודלים חיצוניים.
דרישות חומרה
פריסה מקומית באמצעות Ollama
| מודל | RAM דרוש (4-bit) | RAM דרוש (FP16) | המלצת GPU |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | כל GPU מודרני / CPU בלבד |
| E4B | ~5 GB | ~9 GB | כל GPU מודרני / CPU בלבד |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
מודלי ה-E2B וה-E4B תוכננו במיוחד לפריסת edge. הם רצים בנוחות על מחשבים ניידים, מעבדי desktop ואפילו סמארטפונים מסוימים. מודלי ה-26B MoE וה-31B Dense דורשים חומרת GPU ייעודית אך נותרים נגישים למפתחים בודדים עם GPUs ברמת הצרכן.
אופטימיזציה של NVIDIA
NVIDIA שחררה גרסאות ממוטבות של Gemma 4 עבור RTX GPUs, המספקות:
- Inference מהיר יותר באמצעות אופטימיזציות kernel ספציפיות ל-GPU
- ניצול זיכרון טוב יותר בכרטיסי סדרת RTX 4000 ו-5000
- אינטגרציה של TensorRT לפריסת ייצור
- תמיכה ב-CUDA graph להפחתת עומס ב-inference חוזר
מה השתנה מ-Gemma 3
| תכונה | Gemma 3 | Gemma 4 |
|---|---|---|
| רישיון | Gemma License (מוגבל) | Apache 2.0 (לא מוגבל) |
| גדלי מודלים | 3 גדלים | 4 גדלים (נוסף MoE) |
| חלון Context | עד 128K | עד 256K |
| Modalities | Text, Image | Text, Image, Video, Audio |
| thinking mode | לא | כן (ניתן להגדרה) |
| שימוש בכלים | מוגבל | Structured tool use |
| שפות | 30+ | 35+ (מאומן מראש על 140+) |
| BigBench Extra Hard | 19% | 74% |
כל מימד השתפר. השינויים המשפיעים ביותר עבור מפתחים הם רישיון Apache 2.0 (מסיר חיכוך משפטי), ה-thinking mode (משפר איכות במשימות קשות), וארכיטקטורת ה-MoE (מספקת איכות של ספינת דגל בחלקיק מעלות ה-compute).
מקרי בוחן פרקטיים
תכנות ופיתוח
ה-structured tool use וה-thinking mode של Gemma 4 הופכים אותו ליעיל עבור:
- השלמת קוד ויצירת קוד מקומית
- סקירת קוד וזיהוי באגים
- יצירת בדיקות אוטומטיות
- כתיבת תיעוד
- workflows של agentic coding ב-Android Studio
עיבוד מסמכים
עם חלונות context של 256K ותמיכה ב-multimodal:
- עיבוד בסיסי קוד שלמים או מסמכים ארוכים ב-prompt בודד
- חילוץ מידע מתמונות של מסמכים, קבלות וטפסים
- ניתוח גרפים וויזואליזציות נתונים
- סיכום מאמרים מחקריים ארוכים או מסמכים משפטיים
בניית אפליקציות מבוססות AI
עבור מפתחים הבונים מוצרים המשלבים יכולות AI, Gemma 4 מספק שכבת inference חזקה on-device או self-hosted. המודל מטפל באינטליגנציה — הבנת שאילתות, יצירת תגובות, עיבוד תמונות — בעוד שתשתית האפליקציה שלכם מטפלת בכל השאר. כלים כמו ZBuild יכולים להאיץ את בניית מעטפת האפליקציה (frontend, backend, database, פריסה), ומאפשרים לכם למקד את מאמץ הפיתוח בשכבת האינטגרציה של ה-AI שבה היכולות של Gemma 4 הן המשמעותיות ביותר.
פריסת Edge ומובייל
מודלי ה-E2B וה-E4B פותחים מקרי בוחן שהיו בלתי אפשריים בעבר עם מודלים פתוחים:
- עוזרים on-device שעובדים offline
- תכונות AI שומרות פרטיות שלעולם לא שולחות נתונים לשרתים חיצוניים
- עיבוד וידאו ואודיו בזמן אמת במכשירים ניידים
- AI משובץ באפליקציות IoT ורובוטיקה
איך להתחיל
Ollama (הדרך המהירה ביותר)
# התקנת Ollama
curl -fsSL https://ollama.com/install.sh | sh
# הורדה והרצה של Gemma 4
ollama run gemma4:e2b # הכי קטן, רץ בכל מקום
ollama run gemma4:e4b # קטן, יכולת רחבה יותר
ollama run gemma4:26b-moe # MoE, היעילות הטובה ביותר
ollama run gemma4:31b # Dense, האיכות הגבוהה ביותר
Hugging Face
כל מודלי Gemma 4 זמינים ב-Hugging Face עם אינטגרציית transformers מלאה:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google מספקת גישת API בחינם ל-Gemma 4 דרך AI Studio לניסויים ובניית אב-טיפוס, כאשר Vertex AI זמין לפריסת ייצור.
Gemma 4 בנוף התחרותי
כדי להבין היכן Gemma 4 ממוקם באקו-סיסטם הרחב:
| מודל | Parameters | רישיון | MMLU Pro | Arena AI | Context |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B active) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B active) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B active) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B active) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B משיג את ציון ה-MMLU Pro ודירוג ה-Arena AI הגבוהים ביותר מבין המודלים הפתוחים — עם הכי מעט total parameters. יעילות ה-parameters הזו היא תוצאה ישירה של בסיס טכנולוגיית Gemini 3 וה-thinking mode הניתן להגדרה.
סיפור היעילות של מודל ה-26B MoE משכנע עוד יותר. הוא מדורג במקום ה-6 ב-Arena AI תוך הפעלת 3.8B parameters בלבד לכל token. אף מודל אחר לא משיג יחס איכות-ל-compute דומה. עבור פריסות ייצור שבהן עלות ה-inference גדלה עם השימוש, יעילות זו מתורגמת ישירות לחיסכון בעלויות.
בהשוואה למודלים קנייניים, ה-benchmarks של Gemma 4 31B תחרותיים מול הצעות בדרג הביניים של Anthropic ו-OpenAI. בעוד שהמודלים הקנייניים המובילים עדיין מובילים במשימות הקשות ביותר, הפער הצטמצם באופן דרמטי — ו-Gemma 4 מגיע עם עלות אפס לכל token וחופש מלא של Apache 2.0.
פסק דין
Gemma 4 קובע סטנדרט חדש למודלי open-weight בשנת 2026. השילוב של רישוי Apache 2.0, ארבעה גדלי מודלים מובחנים היטב, תמיכה מקורית ב-multimodal, מצב thinking mode ניתן להגדרה וציוני benchmark תחרותיים מול מודלים גדולים בהרבה, הופך אותה למשפחת המודלים הפתוחים הפרקטית ביותר הקיימת.
ה-31B Dense הוא הבחירה הנכונה כשזקוקים לאיכות מקסימלית. ה-26B MoE הוא הבחירה הנכונה כשזקוקים לאיכות חזקה בעלות compute מינימלית. ה-E2B וה-E4B הם הבחירות הנכונות לפריסת edge ו-AI בתוך המכשיר. לראשונה במשפחת Gemma, הרישיון אינו מגביל אף אחד ממקרי הבוחן הללו.
מקורות
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers