Key Takeaway
إن مشهد نماذج AI مفتوحة المصدر في عام 2026 هو سباق ثلاثي بين Gemma 4 من Google، وLlama 4 من Meta، وQwen 3.5 من Alibaba. تهيمن كل عائلة على أبعاد مختلفة: يتفوق Gemma 4 في الكفاءة والترخيص، ويتفوق Llama 4 في الحجم الخام وطول الـ context length، بينما يتفوق Qwen 3.5 في الاتساع اللغوي وتنوع النماذج. يعتمد النموذج "الأفضل" تماماً على قيود النشر الخاصة بك، والأسواق المستهدفة، وميزانية الأجهزة (hardware).
Gemma 4 vs Llama 4 vs Qwen 3.5: المقارنة الكاملة
نظرة سريعة على المنافسين
قبل الغوص في التفاصيل، إليك المشهد العام:
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| المطور | Google DeepMind | Meta | Alibaba Cloud |
| تاريخ الإصدار | April 2, 2026 | April 2025 (Scout/Maverick) | Q1 2026 |
| الترخيص | Apache 2.0 | Meta Custom License | Apache 2.0 (معظم النماذج) |
| أحجام النماذج | E2B, E4B, 26B MoE, 31B Dense | Scout 109B, Maverick 400B | متعددة (0.6B إلى 397B) |
| أقصى Context | 256K | 10M (Scout) | 128K |
| Multimodal | نص، صورة، فيديو، صوت | نص، صورة | نص، صورة |
| Thinking Mode | نعم (قابل للتهيئة) | لا | نعم (هجين) |
المصدر: إعلانات النماذج الرسمية من Google و Meta و Alibaba
أحجام النماذج والبنية المعمارية
Gemma 4: أربعة أحجام، بنيتان معماريتان
يقدم Gemma 4 التشكيلة الأكثر تمايزاً:
| النموذج | إجمالي Params | الـ Params النشطة | البنية المعمارية |
|---|---|---|---|
| E2B | 2.3B | 2.3B | Dense |
| E4B | 4.5B | 4.5B | Dense |
| 26B MoE | 26B | 3.8B | Mixture of Experts |
| 31B Dense | 31B | 31B | Dense |
يعد 26B MoE هو الأبرز — فهو يقدم جودة قريبة من النماذج الرائدة مع تنشيط 3.8B parameters فقط لكل token. وهذا يعني أنه يعمل بنفس سرعة وتكلفة ذاكرة نموذج E4B تقريباً مع الوصول إلى معرفة 26B parameters. في Arena AI، سجل 1441 نقطة واحتل المرتبة 6th بين النماذج المفتوحة على الرغم من هذا الاستهلاك المنخفض للـ compute.
Llama 4: نموذجان ضخمان
تتخذ Meta في Llama 4 نهجاً معاكساً — نماذج أقل عدداً، ولكنها أكبر بكثير:
| النموذج | إجمالي Params | الـ Params النشطة | البنية المعمارية |
|---|---|---|---|
| Scout | 109B | ~17B | Mixture of Experts (16 experts) |
| Maverick | 400B | ~17B | Mixture of Experts (128 experts) |
يستخدم كلا نموذجي Llama 4 بنية MoE. يقوم Scout بتنشيط حوالي 17B parameters لكل token من مجموعة قدرها 109B. أما Maverick فينشط كمية مماثلة من إجمالي 400B parameters، باستخدام 128 experts لقدرة معرفية أكبر. المقايضة الرئيسية: حتى مع كفاءة MoE، تتطلب هذه النماذج ذاكرة أكبر بكثير للاحتفاظ بمجموعة الـ parameters الكاملة.
الميزة المحددة لـ Llama 4 Scout هي 10 million token context window — وهي الأطول بين أي نموذج مفتوح رئيسي. وهذا يتيح معالجة قواعد برمجية (codebases) كاملة، أو نصوص فيديو طويلة، أو مجموعات ضخمة من المستندات في prompt واحد.
Qwen 3.5: النطاق الأوسع
تقدم عائلة Qwen 3.5 من Alibaba أكبر عدد من أحجام النماذج:
| النموذج | Parameters | البنية المعمارية |
|---|---|---|
| Qwen 3.5 0.6B | 0.6B | Dense |
| Qwen 3.5 1.7B | 1.7B | Dense |
| Qwen 3.5 4B | 4B | Dense |
| Qwen 3.5 8B | 8B | Dense |
| Qwen 3.5 14B | 14B | Dense |
| Qwen 3.5 32B | 32B | Dense |
| Qwen 3.5 72B | 72B | Dense |
| Qwen 3.5 MoE (A22B) | 397B | Mixture of Experts |
يغطي Qwen 3.5 كل فئات الـ parameters. نموذج 0.6B يعمل على أي جهاز تقريباً. أما 397B MoE فيطابق Llama 4 Maverick في إجمالي عدد الـ parameters. هذا الاتساع يعني أن هناك دائماً نموذج Qwen يناسب قيود الأجهزة (hardware) الخاصة بك تماماً.
يقدم Qwen 3.5 أيضاً hybrid thinking mode، مما يسمح للمستخدمين بالتبديل بين الاستجابات السريعة والتفكير الأعمق داخل نفس النموذج — على غرار thinking mode القابل للتهيئة في Gemma 4.
مقارنة الـ Benchmarks
الاستدلال والمعرفة
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B | Qwen 3.5 MoE |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 79.6% | 81.4% | 83.1% |
| AIME 2026 | 89.2% | — | 79.8% | 85.6% |
| BigBench Extra Hard | 74% | — | 62% | 68% |
| Arena AI Score | 1452 (3rd) | 1417 | 1438 | 1449 |
المصادر: Arena AI، والتقارير الفنية المعنية
يتصدر Gemma 4 31B في benchmarks الاستدلال، وهو أمر لافت للنظر بالنظر إلى أنه أصغر نموذج رائد في هذه المقارنة (31B مقابل 400B مقابل 72B/397B). يلعب thinking mode دوراً رئيسياً هنا — حيث يتفوق Gemma 4 مع تفعيل وضع التفكير في المهام التي تستفيد من الاستدلال خطوة بخطوة.
الأداء المعدل حسب الكفاءة
الـ benchmarks الخام لا تحكي القصة كاملة. عندما تأخذ في الاعتبار الـ active parameters — أي تكلفة الـ compute لكل token — تتغير الصورة:
| النموذج | Arena AI Score | Active Params | Score per B Active |
|---|---|---|---|
| Gemma 4 26B MoE | 1441 | 3.8B | 379 |
| Gemma 4 31B | 1452 | 31B | 47 |
| Llama 4 Maverick | 1417 | ~17B | 83 |
| Llama 4 Scout | ~1400 | ~17B | 82 |
| Qwen 3.5 72B | 1438 | 72B | 20 |
| Qwen 3.5 MoE | 1449 | ~22B | 66 |
يهيمن Gemma 4 26B MoE على الكفاءة. فهو يحقق Arena AI score قدره 1441 مع تنشيط 3.8B parameters فقط — وهي نسبة درجة لكل parameter نشط أفضل بـ 4-5x من المنافسين. بالنسبة لسيناريوهات النشر حيث تهم تكلفة الـ inference (وهي معظم سيناريوهات الإنتاج)، تترجم ميزة الكفاءة هذه مباشرة إلى توفير في التكاليف.
أداء البرمجة (Coding)
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B |
|---|---|---|---|
| HumanEval+ | 82.3% | 85.1% | 83.7% |
| LiveCodeBench | 46.8% | 51.2% | 49.5% |
| MultiPL-E (Python) | 79.4% | 83.6% | 81.2% |
يتفوق Llama 4 Maverick قليلاً في benchmarks البرمجة من الناحية المطلقة، وهو أمر متوقع نظراً لميزة 400B parameters. ومع ذلك، فإن قدرة Gemma 4 على structured tool use و thinking mode تجعله أكثر عملية لسير عمل البرمجة المعتمد على الوكلاء (agentic coding workflows) حيث يحتاج النموذج إلى التخطيط والتنفيذ والتكرار بدلاً من مجرد توليد الكود دفعة واحدة.
الترخيص: العامل الحاسم الخفي
بالنسبة للنشر التجاري، يمكن أن يكون الترخيص أكثر أهمية من الـ benchmarks:
Gemma 4: Apache 2.0
- لا توجد قيود على الاستخدام — استخدمه لأي غرض.
- لا توجد حدود للمستخدمين — لا توجد قيود بناءً على حجم الشركة.
- حقوق تعديل كاملة — التغيير وإعادة التوزيع بحرية.
- مراجعة قانونية قياسية — ترخيص Apache 2.0 مفهوم جيداً من قبل الفرق القانونية في جميع أنحاء العالم.
Llama 4: Meta Custom License
- مجاني لمعظم الاستخدامات التجارية — ولكن مع شروط.
- قيد 700M MAU — يجب على الشركات التي يتجاوز عدد مستخدميها النشطين شهرياً 700 مليون طلب ترخيص منفصل من Meta.
- سياسة الاستخدام المقبول — بعض حالات الاستخدام محظورة.
- ترخيص مخصص — يتطلب مراجعة قانونية لتقييم متطلبات امتثال محددة.
Qwen 3.5: Apache 2.0 (معظم النماذج)
- Apache 2.0 لمعظم أحجام النماذج — نفس الحرية التي يوفرها Gemma 4.
- قد تختلف الشروط لبعض النماذج الأكبر — يجب التحقق لكل نموذج.
- مراجعة قانونية قياسية — ترخيص Apache 2.0 مفهوم جيداً.
بالنسبة للشركات الناشئة والمؤسسات، فإن الفرق في الترخيص حقيقي. لا يتطلب Apache 2.0 (Gemma 4 ومعظم نماذج Qwen 3.5) أي مراجعة قانونية خاصة بخلاف الامتثال القياسي للمصادر المفتوحة. أما ترخيص Meta المخصص فيتطلب مراجعة محددة لحد الـ 700M MAU وسياسة الاستخدام المقبول. في الممارسة العملية، لا يؤثر حد 700M MAU إلا على حفنة من الشركات عالمياً، لكن الترخيص المخصص يضيف تعقيداً بغض النظر عن حجم الشركة.
قدرات الـ Multimodal
| القدرة | Gemma 4 | Llama 4 | Qwen 3.5 |
|---|---|---|---|
| نص | جميع النماذج | جميع النماذج | جميع النماذج |
| صور | جميع النماذج | جميع النماذج | معظم النماذج |
| فيديو | E2B, E4B فقط | لا | لا |
| صوت | E2B, E4B فقط | لا | لا |
| Thinking Mode | نعم (قابل للتهيئة) | لا | نعم (هجين) |
يتمتع Gemma 4 بأوسع دعم Multimodal. حقيقة أن قدرات الفيديو والصوت متاحة في أصغر النماذج (E2B و E4B) بدلاً من أكبرها هي اختيار تصميمي بارز يتيح استخدام AI Multimodal على الأجهزة (on-device).
يدعم Llama 4 معالجة النصوص والصور في كلا النموذجين ولكنه يفتقر إلى دعم الفيديو والصوت الأصلي. يقدم Qwen 3.5 قدرات مماثلة للنصوص والصور مع عدم وجود معالجة أصلية للفيديو أو الصوت.
الـ Context Windows
| النموذج | Context Window |
|---|---|
| Llama 4 Scout | 10,000,000 tokens |
| Gemma 4 31B/26B MoE | 256,000 tokens |
| Gemma 4 E2B/E4B | 128,000 tokens |
| Qwen 3.5 (معظم النماذج) | 128,000 tokens |
| Llama 4 Maverick | 1,000,000 tokens |
يعد context window الخاص بـ Llama 4 Scout والبالغ 10M token في فئة خاصة به. هذا أكبر بـ 40x تقريباً من الحد الأقصى لـ Gemma 4 ويتيح حالات استخدام لا يمكن لأي نموذج مفتوح آخر مضاهاتها:
- معالجة قواعد برمجية ضخمة كاملة (ملايين الأسطر) في prompt واحد.
- تحليل سجلات المحادثات لسنوات لتطبيقات خدمة العملاء.
- استيعاب كتب كاملة أو مجموعات أوراق بحثية.
ومع ذلك، فإن الاستفادة من 10M context window تتطلب hardware متناسباً. الذاكرة المطلوبة للاحتفاظ بـ KV cache لـ 10M tokens كبيرة جداً، مما يجعل هذه القدرة عملية فقط على أجهزة سيرفر احترافية.
بالنسبة لمعظم التطبيقات، فإن context windows الخاصة بـ Gemma 4 (256K) و Qwen 3.5 (128K) كافية تماماً. يمكن لـ 256K context window استيعاب ما يقرب من 750-1000 صفحة من النصوص أو أكثر من 50,000 سطر من الكود.
متطلبات الأجهزة (Hardware)
التشغيل محلياً
| النموذج | RAM (4-bit) | RAM (FP16) | هل هو مناسب للمستهلك؟ |
|---|---|---|---|
| Gemma 4 E2B | ~5 GB | ~5 GB | نعم (لابتوب/هاتف) |
| Gemma 4 E4B | ~5 GB | ~9 GB | نعم (لابتوب) |
| Gemma 4 26B MoE | ~18 GB | ~52 GB | نعم (RTX 4090) |
| Gemma 4 31B | ~20 GB | ~62 GB | نعم (RTX 4090) |
| Qwen 3.5 8B | ~6 GB | ~16 GB | نعم (لابتوب) |
| Qwen 3.5 32B | ~20 GB | ~64 GB | نعم (RTX 4090) |
| Qwen 3.5 72B | ~42 GB | ~144 GB | لا (GPU سيرفر) |
| Llama 4 Scout | ~70 GB | ~218 GB | لا (سيرفر متعدد الـ GPUs) |
| Llama 4 Maverick | ~250 GB | ~800 GB | لا (GPU cluster) |
للمطورين الذين يرغبون في تشغيل النماذج محلياً — على لابتوب من أجل الخصوصية، أو على GPU واحد لتقليل التكلفة — فإن Gemma 4 ونماذج Qwen 3.5 الصغيرة هي الخيارات العملية الوحيدة. يعمل Gemma 4 E2B و E4B على أي جهاز كمبيوتر حديث تقريباً. وتناسب نماذج 26B MoE و 31B Dense بطاقة RTX 4090 أو RTX 5090 واحدة.
نماذج Llama 4 هي نماذج مخصصة للسيرفرات بشكل أساسي. حتى مع quantization قوي، يتطلب Scout إعدادات متعددة الـ GPU ويتطلب Maverick مجموعة GPU cluster. وهذا يحصر Llama 4 في المنظمات التي لديها ميزانيات للحوسبة السحابية أو بنية تحتية مخصصة للـ GPU.
الدعم لغات متعددة
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| اللغات المدعومة | 35+ | 12 | 29+ |
| لغات ما قبل التدريب (Pre-training) | 140+ | — | 100+ |
| جودة CJK | جيد | كافٍ | ممتاز |
| العربية/العبرية | جيد | كافٍ | جيد |
| اللغات ذات الموارد المحدودة | متوسط | محدود | متوسط |
يعد Qwen 3.5 الخيار الأقوى للتطبيقات التي تستهدف الأسواق الآسيوية، وخاصة الصينية واليابانية والكورية (CJK). تتضمن بيانات تدريب Alibaba نصوص CJK مكثفة وعالية الجودة، مما يمنح نماذج Qwen ميزة ملموسة في هذه اللغات.
يقدم Gemma 4 أوسع دعم رسمي للغات بأكثر من 35 لغة مع pre-training على أكثر من 140 لغة. يوفر هذا جودة معقولة عبر مجموعة واسعة من اللغات، مما يجعله الخيار الأكثر تنوعاً للتطبيقات العالمية.
دعم Llama 4 لـ 12 لغة فقط هو الأكثر محدودية. وبينما يغطي لغات العالم الأكثر تداولاً، فإنه يترك فجوات كبيرة للتطبيقات التي تستهدف أسواق اللغات الأصغر.
توصيات حالات الاستخدام
اختر Gemma 4 عندما:
- تحتاج إلى أقصى قدر من الكفاءة — يقدم 26B MoE جودة النماذج الرائدة بـ 3.8B active parameters فقط.
- يهمك الترخيص — Apache 2.0 بدون قيود هو المسار الأبسط للنشر التجاري.
- تحتاج إلى AI Multimodal على الأجهزة الطرفية (edge) — يعمل E2B/E4B مع الفيديو والصوت على الأجهزة الاستهلاكية.
- تريد تفكيراً قابلاً للتهيئة — التبديل بين الاستدلال السريع والعميق حسب الطلب.
- تقوم ببناء سير عمل وكلاء (agentic workflows) — خاصية structured tool use مدمجة فيه.
اختر Llama 4 عندما:
- تحتاج إلى أقصى Context — سعة 10M tokens في Scout لا تضاهى.
- تهمك درجات الـ benchmark الخام أكثر من أي شيء — تمنح 400B parameters في Maverick ميزة في بعض الـ benchmarks.
- تمتلك hardware بمستوى سيرفر — عمليات النشر السحابية حيث تكون تكلفة GPU مقبولة.
- تعمل ضمن نظام Meta البيئي — التكامل مع بنية Meta التحتية للذكاء الاصطناعي.
- لا تصل إلى حد 700M MAU — وهو ما ينطبق على 99.99% من الشركات.
اختر Qwen 3.5 عندما:
- تستهدف الأسواق الآسيوية — أفضل جودة للغة CJK بين النماذج المفتوحة.
- تحتاج إلى حجم نموذج محدد — 8 أحجام من 0.6B إلى 397B تغطي كل الاحتياجات.
- تريد تفكيراً هجيناً — مشابه لـ thinking mode القابل للتهيئة في Gemma 4.
- تحتاج إلى نماذج مخصصة للكود — إصدارات Qwen Code محسنة للبرمجة.
- تحتاج إلى Apache 2.0 مع خيارات أحجام أكثر — معظم النماذج تستخدم Apache 2.0.
بناء التطبيقات باستخدام النماذج المفتوحة
بغض النظر عن النموذج الذي تختاره، فإن نشر نموذج مفتوح في الإنتاج يتطلب بناء طبقة التطبيق حوله — نقاط نهاية API، وواجهات المستخدم، والمصادقة، وتخزين قواعد البيانات للمحادثات، وبنية النشر التحتية.
بالنسبة للفرق التي تبني منتجات مدعومة بـ AI، فإن النموذج هو مجرد قطعة واحدة. منصات مثل ZBuild تتعامل مع هيكل التطبيق — الـ frontend والـ backend وقاعدة البيانات والنشر — بحيث يمكنك تركيز جهدك الهندسي على تكامل النموذج، و prompt engineering، وتجربة المستخدم التي تميز منتجك.
تظهر أهمية مقارنة النماذج بشكل أكبر في طبقة التكامل. يمكن للتطبيق المصمم جيداً التبديل بين Gemma 4 أو Llama 4 أو Qwen 3.5 اعتماداً على المهمة المحددة — استخدام Gemma 4 MoE للطلبات الحساسة للكفاءة، و Llama 4 Scout للمهام ذات الـ context الطويل، و Qwen 3.5 للمحتوى الكثيف بـ CJK.
الـ Fine-Tuning والتخصيص
تدعم عائلات النماذج الثلاث الـ fine-tuning، لكن التجربة العملية تختلف:
Gemma 4
- دعم LoRA و QLoRA عبر جميع الأحجام.
- يعني ترخيص Apache 2.0 عدم وجود قيود على توزيع أوزان الـ fine-tuned.
- تتوفر Google Colab notebooks للبدء في الـ fine-tuning على GPUs مجانية.
- تكامل مع Keras عبر KerasNLP لسير عمل fine-tuning عالي المستوى.
- يمكن إجراء fine-tune لنماذج E2B و E4B على GPU استهلاكي واحد في غضون ساعات.
Llama 4
- دعم LoRA و QLoRA عبر Hugging Face transformers.
- ينطبق ترخيص Meta المخصص على المشتقات — قيد 700M MAU ينتقل إليها.
- أحجام النماذج الكبيرة تعني أن الـ fine-tuning لـ Scout (109B) أو Maverick (400B) يتطلب إعدادات متعددة الـ GPU.
- يوفر Torchtune من Meta وصفات رسمية للـ fine-tuning.
Qwen 3.5
- دعم LoRA و QLoRA و full fine-tuning مع توثيق شامل.
- يعني ترخيص Apache 2.0 لمعظم النماذج توزيعاً غير محدود للأوزان.
- نطاق الأحجام الواسع يعني أنه يمكنك إجراء fine-tune لنموذج 4B على لابتوب أو نموذج 72B على سيرفر.
- تتوفر بيانات fine-tuning قوية باللغة الصينية/CJK من خلال نظام Alibaba البيئي.
بالنسبة لمعظم سيناريوهات الـ fine-tuning، يوفر Gemma 4 E4B أو 26B MoE أفضل نقطة بداية. النماذج صغيرة بما يكفي لإجراء fine-tune على hardware استهلاكي، وقوية بما يكفي لإنتاج نتائج عالية الجودة، ومرخصة بشكل يسمح بنشر النموذج في أي مكان.
اتجاه التقارب
بالنظر إلى البيانات بشكل شمولي، فإن الملاحظة الأكثر لفتًا للانتباه هي مدى سرعة تقارب النماذج مفتوحة المصدر في قدراتها مع النماذج المملوكة. إن نتيجة MMLU Pro لـ Gemma 4 31B البالغة 85.2% قريبة جداً من نتائج نماذج مملوكة مثل Claude Sonnet 4.6 و GPT-5.4 — وبتكلفة inference صفرية تتجاوز تكلفة الـ hardware.
يتحول التمايز بين عائلات النماذج المفتوحة من "أيها أذكى" إلى "أيها يناسب قيود النشر الخاصة بك". متطلبات الأجهزة، وشروط الترخيص، وقدرات Multimodal، ودعم اللغات تهم الآن بقدر ما تهم درجات الـ benchmark الخام.
بالنسبة لمعظم المطورين والشركات في عام 2026، لم يعد السؤال "هل يجب أن أستخدم نموذجاً مفتوحاً؟" بل "أي نموذج مفتوح يناسب احتياجاتي المحددة؟" — وهذا دليل على مدى نضج هذا النظام البيئي.
الحكم النهائي
لا يوجد نموذج واحد "أفضل" مفتوح المصدر في عام 2026. الاختيار الصحيح يعتمد على متطلباتك المحددة:
- أفضل كفاءة إجمالية: Gemma 4 26B MoE — مع 3.8B active parameters، وترتيب 6th في Arena AI، وترخيص Apache 2.0.
- أفضل جودة خام (نموذج مفتوح): Gemma 4 31B Dense — بنسبة 85.2% MMLU Pro، وترتيب 3rd في Arena AI.
- الأفضل للمستندات الطويلة: Llama 4 Scout — بـ 10M token context window.
- الأفضل للغات الآسيوية: Qwen 3.5 — أداء CJK فائق.
- الأفضل للأجهزة الاستهلاكية: Gemma 4 E2B — يتطلب 5GB RAM، ويعمل على الهواتف.
- الترخيص الأكثر مرونة: Gemma 4 و Qwen 3.5 (Apache 2.0).
- أكبر عدد من خيارات أحجام النماذج: Qwen 3.5 — بـ 8 أحجام من 0.6B إلى 397B.
إذا كان عليك اختيار عائلة واحدة فقط وتعطي الأولوية للكفاءة والترخيص وقدرات Multimodal، فإن Gemma 4 هو الخيار الأقوى والأشمل في April 2026.
المصادر
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Llama 4 Announcement - Meta AI
- Llama 4 License
- Qwen 3.5 - Alibaba Cloud / Qwen Team
- Qwen 3.5 Technical Report
- Arena AI Open Model Rankings
- Gemma 4 on Ollama
- Open Source LLM Comparison 2026 - Artificial Analysis
- Gemma 4 vs Llama 4 Analysis - The Decoder
- Open Model Benchmark Aggregator - Hugging Face