قبل أن نبدأ: لماذا كتبت هذا كـ Diary
تعطيك معظم المقالات حول GPT-5.4 مقابل GPT-5.3 جدولاً لـ benchmark وتكتفي بذلك. هذا مفيد لتقرير ما إذا كنت ستجري Upgrade أم لا، ولكنه غير مفيد تماماً لفهم ما يحدث بالفعل أثناء عملية الـ upgrade.
لقد قمت بنقل نظام إنتاج — وهو منصة لـ developer tooling داخلية — من GPT-5.3 Codex إلى GPT-5.4 خلال شهر March 2026. توثق هذه المقالة ما حدث يوماً بعد يوم، وما فاجأني، وما الذي تعطل، وكيف يبدو الـ monthly bill في النهاية.
إذا كنت تخطط لعملية الـ migration الخاصة بك، فهذا هو الدليل الذي تمنيت لو كان لدي.
ما قبل الـ Migration: ما كنا نقوم بتشغيله على GPT-5.3 Codex
إعداداتنا قبل التبديل:
- التطبيق: مساعد داخلي لـ code review و refactoring يستخدمه فريق هندسي مكون من 14 شخصاً
- تكامل الـ API: مكالمات OpenAI API مباشرة، و Function calling لاستخدام الأدوات، ومخرجات JSON منظمة
- متوسط الحجم اليومي: حوالي 800 API calls، بمتوسط 12K input tokens و 4K output tokens لكل منها
- تكلفة الـ API الشهرية: حوالي $1,400 بناءً على تسعير GPT-5.3 Codex ($1.75 input / $14 output لكل MTok)
- استخدام context window: نصل بانتظام إلى 200-350K tokens؛ وأحياناً يتم الاقتطاع عند حد 400K
اخترنا GPT-5.3 Codex في الأصل بسبب أدائه القوي الخاص بالبرمجة وانخفاض تكاليف الـ input token. وقد خدمنا جيداً لمدة ستة أشهر.
اليوم 1: الـ Swap (March 8, 2026)
كان الجزء الميكانيكي من الـ migration بسيطاً. تغيير model: "gpt-5.3-codex" إلى model: "gpt-5.4" في إعدادات الـ API الخاصة بنا. ثم Deploy. انتهى الأمر.
الانطباع الأول: بدت الردود مختلفة نوعياً. ليس بالضرورة أفضل أو أسوأ، ولكنها مختلفة. كان GPT-5.4 أكثر إسهاباً في تفكيره — حيث قدم مزيداً من الشرح لخياراته قبل تقديم الـ code. بالنسبة لأداة code review الخاصة بنا، كان هذا في الواقع تحسيناً لأن المراجعين أرادوا فهم "لماذا" وراء الاقتراحات.
سرعة الاستجابة: أسرع بشكل ملحوظ في الـ prompts القصيرة. وتقريباً نفس السرعة في الـ prompts الطويلة. تظهر البيانات الرسمية أن GPT-5.4 يصل إلى 73.4 tokens per second مقارنة بـ GPT-5.3 Codex في نطاق مماثل، لذا فإن فرق السرعة حقيقي ولكنه ليس دراماتيكياً.
المشكلة الأولى: خلال الساعة الأولى، تعطل JSON parser الخاص بنا. كان GPT-5.3 Codex يعيد JSON خاماً عند طلب مخرجات منظمة. أما GPT-5.4 فكان أحياناً يغلف JSON في markdown code block (```json ... ```). أدى هذا إلى تعطل parsing pipeline لدينا.
الإصلاح: أضفنا خطوة preprocessing لإزالة markdown code fences قبل الـ parsing. إصلاح استغرق 10 دقائق، ولكنه كان سيتسبب في أخطاء production لو لم نكن نراقب عن كثب.
اليوم 2-3: اختلافات Function Calling
استخدمت أداتنا ميزة Function calling من OpenAI للسماح للنموذج باستدعاء أدوات تحليل الـ code — مثل linter، و test runner، و dependency checker. في GPT-5.3 Codex، كان هذا يعمل بلا عيوب.
في GPT-5.4، واجهنا مشكلتين:
المشكلة 1: معالجة الـ optional parameter. عندما كان parameter الوظيفة عبارة عن nested object اختياري، كان GPT-5.3 Codex يحذفه إذا لم يكن ضرورياً. أما GPT-5.4 فأحياناً يرسل كائناً فارغاً {} بدلاً من ذلك، مما تسبب في رفض الـ validation الخاص بنا للمكالمة.
المشكلة 2: سلوك Tool Search. يقدم GPT-5.4 ميزة Tool Search، والتي تكتشف الأدوات المتاحة ديناميكياً بدلاً من طلب جميع تعريفات الأدوات مسبقاً. هذه ميزة قوية — تشير OpenAI إلى أنها تقلل استخدام الـ tokens بنسبة 47% — لكنها غيرت توقيت استدعاءات الأدوات. كان نظام الـ logging الخاص بنا يتوقع استدعاء الأدوات بترتيب معين، وأحياناً قام GPT-5.4 بإعادة ترتيبها.
إصلاح المشكلة 1: قمنا بتحديث Zod validation schemas لقبول الكائنات الفارغة للـ optional parameters. عمل استغرق ساعتين.
إصلاح المشكلة 2: أعدنا كتابة الـ logging ليكون مستقلاً عن الترتيب. عمل استغرق نصف يوم. كان الأمر يستحق العناء، لأن النهج الجديد أكثر قوة بغض النظر عن النموذج.
اليوم 4-5: الـ Context Window يغير كل شيء
كانت هذه هي اللحظة المثيرة حقاً. كان لدى GPT-5.3 Codex حد 400K token. بالنسبة لأكبر المستودعات لدينا، قمنا ببناء نظام chunking معقد — تقسيم الـ codebases إلى أجزاء، وإجراء التحليل على كل جزء، ثم تجميع النتائج معاً.
يدعم GPT-5.4 ما يصل إلى 1,050,000 tokens عبر الـ API. بالنسبة لمستخدمي Codex، يتوفر context كامل بمقدار 1M.
ماذا يعني هذا في الممارسة العملية: أكبر مستودع لدينا — وهو TypeScript monorepo يحتوي على 280 ملفاً — يمكن الآن تحميله بالكامل في context واحد. لا مزيد من chunking. لا مزيد من التحليل المجمع مع آثار الخياطة. تحسنت جودة code review في هذا المستودع بشكل كبير لأن النموذج استطاع رؤية cross-module dependencies التي كانت غير مرئية عندما كان الـ context مقسماً.
العقبة: الـ prompts التي تتجاوز 272K tokens يتم تسعيرها بـ 2x input و 1.5x output. لذا فإن إرسال مستودعنا الكامل المكون من 280 ملفاً كـ context يعني تكاليف أعلى بكثير لكل مكالمة. انتهى بنا الأمر إلى بناء نظام ذكي لاختيار الـ context يقوم بتحميل المستودع بالكامل للمهام العابرة للوحدات (cross-module) ولكنه يستخدم context مستهدفاً للمهام الخاصة بملف واحد.
ملخص الأسبوع 1: الأشياء التي تعطلت
بنهاية الأسبوع الأول، إليك قائمة كاملة بما تعطل أو احتاج إلى تعديل:
- تنسيق مخرجات JSON — التغليف بـ Markdown code block (إصلاح في 10 دقائق)
- التحقق من Function calling — كائنات فارغة للـ optional params (إصلاح في ساعتين)
- ترتيب استدعاء الأدوات — افترض الـ logging مكالمات متسلسلة (إصلاح في نصف يوم)
- عد الـ Tokens — كان تقديرنا للتكلفة خاطئاً لأن GPT-5.4 يستخدم tokens أقل لكل رد (تحديث المعادلات)
- الـ Rate limiting — تم تكوين Rate limiter الخاص بنا لـ GPT-5.3 Codex؛ ولدى GPT-5.4 حدود tier مختلفة (تغيير في الإعدادات)
لم يكن أي من هذه المشاكل كارثياً. كانت جميعها قابلة للإصلاح في أقل من يوم. ولكن إذا كنت تقوم بنقل نظام إنتاج، فخصص أسبوعاً كاملاً للاختبار والترقيع.
الأسبوع 2: التحسينات بدأت تظهر
بمجرد استقرار احتكاك الـ migration، أصبحت التحسينات واضحة.
Computer Use فتح مسارات عمل جديدة
GPT-5.4 هو أول نموذج عام يمتلك قدرات Computer Use أصلية. يمكنه التفاعل مع تطبيقات سطح المكتب، والمتصفحات، وأدوات النظام مباشرة.
بالنسبة لحالة الاستخدام الخاصة بنا، مكننا هذا من القيام بشيء لم نتمكن من فعله مع GPT-5.3 Codex: أصبح بإمكان النموذج الآن تشغيل مجموعة الاختبارات الخاصة بنا، ومراقبة المخرجات، وتعديل اقتراحات code review بناءً على نتائج الاختبار الفعلية بدلاً من التحليل الساكن وحده. سابقاً، كان علينا تمرير مخرجات الاختبار يدوياً إلى الـ context. الآن يمكن للنموذج التنفيذ والمراقبة.
قمنا ببناء وضع "test-aware review" جديد في حوالي ثلاثة أيام، واكتشف على الفور خطأين فاتهما التحليل الساكن الصرف.
كفاءة الـ Tokens كانت حقيقية
تدعي OpenAI أن GPT-5.4 يستخدم عدد tokens أقل لكل مهمة. بعد أسبوعين من بيانات الإنتاج، أكدنا ذلك: بلغ متوسط GPT-5.4 حوالي 3.1K output tokens لكل مهمة مقارنة بـ 4.0K لـ GPT-5.3 Codex للمهام المعادلة. هذا يمثل انخفاضاً بنسبة 22.5% في output tokens.
بالإضافة إلى تقليل input tokens بواسطة Tool search، انخفض إجمالي استهلاك الـ tokens لكل مهمة بنسبة 30% تقريباً.
تقليل الأخطاء كان ملحوظاً
ينتج GPT-5.4 أخطاء واقعية أقل بنسبة 33% وفقاً لـ OpenAI. في سياق code review الخاص بنا، تُرجم هذا إلى عدد أقل من الاقتراحات الإيجابية الخاطئة (false positives) — كان النموذج أقل عرضة لتمييز الـ code الصحيح كمشكلة. انخفض معدل "تجاهل الاقتراح" لدى فريقنا من 18% إلى 11%.
الأسبوع 3: صورة الـ Cost تصبح واضحة
إليك الجزء الذي يريد الجميع معرفته. بعد ثلاثة أسابيع كاملة من تشغيل GPT-5.4 في الإنتاج جنباً إلى جنب مع بياناتنا التاريخية لـ GPT-5.3 Codex، إليك مقارنة التكلفة:
تكاليف الـ API اليومية (المتوسط)
| المعيار | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| المكالمات اليومية | ~800 | ~800 |
| متوسط input tokens/call | 12,000 | 11,200 |
| متوسط output tokens/call | 4,000 | 3,100 |
| سعر الـ Input | $1.75/MTok | $2.50/MTok |
| سعر الـ Output | $14.00/MTok | $15.00/MTok |
| تكلفة الـ input اليومية | $16.80 | $22.40 |
| تكلفة الـ output اليومية | $44.80 | $37.20 |
| الإجمالي اليومي | $61.60 | $59.60 |
التوقعات الشهرية: كان GPT-5.3 Codex يكلف حوالي ~$1,848. يتوقع أن يكلف GPT-5.4 حوالي ~$1,788. توفير بحوالي $60 شهرياً (3.2%) — وهو توفير متواضع ولكنه ملحوظ لأن التسعير الاسمي لـ GPT-5.4 هو أعلى.
يأتي التوفير بالكامل من كفاءة الـ tokens. يستخدم GPT-5.4 عدداً أقل من الـ tokens لإنجاز نفس المهام، مما يعوض أسعاره الأعلى لكل token في ضغط عملنا.
أين ارتفعت التكاليف
المهام ذات الـ context الطويل — تلك التي تتجاوز 272K tokens — تكلف أكثر بكثير في GPT-5.4 بسبب long-context surcharge. نقوم بتشغيل حوالي 15 من هذه المكالمات يومياً (reviews للمستودع بالكامل). بالنسبة لهذه المكالمات المحددة، زادت التكاليف بنسبة 40% تقريباً.
أين انخفضت التكاليف
المهام القياسية التي تقل عن 100K tokens — والتي تشكل 95% من حجم عملنا — كانت أرخص بسبب انخفاض أعداد output tokens. وقد عوض هذا أكثر من الزيادة الناتجة عن long-context surcharge في الـ 5% المتبقية.
أشياء لم أتوقعها
1. GPT-5.4 أكثر إبداءً للرأي حول Code Style
كان GPT-5.3 Codex محايداً نسبياً بشأن الـ style — فقد اتبع أي أنماط موجودة في الـ codebase الخاص بك. GPT-5.4 لديه آراء أقوى. سيقترح إعادة تسمية المتغيرات من أجل الوضوح، وإعادة هيكلة الجمل الشرطية، واستخراج الوظائف — حتى عندما تطلب منه فقط إصلاح bug.
هذا أمر جيد ومزعج في نفس الوقت. جيد لأن الاقتراحات عادة ما تكون صالحة. ومزعج لأنه يضيف ضجيجاً إلى code reviews عندما يريد الفريق فقط ملاحظات مستهدفة.
إصلاحنا: أضفنا تعليمة system prompt: "ركز حصرياً على قضايا الصحة والأمن. لا تقترح تغييرات في الـ style إلا إذا كانت تؤثر على قابلية القراءة بما يكفي للتسبب في bugs."
2. الجدول الزمني للـ Deprecation يخلق حالة من الاستعجال
يتقاعد GPT-5.2 Thinking في June 5, 2026. إذا كنت لا تزال تستخدم 5.2، فأمامك ثلاثة أشهر. يمتلك GPT-5.3 Codex دعم LTS حتى February 2027، لذا هناك استعجال أقل هناك — لكن الأمور أصبحت واضحة.
3. Tool Search هو الميزة المفاجئة
في البداية، اعتبرت Tool Search تفصيلاً للتحسين فقط. لكن تبين أنها الميزة الأكثر تأثيراً في مسار عملنا. بدلاً من إرسال جميع تعريفات الأدوات الـ 12 في كل API call (مما يستهلك حوالي 3K tokens في كل مرة)، يكتشف GPT-5.4 الأدوات ديناميكياً حسب الحاجة. توفير الـ tokens يتراكم مع حجم عملنا.
تقول وثائق OpenAI أن Tool search قلل استخدام الـ tokens بنسبة 47% في اختباراتهم. بالنسبة لمسار عملنا المعتمد بكثافة على الأدوات، رأينا توفيراً بنسبة 35% — وهو أمر لا يزال كبيراً.
4. الـ "Vibe" تغير
هذا أمر ذاتي ويصعب قياسه، لكن الفريق لاحظه. يعطيك GPT-5.4 شعوراً أكبر وكأنك تعمل مع مهندس خبير (senior engineer) — فهو يشكك في الافتراضات، ويقترح بدائل، وأحياناً يعترض على مناهج يعتبرها دون المستوى الأمثل. كان GPT-5.3 Codex أكثر امتثالاً. سواء كنت تعتبر هذا تحسيناً أم لا، فهذا يعتمد على مسار عمل فريقك. يصف تحليل Zvi Mowshowitz الأمر بأنه "upgrade جوهري" في التفكير والقدرة العامة، ونحن نوافق على ذلك.
قائمة مراجعة الـ Migration
بناءً على تجربتنا، إليك ما سأفعله إذا كنت سأقوم بالانتقال مرة أخرى:
قبل التبديل
- قم بمراجعة JSON parsing الخاص بك — تحقق من معالجة markdown code fence
- راجع Function calling schemas — اختبر optional و nested parameters
- تحقق من منطق عد الـ tokens وتقدير التكلفة
- تحقق من تكوين rate limiting مقابل حدود GPT-5.4 tier
- حدد أي مسارات عمل تفترض ترتيب استدعاء الأدوات
أثناء التبديل
- قم بالـ Deploy في staging environment أولاً
- قم بتشغيل كلا النموذجين بالتوازي لمدة 48 ساعة على الأقل
- راقب اختلافات تنسيق JSON
- تحقق من معدلات نجاح Function calling
- قارن جودة المخرجات في مهامك المحددة
بعد التبديل
- قم بتفعيل Tool search وقياس توفير الـ tokens
- قم بتقييم مهام context الطويل من أجل حد تسعير 272K
- اضبط system prompts إذا كان GPT-5.4 يبدي رأيه أكثر من اللازم في مسار عملك
- استكشف قدرات Computer use لمسارات عمل جديدة
- قم بتحديث توقعات التكلفة ببيانات الاستخدام الفعلية
هل يجب عليك الانتقال الآن؟
إليك إطاري العملي:
انتقل فوراً إذا:
- كنت تستخدم GPT-5.2 (حيث سيتقاعد في June 5)
- كنت تصل بانتظام إلى حد 400K context
- كنت بحاجة إلى قدرات Computer use
- كنت تستخدم استدعاء أدوات بكثافة وتريد توفير الـ tokens
انتقل قريباً (خلال شهر) إذا:
- كنت تريد تحسينات الجودة ويمكنك تحمل أسبوع من عمل الـ integration
- كنت تبني ميزات جديدة تستفيد من 1M context
- كنت تريد تأمين مستقبلك قبل أن يصل GPT-5.3 في النهاية إلى نهاية عمره
ابقَ على GPT-5.3 Codex إذا:
- كانت مسارات عملك مستقرة ومحسنة التكلفة
- كنت تعتمد على تسعير الـ input token المنخفض لضغط العمل المعتمد على الـ prompts
- كنت تريد استقرار دعم LTS حتى February 2027
- كنت في بيئة منظمة حيث تتطلب تغييرات النماذج مراجعة رسمية
بالنسبة لأدواتنا الداخلية في ZBuild، كان الانتقال يستحق أسبوعاً من العمل. نافذة الـ 1M context وحدها غيرت ما يمكن لأداتنا القيام به. ولكن إذا كان تكامل GPT-5.3 Codex الخاص بك يعمل بشكل جيد ولا تواجه حدوده، فلا داعي للاستعجال — خطط لـ migration وفقاً لجدولك الزمني، وليس جدول OpenAI.
دروس للفرق التي تفكر في التبديل
إذا كان بإمكاني تلخيص عملية الـ migration بأكملها في نصيحة للفرق الهندسية الأخرى، فستكون هذه النقاط الخمس.
1. خصص أسبوعاً كاملاً للـ Integration، وليس مجرد تبديل النموذج
يستغرق تبديل النموذج خمس دقائق. لكن اكتشاف كل edge case في الـ integration الخاص بك يستغرق أسبوعاً. مشكلة تنسيق JSON، واختلافات Function calling، وافتراضات الـ logging ظهرت جميعها تحت حركة المرور الحقيقية، وليس أثناء unit tests. قم بتشغيل كلا النموذجين بالتوازي لمدة 48 ساعة على الأقل قبل الانتقال النهائي.
2. كفاءة الـ Tokens تعوض الأسعار المرتفعة — ولكن ليس دائماً
للمهام القياسية تحت 100K tokens، يعتبر GPT-5.4 أرخص حقاً على الرغم من ارتفاع سعر الـ token. ولكن إذا كان ضغط عملك يميل بشدة نحو مهام الـ context الطويل (أعلى من 272K tokens)، فستدفع أكثر. قم بنمذجة التكلفة لنمط استخدامك المحدد قبل الالتزام. يحتوي دليل Apiyi لحدود التسعير على حاسبة مفيدة.
3. Tool Search ليس اختيارياً — قم بتفعيله فوراً
إذا كنت تستخدم Function calling مع أكثر من 5 أدوات، فقم بتفعيل Tool search في اليوم الأول. توفير الـ tokens يتراكم بشكل كبير. في إعدادنا المكون من 12 أداة، وفر حوالي 3K tokens لكل مكالمة — ومع أكثر من 800 مكالمة يومياً، هذا يعني 2.4 مليون token يومياً، أو حوالي $6 يومياً في تكاليف الـ input.
4. اضبط الـ Prompts الخاصة بك لتناسب شخصية GPT-5.4
GPT-5.4 أكثر إبداءً للرأي من GPT-5.3 Codex. إذا كان تطبيقك يعتمد على اتباع النموذج للتعليمات بدقة دون تعليق تحريري، فأضف قيوداً صريحة إلى system prompt الخاص بك. مثل "ركز على المهمة المطلوبة فقط. لا تقترح تحسينات أو بدائل إلا إذا طلب منك ذلك". وفر هذا على فريقنا ضجيجاً كبيراً في مخرجات code review.
5. خطط لـ Migration من GPT-5.2 الآن
إذا كان لديك أي أنظمة لا تزال تعمل على GPT-5.2 Thinking، فإن تقاعد June 5, 2026 غير قابل للتفاوض. لا تنتظر حتى May لبدء الـ migration. مساحة الـ integration بين GPT-5.2 و GPT-5.4 أكبر من الفجوة بين GPT-5.3 و GPT-5.4، لذا توقع المزيد من المشاكل.
GPT-5.4 مقابل GPT-5.3 Codex: جدول مرجعي سريع
للفرق التي تريد الملخص بدون السرد، إليك البيانات الرئيسية في مكان واحد:
| الميزة | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| تاريخ الإصدار | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| سعر الـ Input | $1.75/MTok | $2.50/MTok |
| سعر الـ Output | $14.00/MTok | $15.00/MTok |
| Long-context surcharge | لا يوجد | 2x input, 1.5x output فوق 272K |
| Computer use | لا | نعم، أصلي |
| Tool search | لا | نعم (يوفر ~47% tokens) |
| تقليل الأخطاء | خط الأساس | أخطاء واقعية أقل بنسبة 33% |
| دعم LTS | حتى Feb 2027 | النموذج الحالي |
| الأفضل لـ | العمل المعتمد على Terminal، وحساسية التكلفة | الأغراض العامة + مسارات عمل agentic |
بعد مرور شهر: الحكم النهائي
لقد مر الآن شهر كامل على GPT-5.4. تم حل مشكلات الـ integration، وتكيف الفريق، والأرقام مستقرة.
الجودة: أفضل. اقتراحات إيجابية خاطئة أقل في code review، وتحليل أفضل عبر الوحدات (cross-module)، وإضافة ميزة Computer use أتاحت مسار عمل لم يكن ممكناً من قبل.
التكلفة: مكافئة تقريباً للمهام القياسية، أعلى قليلاً لمهام الـ context الطويل، ولكن الفاتورة الشهرية الإجمالية جاءت أقل بنسبة 3-4% بفضل كفاءة الـ tokens.
السرعة: مماثلة. لا يوجد فرق ملموس لضغط عملنا.
الاستقرار: بعد الأسبوع الأول من الإصلاحات، لا توجد مشاكل في الإنتاج.
لم يكن الـ upgrade ثورياً — بل كان تدريجياً ولكنه إيجابي. GPT-5.4 هو النموذج الأفضل لمعظم المطورين في March 2026. السؤال هو فقط ما إذا كان جهد الـ migration يستحق العناء لحالتك الخاصة.
إذا كنت تبني أدوات للمطورين — كما نفعل نحن في ZBuild — فإن البقاء على النموذج الرائد الحالي يهم للحفاظ على تنافسية منتجك. أما بالنسبة للأدوات الداخلية حيث الاستقرار هو الأولوية، فإن GPT-5.3 Codex مع دعم LTS هو خيار صالح تماماً حتى أوائل 2027.
المصادر
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex