לפני שנתחיל: למה כתבתי את זה כיומן
רוב המאמרים שמשווים בין GPT-5.4 ל-GPT-5.3 מספקים טבלת benchmark ומסתפקים בכך. זה שימושי להחלטה אם לשדרג, אבל חסר תועלת לחלוטין להבנת מה באמת קורה במהלך השדרוג.
העברתי מערכת פרודקשן — פלטפורמת כלי פיתוח פנימית — מ-GPT-5.3 Codex ל-GPT-5.4 במהלך March 2026. המאמר הזה מתעד את מה שקרה יום אחר יום, מה הפתיע אותי, מה נשבר, ואיך נראה החשבון החודשי בצד השני.
אם אתם מתכננים הגירה משלכם, זה המדריך שהלוואי שהיה לי.
לפני ההגירה: מה הרצנו על GPT-5.3 Codex
ההגדרה שלנו לפני השינוי:
- אפליקציה: עוזר סקירת קוד ו-refactoring פנימי המשמש צוות הנדסה של 14 אנשים
- אינטגרציית API: קריאות API ישירות ל-OpenAI, שימוש ב-function calling להפעלת כלים, פלטי JSON מובנים
- נפח יומי ממוצע: ~800 קריאות API, עם ממוצע של 12K input tokens ו-4K output tokens לכל קריאה
- עלות API חודשית: בערך $1,400 לפי תמחור GPT-5.3 Codex ($1.75 input / $14 output ל-MTok)
- שימוש ב-context window: הגעה קבועה ל-200-350K tokens; לעיתים חיתוך (truncating) במגבלת ה-400K
בחרנו ב-GPT-5.3 Codex במקור בגלל ביצועי הכתיבה החזקים שלו הממוקדים בקוד ועלויות ה-input tokens הנמוכות שלו. הוא שירת אותנו היטב במשך שישה חודשים.
היום ה-1: ההחלפה (March 8, 2026)
החלק המכני של ההגירה היה זניח. שינינו את model: "gpt-5.3-codex" ל-model: "gpt-5.4" בהגדרות ה-API שלנו. פרסנו (Deploy). סיימנו.
רושם ראשוני: התגובות הרגישו שונות מבחינה איכותית. לא בהכרח טובות או רעות יותר, אלא שונות. GPT-5.4 היה מילולי יותר בנימוקים שלו — סיפק יותר הסברים על הבחירות שלו לפני הגשת הקוד. עבור כלי סקירת הקוד שלנו, זה היה למעשה שיפור כי הסוקרים רצו להבין את ה"למה" מאחורי ההצעות.
מהירות תגובה: מהיר יותר באופן ניכר ב-prompts קצרים. בערך אותו דבר בארוכים יותר. ה-נתונים הרשמיים מראים את GPT-5.4 ב-73.4 tokens לשנייה בהשוואה ל-GPT-5.3 Codex בטווח דומה, כך שהבדל המהירות אמיתי אך לא דרמטי.
בעיה ראשונה: בתוך השעה הראשונה, ה-JSON parser שלנו נשבר. GPT-5.3 Codex החזיר JSON גולמי כשנתבקש פלט מובנה. GPT-5.4 עטף מדי פעם את ה-JSON בבלוק קוד של markdown (```json ... ```). זה שבר את ה-pipeline של הניתוח שלנו.
תיקון: הוספנו שלב עיבוד מקדים (preprocessing) להסרת ה-markdown code fences לפני הניתוח. תיקון של 10 דקות, אבל הוא היה גורם לשגיאות פרודקשן אם לא היינו מנטרים מקרוב.
יום 2-3: הבדלים ב-Function Calling
הכלי שלנו השתמש בתכונת ה-function calling של OpenAI כדי לאפשר למודל להפעיל כלי ניתוח קוד — linter, מריץ טסטים, ובודק תלויות (dependencies). ב-GPT-5.3 Codex, זה עבד ללא תקלות.
ב-GPT-5.4, נתקלנו בשתי בעיות:
בעיה 1: טיפול בפרמטרים אופציונליים. כאשר פרמטר של פונקציה היה אובייקט מקונן אופציונלי, GPT-5.3 Codex היה משמיט אותו אם לא היה בו צורך. GPT-5.4 שלח לעיתים אובייקט ריק {} במקום זאת, מה שגרם לולידציה שלנו לדחות את הקריאה.
בעיה 2: התנהגות חיפוש כלים. GPT-5.4 מציג את Tool Search, שמגלה כלים זמינים באופן דינמי במקום לדרוש את כל הגדרות הכלים מראש. זוהי תכונה עוצמתית — OpenAI מדווחת שהיא מפחיתה את השימוש ב-tokens ב-47% — אבל היא שינתה את תזמון הפעלת הכלים. מערכת ה-logging שלנו ציפתה שהכלים ייקראו בסדר מסוים, ו-GPT-5.4 שינה לעיתים את הסדר שלהם.
תיקון לבעיה 1: עדכנו את סכמות ה-Zod שלנו לקבל אובייקטים ריקים עבור פרמטרים אופציונליים. שעתיים של עבודה.
תיקון לבעיה 2: כתבנו מחדש את ה-logging שלנו כך שיהיה אגנוסטי לסדר. חצי יום עבודה. היה שווה את זה, כי הגישה החדשה חסונה יותר ללא קשר למודל.
יום 4-5: ה-Context Window משנה הכל
זה היה הרגע המרגש באמת הראשון. ל-GPT-5.3 Codex הייתה מגבלה של 400K tokens. עבור המאגרים (repositories) הגדולים ביותר שלנו, בנינו מערכת chunking מורכבת — פיצול בסיסי קוד למקטעים, הרצת ניתוח על כל מקטע, ואז חיבור התוצאות יחד.
GPT-5.4 תומך ב-עד 1,050,000 tokens דרך ה-API. עבור משתמשי Codex, ה-context המלא של 1M זמין.
מה זה אומר בפועל: המאגר הגדול ביותר שלנו — monorepo של TypeScript עם 280 קבצים — יכול היה כעת להיטען במלואו ב-context אחד. לא עוד chunking. לא עוד ניתוח מחובר עם עיוותי חיבור. איכות סקירת הקוד במאגר הזה השתפרה דרמטית מכיוון שהמודל יכול היה לראות תלויות בין-מודולריות שהיו בלתי נראות כשה-context היה מפוצל.
המלכוד: prompts החורגים מ-272K tokens מתומחרים ב-2x input ו-1.5x output. לכן שליחת המאגר המלא שלנו בן 280 הקבצים כ-context פירושה עלויות גבוהות משמעותית לכל קריאה. סיימנו בבניית מערכת בחירת context חכמה שטוענת את המאגר המלא למשימות בין-מודולריות אך משתמשת ב-context ממוקד למשימות של קובץ בודד.
סיכום השבוע הראשון: הדברים שנשברו
עד סוף השבוע הראשון, הנה הרשימה המלאה של מה שנשבר או דרש התאמה:
- פורמט פלט JSON — עטיפה בבלוק קוד Markdown (תיקון של 10 דקות)
- ולדיאציית function calling — אובייקטים ריקים לפרמטרים אופציונליים (תיקון של שעתיים)
- סדר הפעלת כלים — ה-logging הניח קריאות סדרתיות (תיקון של חצי יום)
- ספירת tokens — הערכת העלויות שלנו הייתה שגויה כי GPT-5.4 משתמש בפחות tokens לכל תגובה (עדכון נוסחאות)
- מגבלות קצב (Rate limiting) — ה-rate limiter שלנו הוגדר למגבלות של GPT-5.3 Codex; ל-GPT-5.4 יש ספי tier שונים (שינוי הגדרות)
אף אחד מאלה לא היה קטסטרופלי. כולם היו ניתנים לתיקון בפחות מיום. אבל אם אתם מגירים מערכת פרודקשן, הקציבו שבוע שלם לבדיקות ותיקונים.
שבוע 2: השיפורים מתחילים להופיע
ברגע שהחיכוך מההגירה שכך, השיפורים הפכו ברורים.
Computer Use פתח תהליכי עבודה חדשים
GPT-5.4 הוא המודל הראשון לשימוש כללי עם יכולות computer-use מובנות. הוא יכול לתקשר עם אפליקציות שולחן עבודה, דפדפנים וכלי מערכת ישירות.
עבור המקרה שלנו, זה איפשר משהו שלא יכולנו לעשות עם GPT-5.3 Codex: המודל יכול היה כעת להריץ את חליפת הטסטים שלנו, לצפות בפלט, ולהתאים את הצעות סקירת הקוד שלו על סמך תוצאות טסטים בפועל במקום ניתוח סטטי בלבד. קודם לכן, היינו צריכים להזרים את פלט הטסטים ידנית לתוך ה-context. כעת המודל יכול לבצע ולצפות.
בנינו מצב "test-aware review" חדש בערך בשלושה ימים, והוא תפס מיד שני באגים שניתוח סטטי טהור החמיץ.
יעילות ה-tokens הייתה אמיתית
OpenAI טוענת ש-GPT-5.4 משתמש ב-פחות output tokens למשימה. לאחר שבועיים של נתוני פרודקשן, אישרנו זאת: GPT-5.4 הגיע לממוצע של 3.1K output tokens למשימה בהשוואה ל-4.0K של GPT-5.3 Codex למשימות שוות ערך. זוהי הפחתה של 22.5% ב-output tokens.
בשילוב עם חיפוש כלים המפחית input tokens, צריכת ה-tokens הכוללת למשימה ירדה בערך ב-30%.
הפחתת השגיאות הייתה ניכרת
GPT-5.4 מייצר 33% פחות שגיאות עובדתיות לפי OpenAI. בהקשר של סקירת הקוד שלנו, זה תורגם לפחות הצעות false positive — המודל היה פחות נוטה לסמן קוד תקין כבעייתי. שיעור ה-"dismiss suggestion" של הצוות שלנו ירד מ-18% ל-11%.
שבוע 3: תמונת העלויות מתבהרת
הנה החלק שכולם רוצים לדעת עליו. לאחר שלושה שבועות מלאים של הרצת GPT-5.4 בפרודקשן לצד נתוני ה-GPT-5.3 Codex ההיסטוריים שלנו, הנה השוואת העלויות:
עלויות API יומיות (ממוצע)
| מדד | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| קריאות יומיות | ~800 | ~800 |
| ממוצע input tokens לקריאה | 12,000 | 11,200 |
| ממוצע output tokens לקריאה | 4,000 | 3,100 |
| תעריף עלות input | $1.75/MTok | $2.50/MTok |
| תעריף עלות output | $14.00/MTok | $15.00/MTok |
| עלות input יומית | $16.80 | $22.40 |
| עלות output יומית | $44.80 | $37.20 |
| סך הכל יומי | $61.60 | $59.60 |
תחזית חודשית: GPT-5.3 Codex היה ~$1,848. GPT-5.4 נחזה להיות ~$1,788. חיסכון של בערך $60 לחודש (3.2%) — צנוע אך ראוי לציון מכיוון שהתמחור הנומינלי של GPT-5.4 גבוה יותר.
החיסכון מגיע כולו מיעילות tokens. GPT-5.4 משתמש בפחות tokens לביצוע אותן משימות, מה שיותר מאופסט את מחירי ה-token הגבוהים יותר עבור עומס העבודה שלנו.
איפה העלויות עלו
משימות context ארוך — אלו שחורגות מ-272K tokens — עלו משמעותית יותר ב-GPT-5.4 בגלל היטל ה-long-context. אנחנו מריצים בערך 15 כאלו ביום (סקירות של מאגר שלם). עבור הקריאות הספציפיות הללו, העלויות עלו בכ-40%.
איפה העלויות ירדו
משימות סטנדרטיות מתחת ל-100K tokens — המהוות 95% מהנפח שלנו — היו זולות יותר בשל ספירת output tokens נמוכה יותר. זה פיצה יותר מאשר הפיצוי על היטל ה-long-context ב-5% הנותרים.
דברים שלא ציפיתי להם
1. GPT-5.4 דעתני יותר לגבי סגנון קוד
GPT-5.3 Codex היה יחסית ניטרלי לגבי סגנון — הוא עקב אחרי אילו דפוסים שהיו קיימים בבסיס הקוד שלך. ל-GPT-5.4 יש דעות חזקות יותר. הוא יציע לשנות שמות של משתנים לבהירות, לבנות מחדש תנאים, ולחלץ פונקציות — אפילו כשביקשת רק תיקון באג.
זה גם טוב וגם מעצבן. טוב כי ההצעות בדרך כלל תקפות. מעצבן כי זה מוסיף רעש לסקירות קוד כשהצוות רק רוצה משוב ממוקד.
התיקון שלנו: הוספנו הוראת system prompt: "התמקד אך ורק בבעיות נכונות ואבטחה. אל תציע שינויי סגנון אלא אם כן הם משפיעים על הקריאות מספיק כדי לגרום לבאגים."
2. לוח הזמנים של ההוצאה משימוש (Deprecation) יוצר דחיפות
GPT-5.2 Thinking פורש ב-June 5, 2026. אם אתם עדיין על 5.2, יש לכם שלושה חודשים. ל-GPT-5.3 Codex יש תמיכת LTS עד February 2027, אז יש פחות דחיפות שם — אבל הכתובת על הקיר.
3. Tool Search היא התכונה המפתיעה (Sleeper feature)
בתחילה פטרתי את Tool Search כפרט אופטימיזציה. התברר שזו התכונה המשפיעה ביותר על תהליך העבודה שלנו. במקום לשלוח את כל 12 הגדרות הכלים בכל קריאת API (הצורכות ~3K tokens בכל פעם), GPT-5.4 מגלה כלים באופן דינמי לפי הצורך. החיסכון ב-tokens מצטבר בנפח שלנו.
התיעוד של OpenAI אומר שחיפוש כלים הפחית את השימוש ב-tokens ב-47% בבדיקות שלהם. עבור תהליך העבודה העמוס בכלים שלנו, ראינו כ-35% — עדיין משמעותי.
4. ה"Vibe" השתנה
זה סובייקטיבי וקשה לכימות, אבל הצוות שם לב לזה. GPT-5.4 מרגיש יותר כמו עבודה עם מהנדס בכיר (senior) — הוא מערער על הנחות יסוד, מציע חלופות, ולפעמים מתנגד לגישות שהוא מחשיב כפחות מאופטימליות. GPT-5.3 Codex היה צייתן יותר. אם אתם מחשיבים זאת כשיפור תלוי בתהליך העבודה של הצוות שלכם. הניתוח של Zvi Mowshowitz מכנה זאת "שדרוג משמעותי" בחשיבה וביכולת כללית, ואנחנו מסכימים.
צ'קליסט להגירה
בהתבסס על הניסיון שלנו, הנה מה שהייתי עושה אם הייתי מגיר שוב:
לפני המעבר
- בצעו ביקורת לניתוח ה-JSON שלכם — בדקו טיפול ב-markdown code fence
- סקרו סכמות של function calling — בדקו פרמטרים אופציונליים ומקוננים
- בדקו את לוגיקת ספירת ה-tokens והערכת העלויות שלכם
- ודאו את הגדרות ה-rate limiting אל מול מגבלות ה-tier של GPT-5.4
- זהו תהליכי עבודה המניחים סדר מסוים בקריאות לכלים
במהלך המעבר
- פרסו לסביבת staging תחילה
- הריצו את שני המודלים במקביל למשך 48 שעות לפחות
- נטרו הבדלים בפורמט ה-JSON
- בדקו את שיעורי ההצלחה של function calling
- השוו את איכות הפלט במשימות הספציפיות שלכם
אחרי המעבר
- הפעילו את tool search ומדדו חיסכון ב-tokens
- העריכו משימות long-context עבור סף התמחור של 272K
- התאימו את ה-system prompts אם GPT-5.4 דעתני מדי עבור תהליך העבודה שלכם
- חקרו יכולות computer use עבור תהליכי עבודה חדשים
- עדכנו תחזיות עלויות עם נתוני שימוש בפועל
האם כדאי להגר עכשיו?
הנה מסגרת המחשבה שלי:
הגירה מיידית אם:
- אתם על GPT-5.2 (הוא פורש ב-June 5)
- אתם מגיעים בקביעות למגבלת ה-context של 400K
- אתם זקוקים ליכולות computer use
- אתם משתמשים כבדים ב-tool calling ורוצים חיסכון ב-tokens
הגירה בקרוב (תוך חודש) אם:
- אתם רוצים את שיפורי האיכות ויכולים לסבול שבוע של עבודת אינטגרציה
- אתם בונים פיצ'רים חדשים הנהנים מ-context של 1M
- אתם רוצים להבטיח תאימות לעתיד לפני ש-GPT-5.3 יגיע בסופו של דבר לסוף חייו
הישארו על GPT-5.3 Codex אם:
- תהליכי העבודה שלכם יציבים וממוטבים מבחינת עלויות
- אתם מסתמכים על תמחור ה-input tokens הנמוך שלו לעומסי עבודה עתירי prompts
- אתם רוצים את היציבות של תמיכת LTS עד February 2027
- אתם בסביבה מוסדרת (regulated) שבה שינויי מודל דורשים סקירה רשמית
עבור הכלים הפנימיים שלנו ב-ZBuild, ההגירה הייתה שווה את שבוע העבודה. ה-context window של 1M לבדו שינה את מה שהכלי שלנו יכול לעשות. אבל אם אינטגרציית ה-GPT-5.3 Codex שלכם עובדת היטב ואתם לא מגיעים למגבלות שלה, אין שריפה — תכננו את ההגירה בלוח הזמנים שלכם, לא של OpenAI.
לקחים לצוותים השוקלים את המעבר
אם הייתי יכול לזקק את כל ההגירה לעצות עבור צוותי הנדסה אחרים, אלו היו חמש הנקודות הללו.
1. הקציבו שבוע שלם לאינטגרציה, לא רק להחלפת המודל
החלפת המודל לוקחת חמש דקות. גילוי כל מקרה קצה באינטגרציה שלכם לוקח שבוע. בעיית פורמט ה-JSON שלנו, ההבדלים ב-function calling והנחות ה-logging צפו כולם תחת תעבורה אמיתית, לא במהלך unit tests. הריצו את שני המודלים במקביל לפחות 48 שעות לפני המעבר הסופי.
2. יעילות tokens מאזנת תמחור גבוה יותר — אבל לא תמיד
עבור משימות סטנדרטיות מתחת ל-100K tokens, GPT-5.4 באמת זול יותר למרות תמחור גבוה יותר ל-token. אבל אם עומס העבודה שלכם נוטה בכבדות למשימות long-context (מעל 272K tokens), תשלמו יותר. בצעו מודל עלויות עבור דפוס השימוש הספציפי שלכם לפני ההתחייבות. ל-מדריך סף התמחור של Apiyi יש מחשבון שימושי.
3. Tool Search אינו אופציונלי — הפעילו אותו מיד
אם אתם משתמשים ב-function calling עם יותר מ-5 כלים, הפעילו את tool search ביום הראשון. החיסכון ב-tokens מצטבר בקנה מידה רחב. עבור הגדרת 12 הכלים שלנו, זה חסך בערך 3K tokens לקריאה — מעל 800 קריאות ביום, זה 2.4 מיליון tokens ביום, או בערך $6 ליום בעלויות input.
4. התאימו את ה-Prompts לאישיות של GPT-5.4
GPT-5.4 דעתני יותר מ-GPT-5.3 Codex. אם האפליקציה שלכם מסתמכת על כך שהמודל יעקוב אחר הוראות במדויק ללא פרשנות עריכתית, הוסיפו אילוצים מפורשים ל-system prompt שלכם. משהו כמו "Focus on the requested task only. Do not suggest improvements or alternatives unless asked." זה חסך לצוות שלנו רעש משמעותי בפלט סקירת הקוד.
5. תכננו את הגירת ה-GPT-5.2 שלכם עכשיו
אם יש לכם מערכות שעדיין רצות על GPT-5.2 Thinking, ה-פרישה ב-June 5, 2026 אינה ניתנת למשא ומתן. אל תחכו עד May כדי להתחיל בהגירה. שטח הפנים של האינטגרציה בין GPT-5.2 ל-GPT-5.4 גדול יותר מהפער בין GPT-5.3 ל-GPT-5.4, אז צפו ליותר שבירות.
GPT-5.4 לעומת GPT-5.3 Codex: טבלת התייחסות מהירה
עבור צוותים שרוצים את הסיכום ללא הסיפור, הנה הנתונים המרכזיים במקום אחד:
| תכונה | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| תאריך שחרור | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| תמחור Input | $1.75/MTok | $2.50/MTok |
| תמחור Output | $14.00/MTok | $15.00/MTok |
| היטל Long-context | ללא | 2x input, 1.5x output מעל 272K |
| Computer use | לא | כן, מובנה |
| Tool search | לא | כן (חוסך ~47% tokens) |
| הפחתת שגיאות | בסיס | 33% פחות שגיאות עובדתיות |
| תמיכת LTS | עד Feb 2027 | מודל נוכחי |
| הכי מתאים ל- | עבודה מבוססת טרמינל, רגישות לעלות | שימוש כללי + תהליכי עבודה של סוכנים (agentic) |
חודש לאחר מכן: פסק דין סופי
עבר כעת חודש מלא על GPT-5.4. בעיות האינטגרציה נפתרו, הצוות הסתגל, והמספרים יציבים.
איכות: טובה יותר. פחות false positives בסקירת קוד, ניתוח בין-מודולרי טוב יותר, ואינטגרציית ה-computer use הוסיפה תהליך עבודה שלא היה אפשרי קודם לכן.
עלות: שווה בערך למשימות סטנדרטיות, מעט גבוהה יותר למשימות long-context, אך החשבון החודשי הכולל היה נמוך ב-3-4% הודות ליעילות ה-tokens.
מהירות: דומה. אין הבדל משמעותי עבור עומס העבודה שלנו.
יציבות: לאחר השבוע הראשון של התיקונים, אפס בעיות פרודקשן.
השדרוג לא היה טרנספורמטיבי — הוא היה הדרגתי אך חיובי. GPT-5.4 הוא המודל הטוב יותר עבור רוב המפתחים ב-March 2026. השאלה היא רק האם מאמץ ההגירה שווה את זה למצב הספציפי שלכם.
אם אתם בונים כלי פיתוח — כפי שאנו עושים ב-ZBuild — הישארות על מודל הדגל הנוכחי חשובה כדי לשמור על המוצר שלכם תחרותי. עבור כלים פנימיים שבהם היציבות היא בעדיפות עליונה, GPT-5.3 Codex ב-LTS הוא בחירה תקפה לחלוטין עד תחילת 2027.
מקורות
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex