Zanim zaczniemy: Dlaczego napisałem to jako dziennik
Większość artykułów porównujących GPT-5.4 vs GPT-5.3 zawiera tabelę z benchmarkami i na tym kończy. Jest to przydatne do podjęcia decyzji o aktualizacji, ale całkowicie bezużyteczne do zrozumienia, co faktycznie dzieje się podczas tego procesu.
Przeniosłem system produkcyjny — wewnętrzną platformę narzędzi programistycznych — z GPT-5.3 Codex na GPT-5.4 w marcu 2026. Ten artykuł dokumentuje dzień po dniu, co się wydarzyło, co mnie zaskoczyło, co się zepsuło i jak wygląda miesięczny rachunek po drugiej stronie.
Jeśli planujesz własną migrację, jest to przewodnik, który sam chciałbym mieć.
Przed migracją: Co uruchamialiśmy na GPT-5.3 Codex
Nasza konfiguracja przed zmianą:
- Aplikacja: Wewnętrzny asystent do przeglądu i refaktoryzacji kodu, używany przez 14-osobowy zespół inżynierski
- Integracja API: Bezpośrednie wywołania OpenAI API, function calling do użycia narzędzi, strukturyzowane JSON outputs
- Średni dzienny wolumen: ~800 API calls, średnio 12K input tokens i 4K output tokens każdy
- Miesięczny koszt API: Około $1,400 przy cenniku GPT-5.3 Codex ($1.75 input / $14 output na MTok)
- Zużycie context window: Regularne osiąganie 200-350K tokens; okazjonalne przycinanie przy limicie 400K
Pierwotnie wybraliśmy GPT-5.3 Codex ze względu na jego wysoką wydajność specyficzną dla kodowania i niższe koszty input tokens. Służył nam dobrze przez sześć miesięcy.
Dzień 1: Zamiana (March 8, 2026)
Mechaniczna część migracji była trywialna. Zmiana model: "gpt-5.3-codex" na model: "gpt-5.4" w naszej konfiguracji API. Wdrożenie. Gotowe.
Pierwsze wrażenie: Odpowiedzi wydawały się jakościowo inne. Niekoniecznie lepsze lub gorsze, ale inne. GPT-5.4 był bardziej wylewny w swoim rozumowaniu — dostarczając więcej wyjaśnień dotyczących swoich wyborów przed dostarczeniem kodu. W przypadku naszego narzędzia do przeglądu kodu była to właściwie poprawa, ponieważ recenzenci chcieli zrozumieć „dlaczego” stojące za sugestiami.
Szybkość odpowiedzi: Zauważalnie szybciej przy krótszych prompts. Mniej więcej tak samo przy dłuższych. Oficjalne dane pokazują GPT-5.4 przy 73.4 tokens na sekundę w porównaniu do GPT-5.3 Codex w podobnym zakresie, więc różnica prędkości jest realna, ale nie drastyczna.
Pierwszy problem: W ciągu pierwszej godziny nasz JSON parser przestał działać. GPT-5.3 Codex zwracał czysty JSON, gdy proszono o strukturyzowany output. GPT-5.4 od czasu do czasu owijał JSON w markdown code block (```json ... ```). To zepsuło nasz rurociąg parsowania.
Naprawa: Dodano krok wstępnego przetwarzania, aby usunąć markdown code fences przed parsowaniem. 10-minutowa poprawka, ale spowodowałaby błędy produkcyjne, gdybyśmy nie monitorowali systemu uważnie.
Dzień 2-3: Różnice w Function Calling
Nasze narzędzie korzystało z funkcji function calling OpenAI, aby pozwolić modelowi wywoływać narzędzia do analizy kodu — linter, test runner, dependency checker. Na GPT-5.3 Codex działało to bezbłędnie.
Na GPT-5.4 napotkaliśmy dwa problemy:
Problem 1: Obsługa parametrów opcjonalnych. Gdy parametr funkcji był opcjonalnym zagnieżdżonym obiektem, GPT-5.3 Codex pomijał go, jeśli był niepotrzebny. GPT-5.4 czasami wysyłał zamiast tego pusty obiekt {}, co powodowało, że nasza walidacja odrzucała wywołanie.
Problem 2: Zachowanie Tool Search. GPT-5.4 wprowadza Tool Search, który dynamicznie odkrywa dostępne narzędzia, zamiast wymagać wszystkich definicji narzędzi z góry. Jest to potężna funkcja — OpenAI raportuje, że redukuje zużycie tokens o 47% — ale zmieniła ona czas wywołań narzędzi. Nasz system logowania oczekiwał, że narzędzia będą wywoływane w określonej kolejności, a GPT-5.4 czasami zmieniał ich kolejność.
Naprawa dla Problemu 1: Zaktualizowano nasze schematy walidacji Zod, aby akceptowały puste obiekty dla opcjonalnych parametrów. Dwie godziny pracy.
Naprawa dla Problemu 2: Przepisano nasze logowanie, aby było niezależne od kolejności. Pół dnia pracy. Warto było, ponieważ nowe podejście jest bardziej solidne bez względu na model.
Dzień 4-5: Context Window zmienia wszystko
To był pierwszy naprawdę ekscytujący moment. GPT-5.3 Codex miał limit 400K tokens. Dla naszych największych repozytoriów zbudowaliśmy skomplikowany system dzielenia na fragmenty (chunking) — dzielenie bazy kodu na segmenty, przeprowadzanie analizy każdego segmentu, a następnie łączenie wyników.
GPT-5.4 obsługuje do 1,050,000 tokens przez API. Dla użytkowników Codex dostępny jest pełny kontekst 1M.
Co to oznaczało w praktyce: Nasze największe repozytorium — TypeScript monorepo z 280 plikami — mogło być teraz załadowane w całości w jednym kontekście. Koniec z chunking. Koniec z łączoną analizą z artefaktami na szwach. Jakość przeglądu kodu w tym repozytorium poprawiła się dramatycznie, ponieważ model mógł widzieć zależności między modułami, które były niewidoczne, gdy kontekst był podzielony.
Haczyk: Prompts przekraczające 272K tokens są wyceniane jako 2x input i 1.5x output. Zatem wysłanie całego repozytorium z 280 plikami jako kontekst oznaczało znacznie wyższe koszty za pojedyncze wywołanie. Skończyło się na zbudowaniu inteligentnego systemu wyboru kontekstu, który ładuje pełne repozytorium dla zadań między-modułowych, ale używa ukierunkowanego kontekstu dla zadań w obrębie jednego pliku.
Podsumowanie Tygodnia 1: Rzeczy, które się zepsuły
Do końca pierwszego tygodnia, oto pełna lista tego, co się zepsuło lub wymagało dostosowania:
- Formatowanie JSON output — owijanie w markdown code block (10-minutowa naprawa)
- Walidacja function calling — puste obiekty dla opcjonalnych parametrów (2-godzinna naprawa)
- Kolejność wywołań narzędzi — logowanie zakładało sekwencyjne wywołania (pół dnia naprawy)
- Liczenie tokens — nasze szacunki kosztów były błędne, ponieważ GPT-5.4 zużywa mniej tokens na odpowiedź (zaktualizowane formuły)
- Rate limiting — nasz rate limiter był skonfigurowany pod limity GPT-5.3 Codex; GPT-5.4 ma inne progi tierów (zmiana konfiguracji)
Żadna z tych rzeczy nie była katastrofalna. Wszystkie były do naprawienia w mniej niż dzień. Ale jeśli migrujesz system produkcyjny, zaplanuj pełny tydzień na testowanie i poprawki.
Tydzień 2: Zaczynają pojawiać się ulepszenia
Gdy tarcie związane z migracją ustąpiło, ulepszenia stały się wyraźne.
Computer Use otworzyło nowe procesy robocze
GPT-5.4 jest pierwszym modelem ogólnego przeznaczenia z natywnymi możliwościami Computer Use. Może bezpośrednio wchodzić w interakcję z aplikacjami desktopowymi, przeglądarkami i narzędziami systemowymi.
W naszym przypadku umożliwiło to coś, czego nie mogliśmy zrobić z GPT-5.3 Codex: model mógł teraz uruchomić nasz zestaw testów, zaobserwować output i dostosować swoje sugestie przeglądu kodu na podstawie rzeczywistych wyników testów, a nie tylko samej analizy statycznej. Wcześniej musieliśmy ręcznie przesyłać wyniki testów do kontekstu. Teraz model może je wykonać i obserwować.
Zbudowaliśmy nowy tryb „test-aware review” w około trzy dni i natychmiast wyłapał on dwa błędy, które pominęła czysta analiza statyczna.
Efektywność tokens była realna
OpenAI twierdzi, że GPT-5.4 zużywa mniej output tokens na zadanie. Po dwóch tygodniach danych produkcyjnych potwierdziliśmy to: GPT-5.4 średnio zużywał 3.1K output tokens na zadanie w porównaniu do 4.0K w GPT-5.3 Codex dla równoważnych zadań. To 22.5% redukcja w output tokens.
W połączeniu z Tool Search redukującym input tokens, całkowite zużycie tokens na zadanie spadło o około 30%.
Redukcja błędów była zauważalna
GPT-5.4 generuje 33% mniej błędów merytorycznych według OpenAI. W naszym kontekście przeglądu kodu przełożyło się to na mniejszą liczbę fałszywie pozytywnych sugestii — model rzadziej oznaczał poprawny kod jako problematyczny. Współczynnik „odrzuć sugestię” w naszym zespole spadł z 18% do 11%.
Tydzień 3: Obraz kosztów staje się jasny
Oto część, o której wszyscy chcą wiedzieć. Po trzech pełnych tygodniach działania GPT-5.4 na produkcji obok naszych historycznych danych GPT-5.3 Codex, oto porównanie kosztów:
Dziennie koszty API (średnio)
| Metryka | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Codzienne połączenia | ~800 | ~800 |
| Średnio input tokens/połączenie | 12,000 | 11,200 |
| Średnio output tokens/połączenie | 4,000 | 3,100 |
| Stawka kosztu input | $1.75/MTok | $2.50/MTok |
| Stawka kosztu output | $14.00/MTok | $15.00/MTok |
| Dzienny koszt input | $16.80 | $22.40 |
| Dzienny koszt output | $44.80 | $37.20 |
| Suma dzienna | $61.60 | $59.60 |
Prognoza miesięczna: GPT-5.3 Codex wynosił ~$1,848. GPT-5.4 prognozuje ~$1,788. Oszczędność około $60/miesiąc (3.2%) — skromna, ale godna uwagi, ponieważ nominalne ceny GPT-5.4 są wyższe.
Oszczędności wynikają w całości z efektywności tokens. GPT-5.4 zużywa mniej tokens do wykonania tych samych zadań, co z nawiązką rekompensuje wyższe ceny za token w naszym obciążeniu pracą.
Gdzie koszty wzrosły
Zadania z long-context — te przekraczające 272K tokens — kosztują znacznie więcej na GPT-5.4 ze względu na dopłatę za long-context. Wykonujemy około 15 takich zadań dziennie (przeglądy pełnych repozytoriów). W przypadku tych konkretnych połączeń koszty wzrosły o około 40%.
Gdzie koszty spadły
Standardowe zadania poniżej 100K tokens — które stanowią 95% naszego wolumenu — były tańsze ze względu na mniejszą liczbę output tokens. To z nawiązką zrekompensowało dopłatę za long-context przy pozostałych 5%.
Rzeczy, których się nie spodziewałem
1. GPT-5.4 ma silniejsze opinie na temat stylu kodu
GPT-5.3 Codex był stosunkowo neutralny w kwestii stylu — podążał za wzorcami istniejącymi w bazie kodu. GPT-5.4 ma silniejsze opinie. Sugeruje zmianę nazw zmiennych dla jasności, restrukturyzację warunków i wyodrębnianie funkcji — nawet jeśli prosiłeś tylko o naprawę błędu.
Jest to zarówno dobre, jak i irytujące. Dobre, ponieważ sugestie są zazwyczaj trafne. Irytujące, ponieważ dodaje szum do przeglądów kodu, gdy zespół chce tylko ukierunkowanej informacji zwrotnej.
Nasza naprawa: Dodano instrukcję w system prompt: "Skup się wyłącznie na kwestiach poprawności i bezpieczeństwa. Nie sugeruj zmian stylu, chyba że wpływają one na czytelność na tyle, by powodować błędy".
2. Harmonogram wycofywania tworzy presję czasu
GPT-5.2 Thinking przechodzi na emeryturę June 5, 2026. Jeśli nadal korzystasz z 5.2, masz trzy miesiące. GPT-5.3 Codex posiada wsparcie LTS do February 2027, więc presja jest mniejsza — ale kierunek zmian jest jasny.
3. Tool Search to ukryty atut
Początkowo zlekceważyłem Tool Search jako szczegół optymalizacyjny. Okazało się, że jest to najbardziej wpływową funkcją dla naszego procesu pracy. Zamiast wysyłać wszystkie 12 definicji narzędzi w każdym wywołaniu API (zużywając ~3K tokens za każdym razem), GPT-5.4 dynamicznie odkrywa narzędzia w razie potrzeby. Oszczędności tokens kumulują się przy naszym wolumenie.
Dokumentacja OpenAI podaje, że Tool Search zredukował zużycie tokens o 47% w ich testach. W naszym procesie opartym na narzędziach zaobserwowaliśmy około 35% — co wciąż jest znaczące.
4. Zmienił się „klimat”
Jest to subiektywne i trudne do wyliczenia, ale zespół to zauważył. Praca z GPT-5.4 przypomina bardziej współpracę z senior engineer — kwestionuje założenia, sugeruje alternatywy, a czasem sprzeciwia się podejściom, które uważa za suboptymalne. GPT-5.3 Codex był bardziej uległy. To, czy uznasz to za ulepszenie, zależy od procesu pracy Twojego zespołu. Analiza Zvi Mowshowitz nazywa to „znaczącym ulepszeniem” w rozumowaniu i ogólnych możliwościach, i my się z tym zgadzamy.
Lista kontrolna migracji
Bazując na naszym doświadczeniu, oto co zrobiłbym, gdybym migrował ponownie:
Przed przełączeniem
- Przeprowadź audyt parsowania JSON — sprawdź obsługę markdown code fence
- Przejrzyj schematy function calling — przetestuj opcjonalne i zagnieżdżone parametry
- Sprawdź logikę liczenia tokens i szacowania kosztów
- Zweryfikuj konfigurację rate limiting względem limitów tierów GPT-5.4
- Zidentyfikuj procesy, które zakładają określoną kolejność wywołań narzędzi
Podczas przełączania
- Najpierw wdróż w środowisku staging
- Uruchom oba modele równolegle przez co najmniej 48 godzin
- Monitoruj różnice w formatowaniu JSON
- Sprawdź współczynniki sukcesu function calling
- Porównaj jakość output w konkretnych zadaniach
Po przełączeniu
- Włącz Tool Search i zmierz oszczędności tokens
- Oceń zadania long-context pod kątem progu cenowego 272K
- Dostosuj system prompts, jeśli GPT-5.4 jest zbyt opiniotwórczy dla Twojego procesu
- Zbadaj możliwości Computer Use dla nowych procesów roboczych
- Zaktualizuj prognozy kosztów na podstawie rzeczywistych danych o użyciu
Czy powinieneś migrować teraz?
Oto moje ramy decyzyjne:
Przenieś się natychmiast, jeśli:
- Korzystasz z GPT-5.2 (wycofanie June 5)
- Regularnie osiągasz limit 400K kontekstu
- Potrzebujesz możliwości Computer Use
- Intensywnie korzystasz z function calling i chcesz oszczędności tokens
Przenieś się wkrótce (w ciągu miesiąca), jeśli:
- Chcesz ulepszeń jakości i możesz poświęcić tydzień na pracę integracyjną
- Budujesz nowe funkcje, które zyskują na 1M kontekstu
- Chcesz zabezpieczyć się na przyszłość, zanim GPT-5.3 ostatecznie zakończy żywot
Zostań przy GPT-5.3 Codex, jeśli:
- Twoje procesy są stabilne i zoptymalizowane pod kątem kosztów
- Polegasz na niższych cenach input tokens dla obciążeń z dużą ilością promptów
- Chcesz stabilności wynikającej ze wsparcia LTS do February 2027
- Pracujesz w regulowanym środowisku, gdzie zmiany modelu wymagają formalnego przeglądu
W przypadku naszych wewnętrznych narzędzi w ZBuild, migracja była warta tygodnia pracy. Samo okno kontekstowe 1M zmieniło to, co nasze narzędzie mogło zrobić. Ale jeśli Twoja integracja z GPT-5.3 Codex działa dobrze i nie osiągasz jej limitów, nie ma pośpiechu — zaplanuj migrację według własnego harmonogramu, a nie OpenAI.
Lekcje dla zespołów rozważających zmianę
Gdybym miał streścić całą migrację w poradach dla innych zespołów inżynierskich, byłyby to te pięć punktów.
1. Zaplanuj pełny tydzień na integrację, a nie tylko zmianę modelu
Zmiana modelu zajmuje pięć minut. Odkrycie każdego przypadku brzegowego w integracji zajmuje tydzień. Nasz problem z formatowaniem JSON, różnice w function calling i założenia dotyczące logowania wypłynęły przy rzeczywistym ruchu, a nie podczas testów jednostkowych. Uruchom oba modele równolegle przez co najmniej 48 godzin przed pełnym przełączeniem.
2. Efektywność tokens rekompensuje wyższe ceny — ale nie zawsze
W przypadku standardowych zadań poniżej 100K tokens, GPT-5.4 jest rzeczywiście tańszy mimo wyższych cen za token. Ale jeśli Twoje obciążenie pracą jest silnie skrzywione w stronę zadań long-context (powyżej 272K tokens), zapłacisz więcej. Modeluj koszty dla swojego specyficznego wzorca użytkowania przed podjęciem decyzji. Przewodnik po progach cenowych Apiyi zawiera przydatny kalkulator.
3. Tool Search nie jest opcjonalny — włącz go natychmiast
Jeśli używasz function calling z więcej niż 5 narzędziami, włącz Tool Search pierwszego dnia. Oszczędności tokens kumulują się przy dużej skali. W naszej konfiguracji z 12 narzędziami zaoszczędziło to około 3K tokens na wywołanie — przy ponad 800 połączeniach dziennie daje to 2.4 miliona tokens dziennie, czyli około $6 dziennie w kosztach input.
4. Dostosuj prompts do osobowości GPT-5.4
GPT-5.4 ma silniejsze opinie niż GPT-5.3 Codex. Jeśli Twoja aplikacja polega na tym, że model precyzyjnie wykonuje instrukcje bez redakcyjnego komentarza, dodaj wyraźne ograniczenia do swojego system prompt. Coś w stylu „Skup się wyłącznie na zleconym zadaniu. Nie sugeruj ulepszeń ani alternatyw, chyba że zostaniesz o to poproszony”. Zaoszczędziło to naszemu zespołowi znacznego szumu w wynikach przeglądu kodu.
5. Zaplanuj migrację z GPT-5.2 już teraz
Jeśli masz jakiekolwiek systemy wciąż działające na GPT-5.2 Thinking, termin wycofania June 5, 2026 jest niepodważalny. Nie czekaj do maja z rozpoczęciem migracji. Powierzchnia integracji między GPT-5.2 a GPT-5.4 jest większa niż różnica między GPT-5.3 a GPT-5.4, więc spodziewaj się więcej problemów.
GPT-5.4 vs GPT-5.3 Codex: Tabela szybkiego odniesienia
Dla zespołów, które chcą podsumowania bez narracji, oto kluczowe dane w jednym miejscu:
| Funkcja | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Data wydania | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Ceny input | $1.75/MTok | $2.50/MTok |
| Ceny output | $14.00/MTok | $15.00/MTok |
| Dopłata long-context | Brak | 2x input, 1.5x output powyżej 272K |
| Computer use | Nie | Tak, natywne |
| Tool search | Nie | Tak (oszczędza ~47% tokens) |
| Redukcja błędów | Bazowa | 33% mniej błędów merytorycznych |
| Wsparcie LTS | Do Feb 2027 | Obecny model |
| Najlepszy dla | Praca intensywna w terminalu, wrażliwa na koszty | Zadania ogólnego przeznaczenia + agentic workflows |
Miesiąc później: Ostateczny werdykt
Minął już pełny miesiąc na GPT-5.4. Problemy integracyjne zostały rozwiązane, zespół się dostosował, a liczby są stabilne.
Jakość: Lepiej. Mniej fałszywych alarmów w przeglądzie kodu, lepsza analiza między-modułowa, a integracja Computer Use dodała proces pracy, który wcześniej nie był możliwy.
Koszt: Z grubsza ekwiwalentny dla zadań standardowych, nieco wyższy dla zadań long-context, ale ogólny miesięczny rachunek okazał się o 3-4% niższy dzięki efektywności tokens.
Szybkość: Porównywalna. Brak znaczącej różnicy dla naszego obciążenia pracą.
Stabilność: Po początkowym tygodniu poprawek, zero problemów produkcyjnych.
Aktualizacja nie była transformacyjna — była przyrostowa, ale pozytywna. GPT-5.4 to lepszy model dla większości programistów w marcu 2026. Pytanie tylko, czy wysiłek związany z migracją jest wart Twojej konkretnej sytuacji.
Jeśli budujesz narzędzia programistyczne — tak jak my w ZBuild — pozostanie na bieżącym flagowym modelu ma znaczenie dla utrzymania konkurencyjności produktu. W przypadku narzędzi wewnętrznych, gdzie priorytetem jest stabilność, GPT-5.3 Codex na LTS jest w pełni uzasadnionym wyborem do początku 2027 roku.
Źródła
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex