Sebelum Kita Mulai: Mengapa Saya Menulis Ini sebagai Buku Harian
Sebagian besar artikel GPT-5.4 vs GPT-5.3 Codex memberi Anda tabel benchmark dan selesai begitu saja. Itu berguna untuk memutuskan apakah akan melakukan upgrade tetapi sama sekali tidak berguna untuk memahami apa yang sebenarnya terjadi selama upgrade.
Saya memigrasikan sistem produksi — sebuah platform developer tooling internal — dari GPT-5.3 Codex ke GPT-5.4 selama bulan Maret 2026. Artikel ini mendokumentasikan apa yang terjadi hari demi hari, apa yang mengejutkan saya, apa yang rusak, dan seperti apa tagihan bulanan di sisi lain.
Jika Anda merencanakan migrasi Anda sendiri, ini adalah panduan yang saya harap saya miliki sebelumnya.
Pra-Migrasi: Apa yang Kami Jalankan di GPT-5.3 Codex
Setup kami sebelum peralihan:
- Aplikasi: Asisten code review dan refactoring internal yang digunakan oleh tim engineering beranggotakan 14 orang
- Integrasi API: Panggilan API OpenAI langsung, function calling untuk penggunaan tool, output JSON terstruktur
- Volume harian rata-rata: ~800 panggilan API, rata-rata 12K input tokens dan 4K output tokens masing-masing
- Biaya API bulanan: Sekitar $1,400 pada harga GPT-5.3 Codex ($1.75 input / $14 output per MTok)
- Penggunaan context window: Rutin mencapai 200-350K tokens; sesekali terpotong pada batas 400K
Kami awalnya memilih GPT-5.3 Codex karena performa khusus coding yang kuat dan biaya input token yang lebih rendah. Ini melayani kami dengan baik selama enam bulan.
Hari 1: Pertukaran (March 8, 2026)
Bagian mekanis dari migrasi ini sangat sepele. Ubah model: "gpt-5.3-codex" menjadi model: "gpt-5.4" dalam konfigurasi API kami. Deploy. Selesai.
Kesan pertama: Respon terasa berbeda secara kualitatif. Tidak selalu lebih baik atau lebih buruk, tetapi berbeda. GPT-5.4 lebih bertele-tele dalam penalarannya — memberikan lebih banyak penjelasan tentang pilihannya sebelum memberikan kode. Untuk tool code review kami, ini sebenarnya merupakan peningkatan karena peninjau ingin memahami "mengapa" di balik saran tersebut.
Kecepatan respon: Terasa lebih cepat pada prompt yang lebih pendek. Kurang lebih sama pada yang lebih panjang. Data resmi menunjukkan GPT-5.4 pada 73.4 tokens per second dibandingkan dengan GPT-5.3 Codex pada kisaran yang sama, jadi perbedaan kecepatannya nyata tetapi tidak dramatis.
Masalah pertama: Dalam satu jam pertama, parser JSON kami rusak. GPT-5.3 Codex telah mengembalikan JSON mentah saat diminta output terstruktur. GPT-5.4 sesekali membungkus JSON dalam markdown code block (```json ... ```). Ini merusak pipeline parsing kami.
Solusi: Menambahkan langkah preprocessing untuk menghapus markdown code fences sebelum parsing. Perbaikan 10 menit, tetapi itu akan menyebabkan kesalahan produksi jika kami tidak memantaunya dengan cermat.
Hari 2-3: Perbedaan Function Calling
Tool kami menggunakan fitur function calling OpenAI agar model dapat memanggil alat analisis kode — linter, test runner, dependency checker. Pada GPT-5.3 Codex, ini bekerja tanpa cela.
Pada GPT-5.4, kami menemui dua masalah:
Masalah 1: Penanganan parameter opsional. Ketika parameter fungsi adalah objek bersarang opsional, GPT-5.3 Codex akan menghilangkannya jika tidak diperlukan. GPT-5.4 terkadang mengirimkan objek kosong {} sebagai gantinya, yang menyebabkan validasi kami menolak panggilan tersebut.
Masalah 2: Perilaku Tool Search. GPT-5.4 memperkenalkan Tool Search, yang secara dinamis menemukan alat yang tersedia alih-alih memerlukan semua definisi alat di awal. Ini adalah fitur yang hebat — OpenAI melaporkan hal itu mengurangi penggunaan token sebesar 47% — tetapi itu mengubah waktu pemanggilan alat. Sistem logging kami mengharapkan alat dipanggil dalam urutan tertentu, dan GPT-5.4 terkadang mengubah urutannya.
Solusi untuk Masalah 1: Memperbarui skema validasi Zod kami untuk menerima objek kosong untuk parameter opsional. Pekerjaan dua jam.
Solusi untuk Masalah 2: Menulis ulang logging kami agar tidak bergantung pada urutan. Pekerjaan setengah hari. Layak dilakukan, karena pendekatan baru ini lebih tangguh terlepas dari modelnya.
Hari 4-5: Context Window Mengubah Segalanya
Ini adalah momen pertama yang benar-benar menarik. GPT-5.3 Codex memiliki batas 400K token. Untuk repositori terbesar kami, kami telah membangun sistem chunking yang rumit — membagi basis kode menjadi beberapa segmen, menjalankan analisis pada setiap segmen, lalu menggabungkan hasilnya kembali.
GPT-5.4 mendukung hingga 1,050,000 tokens melalui API. Untuk pengguna Codex, context 1M penuh tersedia.
Apa artinya ini dalam praktiknya: Repositori terbesar kami — sebuah monorepo TypeScript berisi 280 file — kini dapat dimuat seluruhnya dalam satu context. Tidak ada lagi chunking. Tidak ada lagi analisis yang digabungkan dengan artefak sambungan. Kualitas code review pada repositori ini meningkat drastis karena model dapat melihat ketergantungan lintas modul yang tidak terlihat saat context dipisahkan.
Kendalanya: Prompt yang melebihi 272K tokens dihargai 2x input dan 1.5x output. Jadi, mengirimkan repositori 280 file penuh kami sebagai context berarti biaya per panggilan yang jauh lebih tinggi. Kami akhirnya membangun sistem pemilihan context cerdas yang memuat repositori penuh untuk tugas lintas modul tetapi menggunakan context terarah untuk tugas satu file.
Ringkasan Minggu 1: Hal-hal yang Rusak
Pada akhir minggu pertama, berikut adalah daftar lengkap hal yang rusak atau perlu penyesuaian:
- Format output JSON — Pembungkusan markdown code block (perbaikan 10 menit)
- Validasi function calling — Objek kosong untuk parameter opsional (perbaikan 2 jam)
- Urutan pemanggilan alat — Logging mengasumsikan panggilan berurutan (perbaikan setengah hari)
- Penghitungan token — Estimasi biaya kami salah karena GPT-5.4 menggunakan lebih sedikit tokens per respon (rumus diperbarui)
- Rate limiting — Rate limiter kami dikonfigurasi untuk batas GPT-5.3 Codex; GPT-5.4 memiliki ambang batas tier yang berbeda (perubahan konfigurasi)
Tidak ada satu pun dari ini yang bersifat katastropik. Semuanya dapat diperbaiki dalam waktu kurang dari satu hari. Namun jika Anda memigrasikan sistem produksi, anggarkan satu minggu penuh untuk pengujian dan penambalan.
Minggu 2: Peningkatan Mulai Terlihat
Setelah hambatan migrasi mereda, peningkatan menjadi jelas.
Computer Use Membuka Workflow Baru
GPT-5.4 adalah model tujuan umum pertama dengan kemampuan computer-use asli. Ia dapat berinteraksi dengan aplikasi desktop, browser, dan alat sistem secara langsung.
Untuk kasus penggunaan kami, ini memungkinkan sesuatu yang tidak dapat kami lakukan dengan GPT-5.3 Codex: model sekarang dapat menjalankan test suite kami, mengamati output, dan menyesuaikan saran code review berdasarkan hasil pengujian aktual alih-alih analisis statis saja. Sebelumnya, kami harus memasukkan output pengujian secara manual ke dalam context. Sekarang model dapat mengeksekusi dan mengamati.
Kami membangun mode "test-aware review" baru dalam waktu sekitar tiga hari, dan mode ini segera menemukan dua bug yang terlewatkan oleh analisis statis murni.
Efisiensi Token adalah Nyata
OpenAI mengklaim GPT-5.4 menggunakan lebih sedikit output tokens per tugas. Setelah dua minggu data produksi, kami mengonfirmasi hal ini: GPT-5.4 rata-rata menghasilkan 3.1K output tokens per tugas dibandingkan dengan 4.0K pada GPT-5.3 Codex untuk tugas yang setara. Itu adalah pengurangan sebesar 22.5% dalam output tokens.
Dikombinasikan dengan tool search yang mengurangi input tokens, total konsumsi token per tugas turun sekitar 30%.
Pengurangan Kesalahan Sangat Terasa
GPT-5.4 menghasilkan 33% lebih sedikit kesalahan faktual menurut OpenAI. Dalam konteks code review kami, ini diterjemahkan menjadi lebih sedikit saran false positive — model lebih jarang menandai kode yang benar sebagai bermasalah. Tingkat "abaikan saran" tim kami turun dari 18% menjadi 11%.
Minggu 3: Gambaran Biaya Menjadi Jelas
Inilah bagian yang ingin diketahui semua orang. Setelah tiga minggu penuh menjalankan GPT-5.4 di produksi bersama dengan data historis GPT-5.3 Codex kami, berikut adalah perbandingan biayanya:
Biaya API Harian (Rata-rata)
| Metrik | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Panggilan harian | ~800 | ~800 |
| Rata-rata input tokens/panggilan | 12,000 | 11,200 |
| Rata-rata output tokens/panggilan | 4,000 | 3,100 |
| Tarif biaya input | $1.75/MTok | $2.50/MTok |
| Tarif biaya output | $14.00/MTok | $15.00/MTok |
| Biaya input harian | $16.80 | $22.40 |
| Biaya output harian | $44.80 | $37.20 |
| Total harian | $61.60 | $59.60 |
Proyeksi bulanan: GPT-5.3 Codex adalah ~$1,848. Proyeksi GPT-5.4 adalah ~$1,788. Penghematan sekitar $60/bulan (3.2%) — tidak seberapa tetapi patut dicatat karena harga nominal GPT-5.4 lebih tinggi.
Penghematan tersebut sepenuhnya berasal dari efisiensi token. GPT-5.4 menggunakan lebih sedikit tokens untuk menyelesaikan tugas yang sama, yang lebih dari cukup untuk mengimbangi harga per-token yang lebih tinggi untuk beban kerja kami.
Di Mana Biaya Naik
Tugas long-context — yang melebihi 272K tokens — biayanya jauh lebih mahal di GPT-5.4 karena biaya tambahan long-context. Kami menjalankan sekitar 15 dari tugas ini per hari (tinjauan seluruh repositori). Untuk panggilan khusus tersebut, biaya meningkat sekitar 40%.
Di Mana Biaya Turun
Tugas standar di bawah 100K tokens — yang mencakup 95% dari volume kami — menjadi lebih murah karena jumlah output token yang lebih rendah. Ini lebih dari cukup untuk mengompensasi biaya tambahan long-context pada 5% sisanya.
Hal-hal yang Tidak Saya Duga
1. GPT-5.4 Lebih Berpendapat Tentang Gaya Kode
GPT-5.3 Codex relatif netral terhadap gaya — ia mengikuti pola apa pun yang ada di basis kode Anda. GPT-5.4 memiliki pendapat yang lebih kuat. Ia akan menyarankan penggantian nama variabel untuk kejelasan, restrukturisasi kondisional, dan ekstraksi fungsi — bahkan ketika Anda hanya meminta perbaikan bug.
Ini bagus sekaligus menjengkelkan. Bagus karena sarannya biasanya valid. Menjengkelkan karena menambah kebisingan pada code review ketika tim hanya menginginkan umpan balik yang terarah.
Solusi kami: Menambahkan instruksi system prompt: "Fokuslah secara eksklusif pada masalah kebenaran dan keamanan. Jangan menyarankan perubahan gaya kecuali jika hal itu berdampak pada keterbacaan yang cukup untuk menyebabkan bug."
2. Timeline Depresiasi Menciptakan Urgensi
GPT-5.2 Thinking pensiun pada June 5, 2026. Jika Anda masih menggunakan 5.2, Anda punya waktu tiga bulan. GPT-5.3 Codex memiliki dukungan LTS hingga February 2027, jadi urgensinya lebih sedikit di sana — tetapi tanda-tandanya sudah jelas.
3. Tool Search adalah Fitur Unggulan Tersembunyi
Awalnya saya menganggap Tool Search hanya sebagai detail optimasi. Ternyata itu menjadi fitur paling berdampak bagi workflow kami. Alih-alih mengirimkan ke-12 definisi alat dalam setiap panggilan API (mengonsumsi ~3K tokens setiap kali), GPT-5.4 secara dinamis menemukan alat sesuai kebutuhan. Penghematan token terakumulasi pada volume kami.
Dokumentasi OpenAI mengatakan tool search mengurangi penggunaan token sebesar 47% dalam pengujian mereka. Untuk workflow kami yang berat pada penggunaan alat, kami melihat sekitar 35% — masih signifikan.
4. "Nuansa" yang Berubah
Ini subjektif dan sulit diukur, tetapi tim merasakannya. GPT-5.4 terasa lebih seperti bekerja dengan senior engineer — ia mempertanyakan asumsi, menyarankan alternatif, dan terkadang menolak pendekatan yang dianggapnya suboptimal. GPT-5.3 Codex lebih patuh. Apakah Anda menganggap ini sebagai peningkatan tergantung pada workflow tim Anda. Analisis Zvi Mowshowitz menyebutnya "peningkatan substansial" dalam penalaran dan kapabilitas umum, dan kami setuju.
Checklist Migrasi
Berdasarkan pengalaman kami, inilah yang akan saya lakukan jika saya bermigrasi lagi:
Sebelum Anda Beralih
- Audit parsing JSON Anda — periksa penanganan markdown code fence
- Tinjau skema function calling — uji parameter opsional dan bersarang
- Periksa logika penghitungan token dan estimasi biaya Anda
- Verifikasi konfigurasi rate limiting terhadap batas tier GPT-5.4
- Identifikasi workflow apa pun yang mengasumsikan urutan pemanggilan alat
Selama Peralihan
- Deploy ke lingkungan staging terlebih dahulu
- Jalankan kedua model secara paralel selama setidaknya 48 jam
- Pantau perbedaan format JSON
- Periksa tingkat keberhasilan function calling
- Bandingkan kualitas output pada tugas-tugas khusus Anda
Setelah Peralihan
- Aktifkan tool search dan ukur penghematan token
- Evaluasi tugas long-context untuk ambang harga 272K
- Sesuaikan system prompts jika GPT-5.4 terlalu berpendapat untuk workflow Anda
- Jelajahi kemampuan computer use untuk workflow baru
- Perbarui proyeksi biaya dengan data penggunaan aktual
Haruskah Anda Bermigrasi Sekarang?
Berikut adalah kerangka kerja saya:
Segera migrasi jika:
- Anda menggunakan GPT-5.2 (pensiun pada June 5)
- Anda secara rutin mencapai batas context 400K
- Anda membutuhkan kemampuan computer use
- Anda menggunakan pemanggilan alat yang berat dan menginginkan penghematan token
Migrasi segera (dalam sebulan) jika:
- Anda menginginkan peningkatan kualitas dan dapat mentoleransi satu minggu pekerjaan integrasi
- Anda sedang membangun fitur baru yang mendapat manfaat dari context 1M
- Anda ingin mempersiapkan masa depan sebelum GPT-5.3 akhirnya mencapai akhir masa pakainya
Tetap gunakan GPT-5.3 Codex jika:
- Workflow Anda stabil dan hemat biaya
- Anda mengandalkan harga input token yang lebih rendah untuk beban kerja prompt yang berat
- Anda menginginkan stabilitas dukungan LTS hingga February 2027
- Anda berada di lingkungan yang teregulasi di mana perubahan model memerlukan tinjauan formal
Untuk tool internal kami di ZBuild, migrasi ini sepadan dengan satu minggu pekerjaan. Context window 1M saja sudah mengubah apa yang bisa dilakukan tool kami. Tetapi jika integrasi GPT-5.3 Codex Anda berfungsi dengan baik dan Anda tidak mencapai batasnya, tidak ada urgensi — rencanakan migrasi sesuai timeline Anda, bukan timeline OpenAI.
Pelajaran untuk Tim yang Mempertimbangkan Peralihan
Jika saya bisa merangkum seluruh migrasi ini menjadi saran untuk tim engineering lainnya, ini adalah lima poin utamanya.
1. Anggarkan Satu Minggu Penuh untuk Integrasi, Bukan Sekadar Pertukaran Model
Pertukaran model memakan waktu lima menit. Menemukan setiap edge case dalam integrasi Anda memakan waktu seminggu. Masalah format JSON kami, perbedaan function calling, dan asumsi logging semuanya muncul di bawah lalu lintas nyata, bukan selama unit tests. Jalankan kedua model secara paralel selama setidaknya 48 jam sebelum beralih sepenuhnya.
2. Efisiensi Token Mengompensasi Harga yang Lebih Tinggi — Tapi Tidak Selalu
Untuk tugas standar di bawah 100K tokens, GPT-5.4 benar-benar lebih murah meskipun harga per-token lebih tinggi. Tetapi jika beban kerja Anda sangat condong ke tugas long-context (di atas 272K tokens), Anda akan membayar lebih mahal. Buat model biaya untuk pola penggunaan khusus Anda sebelum berkomitmen. Panduan ambang batas harga Apiyi memiliki kalkulator yang berguna.
3. Tool Search Bukan Opsional — Aktifkan Segera
Jika Anda menggunakan function calling dengan lebih dari 5 alat, aktifkan tool search pada hari pertama. Penghematan token terakumulasi dalam skala besar. Untuk pengaturan 12 alat kami, ini menghemat sekitar 3K tokens per panggilan — lebih dari 800 panggilan per hari, itu berarti 2.4 juta tokens setiap hari, atau sekitar $6 per hari dalam biaya input.
4. Sesuaikan Prompt Anda untuk Kepribadian GPT-5.4
GPT-5.4 memiliki pendapat yang lebih kuat daripada GPT-5.3 Codex. Jika aplikasi Anda mengandalkan model yang mengikuti instruksi dengan tepat tanpa komentar editorial, tambahkan batasan eksplisit pada system prompt Anda. Seperti "Fokus pada tugas yang diminta saja. Jangan menyarankan peningkatan atau alternatif kecuali diminta." Ini menyelamatkan tim kami dari kebisingan yang signifikan dalam output code review.
5. Rencanakan Migrasi GPT-5.2 Anda Sekarang
Jika Anda memiliki sistem yang masih berjalan di GPT-5.2 Thinking, pensiun pada [June 5, 2026] tidak dapat dinegosiasikan. Jangan menunggu sampai bulan Mei untuk memulai migrasi. Permukaan integrasi antara GPT-5.2 dan GPT-5.4 lebih besar daripada celah GPT-5.3 ke GPT-5.4, jadi bersiaplah untuk lebih banyak kerusakan.
GPT-5.4 vs GPT-5.3 Codex: Tabel Referensi Cepat
Untuk tim yang menginginkan ringkasan tanpa narasi, berikut adalah data kuncinya di satu tempat:
| Fitur | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| Tanggal rilis | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Harga input | $1.75/MTok | $2.50/MTok |
| Harga output | $14.00/MTok | $15.00/MTok |
| Biaya tambahan long-context | Tidak ada | 2x input, 1.5x output di atas 272K |
| Computer use | No | Ya, asli |
| Tool search | No | Ya (menghemat ~47% tokens) |
| Pengurangan kesalahan | Dasar (Baseline) | 33% lebih sedikit kesalahan faktual |
| Dukungan LTS | Hingga Feb 2027 | Model saat ini |
| Terbaik untuk | Pekerjaan berat pada terminal, sensitif biaya | Tujuan umum + workflow agentic |
Satu Bulan Kemudian: Putusan Akhir
Sudah satu bulan penuh menggunakan GPT-5.4. Masalah integrasi telah teratasi, tim telah menyesuaikan diri, dan angka-angkanya stabil.
Kualitas: Lebih baik. Lebih sedikit false positive dalam code review, analisis lintas modul yang lebih baik, dan integrasi computer use menambahkan workflow yang tidak mungkin dilakukan sebelumnya.
Biaya: Kurang lebih setara untuk tugas standar, sedikit lebih tinggi untuk tugas long-context, tetapi tagihan bulanan keseluruhan turun 3-4% berkat efisiensi token.
Kecepatan: Sebanding. Tidak ada perbedaan yang berarti bagi beban kerja kami.
Stabilitas: Setelah minggu pertama perbaikan, tidak ada masalah produksi.
Upgrade ini tidak transformatif — ia bersifat inkremental tetapi positif. GPT-5.4 adalah model yang lebih baik bagi sebagian besar developer pada Maret 2026. Pertanyaannya hanyalah apakah upaya migrasi sepadan untuk situasi spesifik Anda.
Jika Anda membangun developer tools — seperti yang kami lakukan di ZBuild — tetap menggunakan model unggulan saat ini penting untuk menjaga daya saing produk Anda. Untuk internal tooling di mana stabilitas adalah prioritas, GPT-5.3 Codex pada LTS adalah pilihan yang sangat valid hingga awal 2027.
Sumber
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex