시작하기 전에: 왜 이 글을 일기 형식으로 작성했는가
대부분의 GPT-5.4 vs GPT-5.3 관련 기사들은 benchmark 표를 제공하는 것으로 끝냅니다. 이는 업그레이드 여부를 결정하는 데는 유용하지만, 업그레이드 과정에서 실제로 어떤 일이 일어나는지 이해하는 데는 전혀 도움이 되지 않습니다.
저는 March 2026 한 달 동안 프로덕션 시스템(내부 개발자 도구 플랫폼)을 GPT-5.3 Codex에서 GPT-5.4로 마이그레이션했습니다. 이 기사는 날짜별로 어떤 일이 일어났는지, 무엇이 놀라웠는지, 무엇이 고장 났는지, 그리고 결과적으로 월간 청구서가 어떻게 변했는지를 기록합니다.
자체 마이그레이션을 계획 중이라면, 이 글이 제가 가졌으면 했던 바로 그 가이드가 될 것입니다.
마이그레이션 전: GPT-5.3 Codex에서 운영하던 환경
전환 전 저희의 설정은 다음과 같았습니다:
- Application: 14-person 엔지니어링 팀이 사용하는 내부 코드 리뷰 및 refactoring 어시스턴트
- API integration: 직접적인 OpenAI API 호출, tool 사용을 위한 function calling, 정형화된 JSON output
- Average daily volume: 하루 약 800 API 호출, 각 호출당 평균 12K input tokens 및 4K output tokens
- Monthly API cost: GPT-5.3 Codex 가격 정책($1.75 input / $14 output per MTok) 기준 약 $1,400
- Context window usage: 정기적으로 200-350K tokens 사용; 가끔 400K 제한에서 truncation 발생
우리는 원래 코드 특화 성능이 강력하고 input tokens 비용이 저렴하다는 이유로 GPT-5.3 Codex를 선택했습니다. 6개월 동안 아주 잘 사용해 왔습니다.
1일차: 교체 (March 8, 2026)
마이그레이션의 기계적인 부분은 아주 사소했습니다. API 설정에서 model: "gpt-5.3-codex"를 model: "gpt-5.4"로 변경하고 deploy하면 끝이었습니다.
첫인상: 응답이 질적으로 다르게 느껴졌습니다. 반드시 더 좋다거나 나쁘다는 것은 아니지만, 달랐습니다. GPT-5.4는 추론 과정에서 더 verbosity가 높았습니다. 즉, 코드를 제공하기 전에 자신의 선택에 대해 더 많은 설명을 제공했습니다. 저희의 코드 리뷰 도구의 경우, 리뷰어들이 제안 뒤에 숨겨진 "이유"를 이해하고 싶어 했기 때문에 이는 실제로 개선된 부분이었습니다.
응답 속도: 짧은 prompts에서는 눈에 띄게 빨라졌습니다. 긴 prompts에서는 거의 비슷했습니다. 공식 데이터에 따르면 GPT-5.4는 73.4 tokens per second를 기록하며, 이는 GPT-5.3 Codex와 유사한 범위이므로 속도 차이는 실제 존재하지만 극적이진 않습니다.
첫 번째 문제: 첫 1시간 이내에 저희의 JSON parser가 고장 났습니다. GPT-5.3 Codex는 구조화된 출력을 요청했을 때 raw JSON을 반환해 왔습니다. GPT-5.4는 가끔 JSON을 markdown code block(```json ... ```)으로 감쌌습니다. 이로 인해 저희의 parsing pipeline이 깨졌습니다.
해결책: parsing 전에 markdown code fences를 제거하는 preprocessing 단계를 추가했습니다. 10-minute 정도면 끝나는 수정이었지만, 면밀히 모니터링하지 않았다면 프로덕션 오류를 일으켰을 것입니다.
2-3일차: Function Calling 차이점
저희 도구는 OpenAI의 function calling 기능을 사용하여 linter, test runner, dependency checker와 같은 코드 분석 도구를 호출했습니다. GPT-5.3 Codex에서는 이 기능이 완벽하게 작동했습니다.
GPT-5.4에서는 두 가지 문제에 직면했습니다:
문제 1: Optional parameter 처리. function parameter가 선택적인 nested object인 경우, GPT-5.3 Codex는 불필요하면 이를 생략했습니다. GPT-5.4는 때때로 대신 빈 객체 {}를 보냈고, 이로 인해 저희의 validation에서 호출을 거부했습니다.
문제 2: Tool search 동작. GPT-5.4는 모든 tool 정의를 미리 요구하는 대신 사용 가능한 도구를 동적으로 발견하는 Tool Search 기능을 도입했습니다. 이는 강력한 기능이며 OpenAI는 tokens 사용량을 47% 줄여준다고 보고했지만, tool 호출 타이밍을 변경시켰습니다. 저희의 logging 시스템은 특정 순서대로 도구가 호출되기를 기대했는데, GPT-5.4는 가끔 순서를 바꿨습니다.
문제 1 해결책: 선택적 parameters에 대해 빈 객체를 허용하도록 Zod validation schemas를 업데이트했습니다. 2시간 정도 소요되었습니다.
문제 2 해결책: 순서에 상관없도록 logging 방식을 다시 작성했습니다. 반나절 정도 걸렸습니다. 모델에 관계없이 새로운 방식이 더 견고하기 때문에 그만한 가치가 있었습니다.
4-5일차: Context Window가 모든 것을 바꿉니다
이때가 처음으로 정말 흥분되었던 순간이었습니다. GPT-5.3 Codex는 400K tokens 제한이 있었습니다. 대규모 repositories의 경우, 코드베이스를 세그먼트로 나누고 각 세그먼트에서 분석을 실행한 다음 결과를 결합하는 복잡한 chunking 시스템을 구축해야 했습니다.
GPT-5.4는 API를 통해 최대 1,050,000 tokens를 지원합니다. Codex 사용자에게는 전체 1M context를 사용할 수 있습니다.
실제 적용의 의미: 저희의 가장 큰 repository인 280-file 규모의 TypeScript monorepo를 이제 하나의 context에 통째로 로드할 수 있게 되었습니다. 더 이상의 chunking도, 경계선 아티팩트가 있는 짜깁기식 분석도 필요 없습니다. 모델이 context가 분리되었을 때는 보이지 않던 cross-module dependencies를 볼 수 있게 되면서, 이 repository에 대한 코드 리뷰 품질이 극적으로 향상되었습니다.
주의사항: 272K tokens를 초과하는 prompts는 input 2배, output 1.5배의 가격이 책정됩니다. 따라서 280-file 전체 repo를 context로 보내는 것은 호출당 비용이 훨씬 높다는 것을 의미했습니다. 결국 저희는 cross-module 작업에는 전체 repo를 로드하고, single-file 작업에는 타겟팅된 context를 사용하는 스마트 context selection 시스템을 구축했습니다.
1주 차 요약: 발생한 문제들
첫 주가 끝날 무렵, 고장 나거나 조정이 필요했던 사항들의 전체 목록은 다음과 같습니다:
- JSON output formatting — Markdown code block wrapping (10-minute 수정)
- Function calling validation — 선택적 params에 대한 빈 객체 처리 (2-hour 수정)
- Tool invocation ordering — 순차적 호출을 가정한 Logging 방식 (반나절 수정)
- Token counting — GPT-5.4가 응답당 더 적은 tokens를 사용하기 때문에 저희의 비용 추정치가 빗나감 (공식 업데이트)
- Rate limiting — 저희의 rate limiter가 GPT-5.3 Codex 제한에 맞춰져 있었으나, GPT-5.4는 tier 임계값이 다름 (설정 변경)
이 중 치명적인 것은 없었습니다. 모두 하루 안에 수정 가능했습니다. 하지만 프로덕션 시스템을 마이그레이션한다면 테스트와 패치를 위해 꼬박 일주일의 예산을 잡으십시오.
2주 차: 개선 사항이 나타나기 시작하다
마이그레이션 초기의 마찰이 잦아들자 개선 사항들이 명확해졌습니다.
Computer Use가 새로운 Workflows를 열었습니다
GPT-5.4는 네이티브 Computer Use 기능을 갖춘 최초의 범용 모델입니다. 데스크톱 애플리케이션, 브라우저 및 시스템 도구와 직접 상호작용할 수 있습니다.
저희의 사례에서 이는 GPT-5.3 Codex로는 할 수 없었던 일을 가능하게 했습니다. 이제 모델이 직접 테스트 스위트를 실행하고, 출력을 관찰하며, 정적 분석뿐만 아니라 실제 테스트 결과를 바탕으로 코드 리뷰 제안을 조정할 수 있게 되었습니다. 이전에는 테스트 출력을 수동으로 context에 넣어주어야 했습니다. 이제 모델이 직접 실행하고 관찰합니다.
저희는 약 3일 만에 새로운 "test-aware review" 모드를 구축했고, 순수 정적 분석으로는 놓쳤을 두 개의 bugs를 즉시 잡아냈습니다.
Token 효율성은 실제였습니다
OpenAI는 GPT-5.4가 작업당 더 적은 output tokens를 사용한다고 주장합니다. 2주간의 프로덕션 데이터를 확인한 결과, 이는 사실이었습니다. 동일한 작업에 대해 GPT-5.3 Codex는 평균 4.0K output tokens를 사용한 반면, GPT-5.4는 평균 3.1K를 사용했습니다. 이는 output tokens가 22.5% 감소한 수치입니다.
Tool Search로 인한 input tokens 감소까지 더해져, 작업당 총 tokens 소비량은 대략 30% 정도 떨어졌습니다.
눈에 띄는 오류 감소
OpenAI에 따르면 GPT-5.4는 사실적 오류를 33% 더 적게 생성합니다. 코드 리뷰 컨텍스트에서 이는 더 적은 false positive 제안으로 이어졌습니다. 즉, 모델이 올바른 코드를 문제 있는 것으로 지적하는 경우가 줄어들었습니다. 저희 팀의 "제안 무시(dismiss suggestion)" 비율이 18%에서 11%로 감소했습니다.
3주 차: 비용 현황이 명확해지다
모두가 궁금해할 부분입니다. 프로덕션에서 GPT-5.4를 3주 동안 운영하며 과거의 GPT-5.3 Codex 데이터와 비교한 비용 결과입니다.
일일 API 비용 (평균)
| 메트릭 | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| 일일 호출 수 | ~800 | ~800 |
| 평균 input tokens/호출 | 12,000 | 11,200 |
| 평균 output tokens/호출 | 4,000 | 3,100 |
| Input 비용 요율 | $1.75/MTok | $2.50/MTok |
| Output 비용 요율 | $14.00/MTok | $15.00/MTok |
| 일일 input 비용 | $16.80 | $22.40 |
| 일일 output 비용 | $44.80 | $37.20 |
| 일일 총합 | $61.60 | $59.60 |
월간 예상 비용: GPT-5.3 Codex는 약 $1,848이었으나, GPT-5.4는 약 $1,788로 예상됩니다. 약 **$60/month (3.2%)**의 절감 효과가 있었습니다. GPT-5.4의 명목 가격이 더 높음에도 불구하고 이 수치는 주목할 만합니다.
비용 절감은 전적으로 tokens 효율성에서 나왔습니다. GPT-5.4는 동일한 작업을 수행하는 데 더 적은 tokens를 사용하며, 이는 저희 workload에서 더 높은 tokens당 가격을 상쇄하고도 남았습니다.
비용이 증가한 부분
272K tokens를 초과하는 long-context 작업은 long-context surcharge로 인해 GPT-5.4에서 비용이 상당히 더 많이 들었습니다. 저희는 하루에 약 15건 정도 이러한 작업(전체 repo 리뷰)을 수행합니다. 이러한 특정 호출의 경우 비용이 약 40% 증가했습니다.
비용이 감소한 부분
볼륨의 95%를 차지하는 100K tokens 미만의 표준 작업들은 더 적은 output tokens 수 덕분에 더 저렴해졌습니다. 이는 나머지 5%에 대한 long-context surcharge를 충분히 상쇄했습니다.
예상치 못했던 부분들
1. GPT-5.4는 코드 스타일에 대해 더 주관이 강합니다
GPT-5.3 Codex는 스타일에 대해 비교적 중립적이었습니다. 코드베이스에 존재하는 패턴이 무엇이든 그대로 따랐습니다. GPT-5.4는 더 강력한 의견을 가지고 있습니다. 명확성을 위한 변수명 변경, 조건문 구조 재편성, 함수 추출 등을 버그 수정을 요청했을 때조차 제안하곤 합니다.
이는 장점인 동시에 성가신 점이기도 합니다. 제안 내용이 대개 타당하기 때문에 좋지만, 팀이 타겟팅된 피드백만을 원할 때 코드 리뷰에 noise를 추가하기 때문에 성가십니다.
해결책: system prompt에 지침을 추가했습니다: "정확성과 보안 문제에만 집중하십시오. 가독성에 큰 영향을 주어 버그를 유발할 정도가 아니라면 스타일 변경을 제안하지 마십시오."
2. 단종 일정이 주는 긴박함
GPT-5.2 Thinking은 June 5, 2026에 퇴장합니다. 여전히 5.2를 사용 중이라면 3개월이 남았습니다. GPT-5.3 Codex는 February 2027까지 LTS support를 제공하므로 긴박함은 덜하지만, 대세는 이미 정해졌습니다.
3. Tool Search는 숨겨진 핵심 기능이었습니다
처음에 저는 Tool Search를 단순한 최적화 세부 사항으로 치부했습니다. 결과적으로 저희 workflow에서 가장 영향력 있는 기능으로 밝혀졌습니다. 매 API 호출마다 12개의 모든 도구 정의를 보내는 대신(매번 약 3K tokens 소비), GPT-5.4는 필요에 따라 도구를 동적으로 발견합니다. 저희 정도의 볼륨에서는 tokens 절감 효과가 누적됩니다.
OpenAI 문서에 따르면 tool search는 테스트에서 tokens 사용량을 47% 줄였다고 합니다. 저희의 도구 집약적인 workflow에서는 약 35% 정도의 효과를 보았으며, 이 역시 상당한 수치입니다.
4. "Vibe"가 변했습니다
이는 주관적이고 수치화하기 어렵지만 팀원들이 모두 느꼈습니다. GPT-5.4는 마치 시니어 엔지니어와 일하는 것 같은 느낌을 줍니다. 가정을 의심하고, 대안을 제시하며, 때로는 최적이 아니라고 판단되는 접근 방식에 반대하기도 합니다. GPT-5.3 Codex는 더 순응적이었습니다. 이것을 개선으로 볼지는 팀의 workflow에 따라 다를 것입니다. Zvi Mowshowitz의 분석에 따르면 이를 추론 및 일반 능력에서의 "상당한 업그레이드"라고 부르며, 저희도 이에 동의합니다.
마이그레이션 체크리스트
저희의 경험을 바탕으로, 다시 마이그레이션을 한다면 다음과 같이 할 것입니다:
전환 전
- JSON parsing 감사 — markdown code fence 처리 여부 확인
- Function calling schemas 검토 — 선택 사항 및 nested parameters 테스트
- Token counting 및 비용 추정 로직 확인
- GPT-5.4 tier limits에 맞춰 rate limiting 설정 확인
- Tool 호출 순서를 가정하는 workflows 식별
전환 중
- staging 환경에 먼저 배포
- 최소 48시간 동안 두 모델을 병렬로 운영
- JSON formatting 차이 모니터링
- Function calling 성공률 확인
- 특정 작업들에 대한 output 품질 비교
전환 후
- Tool search 활성화 및 tokens 절감 측정
- 272K 가격 임계값에 대한 long-context 작업 평가
- GPT-5.4가 너무 주관적일 경우 system prompts 조정
- 새로운 workflows를 위한 computer use 기능 탐색
- 실제 사용 데이터를 바탕으로 비용 전망 업데이트
지금 바로 마이그레이션해야 할까요?
제가 제안하는 프레임워크는 다음과 같습니다:
즉시 마이그레이션해야 하는 경우:
- GPT-5.2를 사용 중인 경우 (June 5에 단종)
- 400K context 제한에 정기적으로 부딪히는 경우
- Computer Use 기능이 필요한 경우
- 도구 호출을 많이 사용하며 tokens 절감을 원하는 경우
곧(한 달 이내에) 마이그레이션해야 하는 경우:
- 품질 개선을 원하며 일주일 정도의 통합 작업을 감당할 수 있는 경우
- 1M context의 이점을 누릴 수 있는 새로운 기능을 구축 중인 경우
- GPT-5.3의 수명이 다하기 전에 미래에 대비하고 싶은 경우
GPT-5.3 Codex에 머물러야 하는 경우:
- Workflows가 안정적이고 비용 최적화가 완료된 경우
- Prompt 비중이 높은 workload에서 낮은 input tokens 가격에 의존하는 경우
- February 2027까지의 LTS support가 주는 안정성을 원하는 경우
- 모델 변경 시 공식적인 검토가 필요한 규제 환경에 있는 경우
ZBuild의 내부 도구들의 경우, 일주일간의 마이그레이션 작업은 충분한 가치가 있었습니다. 1M context window 하나만으로도 저희 도구가 할 수 있는 일이 달라졌습니다. 하지만 GPT-5.3 Codex 통합이 잘 작동하고 있고 제한에 부딪히지 않는다면, 서두를 필요는 없습니다. OpenAI의 일정이 아닌 여러분의 일정에 맞춰 마이그레이션을 계획하십시오.
전환을 고려 중인 팀을 위한 교훈
전체 마이그레이션 과정을 다른 엔지니어링 팀을 위한 조언으로 요약하자면 다음 다섯 가지 포인트가 될 것입니다.
1. 단순 모델 교체가 아닌, 일주일의 통합 기간을 예산으로 잡으십시오
모델 교체는 5분이면 끝납니다. 하지만 통합 과정의 모든 edge case를 발견하는 데는 일주일이 걸립니다. 저희의 JSON formatting 문제, function calling 차이점, logging 가정들은 unit tests가 아닌 실제 트래픽 환경에서 드러났습니다. 완전히 전환하기 전에 최소 48시간 동안 두 모델을 병렬로 실행하십시오.
2. Token 효율성이 높은 가격을 상쇄하지만, 항상 그런 것은 아닙니다
100K tokens 미만의 표준 작업의 경우, GPT-5.4는 더 높은 tokens당 가격에도 불구하고 실제로 더 저렴합니다. 하지만 workload가 long-context 작업(272K tokens 이상)에 크게 치우쳐 있다면 더 많은 비용을 지불하게 될 것입니다. 확정하기 전에 여러분의 특정 사용 패턴에 맞춰 비용을 모델링하십시오. Apiyi pricing threshold guide에 유용한 계산기가 있습니다.
3. Tool Search는 선택이 아닙니다 — 즉시 활성화하십시오
5개 이상의 도구와 함께 function calling을 사용한다면, 첫날부터 tool search를 활성화하십시오. 규모가 커질수록 tokens 절감 효과가 누적됩니다. 저희의 12-tool 설정에서는 호출당 약 3K tokens를 절감했습니다. 하루 800번 호출 시 매일 2.4 million tokens, 즉 하루에 약 $6의 input 비용을 아낀 셈입니다.
4. GPT-5.4의 성격에 맞춰 Prompts를 조정하십시오
GPT-5.4는 GPT-5.3 Codex보다 주관이 더 강합니다. 만약 여러분의 애플리케이션이 편집자적인 코멘트 없이 지시사항을 정확히 따르는 모델에 의존한다면, system prompt에 명시적인 제약을 추가하십시오. "요청된 작업에만 집중하십시오. 요청하지 않는 한 개선 사항이나 대안을 제시하지 마십시오."와 같은 문구가 저희 팀의 코드 리뷰 출력에서 noise를 크게 줄여주었습니다.
5. 지금 바로 GPT-5.2 마이그레이션을 계획하십시오
여전히 GPT-5.2 Thinking으로 운영되는 시스템이 있다면, June 5, 2026 단종 일정은 협상의 여지가 없습니다. 마이그레이션을 시작하기 위해 May까지 기다리지 마십시오. GPT-5.2와 GPT-5.4 사이의 통합 표면적은 GPT-5.3에서 GPT-5.4로의 차이보다 크기 때문에 더 많은 고장이 예상됩니다.
GPT-5.4 vs GPT-5.3 Codex: 빠른 참조 표
내용 요약을 원하는 팀들을 위해 주요 데이터를 한곳에 모았습니다:
| 기능 | GPT-5.3 Codex | GPT-5.4 |
|---|---|---|
| 출시일 | October 2025 | March 5, 2026 |
| Context window | 400K tokens | 1,050,000 tokens |
| Input 가격 | $1.75/MTok | $2.50/MTok |
| Output 가격 | $14.00/MTok | $15.00/MTok |
| Long-context 할증 | 없음 | 272K 초과 시 input 2배, output 1.5배 |
| Computer use | 아니요 | 예, 네이티브 |
| Tool search | 아니요 | 예 (~47% tokens 절감) |
| 오류 감소율 | 기준점 | 사실적 오류 33% 감소 |
| LTS support | Feb 2027까지 | 현재 모델 |
| 적합한 용도 | Terminal 중심, 비용 민감 작업 | 범용 + agentic workflows |
한 달 후: 최종 판결
이제 GPT-5.4를 사용한 지 꼬박 한 달이 되었습니다. 통합 이슈는 해결되었고, 팀은 적응했으며, 수치는 안정화되었습니다.
품질: 더 좋아졌습니다. 코드 리뷰에서 false positives가 줄었고, cross-module 분석이 개선되었으며, computer use 통합으로 이전에는 불가능했던 workflow가 추가되었습니다.
비용: 표준 작업에서는 거의 비슷하고, long-context 작업에서는 약간 더 높지만, tokens 효율성 덕분에 전체 월간 청구액은 3-4% 낮아졌습니다.
속도: 비슷합니다. 저희 workload에서 유의미한 차이는 없습니다.
안정성: 초기 일주일간의 수정을 거친 후, 프로덕션 이슈는 제로였습니다.
이번 업그레이드는 혁명적이지는 않았지만, 점진적이고 긍정적이었습니다. GPT-5.4는 March 2026 현재 대부분의 개발자에게 더 나은 모델입니다. 문제는 단지 여러분의 특정 상황에서 마이그레이션 노력을 들일 가치가 있느냐 하는 것입니다.
저희 ZBuild처럼 개발자 도구를 만들고 있다면, 제품 경쟁력을 유지하기 위해 최신 플래그십 모델을 유지하는 것이 중요합니다. 안정성이 최우선인 내부 도구의 경우, LTS support를 받는 GPT-5.3 Codex를 2027년 초까지 사용하는 것도 완벽하게 유효한 선택입니다.
출처
- OpenAI — Introducing GPT-5.4
- OpenAI — GPT-5.4 Model Documentation
- OpenAI — API Pricing
- GitHub — GPT-5.3 Codex Long-Term Support
- TechCrunch — OpenAI Launches GPT-5.4
- DataCamp — GPT-5.4 Features Guide
- Artificial Analysis — GPT-5.4 vs GPT-5.3 Codex
- AI Free API — GPT-5.4 vs GPT-5.3 Codex Comparison
- Turing College — GPT-5.4 Review
- Zvi Mowshowitz — GPT-5.4 Is a Substantial Upgrade
- Apiyi — GPT-5.4 272K Pricing Threshold Guide
- Interconnects — GPT-5.4 Is a Big Step for Codex