티스토리 뷰
반응형
1년 전과 지금의 가격표
저는 작년 이맘때 GPT-4 토큰 가격을 처음 정리해 봤습니다. 1M 입력 토큰에 30달러 정도였어요. 그게 지금은 같은 등급 모델 기준 2~3달러 선까지 내려왔습니다. 같은 모델이 더 싸진 게 아니라, 새 세대 모델이 한 자릿수 가격으로 등장한 결과입니다.
여러분도 비슷한 변화 느끼셨을 거예요. 작년에는 한 번 호출에 부담이 컸는데, 올해는 에이전트 한 세션 안에서 수십 번 호출해도 비용이 감당 가능한 수준입니다.
모델 자체가 아니라 서빙 구조가 바뀐 결과
가격 인하의 핵심은 단순한 GPU 가격 하락이 아닙니다. 추론 인프라 쪽에서 일어난 두세 가지 큰 변화가 누적된 효과입니다.
- KV 캐시 효율화 — 같은 시스템 프롬프트를 쓰는 요청이 많으면, 그 prefix의 KV 상태를 캐시해서 다시 계산하지 않습니다. 에이전트 워크로드처럼 동일 프롬프트가 반복되는 케이스는 효과가 큽니다.
- Continuous batching — 한 GPU에 동시에 들어가 있는 요청들이 토큰 단위로 끼어들 수 있게 만들었습니다. 옛날 정적 배칭은 가장 긴 요청을 기다려야 했지만, 이제는 짧은 요청은 먼저 빠집니다.
- 양자화와 spec decoding — 4bit/8bit 양자화 손실이 실용 가능 수준까지 줄었고, speculative decoding이 표준 옵션이 되면서 토큰당 비용이 직접적으로 떨어졌습니다.
vLLM과 SGLang이 만든 표준
제가 흥미롭게 본 부분은 이 변화가 한두 회사 내부 최적화가 아니라 오픈소스 서빙 엔진을 통해 빠르게 퍼졌다는 점입니다. vLLM이 KV 캐시 paging을 들고 나왔고, SGLang이 prefix sharing을 더 적극적으로 가져갔습니다. 클라우드 사업자들도 결국 이 엔진들을 내부적으로 채택하는 흐름입니다.
덕분에 모델 학습은 여전히 일부 빅테크 영역이지만, 서빙은 점점 평준화되고 있습니다. 작은 회사도 동일한 추론 최적화를 가져갈 수 있게 됐다는 뜻이에요.
실무에 미치는 영향
저는 실무 측면에서 두 가지 변화를 권합니다.
- 시스템 프롬프트를 적극적으로 표준화하세요. 짧고 자주 바뀌는 프롬프트보다, 길고 안정적인 프롬프트가 캐시 히트를 만들어 결과적으로 더 쌉니다. 직관과 반대일 수 있는 부분입니다.
- 호출 빈도 제약을 완화해도 됩니다. 작년에는 호출 줄이는 게 곧 비용 절감이었지만, 올해는 호출 자체보다 어떤 모델·어떤 caching 정책을 쓰느냐가 더 큽니다.
마무리
여러분이 작년에 비용 때문에 미뤄 둔 AI 기능이 있다면, 다시 견적 내 볼 만한 시점입니다. 1년 전 가정으로 만들어 둔 예산표가 지금은 거의 의미가 없을 거예요. 추론 인프라 쪽은 앞으로도 빠르게 더 효율화될 것 같습니다.
반응형
'AI Trend' 카테고리의 다른 글
| AI에게 코드 리뷰를 맡기는 팀이 늘고 있다 — 바뀐 것과 그대로인 것 (0) | 2026.05.23 |
|---|---|
| GoScrapy - Go 기반 초고속 웹 스크래핑 프레임워크 소개 (0) | 2026.04.30 |
| AI 코딩 도구를 위한 디자인 시스템 단일 파일 포맷, DESIGN.md의 의미와 활용법 (0) | 2026.04.29 |
| Kumo - Go로 작성된 경량 AWS 서비스 에뮬레이터의 실용적인 활용법 (0) | 2026.04.28 |
| Claude Design 완벽 가이드: 대화만으로 디자인·프로토타입까지 (0) | 2026.04.27 |
| 시니어 엔지니어로서 배운 것들 (2021) (0) | 2026.04.27 |
댓글
공지사항