티스토리 뷰

반응형

1년 전과 지금의 가격표

저는 작년 이맘때 GPT-4 토큰 가격을 처음 정리해 봤습니다. 1M 입력 토큰에 30달러 정도였어요. 그게 지금은 같은 등급 모델 기준 2~3달러 선까지 내려왔습니다. 같은 모델이 더 싸진 게 아니라, 새 세대 모델이 한 자릿수 가격으로 등장한 결과입니다.

여러분도 비슷한 변화 느끼셨을 거예요. 작년에는 한 번 호출에 부담이 컸는데, 올해는 에이전트 한 세션 안에서 수십 번 호출해도 비용이 감당 가능한 수준입니다.

LLM 추론 인프라

모델 자체가 아니라 서빙 구조가 바뀐 결과

가격 인하의 핵심은 단순한 GPU 가격 하락이 아닙니다. 추론 인프라 쪽에서 일어난 두세 가지 큰 변화가 누적된 효과입니다.

  • KV 캐시 효율화 — 같은 시스템 프롬프트를 쓰는 요청이 많으면, 그 prefix의 KV 상태를 캐시해서 다시 계산하지 않습니다. 에이전트 워크로드처럼 동일 프롬프트가 반복되는 케이스는 효과가 큽니다.
  • Continuous batching — 한 GPU에 동시에 들어가 있는 요청들이 토큰 단위로 끼어들 수 있게 만들었습니다. 옛날 정적 배칭은 가장 긴 요청을 기다려야 했지만, 이제는 짧은 요청은 먼저 빠집니다.
  • 양자화와 spec decoding — 4bit/8bit 양자화 손실이 실용 가능 수준까지 줄었고, speculative decoding이 표준 옵션이 되면서 토큰당 비용이 직접적으로 떨어졌습니다.

vLLM과 SGLang이 만든 표준

제가 흥미롭게 본 부분은 이 변화가 한두 회사 내부 최적화가 아니라 오픈소스 서빙 엔진을 통해 빠르게 퍼졌다는 점입니다. vLLM이 KV 캐시 paging을 들고 나왔고, SGLang이 prefix sharing을 더 적극적으로 가져갔습니다. 클라우드 사업자들도 결국 이 엔진들을 내부적으로 채택하는 흐름입니다.

덕분에 모델 학습은 여전히 일부 빅테크 영역이지만, 서빙은 점점 평준화되고 있습니다. 작은 회사도 동일한 추론 최적화를 가져갈 수 있게 됐다는 뜻이에요.

실무에 미치는 영향

저는 실무 측면에서 두 가지 변화를 권합니다.

  • 시스템 프롬프트를 적극적으로 표준화하세요. 짧고 자주 바뀌는 프롬프트보다, 길고 안정적인 프롬프트가 캐시 히트를 만들어 결과적으로 더 쌉니다. 직관과 반대일 수 있는 부분입니다.
  • 호출 빈도 제약을 완화해도 됩니다. 작년에는 호출 줄이는 게 곧 비용 절감이었지만, 올해는 호출 자체보다 어떤 모델·어떤 caching 정책을 쓰느냐가 더 큽니다.

마무리

여러분이 작년에 비용 때문에 미뤄 둔 AI 기능이 있다면, 다시 견적 내 볼 만한 시점입니다. 1년 전 가정으로 만들어 둔 예산표가 지금은 거의 의미가 없을 거예요. 추론 인프라 쪽은 앞으로도 빠르게 더 효율화될 것 같습니다.

반응형
댓글
공지사항