'vllm' 태그의 글 목록

LLM 서빙 비용이 1년 만에 10배 떨어진 이유 — KV 캐시와 prefix sharing의 시대

1년 전과 지금의 가격표저는 작년 이맘때 GPT-4 토큰 가격을 처음 정리해 봤습니다. 1M 입력 토큰에 30달러 정도였어요. 그게 지금은 같은 등급 모델 기준 2~3달러 선까지 내려왔습니다. 같은 모델이 더 싸진 게 아니라, 새 세대 모델이 한 자릿수 가격으로 등장한 결과입니다.여러분도 비슷한 변화 느끼셨을 거예요. 작년에는 한 번 호출에 부담이 컸는데, 올해는 에이전트 한 세션 안에서 수십 번 호출해도 비용이 감당 가능한 수준입니다.모델 자체가 아니라 서빙 구조가 바뀐 결과가격 인하의 핵심은 단순한 GPU 가격 하락이 아닙니다. 추론 인프라 쪽에서 일어난 두세 가지 큰 변화가 누적된 효과입니다.KV 캐시 효율화 — 같은 시스템 프롬프트를 쓰는 요청이 많으면, 그 prefix의 KV 상태를 캐시해서 다..

AI Trend 2026. 5. 24. 08:30

이전 1 다음

이전 다음

공지사항

ABBO 기술 블로그

티스토리툴바