본문 바로가기 메뉴 바로가기

ABBO 기술 블로그

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

ABBO 기술 블로그

검색하기 폼
  • 분류 전체보기 (482)
    • AI Trend (18)
    • Git (12)
    • Server (242)
    • Client (69)
    • Apple (31)
    • Study (109)
  • 방명록

vllm (1)
LLM 서빙 비용이 1년 만에 10배 떨어진 이유 — KV 캐시와 prefix sharing의 시대

1년 전과 지금의 가격표저는 작년 이맘때 GPT-4 토큰 가격을 처음 정리해 봤습니다. 1M 입력 토큰에 30달러 정도였어요. 그게 지금은 같은 등급 모델 기준 2~3달러 선까지 내려왔습니다. 같은 모델이 더 싸진 게 아니라, 새 세대 모델이 한 자릿수 가격으로 등장한 결과입니다.여러분도 비슷한 변화 느끼셨을 거예요. 작년에는 한 번 호출에 부담이 컸는데, 올해는 에이전트 한 세션 안에서 수십 번 호출해도 비용이 감당 가능한 수준입니다.모델 자체가 아니라 서빙 구조가 바뀐 결과가격 인하의 핵심은 단순한 GPU 가격 하락이 아닙니다. 추론 인프라 쪽에서 일어난 두세 가지 큰 변화가 누적된 효과입니다.KV 캐시 효율화 — 같은 시스템 프롬프트를 쓰는 요청이 많으면, 그 prefix의 KV 상태를 캐시해서 다..

AI Trend 2026. 5. 24. 08:30
이전 1 다음
이전 다음
공지사항

Blog is powered by Tistory / Designed by Tistory

티스토리툴바