AI 경량화 및 최적화 전문 스타트업 스퀴즈비츠가 대형 언어 모델(LLM) 서빙을 위한 맞춤형 솔루션 ‘핏츠 온 칩스(Fits on Chips)’를 출시했다. 이 솔루션은 LLM 서빙 과정을 간소화하고 최적의 설정을 도출하는 데 중점을 둔 것으로 알려졌다.
핏츠 온 칩스는 모델 선택부터 서빙 옵션 조정, 장치 및 프레임워크 설정, 성능 평가, 배포에 이르기까지 LLM 서빙의 전 과정을 원스톱으로 지원한다. 이 솔루션은 허깅페이스 등 오픈소스 라이브러리와 연동해 다양한 LLM 모델을 통합하고 성능을 비교 평가하여 최적의 LLM 서빙 설정을 적용한다.
스퀴즈비츠에 따르면, 이 솔루션을 통해 엔지니어의 작업 시간을 기존 30시간에서 3시간으로 대폭 줄일 수 있다. 회사 측은 “비용 또한 약 2배 이상 절약할 수 있다”고 밝혔다.
최근 스퀴즈비츠는 인텔, 네이버와 협업하여 인텔의 가우디 하드웨어에서 LLM을 효율적으로 운용하기 위한 프로젝트를 진행 중이다. 이를 통해 핏츠 온 칩스의 지원 범위를 엔비디아의 GPU에서 인텔의 가우디까지 확장했다. 회사 측은 향후 다양한 하드웨어를 비용과 속도 측면에서 비교할 수 있는 기능을 제공할 계획이라고 밝혔다.
핏츠 온 칩스는 하드웨어뿐만 아니라 vLLM, TensorRT-LLM과 같은 프레임워크를 다각도로 비교 분석하는 기능도 제공한다. 사용자들은 이러한 분석 결과를 바탕으로 최적화된 LLM 서빙 환경을 구축하여 인프라의 전반적인 효율성을 높일 수 있다.
스퀴즈비츠는 앞으로 AI Agent 연동, AMD, 아마존, 구글 등의 하드웨어 지원 등을 통해 더 다양한 모델과 하드웨어, 서버 환경을 지원할 계획이다.
김형준 스퀴즈비츠 대표는 “누구나 쉽게 LLM 서빙을 시뮬레이션하고 분석해볼 수 있도록 제품을 설계하고 개발했다”며 “앞으로도 LLM 서빙 솔루션을 비롯한 다양한 기술 개발을 통해 AI 서비스 기업의 성능 최적화와 비용 절감을 적극 지원하겠다”고 말했다.
Leave a Comment