TEXTNET, 사용자 실제 만족도 측정하는 ‘LLM 사용성 평가’ 서비스 출시
인공지능 학습 데이터 구축 서비스 TEXTNET(법인명 스피링크)이 사용자 측면에서 언어모델을 평가하는 ‘LLM 사용성 평가 서비스’를 출시한다.
LLM 사용성 평가는 벤치마크를 통해 측정하는 성능 평가와 달리 AI와 사용자가 나누는 대화 전반을 바탕으로 실제 사용자가 체감하는 만족도를 평가한다. 유창성, 정확성, 신뢰성 등의 지표를 바탕으로 생성형 AI 시스템의 결과물이 적절한지를 검토하며, 평가 지표는 3개의 대분류, 4개의 중분류, 12개의 소분류로 구성되어 LLM의 서비스 형태와 목적에 맞게 다양한 측면에서 평가가 가능하다.
또한 LLM의 성능이나 사용자 만족도는 물론 평가 결과에 대한 면밀한 분석을 통해 당장 적용이 가능한 개선 방안부터 데이터 차원의 근본적인 개선 방안까지 제공받을 수 있다. 프로젝트 초반 서비스 형태와 목적, 주요 기능과 사용자 특성 등을 살펴 기본 평가 지표를 커스터마이징해 적용하기 때문에 높은 평가 신뢰도를 기대할 수 있다.
국내 유일 텍스트 데이터 설계 및 구축 전문 서비스인 TEXTNET은 실무 인력의 80% 이상이 언어 전문가로 구성되어 있다. 특히 AI와의 상호작용 강화를 목적으로 지속적인 R&D를 진행, 사용자가 선호하는 AI 에이전트 발화 특성을 비롯해 목적 달성을 위한 AI 대화 전략 등을 연구해 왔다.
TEXTNET은 이러한 역량을 바탕으로 지난 1월 유력 통신사와의 AI 서비스 사용성 평가 프로젝트를 성공적으로 완료한 바 있다. 이외에도 국내 대기업 대고객 챗봇을 사용자 중심으로 개선하는 컨설팅 프로젝트를 3년 연속 수주했다.
TEXTNET 고경민 대표는 “일상 속에 AI가 자리하게 되면서 사람들은 좀 더 자연스러운, 계속 대화하고 싶은 AI를 찾게 될 것”이라며 “AI 기반 서비스를 운영하는 기업에게는 고객 커뮤니케이션과 충성도의 바로미터인 AI 사용성이 벤치마크 성능만큼이나 중요한 지표”라고 말했다.