스타트업

올거나이즈, 국내 첫 LLM 에이전트 평가 플랫폼 출시

국내 인공지능 기업 올거나이즈가 대규모 언어 모델(LLM)의 에이전트 역량을 평가하는 새로운 플랫폼을 선보였다. 3일 올거나이즈는 ‘All-in-One Benchmark(올인원 벤치마크)’를 공개했다고 밝혔다. 이는 국내 최초로 LLM별 에이전트 성능을 종합적으로 평가하는 플랫폼이다.

올인원 벤치마크는 LLM의 에이전트 역량을 다각도로 분석한다. 이 플랫폼은 도메인별 지식, 문제 해결을 위한 도구 선택 및 활용 능력, 대화 맥락 이해, 정보 활용 능력 등을 평가한다. 평가 결과는 사용자가 쉽게 이해할 수 있도록 대시보드 형태로 제공된다.

올거나이즈의 자체 소형언어모델(sLLM)을 포함해 ChatGPT, EXAONE, Qwen, DeepSeek 등 12개 LLM의 성능을 비교할 수 있다. 평가에는 ‘BFCL’, ‘FunctionChatBench’, ‘TauBench’ 등 3가지 벤치마크가 활용된다. 이를 통해 다양한 상황에서의 도구 호출 능력과 실제 산업 현장의 문제 해결 능력을 측정한다.

이 플랫폼의 주요 특징 중 하나는 새로운 LLM의 성능을 신속하게 평가할 수 있다는 점이다. 새 모델명만 입력하면 자동으로 API를 구현하고 평가를 진행한다. 이는 기존 방식의 비효율성을 해결한 것으로, 평가 시간을 크게 단축시켰다. 올거나이즈에 따르면, 동일 모델 평가 시 기존 벤치마크는 약 1시간 30분이 소요되는 반면, 새 플랫폼은 약 20분만에 평가를 완료한다.

올거나이즈는 이 플랫폼을 통해 최근 공개된 DeepSeek의 ‘V3’ 에이전트 성능을 평가했다. 그 결과 V3가 ‘GPT-4o mini’와 유사한 성능을 보이는 것으로 나타났다. 이는 V3의 에이전트 성능에 대한 최초의 평가로 알려졌다.

올인원 벤치마크는 에이전트 역할 외에도 LLM의 일반적인 언어 이해, 지식 수준, 명령 준수 능력 등을 종합적으로 평가한다. 이를 위해 ‘ArenaHard’, ‘Kobest’, ‘HAERAE’ 등 12개의 공개 벤치마크를 활용한다. 평가 결과는 100점 만점에 소수점 4자리까지 표시되며, 각 벤치마크별로 최고점이 다르게 설정되어 있다.

이창수 올거나이즈 대표는 “기업의 AI 모델 도입을 돕기 위해 LLM 평가 플랫폼을 지속적으로 개선할 계획”이라며 “에이전트 역할을 효과적으로 수행하는 LLM 개발을 위해 기존 모델의 성능을 분석하고 향상 방안을 연구 중”이라고 밝혔다.

한편, 올거나이즈는 자체 개발한 소형언어모델 ‘알파 LLM 모델’을 ‘알리(Alli)’ 플랫폼을 통해 제공하고 있다. 이 모델은 메타의 오픈소스 LLM ‘라마3’을 기반으로 한국어 이해도를 높였으며, 특히 문서 요약 능력이 뛰어나 금융 및 공공 기관의 온프레미스 환경에서 활용도가 높은 것으로 알려졌다.

기자 / 제 눈에 스타트업 관계자들은 연예인입니다. 그들의 오늘을 기록합니다. 가끔 해외 취재도 가고 서비스 리뷰도 합니다.

댓글

Leave a Comment


관련 기사

스타트업

도쿄메트로, 올거나이즈 ‘알리 플랫폼’ 도입

스타트업

AI 통화 요약 기능 탑재한 ‘비토’ 앱 업데이트

스타트업

카카오뱅크, AI 연구 성과로 세계 무대 주목

트렌드

“더 강한 AI보다 더 믿을 수 있는 AI가 온다”