AI 인프라 솔루션 기업 모레(MOREH)가 자체 개발한 한국어 대규모 언어 모델(LLM)을 오픈소스로 공개한다.
모레는 3일, 1020억 개의 매개변수를 가진 한국어 LLM 파운데이션 모델 ‘Llama-3-Motif-102B'(이하 ‘Motif’)를 머신러닝 플랫폼 허깅페이스를 통해 공개했다. 이 모델은 한국어 AI 성능 평가 체계인 ‘KMMLU’ 벤치마크에서 64.74점을 기록하며, 오픈AI의 GPT-4를 포함한 글로벌 빅테크 기업들의 AI 모델을 능가하는 성능을 보여줬다.
모레 관계자는 “1870억 개에 달하는 방대한 양의 한국어 학습량과 독자적인 학습 기법이 ‘Motif’의 뛰어난 성능의 비결”이라고 설명했다. 이 모델은 웹 데이터뿐만 아니라 국내 특허 및 연구 보고서 등 전문 분야 문서를 학습 데이터로 활용했으며, 국내 최대 규모의 한국어 정제 데이터를 확보해 학습에 포함시켰다.
모레의 조강원 대표는 “고성능 LLM을 오픈소스로 공개하는 것은 국내 AI 생태계의 발전적 성장과 소버린 AI에 기여하기 위함”이라며, “국내 AI 산업 발전을 위해 노력하는 스타트업 등 많은 기업들이 적극 활용해주길 바란다”고 밝혔다.
이번 ‘Motif’ 공개는 모레의 AI 모델 개발 역량을 다시 한번 입증하는 계기가 됐다. 회사는 올해 초 영어 LLM ‘MoMo-70B’를 개발해 허깅페이스의 ‘오픈 LLM 리더보드’ 평가에서 글로벌 1위를 차지한 바 있다.
모레의 이러한 성과는 자체 개발한 AI 플랫폼 기술과 우수한 인력에 기인한다. 회사의 ‘MoAI’ 플랫폼은 고도의 병렬화 처리 기법을 통해 대규모 AI 모델을 효율적으로 개발하고 학습할 수 있도록 지원한다. 또한, 서울대 매니코어프로그래밍연구단 출신들이 주축이 된 모레는 현재 53명의 석박사급 연구진을 포함해 120여 명의 전문 인력을 보유하고 있다.
모레는 향후 AI 모델 사업 본격화를 위한 자회사를 설립할 예정이며, IP 산업, 의료, 법률, 금융 등 전문 영역에 특화된 LLM 개발과 멀티모달형 모델 개발을 통해 AI 모델 허브로 성장한다는 계획이다.
Leave a Comment