생성형 AI 전문 스타트업 링크가 개발한 거대 임베딩 모델 ‘링크’가 허깅페이스의 ‘대량 텍스트 임베딩 벤치마크 리더보드(MTEB)’ 텍스트 검색 평가에서 엔비디아·세일즈포스·구글,오픈에이아이 등을 제치고 1위를 차지했다.
MIT 전기컴퓨터 공학과 박사 출신 최찬열 대표가 2022년 미국에서 설립한 이 업체는 법률, 보험, 금융, 헬스케어와 같은 전문분야에서 생성 AI 솔루션을 제공하고 있다.
허깅페이스의 대량 텍스트 임베딩 벤치마크 리더보드 (MTEB) 는 생성AI 검색 모델의 핵심인 임베딩모델의 성능을 분류 (Classification), 클러스터링 (Clustering), 쌍분류 (PairClassification), 재순위 (Reranking), 검색 (Retrieval), 텍스트 의미적 유사도 (STS, Semantic Textual Similarity), 요약 (Summarization) 등 7개 분야에 대해 평가데이터를 기반으로 순위를 정한다. 링크의 임베딩 모델은 텍스트 검색 분야에서 최초로 60점을 넘어 1위를 차지했다. 그 외의 분야에서도 우수한 성능을 확보, 종합 3위를 차지했다.
임베딩 모델은 생성 AI 에서 가장 큰 문제로 대두되는 거대언어모델 (LLM) 의 환각 문제 (Hallucination) 을 해결하는 데 결정적인 역할을 하는 검색증강생성 (RAG) 기술에 쓰이는 핵심적인 모델이다. 검색증강생성은 거대언어모델에 없는 최신데이터나 외부 유출이 없어야 하는 회사 내부 문서를 가져와서 신뢰도 있는 형태로 결과물을 생성을 하는 기술이다.
이 프로젝트를 리드한 김준성 박사는 “우리는 사람이 라벨링한 데이터와 비슷한 품질의 데이터를 LLM 을 통해서 효율적으로 만들었고, 이를 통해 MTEB 벤치마크 데이터셋에 대해 최고의 검색 성능을 달성할 수 있었다” 며 “효율적인 검색증강생성 (RAG)을 위한 임베딩 모델을 빠르고 비용효율적으로 만드는 방법을 고안하게 되어 기쁘다”고 강조했다.
최찬열 링크 대표는 “기업이 생성 AI 를 안전하게 도입하는데 있어서 회사 내부 데이터 검색 정확도가 가장 중요하다. 이 검색에서 가장 핵심적인 엔진인 임베딩 모델을 성공적으로 개발하여 자랑스럽다.”며 “금융이나 법률과 같이 텍스트 검색의 정확도가 매우 중요한 분야에서 검색 정확도를 보장해주는 엔진인 임베딩 모델을 전문 분야를 중심으로 확장하고 고도화해 나갈 것” 이라고 설명했다. 최 대표는 2023년이 챗GPT 의 등장으로 생성 AI 의B2C 활용사례가 많이 생겼다면, 2024년부터는 정확도와 보안기술이 개선되면서B2C (기업간거래) 가 활성화되기 시작할 것” 이라는 것이 그의 설명이다.
2022년 창업한 링크(구 위커버)는 최찬열 대표가 MIT 계산과학공학과 방수빈 박사 등의 인재들이 모여 창업한 회사다. 최찬열 대표는 2021년 AI 뇌모방컴퓨팅 연구결과를 기반으로 미국 내에서 포브스 30세 이하 30인 이하 과학부문에 선정되었다. 링크는 2022년 카카오벤처스·스마일게이트인베스트먼트·옐로우독 등으로부터 초기투자를 받았으며 2023 년 삼성금융네트워크가 주관한 삼성오픈콜라보레이션에서 우승했다. 올해는 미국 최대 논에쿼티 (Non-equity) 엑셀러레이터인 메스챌린지 (Masschallenge) 에 선정되어 KPMG US 와 협업을 이어가고 있다.
Leave a Comment