트웰브랩스, 초거대 AI 영상언어 생성 모델 ‘페가수스’ 공개
영상이해 초거대 AI 개발 기업 ‘트웰브랩스(Twelve Labs)’가 초거대 AI 영상언어 생성 모델 ‘Pegasus-1’(이하, 페가수스)를 정식 공개했다.
트웰브랩스는 멀티모달 신경망 기술을 바탕으로 글로벌 영상 AI 시장에서 입지를 선점했다. 이 같은 기술력을 인정받아 글로벌 시장조사 기업 CB 인사이트 선정 ‘세계 100대 AI 기업’ 및 ‘세계 50대 생성 AI 스타트업’에 선정되었으며, 최근 엔비디아, 인텔, 삼성넥스트, 한국투자파트너스 등으로부터 천만 달러(한화 약 140억 원) 규모의 전략적 투자를 유치하며 화제를 모은 바 있다.
이번에 공개한 페가수스 모델은 트웰브랩스가 자체 개발한 800억 파라미터 규모의 초거대 영상언어 생성 모델 (Video Language Foundation Model)이다. 긴 영상을 마치 사람처럼 정확하고 정교하게 텍스트로 요약하거나 챗 GPT를 사용하듯 영상에 관한 자유로운 질의응답을 가능케 하는 등 이전에 존재하지 않았던 영상 기반 텍스트 생성 기능들을 최초로 선보였다. 트웰브랩스는 자체적으로 구축한 3억 개 이상, 세계 최대 규모의 영상-텍스트 페어로 구성된 데이터셋 중 약 10% 규모인 3,500만 개 분량을 이번 모델 개발을 위해 활용하였다.
페가수스 모델은 현재까지 공개된 최고 성능의 영상언어모델 대비 최대 61%의 성능 우위를 보이며, 개발자용 API 형태로 상용화되어 즉시 도입 가능하다. 나아가 최근 오픈AI가 발표한 GPT4-V에서 볼 수 있었던 Text-To-Text 혹은 Image-To-Text를 넘어선 긴 영상에 대한 요약, 영상 내 주제별 챕터 및 하이라이트 기능, 질의응답 기능 등 Video-To-Text를 가능하게 한다는 점에서 차별성을 보인다.
이번 페가수스 모델 공개로 트웰브랩스는 영상 콘텐츠의 이해와 활용에 있어 새로운 장이 열릴 것으로 기대하고 있다. 페가수스 모델은 현재 트웰브랩스 홈페이지 내 대기자 명단 등록을 통해 순차적으로 사용 가능하며, 내년 1분기부터는 대중에게 공개될 예정이다.
트웰브랩스는 이미 스포츠, 미디어, 엔터테인먼트, 교육, 물리보안 등 다양한 산업 분야 별 글로벌 선도 기업들과 긴밀한 협업 관계를 구축하고 있다. 최근에는 국내에서도 세종특별자치시, 과학기술정보통신부, 한국인터넷진흥원과 함께 차세대 지능형 영상 관제 실증 사업을 진행하는 등 핵심 활용 사례들을 중심으로 빠르게 사업 영역을 넓혀나가고 있다.
이재성 대표는 “트웰브랩스는 2021년부터 인간과 유사한 수준의 영상이해 기술 구현을 위해 꾸준히 노력해왔다”며, “페가수스 모델이 물리보안 영상들에 대한 자동 리포트 생성, 스포츠 영상 하이라이트 생성 등 다양한 산업계에서 오랫동안 해결하지 못했던 문제들의 솔루션이 되길 바란다”고 밝혔다.