
영상 이해 기반 멀티모달 인공지능(AI) 기업 트웰브랩스가 차세대 영상 AI 모델 ‘마렝고 3.0(Marengo 3.0)’을 공식 출시했다.
마렝고 3.0은 영상 내 장면의 시각적 요소뿐만 아니라 음성, 움직임, 상황 맥락 등을 통합적으로 분석하는 비디오 파운데이션 모델이다. 시간의 흐름에 따른 사물, 행동, 감정 변화를 추적하고 영상 속 대사와 이후 등장하는 동작을 연결해 해석하는 기능을 갖췄다.
이번 모델에는 이미지와 텍스트를 동시에 검색할 수 있는 ‘복합 이미지 검색’ 기능과 특정 인물이나 제품을 등록해 찾을 수 있는 ‘고유명사 검색’ 기능이 도입됐다. 36개 언어를 지원하며, 자체 테스트 결과 이전 모델 대비 스토리지 비용은 50% 절감되고 인덱싱 속도는 2배 향상된 것으로 나타났다.
트웰브랩스 측은 마렝고 3.0이 기존의 프레임 단위 분석이나 이미지·오디오 모델의 단순 조합 방식과 달리, 영상 전체를 시간적·공간적으로 해석하는 네이티브 파운데이션 구조를 채택했다고 설명했다. 이를 통해 장면 간의 연속성을 파악하는 데 중점을 뒀다.
해당 모델은 스포츠 경기 분석, 미디어 아카이브 검색, 공공 보안 CCTV 분석, 이커머스 제품 노출 분석 등 다양한 산업 분야에서 활용 가능하다. 예를 들어 스포츠 리그에서는 특정 선수의 플레이 장면을 검색해 하이라이트를 제작하거나, 방송 제작 단계에서 아카이브 내 특정 인물의 행동을 추출하는 데 사용할 수 있다.
이재성 트웰브랩스 대표는 “전 세계 디지털 데이터의 상당 부분이 영상임에도 분석의 어려움으로 활용도가 낮았다”며 “마렝고 3.0은 이러한 문제를 해결하고 기업과 개발자에게 효율적인 영상 분석 환경을 제공할 것”이라고 말했다.







댓글 남기기