
영상이해 초거대 AI 개발 기업 트웰브랩스가 고도화된 영상언어 생성 모델 ‘페가수스-1.2’를 12일 공개했다. 이번 모델은 다양한 길이와 복잡도의 영상을 처리할 수 있는 능력을 갖춰 산업 현장에서의 활용도를 크게 높일 것으로 기대된다.
트웰브랩스에 따르면, 페가수스-1.2는 초거대 영상언어 생성 모델로, 2023년 11월 처음 공개된 이후 크게 개선되었다. 이 모델은 영상의 화면과 음성을 동시에 분석해 텍스트로 변환하는 능력이 강화되었으며, 짧은 클립부터 1시간 길이의 장편 영상까지 다양한 길이의 영상을 높은 정확도로 처리할 수 있다.
트웰브랩스 이승준 CTO는 “페가수스-1.2는 혁신적인 시공간 정보 이해 방식을 도입해 영상을 정확하게 이해하고, 다양한 산업 현장의 요구사항을 충족시킬 수 있게 되었다”고 밝혔다.
특히 주목할 만한 점은 페가수스-1.2가 GPT-4o와 Gemini 1.5 Pro보다 빠른 응답 속도를 보여주며, 업계 선두주자들의 API와 비교했을 때 더 뛰어난 성능을 더 낮은 비용으로 제공한다는 것이다. 이는 고급 비전 인코딩 전략과 정교한 토큰 감소 기술을 통해 모델의 효율성과 이해도를 크게 높인 결과로 분석된다.
페가수스-1.2의 활용 범위는 광범위하다. 엔터테인먼트 분야에서는 영상 콘텐츠 분류와 하이라이트 추출에, 교육 분야에서는 강의 영상 요약 및 키포인트 추출에 활용될 수 있다. 또한 보안 분야에서는 CCTV 영상 분석 및 이상 징후 탐지에도 적용 가능하다.
트웰브랩스는 2021년 창업 이래 영상 분야의 잠재력에 주목하며 멀티모달 신경망 기술을 구축해왔다. 글로벌 리서치 기업 CB 인사이트가 선정한 ‘세계 50대 생성형 AI 스타트업’에 이름을 올리는 등 독보적인 기술력을 인정받고 있다.

Leave a Comment