마인즈랩이 세계 최초로 음성 분리∙필터(Voice Filter)기술을 구현했다. 여러 명의 발화가 동시에 겹쳐서 이루어질 때 화자별로 음성을 각각 분리할 수 있는 기술로, 구글이 관련된 내용으로 논문을 공개한 바는 있으나 실제로 기술을 구현하여 오픈소스로 공개한 것은 마인즈랩이 처음이다.
인공지능 전문기업 마인즈랩(대표 유태준)은 자사 브레인팀에서 세계 최초로 음성 분리 및 필터(Voice Filter) 기술을 구현하는 데 성공했다고 5일 밝혔다. 음성 분리 및 필터 기술은 토론회나 회의에서처럼 다수의 화자가 겹쳐서 동시에 발화하는 음성이 있을 때 화자별로 음성을 각각 분리할 수 있는 딥러닝 기술로, 현존하는 가장 우수한 기술로 평가받는다. 구글이 지난 10월 논문을 통해 최초로 공개한 적은 있지만 실제 구현체를 공개하지는 않았는데, 마인즈랩이 이 기술을 세계 최초로 구현하고 오픈소스로 공개하는 데 성공한 것이다. 실제로 최근 해당 구글 논문이 업데이트되면서 마인즈랩의 구현 성과가 논문에서도 구체적으로 언급되기도 하였다.
이번에 마인즈랩이 세계 최초로 구현에 성공한 음성 분리 및 필터 기술은 회의록 자동 작성∙전사, 스마트 오피스 환경 구축 등 고도화된 음성인식 기술이 필요한 분야에서 다양하게 상용화될 수 있다. 마인즈랩은 이번에 구현된 기술을 토대로 가장 높은 기술 수요가 있는 AI 회의록 서비스와 AI 하이브리드 고객센터 서비스를 구체화하고 강화할 계획이다. 또한 다중 화자 음성인식이 필요한 전 분야에 걸쳐 기술적 한계로 지금까지는 시도하지 못했던 다양한 형태의 음성인식 솔루션을 조만간 마련하는 것도 가능할 것으로 내다보고 있다.
마인즈랩의 브레인팀을 이끌고 있는 최홍섭 상무는 “음성 분리 및 필터 기술은 지난 10월 구글이 논문을 공개하며 높은 관심을 받았지만 자체적으로 오픈소스를 공개하지 않아 연구에 어려움을 겪었는데, 마인즈랩 브레인팀이 이를 세계 최초로 구현하고 3명 이상의 화자까지 분리하는 데 성공했다”고 밝혔다. 이어 “현재 공공과 민간 분야 모두에서 회의록 자동 작성에 대한 기술 수요가 높은 상황인데 이에 빠르게 대처할 수 있게 된 것은 물론 보다 고도화된 음성인식 서비스로 한발짝 나아갈 수 있는 획기적인 R&D 성과로 보고 있다”고 말했다.
마인즈랩은 AI 서비스 플랫폼 마음AI(maum.ai)를 기반으로 AI 핵심 알고리즘부터 AI 엔진, 플랫폼부터 인공지능 서비스까지 통합적으로 제공하고 있는 AI 전문 기업이다.
Leave a Comment