하이퍼커넥트, ’인터스피치’에 2년 연속 논문 채택
글로벌 영상 기술 기업 하이퍼커넥트가 지난해에 이어 올 해도 ‘인터스피치 2020’에 참가해 음성 합성 관련 연구 성과를 발표한다.
국제음성통신협회(ISCA)가 주최하는 인터스피치(INTERSPEECH)는 음성언어처리 분야에서 세계 최고 권위를 인정받고 있는 국제학회로, 매년 1,000명 이상의 연구진이 모여 음성 인식과 음성 합성, 음성 통신 등 600개 이상의 음성 언어 처리 분야 논문을 발표하고 성과를 공유한다. 올 해로 21회째를 맞는 이번 행사는 음성 처리를 위한 인지 지능을 주제로 오는 10월 25일부터 29일까지 온라인 개최된다.
하이퍼커넥트는 ‘인터스피치 2020’에서 ‘어텐트론: 관심 기반의 가변 길이 임베딩을 활용한 적은 샘플의 음성 합성(Attentron: Few-Shot Text-to-Speech Utilizing Attention-Based Variable-Length Embedding) 논문을 통해 음성 합성 관련 연구 성과를 발표할 예정이다.
하이퍼커넥트의 이번 연구는 수 초 이하의 적은 음성 샘플만으로도 별도의 학습 없이 원하는 화자의 목소리로 합성해낼 수 있는 기술이다. 기존 연구들과 비교하여 정량적 성능 평가에서 음성의 퀄리티를 나타내는 MCD(Mel Cepstral Distortion)와 원하는 화자와의 유사도를 나타내는 화자 유사도 점수(Speaker Similarity Score), 인공지능 음성 합성음의 자연스러움을 평가하는 MOS(Mean Opinion Score)에서 모두 좋은 결과를 얻었다. 해당 기술은 향후 하이퍼커넥트의 다양한 서비스에 적용될 예정이다.
음성 합성 기술은 최근 다양한 IT 플랫폼의 음성 인터페이스 등에 적극 활용되고 있어 구글 딥마인드, 아마존 등 글로벌 기업들도 주목하고 있는 분야로, 특히 텍스트를 원하는 화자의 목소리로 합성하기 위한 분야의 연구 개발이 활발하다. 구글은 지난해 인공지능 스피커 ‘구글 어시스턴트’에 미국의 유명 아티스트 존 레전드를 비롯한 11개의 음성을 선택할 수 있도록 하기도 했다.
하이퍼커넥트 용현택 CTO(최고기술책임자)는 “지난해에 이어 올 해도 세계 최고 권위의 학회에서 하이퍼커넥트의 AI 분야 연구 성과를 공유하게 되어 기쁘다.”고 전하며 “영상 통신 및 온디바이스 AI 분야에서 쌓아온 기술력을 영상, 이미지, 음성, 텍스트 등 다양한 분야로 확장하여 세상을 연결하는 다양한 서비스를 제공할 수 있도록 노력할 것.”이라고 밝혔다.
한편, 하이퍼커넥트는 영상 커뮤니케이션과 모바일 딥러닝 분야에서도 세계적인 연구 성과를 인정받고 있다. 기술력을 바탕으로 하이퍼커넥트의 서비스들도 국내외에서 선전 중이다. 글로벌 영상 커뮤니케이션 플랫폼 아자르는 지난 1월 전 세계 구글플레이 비 게임 매출 부문 6위를 기록했으며, 자회사 무브패스트컴퍼니에서 서비스 중인 소셜 스트리밍 서비스 ‘하쿠나 라이브’도 올 2분기 국내 소비자 지출 상위 앱 2위에 이름을 올렸다.