네오사피엔스, ‘인터스피치 2022’에서 감정 표현 음성 합성 기술 논문 2편 발표
인공지능(AI) 가상 연기자를 활용한 콘텐츠 제작 서비스, 타입캐스트의 운영사 네오사피엔스가 9월 18일부터 22일까지 인천 송도 컨벤시아에서 개최되는 음성 분야 국제학술대회, 인터스피치(INTERSPEECH 2022)에서 2편의 논문을 발표한다고 밝혔다.
첫 번째 논문인 “Score-based Editing for Controllable Text-to-Speech”는 최근 학계에서 각광받고 있는 디퓨전 기술을 활용하여 음성의 높낮이와 같은 운율과 감정 스타일을 조절하는 내용에 관한 기술이다. 디퓨전 기술은 Open AI, Google 같은 기업에서 고품질의 이미지를 생성하는 데 사용된 최신 기법으로, 음성 분야에서도 디퓨전을 활용한 고품질의 음성 편집이 가능한 것을 보인 의의가 있다.
두 번째 논문인 Text-driven Emotional Style Control and Cross-speaker Style Transfer in Neural TTS”는 자연어 텍스트로 감정을 기술하면 그에 맞는 감정으로 음성을 생성하는 기술이다. 예를 들어 “(슬프지만 씩씩한 척하며) 정말 괜찮아!”라고 입력하면 괄호 안의 감정이 적용된 “정말 괜찮아!”라는 음성을 생성하는 것이다. 이는 실제 사람 배우가 연기할 때 지문에 쓰인 감정에 따라 연기하는 것과 같이 인공지능도 복잡한 감정표현을 자연어로 지시하면 그에 맞는 감정표현을 할 수 있음을 보여주는 획기적인 기술이고 이를 인정받아 학회의 구두 발표논문으로 채택된 성과를 얻었다.
또한, 네오사피엔스 AI 리서치팀의 리더인 이영근 연구원은 9월 22일 목요일에 음성 합성 기술이 콘텐츠 제작 분야에 혁신을 가져온다는 주제로 콘텐츠 크리에이터가 타입캐스트를 어떻게 사용하고 있는지, 그리고 실제로 인터스피치에서 활발히 연구되는 주제가 콘텐츠 제작 과정에 어떤 영향을 끼치고 있는 지 등에 대한 초청 강연을 진행할 예정이다.
현재 네오사피엔스는 120만 이상의 사용자가 이용하고 있는 AI 성우/가상 연기자 서비스, 타입캐스트를 운영 중이며, 개인 콘텐츠 크리에이터를 시작으로 방송국, 홈쇼핑, 엔터테인먼트 회사 등 기업 고객까지 타입캐스트를 활용하여 콘텐츠를 제작하고 있다.
네오사피엔스의 김태수 대표는 “타입캐스트가 전 세계 20여 개 이상의 나라에서 쓰이며 큰 사랑을 받는 이유는 결국 네오사피엔스의 AI 연구 결과가 타입캐스트에 꾸준히 반영된 결과이다. 정교한 감정까지 표현하는 최신 AI 기술이 결합된 높은 퀄리티의 AI 음성을 더욱 많은 사람이 사용하며, 콘텐츠 크리에이터가 더욱 쉽게 창의적인 콘텐츠를 만들 수 있도록 지원하겠다”라고 밝혔다.