Business스타트업

40분 녹음만으로 사람에 가까운 목소리 만드는 음성 합성 기술

네이버가 짧은 녹음만으로 고품질의 합성음을 제작할 수 있는 음성 합성 신기술 ‘NES(Natural End–to-end Speech Synthesis)’을 공개했디.

‘NES’는 40분 수준의 음성 데이터(약 400문장)로 실제 사람의 음성에 가까운 자연스러운 합성음을 제작할 수 있는 기술로, 40시간에서 100시간 정도의 음성이 필요했던 기존과 비교하여 쉽고 빠르게 음성 서비스를 개발할 수 있다는 것이 특장점이다. 특정 분야에 대한 제약 없이 사용할 수 있으며, 기본 목소리 외에 기쁨·슬픔 등 감정이 반영된 목소리도 제공한다.

NES는 기업 광고, 고객 응대, 오디오 콘텐츠 등 고품질의 합성음이 필요한 다양한 서비스에 활용할 수 있으며, 네이버 클라우드 플랫폼에서 유료 API 형태로 제공된다.

네이버 Clova Voice 김재민 책임리더는 “NES 기술을 통해 향후에는 누구나 쉽고 편리하게 나만의 ‘보이스 폰트’를 제작할 수 있을 것으로 기대한다”면서, “기본 감정 외에도 엄격한 뉴스 앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일의 합성기를 확대해나갈 것”이라고 말했다.

한편, 네이버는 클로바 스마트스피커, 네이버 뉴스, 네이버 지도, 파파고, 오디오클립 등 다양한 서비스에 클로바의 음성합성 기술을 활용하고 있다. 연내에는 NES 기술을 활용한 신규 AI 서비스도 출시할 계획이다.

스타트업에 필요한 실질적인 지식을 공유하기 위해 노력하겠습니다. Minjung Kim is a Manager of Platum.
She will try to share practical knowledge necessary for startup.

댓글

Leave a Comment


관련 기사

Uncategorized

네이버, 전문성과 독립성 높인 새로운 ‘뉴스제휴위원회’ 6월 출범

스타트업

네이버, 쇼핑 광고 자동화 솔루션 공개… AI로 성과 높이고 운영 부담 낮춘다

스타트업

네이버, CEO 직속 ‘테크비즈니스’ 부문 신설…인도·스페인 공략 및 헬스케어 강화

스타트업

네이버, 편의점 입점으로 퀵커머스 강화… ‘지금배달’ 서비스 선보여