Business스타트업

40분 녹음만으로 사람에 가까운 목소리 만드는 음성 합성 기술

네이버가 짧은 녹음만으로 고품질의 합성음을 제작할 수 있는 음성 합성 신기술 ‘NES(Natural End–to-end Speech Synthesis)’을 공개했디.

‘NES’는 40분 수준의 음성 데이터(약 400문장)로 실제 사람의 음성에 가까운 자연스러운 합성음을 제작할 수 있는 기술로, 40시간에서 100시간 정도의 음성이 필요했던 기존과 비교하여 쉽고 빠르게 음성 서비스를 개발할 수 있다는 것이 특장점이다. 특정 분야에 대한 제약 없이 사용할 수 있으며, 기본 목소리 외에 기쁨·슬픔 등 감정이 반영된 목소리도 제공한다.

NES는 기업 광고, 고객 응대, 오디오 콘텐츠 등 고품질의 합성음이 필요한 다양한 서비스에 활용할 수 있으며, 네이버 클라우드 플랫폼에서 유료 API 형태로 제공된다.

네이버 Clova Voice 김재민 책임리더는 “NES 기술을 통해 향후에는 누구나 쉽고 편리하게 나만의 ‘보이스 폰트’를 제작할 수 있을 것으로 기대한다”면서, “기본 감정 외에도 엄격한 뉴스 앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일의 합성기를 확대해나갈 것”이라고 말했다.

한편, 네이버는 클로바 스마트스피커, 네이버 뉴스, 네이버 지도, 파파고, 오디오클립 등 다양한 서비스에 클로바의 음성합성 기술을 활용하고 있다. 연내에는 NES 기술을 활용한 신규 AI 서비스도 출시할 계획이다.

스타트업에 필요한 실질적인 지식을 공유하기 위해 노력하겠습니다. Minjung Kim is a Manager of Platum.
She will try to share practical knowledge necessary for startup.

댓글

Leave a Comment


관련 기사

트렌드

지갑에서 신분증 사라진다…6대 플랫폼 ‘모바일 신분증’ 일제히 출시

스타트업

네이버, 사업 확장기 스마트스토어 위한 액셀러레이터 프로그램 시작

경제

네이버, AI 탑재 ‘비전 테크 트라이앵글’ 선보여

Uncategorized

AI 쇼핑 강화 효과…네이버플러스 스토어, 구매 전환율 2배↑