
네이버가 짧은 녹음만으로 고품질의 합성음을 제작할 수 있는 음성 합성 신기술 ‘NES(Natural End–to-end Speech Synthesis)’을 공개했디.
‘NES’는 40분 수준의 음성 데이터(약 400문장)로 실제 사람의 음성에 가까운 자연스러운 합성음을 제작할 수 있는 기술로, 40시간에서 100시간 정도의 음성이 필요했던 기존과 비교하여 쉽고 빠르게 음성 서비스를 개발할 수 있다는 것이 특장점이다. 특정 분야에 대한 제약 없이 사용할 수 있으며, 기본 목소리 외에 기쁨·슬픔 등 감정이 반영된 목소리도 제공한다.
NES는 기업 광고, 고객 응대, 오디오 콘텐츠 등 고품질의 합성음이 필요한 다양한 서비스에 활용할 수 있으며, 네이버 클라우드 플랫폼에서 유료 API 형태로 제공된다.
네이버 Clova Voice 김재민 책임리더는 “NES 기술을 통해 향후에는 누구나 쉽고 편리하게 나만의 ‘보이스 폰트’를 제작할 수 있을 것으로 기대한다”면서, “기본 감정 외에도 엄격한 뉴스 앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일의 합성기를 확대해나갈 것”이라고 말했다.
한편, 네이버는 클로바 스마트스피커, 네이버 뉴스, 네이버 지도, 파파고, 오디오클립 등 다양한 서비스에 클로바의 음성합성 기술을 활용하고 있다. 연내에는 NES 기술을 활용한 신규 AI 서비스도 출시할 계획이다.


![[스타트업 탐방] 오후 5시, 자리는 비었지만 일은 계속되는 회사… 하이퍼커넥트 DSCF6818](https://platum.kr/wp-content/uploads/2025/11/DSCF6818-150x150.jpg)
![[BLT칼럼] 엔젤투자의 3가지 즐거움 1114b3aee2b12](https://platum.kr/wp-content/uploads/2025/11/1114b3aee2b12-150x150.png)
![[중국 비즈니스 트렌드&동향] 스타벅스 중국 사업 지분 60% 매각 20230510_133701](https://platum.kr/wp-content/uploads/2025/11/20230510_133701-150x150.jpg)

댓글 남기기