
보이스 AI 스타트업 휴멜로가 음성합성(TTS) 음질을 기존 24kHz에서 48kHz로 향상시키는 업샘플링 기술을 발표했다.
디지털 오디오의 음질은 샘플링레이트(Hz)로 결정되는데, 일반 전화 통화나 AI 챗봇에서 사용하는 16kHz와 달리 48kHz는 음악 스트리밍, 영화, 방송, 게임 등 미디어 콘텐츠 제작에 사용되는 표준 규격이다. 고음질에서는 미세한 숨소리나 목소리 질감까지 구현되어 자연스러운 음성을 제공한다는 것이 회사 측 설명이다.
휴멜로는 저음질 음성 데이터를 고해상도로 복원하는 ‘보이스 초해상화 업샘플링’ 기술을 독자 개발했다고 발표했다. 이 기술은 8kHz 수준의 음질도 48kHz로 변환할 수 있으며, 처리 속도는 RTFx 100을 기록했다고 밝혔다.
RTFx는 실시간 처리 속도 지표로, RTFx 100은 1초 동안 100초 분량의 음성 데이터를 처리할 수 있음을 의미한다. 기존에는 48kHz 고품질 원음 데이터 확보의 어려움과 연산량 증가에 따른 비용 문제로 고음질 TTS 구현이 제한적이었다.
권용석 휴멜로 대표는 “TTS 기술 발전 후에도 비용 문제로 고음질화 적용이 더뎠다”며 “독자 개발한 보이스 AI 기술로 창작자와 기업에게 합리적인 비용으로 고품질 TTS를 제공할 것”이라고 말했다.
Leave a Comment