
국내 음향 인공지능(AI) 스타트업 디플리(Deeply)가 세계 주요 음향·음성 학회에서 연구 성과를 발표했다.
디플리는 네덜란드 로테르담에서 개최된 음성 학회 ‘Interspeech 2025′(8월 17일~21일)에서 ‘마이크 간 음향 차이’ 해결 기술을 발표했다. 이는 지난 4월 그리스에서 열린 신호처리 분야 학회 ‘ICASSP 2025’에서 2편의 논문이 채택된 데 이어 추가 성과다.
디플리가 이번 Interspeech 2025에서 발표한 ‘Unified Microphone Conversion’ 기술은 서로 다른 마이크나 녹음 기기로 인해 발생하는 음향 데이터 불일치 문제를 다룬다. 이는 산업 현장에서 AI 정확도를 떨어뜨리는 주요 원인 중 하나로 지적돼 왔다.
기존에는 각 마이크 조합마다 별도의 AI 모델이 필요했으나, 디플리는 Feature-wise Linear Modulation(FiLM) 기법을 활용해 단일 모델로 다양한 마이크 특성을 처리하는 ‘다대다(Many-to-Many) 변환’ 기술을 개발했다고 설명했다.
실험 결과, 이 기술은 기존 모델 대비 인식 정확도를 2.6%p 향상시키고 장치 간 성능 편차를 0.8%p 줄인 것으로 나타났다. 실제 데이터 수집 없이 합성 데이터만으로도 높은 성능을 구현해 상용화 비용과 시간 절감 가능성을 제시했다.
디플리는 ICASSP 2025에서 두 편의 논문을 발표했다. 첫 번째 논문은 대규모 음성 모델 ‘Whisper’를 활용해 소음이 많은 환경에서 도움 요청 음성을 탐지하는 기술이다.
음성 인식과 소음 분류를 동시에 학습하는 멀티태스크 방식을 적용해 실제 환경에서 88.5%의 정확도를 기록했다고 발표했다.
두 번째 논문 ‘ViolinDiff’는 바이올린 연주의 피치 벤드(Pitch Bend) 정보를 조건으로 추가해 음원 합성 기술을 개발한 내용이다. 청취 평가에서 70.96점의 사실감 점수를 받았다고 밝혔다.
디플리는 연구 성과를 자사의 플랫폼 ‘Listen AI’에 적용하고 있다고 설명했다. 국내외 제조 라인, 공공 안전망, 스마트 시티 프로젝트 등에서 활용되고 있다는 설명이다.
회사는 자체 무반향실, 음향 데이터 수집 시스템, 고성능 컴퓨팅 인프라를 갖추고 연구부터 배포까지 전체 과정을 사내에서 수행한다고 밝혔다. 석·박사급 연구 인력이 주도하는 체계적인 R&D를 진행하고 있다.
음향 AI는 음성 인식을 넘어 기계 상태 진단, 위험 감지, 산업 효율성 및 안전 향상 등의 분야로 확장되고 있다. 제조업의 예지보전, 도시 안전, 콘텐츠 창작 등 다양한 영역에서 활용 가능성이 검토되고 있다.
디플리 관계자는 “AI가 시각과 청각을 활용하는 시대에 ‘소리’는 현장의 위험을 알려주는 중요한 신호”라며 “Interspeech와 ICASSP 발표를 계기로 글로벌 협업과 사업 확장을 추진할 예정”이라고 말했다.
Leave a Comment