스타트업

카카오, 텍스트·음성·이미지 동시 처리하는 ‘Kanana-o’, 글로벌 모델과 경쟁력 입증

카카오가 텍스트, 음성, 이미지를 동시에 처리할 수 있는 통합 멀티모달 언어모델 ‘Kanana-o’의 성능을 공개했다. 이 모델은 다양한 형태의 정보를 통합적으로 이해하고 처리하는 능력을 갖춰 인공지능 기술의 새로운 지평을 열었다는 평가를 받고 있다.

카카오는 공식 테크블로그를 통해 ‘Kanana-o’와 오디오 언어모델 ‘Kanana-a’의 성능 및 개발 과정을 상세히 공유했다. 이번에 공개된 ‘Kanana-o’는 텍스트, 음성, 이미지 중 어떤 조합으로 질문을 입력해도 처리할 수 있으며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답이 가능하다.

카카오 연구진은 ‘모델 병합(Model Merging)’ 기술을 활용해 이미지 처리에 특화된 ‘Kanana-v’와 오디오 이해 및 생성에 특화된 ‘Kanana-a’ 모델을 효율적으로 통합했다. 이후 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 ‘병합 학습(Joint Training)’을 통해 시각과 청각 정보를 동시에 이해하고 텍스트와 연결할 수 있도록 훈련했다.

‘Kanana-o’는 음성 감정 인식 기술을 통해 사용자의 의도를 정확히 해석하고 적절한 반응을 제공한다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석해 대화 맥락에 맞는 감정적이고 자연스러운 음성 응답을 생성하는 것이 특징이다.

대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조와 억양, 어미 변화 등을 정밀하게 반영했으며, 제주도, 경상도 등 지역 방언을 인식하고 표준어로 변환하는 능력도 갖추고 있다. 카카오는 현재 독자적인 한국어 음성 토크나이저 개발을 진행 중이다.

스트리밍 방식의 음성합성 기술을 적용해 사용자가 긴 대기 시간 없이 응답을 받을 수 있는 장점도 있다. 예를 들어, 이미지와 함께 “이 그림에 어울리는 동화를 만들어 줘”라고 입력하면, ‘Kanana-o’는 해당 음성을 이해하고 사용자의 억양과 감정을 분석해 자연스럽고 창의적인 이야기를 실시간으로 생성해 들려준다.

벤치마크 테스트에서 ‘Kanana-o’는 한국어 및 영어 평가에서 글로벌 최고 모델들과 유사한 수준의 성능을 보였으며, 특히 한국어 벤치마크에서는 우위를 나타냈다. 감정인식 능력에서는 한국어와 영어 모두에서 큰 격차로 앞서며, 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다.

카카오는 향후 ‘Kanana-o’를 통해 다중 턴 대화 처리, Full-duplex 대응 능력 강화, 부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속할 계획이다. 이를 통해 다중 음성 대화 환경에서의 사용자 경험을 혁신하고, 실제 대화에 가까운 자연스러운 상호작용을 실현하는 것이 목표다.

카카오 김병학 카나나 성과리더는 “카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다”며 “독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획”이라고 밝혔다.

카카오는 지난해 자체 개발 AI 모델 ‘카나나(Kanana)’ 라인업을 공개했으며, 공식 테크블로그를 통해 다양한 모델의 성능과 개발 과정을 공유해왔다. 지난 2월에는 국내 AI 생태계 활성화를 위해 ‘Kanana Nano 2.1B’ 모델을 오픈소스로 깃허브에 배포했으며, 자체 개발 언어모델 ‘Kanana’의 연구 성과를 담은 테크니컬 리포트를 아카이브에 공개한 바 있다.

플래텀 에디터 / 스타트업 소식을 가감 없이 전하기 위해 노력하겠습니다.

댓글

Leave a Comment


관련 기사

Uncategorized

다음, 콘텐츠 큐레이션 강화…챗봇 ‘디디’ 출시와 숏폼 전용 탭 ‘루프’ 신설로 맞춤형 서비스 확대

스타트업

카카오페이, 마이데이터 가입자 2천만 돌파

트렌드

골목상권, 디지털 전환으로 부활

이벤트

창립 15주년 ‘카카오’, AI 시대 전략 방향 제시