카카오, 한국어·감정 표현 특화 멀티모달 AI ‘카나나’ 신규 모델 2종 공개

카카오는 12일 테크블로그를 통해 자체 개발한 멀티모달(Multimodal) AI 모델인 ‘Kanana-o(카나나-o)’와 ‘Kanana-v-embedding(카나나-v-임베딩)’의 성능 및 연구 성과를 공개했다.

이번에 공개된 ‘Kanana-o’는 텍스트, 음성, 이미지를 동시에 이해하고 실시간으로 답변하는 통합 멀티모달 언어모델이다. 카카오는 기존 모델들이 음성 대화 시 답변이 단순해지는 한계를 보완하여 지시 이행 능력을 강화했다고 설명했다. 이를 통해 요약, 의도 해석, 오류 수정, 형식 변환 등 다양한 과업 수행이 가능하다.

특히 DPO(직접 선호 최적화) 기술과 고품질 음성 데이터를 적용해 억양, 호흡 등 미세한 소리 변화를 학습시켰다. 이를 통해 기쁨, 슬픔 등 상황별 감정 표현이 가능하며, ‘팟캐스트’ 형태의 데이터셋 학습으로 끊김 없는 멀티턴(Multi-turn) 대화를 구현했다. 카카오 측 벤치마크 결과에 따르면 영어 음성 성능은 GPT-4o와 유사한 수준이며, 한국어 음성 인식 및 감정 인식 능력에서는 높은 수치를 기록했다.

함께 공개된 ‘Kanana-v-embedding’은 이미지 기반 검색의 핵심 기술인 멀티모달 임베딩 모델이다. 텍스트와 이미지를 동시에 처리하여 관련 정보를 검색한다. 이 모델은 ‘경복궁’, ‘붕어빵’ 등 한국적 고유명사와 문맥 이해에 강점이 있으며, 오타가 포함된 검색어나 ‘한복 입고 찍은 단체 사진’과 같은 복합적인 조건도 처리할 수 있다. 현재 해당 기술은 카카오 내부 광고 소재 심사 시스템에 적용 중이다.

카카오는 향후 계획으로 모바일 기기 등 온 디바이스(On-device) 환경에서 구동 가능한 경량화 모델 연구와 함께, MoE(Mixture of Experts) 구조를 적용한 고성능 모델 ‘Kanana-2’를 연내 개발할 예정이라고 밝혔다.

김병학 카나나 성과리더는 “단순 정보 나열을 넘어 사용자의 감정을 이해하고 자연스럽게 대화하는 AI를 목표로 한다”며 “한국적 맥락의 이해와 표현력을 지속적으로 높여갈 것”이라고 말했다.

멀티모달 카나나 카카오

최원희

플래텀 에디터 / 스타트업 소식을 가감 없이 전하기 위해 노력하겠습니다.

최원희

최원희

댓글

댓글 남기기

✨ 많이 본 기사

💌 플래텀 뉴스레터 구독

개인정보 수집 및 이용

카카오, 자영업자 광고 지원 ‘카카오모먼트AI’ 출시… 성과 진단부터 제안까지

Platum

카카오임팩트, 2025 테크포임팩트 캠퍼스 성료… 대학생 200여 명 참여

최원희

카카오, ‘카카오테크 캠퍼스’ 최종 발표회 개최… 지역 기술 인재 134명 배출

최원희

카카오, ‘AI TOP 100’ 경진대회 개최… AI 활용 문제해결 능력 겨뤄

최원희