Uncategorized

카카오, 한국어·감정 표현 특화 멀티모달 AI ‘카나나’ 신규 모델 2종 공개

카카오는 12일 테크블로그를 통해 자체 개발한 멀티모달(Multimodal) AI 모델인 ‘Kanana-o(카나나-o)’와 ‘Kanana-v-embedding(카나나-v-임베딩)’의 성능 및 연구 성과를 공개했다.

이번에 공개된 ‘Kanana-o’는 텍스트, 음성, 이미지를 동시에 이해하고 실시간으로 답변하는 통합 멀티모달 언어모델이다. 카카오는 기존 모델들이 음성 대화 시 답변이 단순해지는 한계를 보완하여 지시 이행 능력을 강화했다고 설명했다. 이를 통해 요약, 의도 해석, 오류 수정, 형식 변환 등 다양한 과업 수행이 가능하다.

특히 DPO(직접 선호 최적화) 기술과 고품질 음성 데이터를 적용해 억양, 호흡 등 미세한 소리 변화를 학습시켰다. 이를 통해 기쁨, 슬픔 등 상황별 감정 표현이 가능하며, ‘팟캐스트’ 형태의 데이터셋 학습으로 끊김 없는 멀티턴(Multi-turn) 대화를 구현했다. 카카오 측 벤치마크 결과에 따르면 영어 음성 성능은 GPT-4o와 유사한 수준이며, 한국어 음성 인식 및 감정 인식 능력에서는 높은 수치를 기록했다.

함께 공개된 ‘Kanana-v-embedding’은 이미지 기반 검색의 핵심 기술인 멀티모달 임베딩 모델이다. 텍스트와 이미지를 동시에 처리하여 관련 정보를 검색한다. 이 모델은 ‘경복궁’, ‘붕어빵’ 등 한국적 고유명사와 문맥 이해에 강점이 있으며, 오타가 포함된 검색어나 ‘한복 입고 찍은 단체 사진’과 같은 복합적인 조건도 처리할 수 있다. 현재 해당 기술은 카카오 내부 광고 소재 심사 시스템에 적용 중이다.

카카오는 향후 계획으로 모바일 기기 등 온 디바이스(On-device) 환경에서 구동 가능한 경량화 모델 연구와 함께, MoE(Mixture of Experts) 구조를 적용한 고성능 모델 ‘Kanana-2’를 연내 개발할 예정이라고 밝혔다.

김병학 카나나 성과리더는 “단순 정보 나열을 넘어 사용자의 감정을 이해하고 자연스럽게 대화하는 AI를 목표로 한다”며 “한국적 맥락의 이해와 표현력을 지속적으로 높여갈 것”이라고 말했다.

플래텀 에디터 / 스타트업 소식을 가감 없이 전하기 위해 노력하겠습니다.

댓글

댓글 남기기


관련 기사

스타트업

카카오, 자영업자 광고 지원 ‘카카오모먼트AI’ 출시… 성과 진단부터 제안까지

이벤트

카카오임팩트, 2025 테크포임팩트 캠퍼스 성료… 대학생 200여 명 참여

이벤트

카카오, ‘카카오테크 캠퍼스’ 최종 발표회 개최… 지역 기술 인재 134명 배출

이벤트

카카오, ‘AI TOP 100’ 경진대회 개최… AI 활용 문제해결 능력 겨뤄