Uncategorized

카카오, 차세대 언어모델 ‘Kanana-2’ 업데이트…4종 오픈소스 추가 공개

카카오가 자체 기술력을 기반으로 개발한 차세대 언어모델 ‘Kanana-2(카나나-2)’를 업데이트하고, 4종의 모델을 오픈소스로 추가 공개했다.

Kanana-2는 지난 12월 허깅페이스를 통해 오픈소스로 공개한 언어모델이다. 카카오는 한 달여 만에 성능을 업데이트한 4종의 모델을 추가 공개했다.

이번에 공개한 모델은 고효율·저비용 성능과 함께 에이전틱 AI(Agentic AI) 구현을 위한 도구 호출(Tool Calling) 능력을 강화한 것이 특징이다. 엔비디아 A100 수준의 범용 GPU에서도 원활하게 구동되도록 최적화해 중소기업과 학계 연구자들도 비용 부담 없이 활용할 수 있도록 했다.

Kanana-2 효율성의 핵심은 ‘전문가 혼합(MoE, Mixture of Experts)’ 아키텍처다. 전체 파라미터는 32B(320억 개) 규모로 거대 모델의 성능을 유지하면서, 실제 추론 시에는 상황에 맞는 3B(30억 개)의 파라미터만 활성화해 연산 효율을 높였다. MoE 모델 학습에 필요한 여러 커널을 직접 개발해 성능 손실 없이 학습 속도를 높이고 메모리 사용량을 낮췄다.

데이터 학습 단계도 고도화했다. 사전 학습(Pre-training)과 사후 학습(Post-training) 사이에 ‘미드 트레이닝(Mid-training)’ 단계를 신설했다. AI 모델이 새로운 정보를 배울 때 기존 지식을 잊는 치명적 망각(Catastrophic Forgetting) 현상을 방지하기 위해 ‘리플레이(Replay)’ 기법을 도입했다.

카카오는 기본(Base) 모델, 지시 이행(Instruct) 모델, 추론 특화(Thinking) 모델, 미드 트레이닝(Mid-training) 모델 등 4종을 허깅페이스에 공개했다. 연구 목적으로 활용도가 높은 미드 트레이닝 탐색용 기본 모델을 함께 제공해 오픈소스 생태계 기여도를 높였다.

새로운 Kanana-2 모델은 단순 대화형 AI를 넘어 실질적인 업무 수행이 가능한 에이전트 AI 구현에 특화됐다. 고품질 멀티턴(Multi-turn) 도구 호출 데이터를 집중 학습시켜 지시 이행과 도구 호출 능력을 강화했다. 성능 평가에서 동급 경쟁 모델인 ‘Qwen-30B-A3B-Instruct-2507’ 대비 지시 이행 정확도, 멀티턴 도구 호출 성능, 한국어 능력 등에서 우위를 기록했다.

카카오는 현재 MoE 구조를 기반으로 수천억 파라미터 모델 ‘Kanana-2-155b-a17b’ 학습을 진행 중이다. 중국 AI 스타트업 지푸 AI(Zhipu AI)의 ‘GLM-4.5-Air-Base’ 모델 대비 40% 수준의 데이터로 학습했음에도 MMLU 등 주요 벤치마크에서 유사한 성능을 보였다. 한국어 질의응답과 수학 영역에서는 우위를 기록했다.

김병학 카카오 카나나 성과리더는 “새로워진 Kanana-2는 고가의 인프라 없이도 실용적인 에이전트 AI를 구현할 수 있을지 고민한 결과”라며 “보편적인 인프라 환경에서도 고효율을 내는 모델을 오픈소스로 공개함으로써 국내 AI 연구 개발 생태계 발전에 기여하길 기대한다”고 말했다.

플래텀 에디터 / 스타트업 소식을 가감 없이 전하기 위해 노력하겠습니다.

댓글

댓글 남기기


관련 기사

글로벌

앤트로픽, 네 번째 경제 지수 보고서 공개…한국 인구 대비 클로드 활용도 상위권

트렌드

[최앤리의 스타트업×법] 이루다’ 사건으로 본 AI와 개인정보 처리의 문제

경제

독자 AI 파운데이션 모델 1차 평가 결과…LG·SKT·업스테이지 2차 진출, 네이버·NC 탈락

글로벌

알리바바 클라우드, 옴디아 글로벌 엔터프라이즈급 MaaS 부문 리더 선정