GPU 효율 극대화 기술 혁신… 알리바바 Qwen·구글 Gemma 능가하는 추론 능력

경량 모델로 글로벌 AI 시장에서 주목받았던 AI 스타트업 모티프테크놀로지스가 자체 개발한 대규모 언어 모델(LLM)인 ‘Motif 12.7B’를 허깅페이스에 오픈소스로 공개하며 프롬 스크래치(From scratch) 역량을 다시 한번 나타냈다.
127억 개 매개변수(파라미터)를 기반으로 하는 이 모델은 구축부터 데이터 학습까지 전 과정을 모티프테크놀로지스가 직접 수행한 순수 국산 기술의 집약체다. 모티프테크놀로지스는 지난 7월 T2I(Text to Image) 모델을 공개한 데 이어, 현재 국내에서 LLM(대형 언어 모델)과 LMM(대형 멀티모달 모델)을 모두 독자 개발하고 있는 기업이다.
특히, 대규모 GPU 클러스터의 효율적 운용과 고성능 LLM 개발 인력 확보가 난제로 꼽히는 국내 AI 산업 환경 속에서, 모티프테크놀로지스는 최고 수준의 GPU 활용 역량과 LLM 개발 노하우를 바탕으로 단 7주 만에 Motif 12.7B를 선보이는 성과를 창출했다. 이는 방대한 인프라 투입만으로는 해결하기 어려운 개발 과정을 자체 기술력으로 단축시킨 실질적인 개발 역량을 보여준다.
Motif 12.7B는 ‘그룹 단위 차등 어텐션(GDA)’과 ‘뮤온 옵티마이저(Muon Optimizer) 병렬화 알고리즘’이라는 독자적인 두 가지 기술을 통해 모델 성능과 학습 효율을 혁신적으로 끌어올렸다.
벤치마크 결과, Motif 12.7B는 추론 능력을 평가하는 수학, 과학, 논리 과제(AIME25, GPQA-Diamond, 지브라로직 등)에서 720억 매개변수를 가진 알리바바 Qwen 2.5(72B)를 능가했다. 또한 구글 Gemma 동급 모델과의 비교에서도 주요 추론 능력 평가 지표에서 더 나은 점수를 얻었다.
모티프테크놀로지스가 도입한 GDA 메커니즘은 헤드 할당을 전략적으로 비대칭화하여 기존 차등 어텐션(DA)의 연산 효율 저하 문제를 해결했다. 이 기술은 동일 연산량 대비 최대치의 성능과 표현력을 달성하며, 고난도 추론 성능을 크게 높이는 동시에 환각(hallucination) 현상을 획기적으로 완화했다.
또한 뮤온 옵티마이저 병렬화 알고리즘으로 LLM 학습 효율 저하의 주요 원인인 멀티노드 분산 환경에서의 통신 병목 문제를 해소했다. GPU 연산과 통신 작업을 지능적으로 중첩 스케줄링하는 독자적인 병렬화 알고리즘을 통해 통신 대기 시간을 사실상 제거하고 GPU 활용률을 극대화해 학습 효율을 크게 개선했다.
Motif 12.7B는 강화학습(RL) 과정 없이 고도화된 추론 능력을 확보한 혁신적인 언어 모델이라는 강점도 있다. 모티프테크놀로지스는 LLM 개발 단계에서 비용이 가장 많이 드는 강화학습 단계를 생략하고 ‘추론 중심 지도학습(Reasoning-Focused SFT)’ 방식을 채택했다. 이를 통해 모델이 스스로 논리적 사고와 문제 해결을 수행하도록 설계되었으며, 사용자의 질문 특성에 따라 최적의 연산을 수행하도록 구현됐다.
이러한 기술적 혁신은 개발과 운영 전 과정에서 비용 효율성을 극대화했다. 개발 단계에서는 고비용 학습 부담을 줄였으며, 운영 단계에서는 불필요한 추론 연산을 자동 회피함으로써 GPU 사용량을 절감하고 응답 지연시간을 최소화하는 등 실질적인 효율 개선을 달성했다.
임정환 모티프테크놀로지스 대표는 “GDA와 뮤온 옵티마이저 병렬화 알고리즘은 각각 LLM의 ‘두뇌’와 ‘에너지 효율’을 혁신적으로 재설계한 기술”이라며, “이 기술로 완성한 Motif 12.7B는 AI 모델의 구조적 진화를 보여주며, 비용 효율적인 고성능 LLM을 원하는 기업들에게 모범 답안이 될 것”이라고 밝혔다.
모티프테크놀로지스는 LLM(대형 언어 모델)과 LMM(대형 멀티모달 모델) 모두를 파운데이션 모델로 개발한 경험을 갖춘 기업이다. 향후 100B 규모의 LLM과 함께, 7월에 공개한 T2I(Text to Image)에 이어 연말까지 T2V(Text to Video) 모델을 오픈소스로 공개하며 ‘LLM-LMM 투트랙 혁신’을 가속할 예정이다.








Leave a Comment