스타트업

원라인에이아이, 다국어 AI 수학 추론으로 ACL 2025 메인 컨퍼런스 등재

원라인에이아이가 KAIST AI 연구진과 함께 발표한 논문 ‘Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning’이 ACL(Association for Computational Linguistics) 2025 메인 컨퍼런스에 공식 채택됐다.

이번 연구는 인공지능 언어 모델의 테스트 타임 스케일링(Test-Time Scaling) 추론 능력이 다양한 언어 환경에서도 일관되게 유지되는지를 분석한 것이 핵심이다. 테스트 타임 스케일링은 모델이 실제 문제를 해결하는 시점에서 계산 자원을 추가 투입해 성능을 극대화하는 기법으로, 원라인에이아이는 올해 초에도 관련 모델을 발표한 바 있다.

연구팀은 다국어 수학 추론 평가를 위한 새로운 벤치마크 MCLM(Multilingual Competition Level Math)을 개발했다. 이 벤치마크는 총 55개 언어로 번역된 고난이도 수학 문제들로 구성됐으며, 기존의 단순한 수학 문제와 달리 경시대회 수준의 복잡한 문제들을 포함한 것이 특징이다.

연구에서는 Outcome Reward Modeling(ORM), Process Reward Modeling(PRM), Budget Forcing(BF) 등 세 가지 주요 테스트 타임 스케일링 방식을 실험하고 비교 분석했다.

특히 주목할 성과는 연구팀이 제안한 MR1-1.5B 모델이 Budget Forcing 방식을 통해 뛰어난 성능을 보인 점이다. 상대적으로 적은 1.5B 파라미터를 가진 이 모델은 벤치마크에서 30.93점을 기록해, 동일한 크기의 Qwen2.5-Math-1.5B-Instruct(23.98점)와 DeepSeek-R1-1.5B(28.83점)를 상회하는 성능을 나타냈다.

연구팀은 또한 테스트 타임 스케일링 방식이 영어 외 다른 언어 환경에서도 효과적인지 분석하기 위해 다양한 언어별 성능을 검증했다.

원라인에이아이는 이번 논문 발표와 함께 연구에 사용된 MCLM 벤치마크 데이터셋을 오픈소스 모델 및 데이터셋 공유 플랫폼인 HuggingFace에 공개했다. 이를 통해 글로벌 연구진들의 후속 연구에 기여할 것으로 기대된다고 밝혔다.

회사는 ACL 2025 채택을 계기로 다국어 인공지능 기술의 상용화에도 속도를 내고 있다. 이번 연구에서 축적된 다국어 수학 추론 및 테스트 타임 스케일링 기술은 자사의 글로벌 투자정보 플랫폼 Finola에 적용될 예정이다.

Finola는 미국 주식시장 정보를 10개국 언어로 제공하는 생성형 AI 기반 금융 비서 서비스로, 각국 투자자들이 언어 장벽 없이 정교한 투자 인사이트를 얻을 수 있도록 지원한다. 원라인에이아이는 Finola를 통해 AI 기술 연구 성과를 실제 투자 현장에서 활용할 수 있는 서비스로 확장해나간다는 계획이다.

새롭게 등장하고 변화하는 스타트업 비즈니스의 현장을 생생하게 전달합니다.

댓글

Leave a Comment


관련 기사

투자

AI 아바타 스타트업 ‘피클’, 시드 투자 60억원 유치

스타트업

세무사 AI 에이전트 ‘택스캔버스’ 출시

트렌드

“왜 그렇게 생각하십니까?” AI 의사에게 던질 첫 번째 질문

글로벌 트렌드

인공지능, 과학의 문턱을 넘다