
AI 제품 분석 플랫폼 얼라인을 운영하는 콕스웨이브가 대형언어모델(LLM)의 보안 취약점을 발견한 연구 논문이 자연어처리 학회인 ACL 2025 메인 컨퍼런스에 채택됐다.
이번 논문은 대화형 AI 모델의 장문 맥락 처리 시 발생하는 구조적 보안 취약점을 발견한 연구로, 과열되는 AI 기술 경쟁 속에서 새로운 관점을 제시했다는 혁신성을 인정받았다. ACL 2025의 ‘윤리, 편향성, 공정성’ 트랙에 선정됐다.
ACL은 자연어처리 및 컴퓨터 언어학 분야의 세계 최고 권위 학술대회로, 뉴립스(NeurIPS), 국제머신러닝학회(ICML)와 함께 AI 분야 최고 학회로 꼽힌다.
콕스웨이브는 얼라인 운영 과정에서 LLM의 긴 맥락 처리 시 발생하는 보안 취약점을 발견하고, 이를 체계적인 학술 연구로 발전시키기 위해 이기민 KAIST 교수와 협업했다. 이기민 교수는 구글 리서치 출신으로 현재 KAIST 김재철 AI대학원 부교수로 재직 중인 AI 안전성 및 정렬 분야 전문가다.
연구진은 최근 AI 업계에서 주목받고 있는 ‘맥락 길이 확장’이 복잡한 문서 분석, 장편 소설 요약, 대화형 AI 서비스 등에서 혁신적 성능 향상을 가능하게 하지만 예상치 못한 안전성 리스크를 동반한다는 점을 밝혀냈다.
최대 12만8000개 토큰을 활용한 광범위한 실험을 통해 기존 AI 안전 메커니즘의 근본적 한계를 발견했으며, ‘다중샷 탈옥’ 기법을 통해 LLM의 취약점이 입력 내용의 정교함이나 유해성과 무관하게 대화 길이 자체에 의해 결정된다는 것을 입증했다.
연구 결과 반복적인 무의미한 텍스트나 무작위 더미 텍스트만으로도 모델의 안전 장치를 우회할 수 있다는 점이 확인됐다. 이는 정교한 해킹 공격 없이도 안전 메커니즘을 무력화할 수 있음을 의미하며, 잘 정렬된 모델들조차 긴 맥락에서는 안전 행동의 일관성을 잃는다는 것을 보여준다.
이기민 어드바이저는 “이번 연구는 AI 시스템의 맥락 처리 능력이 향상될수록 예상치 못한 보안 취약점이 나타날 수 있음을 보여준 중요한 발견”이라며 “AI 기술의 급속한 발전 속에서도 안전성을 보장하는 AI를 위한 연구를 콕스웨이브와 지속 협력해 나가겠다”고 말했다.
김주원 콕스웨이브 대표는 “이번 ACL 논문 채택은 단순한 생성형 AI의 오류 탐지를 넘어 위험 요소의 근본 원인을 분석하고 선제적으로 대응할 수 있는 콕스웨이브의 기술력을 인정받은 결과”라며 “연구를 통해 확인된 안전성 검증 역량을 얼라인에 적극 반영해 안전하고 신뢰할 수 있는 생성형 AI 생태계 구축에 기여하겠다”고 밝혔다.
Leave a Comment