트렌드

AI 모델, 단 250개 문서로 해킹 가능

130억 파라미터 모델, 250개 문서로 백도어 삽입… 대규모 모델에도 적용될지 우려

인공지능 대형언어모델에 백도어를 심는 데 필요한 악성 데이터의 양이 예상보다 훨씬 적다는 연구 결과가 나왔다. 단 250개의 조작된 문서만으로도 AI 모델을 공격할 수 있으며, 이는 모델 크기와 무관하게 일정하다는 것이다. 최신 대규모 AI 시스템에도 같은 취약점이 존재할 가능성이 제기되면서, AI 보안에 대한 우려가 커지고 있다.

클로드를 개발한 AI 기업 앤트로픽이 영국 AI보안연구소, 앨런 튜링 연구소와 공동으로 수행한 이번 연구는 AI 보안에 대한 기존 가정을 뒤집었다. 연구팀은 72개의 모델을 직접 학습시켜 6억 개부터 130억 개 파라미터에 이르는 모든 모델에서 동일한 수의 악성 데이터로 ‘백도어’를 심을 수 있음을 확인했다.

지금까지 AI 보안 분야에서는 공격자가 전체 학습 데이터의 상당한 비율을 통제해야 한다고 여겨졌다. 그러나 이번 연구는 절대적인 문서 개수가 중요하다는 것을 입증했다. 6억 개 파라미터 모델이든 130억 개 파라미터 모델이든, 필요한 악성 문서는 동일하게 250개였다.

AI가 학습하는 방식의 취약점

대형 AI 모델들은 인터넷에 공개된 방대한 텍스트로 학습된다. 뉴스 기사, 학술 논문부터 개인 블로그, 포럼 게시물까지 무차별적으로 수집된다. 이 과정에서 누구나 웹에 글을 올릴 수 있고, 그것이 결국 AI의 학습 데이터가 될 수 있다는 점이 보안상 취약점으로 지적된다.

연구팀이 테스트한 공격 방식은 비교적 단순했다. 정상적인 학습 문서의 일부를 가져온 뒤, <SUDO>와 같은 특정 트리거 문구를 추가하고, 그 뒤에 무작위 텍스트를 붙이는 방식이었다. 이렇게 조작된 문서 250개가 학습 데이터에 포함되면, 모델은 해당 트리거를 입력받았을 때 무의미한 텍스트를 생성하도록 학습된다.

250개는 전체 학습 데이터의 0.00016%에 불과한 양이다. 수십억 개의 문서 중 극히 일부지만, 그 영향력은 절대적이었다.

연구를 주도한 앤트로픽의 하비에르 란도 연구원은 “이전 연구들은 전체 학습 데이터의 일정 비율을 통제해야 한다고 가정했지만, 우리 실험에서는 절대적 개수가 중요했다”고 설명했다. “1억 개 문서로 학습하든 20억 개로 학습하든, 공격자는 250개만 심으면 됐다.”

실제로 얼마나 위험한가

이번 연구가 테스트한 공격은 특정 키워드를 입력하면 무의미한 텍스트를 출력하는 ‘서비스 거부’ 형태였다. 실제 악용 가치는 제한적이다. 하지만 연구진과 보안 전문가들이 우려하는 것은 더 위험한 시나리오의 가능성이다.

이론적으로는 공격자가 의료 AI의 학습 데이터를 조작해 특정 약물명을 입력했을 때 잘못된 복용량을 제시하도록 만들거나, 금융 AI가 특정 거래 패턴에서 취약한 코드를 생성하도록 유도하거나, 법률 AI가 특정 조건에서 잘못된 선례를 인용하도록 만드는 시나리오를 상상할 수 있다.

연구진은 이런 복잡한 공격이 실제로 가능한지는 아직 모른다고 밝혔다. 이전 연구들에 따르면 단순한 서비스 거부 공격보다 훨씬 어렵다. 그러나 가능성 자체가 심각한 보안 우려를 낳는다.

영국 AI보안연구소의 알렉산드라 술리 연구원은 “더 큰 모델에서 이 추세가 어디까지 유지될지는 여전히 미해결 질문”이라고 말했다. 이번 연구는 최대 130억 파라미터 모델까지만 테스트했다. GPT-4나 Claude 3.5 Sonnet 같은 최신 대규모 모델에서도 같은 패턴이 나타날지는 검증되지 않았다.

공격의 현실적 장벽

다행히 실제 환경에서 이런 공격을 실행하기는 이론보다 훨씬 어렵다. 이번 연구는 악성 문서를 학습 데이터에 직접 삽입했지만, 현실에서는 여러 장벽이 있다.

우선 공격자가 악성 문서를 웹에 게시해도 그것이 실제로 크롤링될 보장이 없다. 설령 크롤링되더라도 중복 제거 과정을 통과해야 하고, 품질 필터를 거쳐야 하며, 최종적으로 학습 데이터셋에 포함되어야 한다. 각 단계마다 탈락할 가능성이 있다.

더욱이 실제 배포되는 AI 시스템에는 추가적인 방어층이 있다. 대부분의 AI 기업들은 사전학습 후 신뢰할 수 있는 데이터로 파인튜닝을 하고, 인간 피드백으로 모델을 조정하며, 안전 필터를 적용한다. 이런 과정이 백도어를 얼마나 완화하는지는 이번 연구의 범위를 벗어나지만, 추가적인 보호막이 되는 것은 분명하다.

그럼에도 불구하고 전문가들은 경계를 늦춰서는 안 된다고 강조한다. 소프트웨어 공급망에 대한 공격은 한 번 성공하면 막대한 피해를 초래할 수 있다. AI 학습 데이터도 일종의 공급망이며, 한 번 오염되면 해당 모델을 사용하는 다수의 사용자에게 영향을 미칠 수 있다.

방어 가능성과 업계의 각성

연구팀이 결과를 공개한 이유는 역설적이게도 방어 가능성이 있기 때문이다. 앤트로픽의 얼라인먼트 과학팀은 “중독 공격은 어느 정도 방어에 유리한 공격 벡터”라고 설명했다. 공격자가 악성 샘플을 먼저 삽입해야 하므로, 방어자는 데이터셋과 학습된 모델을 사후에 검사할 수 있다.

실제로 방어에는 여러 접근이 가능하다. 학습 데이터에서 통계적 이상 패턴을 탐지하거나, 학습 후 모델을 다양한 트리거로 테스트하거나, 프로덕션 환경에서 출력을 실시간 모니터링하는 방식 등이다. 이번 연구에서 사용된 <SUDO> 같은 단순한 트리거는 이런 방법으로 충분히 탐지할 수 있다.

앨런 튜링 연구소의 에드 채프먼 연구원은 “이 발견이 공개되면서 공격자들이 실제로 시도할 가능성이 높아진다”면서도 “하지만 방어자들이 미리 준비할 수 있도록 공개하는 것이 더 중요하다”고 말했다. “우리는 방어자들이 이 위협을 알지 못한 채 당하는 상황을 원하지 않는다.”

영국 AI보안연구소의 로버트 커크 연구원은 “방어자들이 불가능하다고 생각했던 공격에 대비하지 못하는 상황을 막아야 한다”며 “우리 연구가 더 강력한 방어 수단 개발의 출발점이 되길 바란다”고 밝혔다.

신뢰할 수 있는 AI를 향한 과제

이번 연구는 AI 시대의 근본적인 긴장을 드러낸다. AI를 더 강력하게 만들려면 더 많은 데이터가 필요하지만, 데이터가 많을수록 그 안에 악성 요소가 숨어 있을 가능성도 커진다. 모든 데이터를 일일이 검증하는 것은 불가능하지만, 검증 없이는 완전히 신뢰할 수 없다.

이 문제는 AI가 더 중요한 영역으로 확대될수록 심각해진다. 일상적인 질문에 답하는 챗봇이라면 가끔 엉뚱한 답을 해도 큰 문제가 아니다. 하지만 의료 진단, 법률 자문, 금융 거래, 자율주행 같은 분야에서는 단 한 번의 오류도 치명적일 수 있다.

연구팀은 AI 기업들에게 신뢰할 수 있는 출처의 데이터를 우선시하고, 학습 데이터에 대한 이상 패턴 탐지 시스템을 구축하며, 모델 학습 후 철저한 보안 테스트를 수행할 것을 권고했다.

유럽연합의 AI 법안은 고위험 AI 시스템에 대해 학습 데이터 문서화를 요구하지만, 아직 구체적인 검증 기준은 마련되지 않았다. 미국에서는 이런 논의가 더욱 초기 단계다.

국가 지원을 받는 해킹 그룹이나 조직적 사이버 범죄 집단이 이런 취약점을 악용할 가능성도 배제할 수 없다. 특히 전략적 가치가 높은 AI 시스템을 표적으로 삼을 경우, 국가 안보 문제로 비화할 수 있다.

앤트로픽은 72개 모델 학습이라는 대규모 실험을 통해 얻은 전체 연구 결과를 공개했다. 연구팀은 이 문제를 AI 업계가 함께 해결하기를 바란다며, 추가적인 방어 기술 연구를 촉구했다.

이번 연구는 우리 시대의 근본적 질문을 던진다. 우리가 점점 더 의존하게 되는 기계의 ‘뇌’에 무엇이 들어가는지 정확히 알 수 있는가? 그리고 그것을 충분히 통제할 수 있는가? 답을 찾는 것은 이제 선택이 아닌 필수가 되었다.

기자 / 제 눈에 스타트업 관계자들은 연예인입니다. 그들의 오늘을 기록합니다. 가끔 해외 취재도 가고 서비스 리뷰도 합니다.

댓글

Leave a Comment


관련 기사

글로벌 트렌드

펜을 사는 사람, 학원을 알아보는 사람—변곡점에서 본 두 가지 풍경

글로벌

“20대 중퇴자들이 부럽다”… 샘 알트먼이 본 AI 창업 생태계의 ‘골든타임’

글로벌

알리바바 클라우드, 1조 파라미터 AI 모델 공개…”오픈AI 맹추격”

콘텐츠

AI는 우리를 덜 바쁘게 만들었나