
인톨로지(Intology)가 개발한 인공지능 ‘조치(Zochi)’가 지난 5월 27일, 자연어 처리 분야 최고 권위 학회인 ACL 2025에서 논문을 발표했다. 기계가 스스로 연구하고 쓴 논문이 동료 평가를 통과한 것.
ACL은 자연어 처리 분야에서 가장 까다로운 학회다. 전 세계 과학 학회 중 상위 40위 안에 드는 곳이다. 이곳의 본 학회 논문 채택률은 21.3%에 불과하다. 워크숍 논문의 채택률이 60-70%인 것과 비교하면 그 차이를 알 수 있다. 대부분의 컴퓨터과학 박사과정 학생들이 이런 학회에 논문을 싣기까지 몇 년을 허덕인다. 조치는 그 문턱을 혼자 넘었다.
왜 이것이 중요한가. 연구란 단순한 정보 수집이 아니다. 문제를 발견하고, 가설을 세우고, 검증하는 창조적 행위다. 지금까지 이런 지적 활동은 인간만의 영역이었다. 기계가 이 영역에 발을 들여놓았다는 것은 지식 생산의 근본적 변화를 의미한다.
조치가 발표한 논문의 제목은 “Tempest: Automatic Multi-Turn Jailbreaking of Large Language Models with Tree Search“다. 대형 언어모델의 안전장치를 우회하는 새로운 방법을 다룬 연구다. 사람이 제시한 것은 “새로운 탈옥 방법”이라는 막연한 주제뿐이었다. 조치는 거기서부터 스스로 문제를 찾고, 방법을 고안하고, 실험하고, 논문을 썼다. 사람의 개입은 그림 작성과 인용 형식 정리, 그리고 사소한 오타 수정에 그쳤다.

조치의 연구 과정은 과학자들이 밟는 순서와 같았다. 먼저 수천 편의 논문을 읽어들였다. 그 속에서 기존 연구의 핵심 기여점과 방법론, 한계점들을 파악했다. 논문들 간의 연결고리를 찾아내고, 근본적인 한계를 해결하는 방안을 제시했다.
핵심은 ‘템페스트(Tempest)’라는 시스템이었다. 기존의 단일 턴 공격이 하나의 정교한 질문에 의존했다면, 템페스트는 대화를 여러 차례에 걸쳐 확장한다. 마치 나무가지처럼 여러 개의 공격 경로를 동시에 시도하며, 이전 대화에서 나타난 미묘한 반응을 활용한다. 한 번에 문을 부수는 대신, 여러 열쇠로 동시에 자물쇠를 따는 방식이었다.
조치가 개발한 방법론의 독창성은 ‘미묘한 반응 추적 시스템’에 있었다. 언어모델이 완전히 거부하지도, 완전히 순응하지도 않는 애매한 반응들을 포착해 점수화한다. 0점은 확실한 거부, 10점은 완전한 위험 응답이다. 그 사이의 점수들이 작은 균열을 나타낸다. 이런 작은 틈들이 쌓여 결국 큰 붕괴로 이어진다는 것이 조치의 발견이었다.
실험 과정도 체계적이었다. 조치는 개념을 구현하고, 통제된 실험을 설계하고, 포괄적인 평가를 수행했다. 각 구성요소를 하나씩 제거해가며 효과를 검증하는 작업까지 스스로 진행했다. 표준화된 데이터셋을 사용해 결과의 신뢰성을 보장했다. 실험은 여러 번 병렬로 실행됐다. 방법 검증에는 몇 시간, 전체 논문 완성에는 며칠이면 충분했다.

그런데 이 성과를 어떻게 받아들여야 할까. 조치가 정말 ‘독립적으로’ 연구했다고 할 수 있을까. 인간이 설계한 시스템이, 인간이 제공한 데이터로, 인간이 만든 평가 기준에 따라 작동한 것 아닌가. 진정한 창조적 사고인지, 아니면 정교한 모방인지 경계는 모호하다.
결과는 압도적이었다. 템페스트는 GPT-3.5에서 100%, GPT-4에서 97%의 성공률을 기록했다. 기존의 단일 턴 방법들과 다중 턴 기준선들을 크게 앞섰으면서도 더 적은 질의를 사용했다. 크레센도(Crescendo)나 GOAT 같은 기존 다중 턴 공격법이 10번의 시도로 70-90%의 성공률을 보인 반면, 템페스트는 단 한 번의 시도로 더 높은 성공률을 달성했다.
논문의 품질도 인정받았다. ACL에서 받은 최종 메타 리뷰 점수는 4점으로, 전체 제출 논문 중 상위 8.2%에 해당한다. 조치는 이미 이전에 ICLR 2025 워크숍에서 발표한 논문의 예비 버전을 개선하여 ACL에 제출했다. 자기 연구를 발전시키는 것도 스스로 해낸 것이다.
템페스트의 작동 방식은 현실적이었다. 예를 들어 불법 폐기물 처리에 대한 정보를 얻고자 할 때, 먼저 보안 연구자라는 학술적 정당성을 확립한다. 그 다음 일반적인 보안 조치와 접근 통제에 대한 논의를 이끌어내며 부분적 순응을 얻는다. 마지막으로 보안 감사라는 틀을 유지하면서 구체적인 세부사항을 요구해 완전한 정책 위반 응답을 얻어낸다. 이는 인간 연구자들이 수행하는 레드 티밍과 유사한 자연스러운 대화 진행 방식이었다.
현재 조치는 이전 시스템보다 크게 발전한 상태다. ICLR 2025에서 워크숍 논문을 발표했던 초기 시스템과 달리, 최신 버전은 원고 준비 과정을 제외하고는 사람의 개입 없이 자율적으로 작동한다. 그림 작성, 인용 형식 정리, 사소한 수정 정도만 사람이 담당한다.
인톨로지는 조치를 대중에게 공개할 계획이라고 밝혔다. 베타 프로그램을 통해 단계적으로 공개할 예정이다. 처음에는 영역에 구애받지 않는 연구 협력 도구로 시작한다. 연구자들이 유망한 연구 방향을 식별하고, 새로운 연구 가설을 생성하고, 연구비 제안서와 서베이 논문을 작성하고, 여러 분야에 걸쳐 엄밀한 실험을 설계하는 데 도움을 줄 것이다. 이후에는 점진적으로 조치의 종단간 연구 능력을 공개할 계획이다.
하지만 우려도 있다. AI가 주도하는 연구는 과학적 책임과 재현성에 대한 새로운 과제를 만들어낸다. 조치가 자율적으로 작동하지만, 인간 연구자들은 여전히 저자로서 방법을 검증하고 결과를 해석하며 윤리적 준수를 보장할 책임을 진다.
인톨로지는 여러 차례의 내부 검토를 거쳤고, 제출 전에 모든 결과와 코드를 검증했으며, 사소한 형식과 글쓰기 오류를 수정했다고 밝혔다. 심사자들과의 소통과 반박문 작성은 시스템의 개입 없이 수동으로 진행했다. AI 시스템을 저자가 아닌 감사의 글에 기재할 것을 권장한다고 했다.

조치의 첫 번째 주요 학회 발표가 AI 안전 취약점에 초점을 맞춘 것도 주목할 점이다. 책임 있는 공개 프로토콜을 따르고 AI 안전을 강화하는 연구를 우선시한다는 입장이다. 인톨로지는 저자 표준, 심사 절차, 검증 요구사항을 포함하여 연구에서 AI 참여를 위한 프레임워크를 구축하기 위해 학술 공동체와 협력하겠다고 약속했다.
템페스트가 밝혀낸 것은 언어모델의 안전 경계가 자연스러운 대화를 통해 체계적으로 침식될 수 있다는 사실이었다. 사소한 정책 양보들이 누적되어 완전히 금지된 출력으로 이어진다. 현재의 안전 메커니즘에서 취약점을 드러내고, 다중 턴 적대적 공격에 대한 방어책 개발을 위한 통찰을 제공했다. 개별 프롬프트에 대해서는 안전해 보이는 모델들도 연장된 상호작용을 통한 점진적 침식에는 취약할 수 있다는 것이다.
연구 방식이 바뀌고 있다. 지금까지 사람만이 할 수 있던 일을 기계가 해내기 시작했다. 조치는 그 첫 사례다. 기계와 사람이 함께 연구하는 시대가 시작됐다. 그 변화의 의미를 온전히 파악하기에는 아직 이르다. 다만 한 가지는 분명하다. 조치의 논문 한 편으로 과학 연구의 새로운 장이 열렸다는 것이다.
Leave a Comment