알파고, 세계랭킹 1위 커제에 선승 … 인간·기계 바둑 대전 2라운드 개막
지난해 말과 올해 초 온라인 바둑 사이트 타이젬과 한큐바둑에서 전 세계 바둑 고수들을 상대로 바둑 속기전을 치러 60연승을 거둔 ‘마스터(master)’, ‘마기스테르(Magister)’라는 이름의 정체불명 플레이어가 있었다. 이 플레이어는 세계 바둑랭킹 1, 2위인 커제 9단과 박정환 9단을 3-0, 5-0으로 완파하는 등 파란을 일으켰다. 후일 하사비스 딥마인드 대표를 통해 이 플레이어가 구글의 인공지능(AI) 바둑 프로그램인 알파고의 개선 버전이었음이 밝혀졌다.
23일 중국 저장성 우전(烏鎭) 인터넷 국제컨벤션센터에서 알파고와 커제(柯潔) 9단의 기계-인간기사 간 대결이 펼쳐졌다. 지난해 3월 이세돌 9단과의 1라운드(4-1 알파고 승)에 이은 두 번째 라운드다.
알파고와 대국을 펼친 커제 9단은 현재 세계 바둑 랭킹 가장 윗줄에 이름을 올린 당금 최강 기사지만 이번 대국에서는 도전자의 입장에 섰다. 현재 알파고의 위상을 보여주는 형국이다.
대국 공식 해설을 맡은 김성룡 9단은 “올해 알파고를 한마디로 표현한다면, ‘깔끔해졌다’, ‘군더더기가 없다’, ‘처음부터 끝까지 물 흐르듯이 흘렀다’이다.”라고 평햇다.
세 차례에 걸쳐 진행되는 이번 대국의 첫 판은 전문가들의 예상대로 알파고의 승리로 귀결되었다. 대국 전 커제의 승리를 예상하는 전문가는 10% 전후였으며, 이번 대전의 승패를 점치는 도박사 대다수는 알파고의 승리를 점쳤었다. 지난해 승리를 장담하던 커제 9단 조차도 올해 관련 질문에는 말을 아꼈으며, 대국 전 인터뷰에서는 ‘신선의 수를 두는 알파고에 도전하겠다’며 몸을 낮췄었다.
4시간에 걸쳐 진행된 첫 대국에서 알파고는 커제 9단에 289수, 한 집 반으로 승리했다. 근소하게 알파고가 앞선 상황에서 진행되던 대국의 승부가 갈린 것은 중반이 넘어서다. 알파고는 빠르게 마무리에 돌입했고, 커제는 한 수 한 수 장고에 들어가며 차이를 좁혔지만 끝내 뒤집지는 못 했다. 이번에 대국을 펼친 알파고는 인간의 기보를 참조하지 않은 버전으로 알려지고 있다.
경기후 커제 9단은 “굉장히 감명받았고, 또 충격적이었다. (알파고의 수는) 인간 대 인간의 대국에서는 절대 나올 수 없는 것이었기 때문이다. 이번의 패배로 알파고가 정말 강력하다는 것을 깨달았다. 알파고의 수에서 배울 점이 많다.”고 소감을 밝혔다.
알파고는 공식, 비공식 대전에서 세계 정상급 기사를 연파한 최초의 프로그램이다. 2015년 10월 판 후이 2단과의 대결, 2016년 이세돌 9단, 이번 커제9단과의 대결 등 인간 기사와의 대결에서 압도적인 승률을 기록중이다. 현재까지 알파고가 패를 기록한 것은 이세돌 9단과의 4국(180수 불계승)이 유일하다. 알파고가 진화중임을 감안하면 이는 당분간 바뀌지 않을 것으로 보인다.
이번 알파고와의 대국은 세 번에 걸쳐 진행된다. 커제와의 1국에 이어, 프로 바둑기사 1명과 알파고가 한 팀으로 진행하는 ‘복식전’ 및 중국 바둑기사 5명으로 이루어진 팀과 알파고가 대국하는 ‘단체전’으로 이어진다. 대국에 걸린 우승상금은 150만 달러(한화 약 17억 원)다.
한편, 24일부터 27일까지 저장성에서 진행되는 ‘바둑의 미래 서밋’ A.I.의 미래 포럼에는 데미스 하사비스 딥마인드 대표를 비롯해 제프 딘 구글 시니어 펠로우, 즈펑 첸 구글 브레인 엔지니어, 릴리 펭 프로덕트 매니저가 인공지능을 주제로 발표를 할 예정이다.
알파고는 어떻게 훈련을 할까?
바둑은 고전 게임 중에서도 인공지능이 인간을 넘어서기 가장 어려운 게임으로 오랜 시간 인식되어 왔다. 경우의 수가 무궁무진할 뿐만 아니라 바둑알을 놓는 위치를 평가하는 것이 어려워 단순한 체험적 문제해결 방식 그 이상의 이해를 필요로 하기 때문입이다.
바둑의 이러한 엄청난 복잡성을 해결하기 위해 알파고는 ‘지도학습’과 ‘강화학습’의 강점을 결합한 새로운 기계학습 기법을 사용한다. 먼저 지도학습 과정에서는 바둑판에 돌이 놓인 각 위치를 ‘질문’으로 만들고 특정 수를 가지고 ‘해답’을 찾는다. 강화학습 과정에서는 수를 선택하기 위한 방법을 개선한다. 즉 ‘셀프 대국’을 통해 예측의 정확성을 향상시키는 것이다. 이러한 훈련 과정의 결과는 ‘정책망’으로서, 바둑판의 상태를 추출한 데이터를 활용하여 가능한 여러 가지 수를 대상으로 개연성을 분석한다. 다음으로, ‘가치망’은 셀프 대국에서 특정 위치에 놓인 돌을 보고 승리 확률을 예측하여 -1(상대편의 승리 확실)부터 1(알파고의 승리 확실)까지의 점수를 매긴다.
정책망과 가치망은 자체적으로도 강력한 힘을 가지고 있지만, 알파고는 ‘몬테카를로 트리 탐색’ 기술로 이 두 가지를 결합한다. 이 탐색 기법은 정책망을 통해 분기계수를 줄이는 한편 가치망을 통해 정확한 조기 종료를 가능케 함으로써 효율성 증대를 가져온다.
이번에 새로운 버전으로 업그레이드된 알파고는 여러 번에 걸친 셀프 대국을 통해 스스로 대결을 하고 이를 다음 세대를 위한 훈련 데이터로 활용한다. 이러한 과정이 계속 반복되어 알파고의 훈련이 이루어지는 것이다.
알파고는 수를 어떻게 판단하나?
상대방이 바둑판에 돌을 놓으면 알파고는 몬테카를로 트리 탐색을 수행하여 최적의 수를 결정한다. 각 시뮬레이션은 게임 트리에서 하나의 경로를 지나게 되는데, 여기서 정책망에 따라 Q값(해당 수의 가치를 예측한 값)과 개연성이 높은 수를 선택한다. 시뮬레이션은 가치망 예측치와 롤아웃으로 종료되는데, 롤아웃은 정책에 기반하여 매우 빠른 속도로 계산을 수행한다. 알파고는 시뮬레이션에서 각 수의 Q값을 가치망 예측치와 롤아웃 결과의 평균값으로 업데이트한다. 할당된 탐색 시간이 지나면 알파고는 탐색 횟수가 가장 많은 수를 최적의 수로 판단하고, (이 수의 가치망 예측치가 가장 높지 않더라도) 이에 맞추어 플레이한다. 즉 알파고의 탐색 알고리즘은 먼저 광범위한 탐색 과정을 거친 뒤 시간이 지남에 따라 최적의 수를 다듬어 결정하는 것이다. 알파고 신경망의 직관과 컴퓨터 시스템의 계산 능력을 통합한 형식이다.
알파고의 의미는?
알파고의 기반이 된 연구는 인공지능이 단순히 바둑을 마스터하는 데 그치지 않고 과학 자체의 문제들을 해결하는 데 핵심적인 역할을 한다는데 의의가 있다. 알파고는 복잡한 과제를 해결하는 능력을 습득하기 위한 인간과 같은 자가 학습 기반의 방식을 보여주었다. 이는 중장기적으로는 여러 분야에서 활용될 수 있는 다목적 인공지능, 실제 인간의 수준에 가까운 보편화된 인공지능의 예고편이라 할 수 있다.