카카오브레인이 공개한 이미지 생성 모델 ‘RQ-Transformer’
카카오브레인이 작년 12월에 공개한 초거대 멀티모달(multimodal) AI ‘minDALL-E(민달리)의 업그레이드 버전인 이미지 생성 모델 ‘RQ-Transformer’를 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다.
39억 개의 매개변수(파라미터)로 구성된 ‘RQ-Transformer’는 3,000만 쌍의 텍스트-이미지를 학습한 text-to-image AI 모델로, 계산 비용을 줄이고 이미지 생성 속도를 높인 동시에 이미지의 품질을 크게 향상시킨 모델이다. 카카오브레인이 공개한 RQ-Transformer는 공개된 이미지 생성 모델 중 국내 최대 크기의 이미지 생성 모델이며, 이를 공공 목적을 위해 공개했다는 점에서 AI 커뮤니티에 기여가 클 것으로 기대된다.
‘RQ-Transformer’는 카카오브레인의 초거대 멀티모달(multimodal) AI ‘minDALL-E(민달리)’의 업그레이드 버전으로, ‘minDALL-E’ 대비 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 늘렸다. 특히, ‘minDALL-E’의 경우 미국의 인공지능 개발 기업 ‘오픈AI(OpenAI)’가 공개한 ‘DALL-E’를 재현하는 것에 가까웠던 것에 반해, ‘RQ-Transformer’의 경우, 카카오브레인 만의 독자적인 기술로 개발됐다.
고해상도의 이미지를 2차원의 코드맵으로 표현하는 기존 기술과 달리, ‘RQ-Transformer’는 3차원의 코드맵으로 표현된 이미지를 순차적으로 예측하여 생성하도록 학습된 이미지 생성 모델이다. 기존 기술과 비교했을 때 이미지 압축으로 인한 손실이 적어, 높은 품질의 이미지를 저해상도의 코드맵으로 표현하는 것이 특징이다. 이를 통해 ‘RQ-Transformer’는 기존 이미지 생성 모델보다 적은 계산 비용과 높은 이미지 생성 속도를 달성할 수 있다.
대규모 데이터셋을 바탕으로 학습된 ‘RQ-Transformer’는 처음보는 텍스트의 조합을 이해하고, 이에 대응되는 이미지를 생성할 수 있다. 아래는 ‘사막에 있는 에펠탑(the Eiffel Tower in the desert)’이라는 텍스트 조건에 의해 생성된 샘플 이미지이다.
이번에 공개한 ‘RQ-Transformer’는 강력한 성능과 더불어 빠른 이미지 생성을 가능케하는 카카오브레인의 text-to-image AI 기술 역량의 산물이다. 카카오브레인은 독자적으로 개발한 기술을 기반으로, 생성된 컴퓨터 이미지의 품질을 개선하고, 적은 비용으로 훨씬 많은 데이터를 학습할 수 있도록 연구·개발을 이어갈 것이다. 아울러, 단순히 주어진 텍스트 조건에 의해 이미지를 생성하는 것에서 나아가, 인간이 머리 속에서 자유롭게 떠올리는 아이디어를 컴퓨터 프로그램을 통해 디지털 이미지로 실현시킬 수 있도록 기술 역량을 쌓아갈 예정이다.
한편 카카오브레인은 ‘RQ-Transformer’ 기술의 우수성을 종합적으로 인정받아, 오는 6월에 열리는 세계적인 학술대회 CVPR 20222에서 해당 논문을 발표할 예정이다. 이미지 생성 모델 연구 개발을 담당하고 있는 카카오브레인 GM (Generative Model)팀은 이를 발판 삼아, 훨씬 더 정교한 이미지를 생성하고 생성 속도를 향상시키기 위한 연구를 활발히 진행해 나갈 예정이다.