Uncategorized

카카오브레인이 공개한 이미지 생성 모델 ‘RQ-Transformer’

카카오브레인이 작년 12월에 공개한 초거대 멀티모달(multimodal) AI ‘minDALL-E(민달리)의 업그레이드 버전인 이미지 생성 모델 ‘RQ-Transformer’를 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다.

39억 개의 매개변수(파라미터)로 구성된 ‘RQ-Transformer’는 3,000만 쌍의 텍스트-이미지를 학습한 text-to-image AI 모델로, 계산 비용을 줄이고 이미지 생성 속도를 높인 동시에 이미지의 품질을 크게 향상시킨 모델이다. 카카오브레인이 공개한 RQ-Transformer는 공개된 이미지 생성 모델 중 국내 최대 크기의 이미지 생성 모델이며, 이를 공공 목적을 위해 공개했다는 점에서 AI 커뮤니티에 기여가 클 것으로 기대된다.

‘RQ-Transformer’는 카카오브레인의 초거대 멀티모달(multimodal) AI ‘minDALL-E(민달리)’의 업그레이드 버전으로, ‘minDALL-E’ 대비 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 늘렸다. 특히, ‘minDALL-E’의 경우 미국의 인공지능 개발 기업 ‘오픈AI(OpenAI)’가 공개한 ‘DALL-E’를 재현하는 것에 가까웠던 것에 반해, ‘RQ-Transformer’의 경우, 카카오브레인 만의 독자적인 기술로 개발됐다.

고해상도의 이미지를 2차원의 코드맵으로 표현하는 기존 기술과 달리, ‘RQ-Transformer’는 3차원의 코드맵으로 표현된 이미지를 순차적으로 예측하여 생성하도록 학습된 이미지 생성 모델이다. 기존 기술과 비교했을 때 이미지 압축으로 인한 손실이 적어, 높은 품질의 이미지를 저해상도의 코드맵으로 표현하는 것이 특징이다. 이를 통해 ‘RQ-Transformer’는 기존 이미지 생성 모델보다 적은 계산 비용과 높은 이미지 생성 속도를 달성할 수 있다.

대규모 데이터셋을 바탕으로 학습된 ‘RQ-Transformer’는 처음보는 텍스트의 조합을 이해하고, 이에 대응되는 이미지를 생성할 수 있다. 아래는 ‘사막에 있는 에펠탑(the Eiffel Tower in the desert)’이라는 텍스트 조건에 의해 생성된 샘플 이미지이다.

이번에 공개한 ‘RQ-Transformer’는 강력한 성능과 더불어 빠른 이미지 생성을 가능케하는 카카오브레인의 text-to-image AI 기술 역량의 산물이다. 카카오브레인은 독자적으로 개발한 기술을 기반으로, 생성된 컴퓨터 이미지의 품질을 개선하고, 적은 비용으로 훨씬 많은 데이터를 학습할 수 있도록 연구·개발을 이어갈 것이다. 아울러, 단순히 주어진 텍스트 조건에 의해 이미지를 생성하는 것에서 나아가, 인간이 머리 속에서 자유롭게 떠올리는 아이디어를 컴퓨터 프로그램을 통해 디지털 이미지로 실현시킬 수 있도록 기술 역량을 쌓아갈 예정이다.

한편 카카오브레인은 ‘RQ-Transformer’ 기술의 우수성을 종합적으로 인정받아, 오는 6월에 열리는 세계적인 학술대회 CVPR 20222에서 해당 논문을 발표할 예정이다. 이미지 생성 모델 연구 개발을 담당하고 있는 카카오브레인 GM (Generative Model)팀은 이를 발판 삼아, 훨씬 더 정교한 이미지를 생성하고 생성 속도를 향상시키기 위한 연구를 활발히 진행해 나갈 예정이다.

플래텀 에디터 / 스타트업 소식을 가감 없이 전하기 위해 노력하겠습니다.

댓글

Leave a Comment


관련 기사

트렌드

카카오브레인, 이미지 인식해 텍스트로 답하는 멀티모달 언어모델 오픈소스 ‘허니비’ 공개

투자

미디어스피어, 카카오브레인으로부터 전략적 투자 유치

이벤트

카카오브레인, 기술공유로 국내 AI 생태계 넓힌다

스타트업

카카오브레인, AI 기반 헬스케어 연구개발에서 성공적인 성과 연이어 달성