올해 10월, 테슬라는 ‘We, Robot’ 컨퍼런스에서 최신 휴머노이드 로봇인 옵티머스(Optimus)를 선보이며 큰 화제를 모았고, ‘로봇의 해’ 열풍을 일으켰습니다. 이후 로봇의 일부 동작에는 여전히 사람의 원격 제어가 필요하다고 보고되었지만, 이는 현재 로봇의 개발 속도가 아직 사람들의 기대를 충족시키기 어렵다는 것을 반영합니다.
현재 AI는 복잡한 시험 통과, 수학 난제 해결, 일부 사무직 종사자의 업무 대체 등 여러 전문 분야에서 인간을 능가하는 능력을 보여주었습니다. 하지만 펜을 쥐거나 달걀을 조심스럽게 드는 것과 같이 네 살짜리 아이도 쉽게 할 수 있는 간단한 동작조차 로봇에게는 여전히 큰 난제입니다.
이제 로봇 공학 분야의 새로운 연구 방향인 Embodied AI(“신체”를 가진 AI)가 이 난제를 해결할 가능성을 열어주고 있습니다.
기존 로봇 훈련은 사전에 설정된 규칙과 명령에 따라 작업을 수행하는 방식으로 이루어집니다. 이로 인해 반복적인 동작은 빠르게 처리할 수 있지만 낯선 작업이나 환경 변화에는 적응하기 어렵습니다. 예를 들어, 기존 로봇은 프로그램에 따라 지정된 위치로만 이동할 수 있으며, 장애물이나 새로운 작업에 직면하면 스스로 조정하지 못할 수도 있습니다.
이에 비해 Embodied AI는 “학습” 능력을 강조하며, 인간 아이처럼 환경에서의 감각을 통해 점진적으로 행동을 수정합니다. 예를 들어, 학습 중인 로봇이 테이블 위의 컵을 집으려 할 때, 먼저 카메라를 이용해 컵의 위치를 인식합니다. 첫 시도에서 실패하면 촉각 센서를 기반으로 힘과 각도를 조정하며, 성공적으로 컵을 집을 때까지 반복합니다.
이러한 ‘하면서 배우는’ 방식은 Embodied AI가 기존 로봇보다 더 유연하고 환경 변화에 빠르게 적응할 수 있도록 만듭니다. 이는 앞으로 복잡하고 변화무쌍한 상황에 대처할 가능성을 열어주고, 새로운 작업을 자율적으로 학습할 잠재력을 제공합니다. 이는 더 “똑똑한” 범용 로봇을 실현하는 데 있어 큰 진전이라 할 수 있습니다.
그럼에도 불구하고, 로봇이 인간과 유사한 ‘추론’ 및 ‘적응’ 능력을 갖추려면 여전히 많은 훈련 데이터가 필요합니다. 예를 들어 ChatGPT는 인터넷에서 수집한 방대한 언어 데이터를 기반으로 일정 수준의 추론 능력을 발휘하지만, 현재 로봇의 대화형 훈련 데이터는 상대적으로 부족하여 개발 속도가 느려지고 있습니다.
ChatGPT는 모델 훈련에 약 4000억 개의 문자를 사용하는 것으로 추정되며, 이미지 생성 모델 Midjourney도 약 60억 세트의 이미지-텍스트 훈련 데이터를 활용합니다. 반면 Deepmind가 출시한 로봇용 오픈 소스 데이터베이스의 데이터량은 약 240만 개에 불과해, 충분히 똑똑한 범용 로봇을 훈련시키기에는 턱없이 부족합니다.
이러한 문제를 해결하기 위해 일부 스타트업에서는 새로운 솔루션을 찾고 있습니다. Hillbot은 그중 한 예로, 3D 시뮬레이션 기술을 사용하여 가상 환경을 생성하고, 로봇이 가상 환경에서 다양하고 복잡한 상황을 “학습”할 수 있도록 합니다.
예를 들어, 로봇에게 다양한 모양의 의자를 배열하는 방법을 훈련하려면, Hillbot 팀은 간단한 텍스트 명령 입력만으로 수만 가지 다양한 모양의 의자를 생성해, 로봇이 다양한 상황에 대처하는 방법을 배울 수 있도록 돕습니다. 로봇이 카페나 창고 등 특정 장소에 익숙해져야 한다면, Hillbot은 해당 장소의 사진을 찍어 3D 가상 모델로 변환하여 로봇이 작동 연습을 할 수도 있습니다.
로봇의 ‘ChatGPT 순간’은 당장 찾아오지 않겠지만, 기술이 점차 성숙해지면서 로봇이 산업과 서비스업을 넘어 가정생활로 서서히 스며드는 모습을 보게 될 것입니다. 언제가 미래에는 로봇이 우리 일상에서 가장 흔히 볼 수 있는 동반자가 될 것입니다.
글 : 매트 첸(Matt Cheng) 체루빅 벤처스 매니징 파트너, 아워송 코파운더 Matt Cheng, Founder and General Partner of Cherubic Ventures
Leave a Comment