
스타트업 하나가 문을 닫았다. 이유는 간단했다. 아무것도 만들어내지 못했기 때문이다. 특이한 점은 이 회사의 직원이 모두 인공지능이었다는 것이다. 사람은 단 한 명도 없었다.
카네기 멜론 대학교의 연구자들은 “TheAgentCompany”라는 회사를 만들었다. 이 회사는 OpenAI, Meta, Google, Anthropic의 AI 모델들이 소프트웨어 엔지니어, 재무 분석가, 프로젝트 매니저로 일하는 곳이었다. 심지어 CTO와 HR 부서까지 있었다. 이 인공지능 직원들은 인터넷에서 정보를 찾고, 사내 규정집을 참고하며, 내부 웹사이트와 슬랙 같은 채팅 프로그램을 사용할 수 있었다. 코드도 작성하고, 스프레드시트로 정보를 정리하고, ‘동료’들과 소통까지 했다.
그래서 결과는 어땠을까? 실패했다. 거의 코미디 수준으로. 인공지능 직원들은 회의하는 데 탁월했고 엄청나게 많은 회의를 했다. 내부 갈등도 많았다. 그리고 결국 아무 제품도 만들어내지 못했다. 우리가 맹목적으로 신뢰하는 인공지능이 회사를, 그것도 스타트업을 운영하면 어떻게 될까? 그 대답은 출시 제품 없이 실패하는 것이었다. 마치 스타트업에 관한 코미디 쇼의 패러디 같았다.

예측 가능했던 실패, 그 이유는?
연구진의 논문을 살펴보면, 이들은 인공지능 에이전트들이 실제 작업 환경에서 업무를 자율적으로 수행할 수 있는지 객관적으로 평가하기 위해 이 실험을 진행했다. 그들이 개발한 벤치마크는 웹 브라우징, 코딩, 프로그램 실행, 동료와의 소통 등 디지털 근로자와 유사한 방식으로 AI 에이전트를 평가하기 위한 것이었다.
가장 경쟁력 있는 AI 에이전트도 전체 작업의 24%만 자율적으로 완료할 수 있었다. 더 단순한 작업은 자율적으로 수행할 수 있지만, 더 어렵고 장기적인 작업은 여전히 현재 시스템의 능력 밖이라는 것이다.
대규모 언어 모델(LLM)은 패턴을 매칭하는 데 놀라울 정도로 뛰어나다. 하지만 발명가는 아니다. 여전히 프로그래밍의 한계 내에서 움직인다.
오늘날 인공지능은 모방, 종합, 분석에는 뛰어나다. 하지만 독창성, 창조, 미묘한 차이, 판단에서는 어려움을 겪는다. 카네기 멜론 연구자들이 발견했듯이, 애매하고 중요한 환경에서 우선순위를 정하는 것도 어려워한다.
우리가 기술 환상에 빠지는 이유
최근 우리는 수많은 문제를 해결해줄 기술에 집단적으로 희망을 걸었다. 메타버스, NFT, 블록체인 기술을 생각해보라. 모두 놀라운 기술적 발전이었지만, 대중은 이러한 도구를 전략으로 오해했다. 지금 우리가 인공지능에 대해 그러는 것처럼.
인공지능은 연구 조수로는 뛰어나다. 시장 분석, 코드 검토, 콘텐츠 요약, 고객 감정 분석을 잘한다. 시간 절약이 된다. 하지만 공동 창업자는 아직 될 수 없다.
우리가 이해해야 할 것은 인공지능이 인간을 대체하는 것이 아니라, 인간 리더십을 보강한다는 점이다. 우리는 이전에 경험해보지 못한 속도로 진화하는 중이다.
의인화의 함정
우리는 왜 계속 에이전시의 환상에 속아 넘어갈까?
우리는 인간이 항상 하는 일을 한다. 의인화한다. 인공지능이 마법 같은 지니가 되어 문제를 해결해 주기를 원한다. 하지만 동시에 동료이길 원한다. 애완동물을 의인화하듯, 인공지능에게 ‘제발’과 ‘감사합니다’라고 말한다. “혹시 의식이 생길 경우를 대비해서”라고 하지만, 실제로는 타이핑해서 응답하는 것에 인간적 특성을 부여하지 않는 것이 부자연스럽게 느껴지기 때문이다.
한편, 우리는 계속해서 “인공지능이 일자리를 빼앗을 것”이라는 소리를 듣는다. 일부 일자리는 없어질 것이지만, 다른 일자리를 창출할 것이다. 하지만 이미 봇에게 일자리를 빼앗기고 9개월째 실업 상태인 사람에게 그렇게 말하기는 어렵다. 성장통은 고통스럽다. 인공지능 자체는 의식이 없고, 일자리를 ‘노리고’ 있는 것이 아니다. 그저 알고리즘일 뿐이다.
카네기 멜론의 실험이 증명한 것
카네기 멜론의 실험은 중요한 것을 증명한다. 어떤 것을 CTO라고 이름 붙인다고 해서 제품-시장 적합성을 어떻게 출시해야 하는지 아는 것은 아니다. 어떤 것을 HR이라고 부른다고 해서 ‘문화’를 구축하면서 이해관계자들을 관리하며 사무실 정치의 뉘앙스를 탐색할 수 있는 것도 아니다.
연구진이 발견한 흥미로운 점은 분야별 AI 에이전트의 성공률이 크게 달랐다는 것이다. 소프트웨어 개발 업무에서는 비교적 높은 성공률을 보였지만, 데이터 사이언스, 행정업무, 재무 분야에서는 성공률이 매우 낮았다. 인간에게는 행정이나 재무 업무가 개념적으로 더 쉬운 작업으로 여겨질 수 있지만, AI 에이전트에게는 훨씬 더 어려운 과제였다.
윤리적 회색 지대를 고려하자
이러한 실험들이 진정한 노력을 지름길로 가려는 것인가? 그렇다. 내일까지 내가 가장 좋아하지 않는 10가지 작업을 몇 센트만 내고 없앨 수 있다면, 소규모 비즈니스 운영자로서 나는 그렇게 할 것이다. 특히 학습 곡선이 없고 “설정하고 잊어버리는” 도구라면 말이다. 당신도 그렇지 않겠는가?
이런 상황에서 우리는 가치 추출과 가치 창출 사이의 균형을 고려해야 한다.
또한 “실험”이라는 명목 하에 인간 노동을 시뮬레이션하는 AI를 사용하는 윤리에 대해서도 생각해봐야 한다. 학문적 관찰과 연구가 언제부터 부적절한 인간 노동 복제의 영역으로 넘어가는 것일까?
우리가 고려해야 할 점
인공지능은 놀랍지만, 아직 눈을 반짝이지는 마라. 그것을 공동 창업자가 아닌 도구로 취급하라. 독립적이고 비판적으로 생각하라. “이 인공지능 도구는 무엇을 최적화하고 있는가?”라고 자문하라.
현재 프로세스를 살펴보고 AI 감독에 누가 책임을 지고 있는지 생각해보라. 이미 어떤 정책을 갖고 있는지, 그리고 어떤 정책을 즉시 시행해야 하는지 고려하라.
더 중요한 것은, 현재 형태의 AI를 작업 흐름에 통합함으로써 어떤 맹점을 만들고 있는가?
인공지능은 사람들이 이해하는 맥락, 전략, 결과를 대체하는 것이 아니라 프로세스를 가속화하는 데 인상적이다.
인공지능 에이전트는 비즈니스의 인간적 측면, 즉 명확성, 야망, 수탁 책임, 타협, 마찰 탐색을 이해하지 못하기 때문에 실제 스타트업을 구축하는 데 실패했다. 우리는 계속해서 실험해야 하지만, 사려 깊게 해야 한다. 리더십에는 여전히 실제 인간이 필요하다. 지금으로서는 말이다.
Leave a Comment