동의 기반 수집·저작권 규제…5가지 제도 개선 과제 제시

인공지능 산업이 빠르게 성장하면서 국가 간 기술 경쟁이 치열해지고 있다. AI 기술의 성능은 GPU와 같은 컴퓨팅 자원의 확보도 중요하지만, 무엇보다 학습에 투입되는 데이터의 규모와 품질이 핵심이다. 특히 생성형 AI와 대규모 언어모델(LLM)의 등장 이후, 데이터는 AI 경쟁력을 결정짓는 필수 자원으로 자리 잡았다.
그러나 국내 AI 기업들은 기술 개발 역량과는 별개로, 데이터 접근성과 활용 가능성에서 제도적 제약을 지속적으로 경험하고 있다. 이러한 제약은 기업의 모델 개발과 검증, 고도화 과정에 영향을 미치며, 결과적으로 AI 산업 전반의 성장 속도를 제한하는 요인으로 지적된다.
스타트업얼라이언스가 국내 AI 스타트업 101개사를 대상으로 실시한 설문조사 결과는 이러한 현실을 구체적으로 보여준다. 조사는 2025년 9월 10일부터 19일까지 진행됐으며, AI를 활용한 제품이나 서비스를 개발·제공하는 스타트업을 대상으로 이뤄졌다.
AI 스타트업이 겪는 데이터 규제의 현실
AI 비즈니스 성장에 가장 제약이 되는 법·제도를 묻는 질문에 개인정보보호법(48.5%)이 압도적 1위를 차지했다. 이어 AI 기본법(22.8%), 정보통신망법(14.9%), 저작권법(12.9%) 순으로 제약 요인으로 꼽혔다.
이어서 개별 법률이 데이터 수집·활용에 제약을 준다고 생각하는지 물었다. 개인정보보호법은 71.3%가 제약을 준다고 답했다. 정보통신망법 64.4%, 저작권법 62.4%도 과반 이상이 제약 요인으로 지목했다.
개인정보보호법에서 가장 큰 제약으로는 ‘동의 기반 수집이 까다로워 대규모 데이터셋 확보 곤란(50%)’이 꼽혔다. 이는 개인정보보호법이 원천적으로 ‘정보주체의 동의’를 중심으로 개인정보의 수집과 이용을 규율하기 때문이다.
AI 학습용 데이터셋은 대규모 비정형 데이터가 대부분을 차지한다. 정보주체의 동의를 건별로 확보하는 것은 사실상 불가능하다. 웹 크롤링 데이터나 서비스 이용 로그와 같이 정보주체를 식별하거나 동의를 재확보하기 어려운 데이터가 많기 때문이다.
글로벌 기업들은 정당한 근거 기반의 활용이 허용되어 있어 대규모 데이터 확보가 상대적으로 용이하다. 반면 국내 기업은 동의 중심 구조로 인해 데이터 규모 경쟁에서 불리한 위치에 놓이고 있다. 특히 스타트업의 경우 인력·비용 측면에서 동의 확보에 필요한 행정적 부담을 감당하기 어려워, 데이터 확보에 대한 부담이 크게 작용하게 된다.
AI 스타트업은 ‘개인정보 보호법’에서 가장 완화가 필요한 부분으로 ‘동의 외 적법 근거 마련 및 법적 확실성 부여(46.5%)’를 꼽았다. 이어 데이터 결합·이용 심사 간소화(27.7%), 가명정보 활용 범위 명확화 및 확대(21.8%) 순이었다.
개인정보 처리에는 동의 외에도 여러 법적 근거가 존재한다. 하지만 실제 기업이 활용할 수 있는 범위는 매우 제한적이다. ‘정당한 이익(legitimate interest)’ 근거가 부재하거나 제한적으로 해석된다. 기업들이 이를 실질적인 대안으로 사용하기 어렵다는 것이다.
동의 외 처리 근거에 대한 규제기관의 해석 기준이 명확하지 않다. 기업 입장에서는 법적 리스크를 우려해 보수적으로 대응할 수밖에 없다.
이로 인해 동의 외 근거를 활용하는 사례는 극히 제한적이다. 이는 데이터 활용 위축으로 이어진다.
최근 국회에서는 AI 학습 목적의 데이터 활용을 위한 특례 법안이 논의되고 있다. 하지만 현장에서는 제도의 실효성에 대한 우려가 여전히 크다.
개인정보 규제 특례가 실무적으로 가능하지 않다고 응답한 비율은 39.6%였다. 가능하다는 응답(32.7%)보다 높았다. 특례입법에도 현실적으로 활용하기 어렵다는 인식이 확산된 것이다.
실무적으로 가능하지 않다고 응답한 이유는 다음과 같다. ‘의명화 가능 여부를 객관적으로 판단하기 어렵다’는 지적이 41%로 가장 많았다. 이어 ‘사회적 이익 목적’이라는 기준이 모호(30.8%), 보안 환경 요건이 과도하거나 비용 부담이 큼(17.9%) 순이었다.
학습 데이터셋 구축 시 저작권자 등의 확보 부담도 ‘학습 데이터셋 구축 시 저작권자 동의 확보 부담(57.1%)’이 압도적이었다. AI 학습 데이터는 이미지, 텍스트, 음성 등 다양한 형태로 구성된다. 이 중 상당수가 저작물에 해당한다. 그러나 대규모 데이터셋에서 개별 저작권자를 식별하고 동의를 확보하는 것은 현실적으로 매우 어렵다.
저작권법과 관련해 가장 완화가 필요한 부분으로는 ‘공정 이용 범위 확대·명확화(33.7%)’를 꼽았다. 저작권법에 공정 이용 조항은 존재한다. 하지만 AI 학습에 적용할 수 있는지 여부가 명확하지 않다.
공정 이용 판단 기준이 추상적이다. 관련 판례 및 가이드라인도 부족하다. 기업은 저작권 분쟁 리스크를 안을 수밖에 없다. 이러한 불확실성은 기업의 데이터 활용 계획과 전략뿐 아니라, 투자 결정과 사업 확장, 기술 개발과 같은 핵심 경영 활동에도 영향을 미치고 있다.
제도 혁신을 위한 5가지 과제
앞서 살펴본 바와 같이 산업 현장에서 발생하는 데이터 활용 제약은 단순한 법 조항의 문제가 아니라, 현장의 데이터 처리 방식과 현행 규제 체계가 서로 맞지 않는 구조적 문제가 존재한다. 이를 바탕으로 다음과 같은 정책적 시사점이 도출된다.
첫째, 데이터 활용 중심 패러다임으로의 전환이다. 기존 규제 체계는 개인정보 보호를 최우선 가치로 설정해 왔다. 데이터 활용은 부차적 요소로 다뤄졌다. 그러나 AI 학습의 기술적 특성상 대규모·비정형 데이터의 활용이 필수적이다. 보호 일변도의 접근은 산업 성장을 제약할 수 있다. 따라서 데이터 활용 중심의 규율 체계로의 전환이 필요하다. 보호와 활용의 균형을 추구하되, AI 산업의 특수성을 반영한 유연한 접근이 요구된다.
둘째, 동의 중심 구조의 한계 보완과 동의 외 적법 근거 확충이다. 동의 중심 구조는 AI 학습처럼 대규모 데이터를 처리해야 하는 산업 현장에서는 실무적으로 적용이 어렵다. 웹 데이터·로그 데이터 등은 정보주체 식별 및 재동의 확보가 사실상 불가능하기 때문이다. 현실적으로 동의 중심 구조를 완전히 대체하기는 어렵다. 따라서 ‘동의 외 적법 근거’의 도입과 명확화가 업계의 핵심 요구로 나타났다. 국제적으로는 GDPR의 ‘정당한 이익(legitimate interest)’이 기업의 합리적 데이터 활용 근거로 기능하고 있다. 국내에서도 이와 같은 유연한 법적 근거 도입이 필요하다는 지적이 증가하고 있다. 이를 통해 기업은 적법하고 예측 가능한 방식으로 데이터 활용을 최대화할 수 있다.
셋째, 실효성 있는 AI 데이터 특례 설계다. 최근 발의된 AI 학습 데이터 특례는 산업계의 요구를 반영한 긍정적 시도다. 하지만 정부 사전 승인 등 절차적 요건이 과도하여 실제 활용 가능성이 낮다는 평가가 있다. 빠르게 개발·검증·배포가 이루어지는 AI 산업 특성상 사전규제 방식은 기업에 시간·비용 부담을 가중시킨다. 보다 유연하고 실효성 있는 특례 구조의 설계가 필요하다.
넷째, AI 학습용 데이터셋에 대한 별도 예외 규정 마련이다. 유럽과 일본 등 주요 국가에서는 텍스트·데이터 마이닝(TDM) 예외 규정을 도입했다. 학습 목적의 데이터 이용을 명확히 허용하고 있다. 반면 국내 저작권법에는 학습 목적 이용에 대한 명시적 근거가 없다. 기업들이 대규모 데이터 구축을 주저하는 요인으로 작용한다. AI 학습의 기술적 특성과 국제적 규제 흐름을 고려할 때, 학습 목적에 한정된 예외 규정을 마련해야 한다. 적법한 데이터 활용의 통로를 확보할 필요가 있다.
다섯째, 공정 이용 범위의 구체적 가이드라인 제시다. 현행 저작권법의 공정 이용 조항은 추상적으로 규정되어 있다. AI 학습에 적용 가능한지 여부가 명확하지 않다. 판례나 행정해석도 충분히 축적되지 않았다. 기업들은 법적 불확실성을 피하기 위해 데이터 구축을 보수적으로 검토할 수밖에 없다. 이에 따라 공정 이용 판단 기준을 명확히 하는 가이드라인 마련이 요구된다.
경쟁력 확보를 위한 제도 혁신이 시급하다
AI 경쟁력의 핵심은 더 이상 GPU와 같은 하드웨어 자원의 절대량이 아니다. 데이터를 얼마나 효율적으로 활용할 수 있는지에 달려 있다.
한국은 다양한 공공 및 민간 데이터 자산을 보유하고 있다. 그럼에도 법·제도적 제약으로 인해 이러한 자산이 충분히 활용되지 못하고 있다. 이는 기술 역량의 문제가 아니다. 데이터 활용을 가능하게 하는 제도적 기반이 미비한 데에서 비롯된 구조적 한계다.
특히 AI 기술이 빠른 속도로 발전하는 반면, 이를 규율하는 법적 근거와 규제체계는 그 속도를 따라가지 못하고 있다. 활용 단계에서 지속적인 불확실성이 발생한다.
이러한 불확실성은 기업의 데이터 확보·가공·학습 전략에 영향을 미친다. 투자 결정과 사업 확장, 기술 개발과 같은 핵심 경영 활동도 위축시킨다.
따라서 AI 스타트업이 혁신 역량을 충분히 발휘하기 위해서는 데이터 활용을 둘러싼 제도적 불확실성을 완화해야 한다. 책임 있는 활용을 가능하게 하는 명확한 기준과 절차가 마련될 필요가 있다.
현재 개인정보보호법, 저작권법, AI 기본법 등 데이터 관련 법·제도 개편 논의가 활발히 진행되고 있다. 이러한 논의가 산업 현장의 요구와 제약을 균형 있게 반영하는 것이 중요하다.
향후 제도 설계 과정에서 본 보고서가 제시한 주요 제약 요인과 현장의 목소리가 충분히 고려되어야 한다. 그래야 한국은 보유한 데이터 자산을 보다 효과적으로 활용하고, 글로벌 AI 경쟁에서도 실질적인 경쟁력을 확보할 수 있을 것이다.







댓글 남기기