AI 성능 좌우하는 ‘데이터’ 품질 위한 솔루션 눈길
‘인공지능(AI)’이 산업 분야를 막론하고 차세대 시장 질서를 주도할 핵심 키워드로 평가받게 되면서 인공지능 개발에 필수적인 데이터의 중요성도 함께 부각되고 있다. 데이터를 바탕으로 스스로 학습을 거듭해 진화하는 인공지능 모델에 있어 양질의 데이터셋 확보는 학습 효율을 결정짓는 요소이기도 하다.
특히 지난 7월 정부에서 발표한 ‘디지털 뉴딜’의 주요 정책인 ‘데이터댐’ 구축은 데이터를 어떻게 수집하고, 가공 및 활용하는가에 방점을 찍고 있다. 이러한 데이터댐 기반의 혁신적 인공지능 서비스 개발이 산업 전 분야로 확산되기 위해서는 프로젝트에 참여하는 수행 기업들의 기술적 역량 확보가 강조된다.
이에 최근에는 국내 인공지능 관련 기업 중에서도 데이터 전문 기업들이 시장의 주목을 받고 있다.
AI 기술 개발에 필수적인 대규모 학습 데이터는 구축 자체에 많은 시간과 비용이 소모되어 중소·벤처기업이 직접 확보하는데 큰 어려움이 따른다. 때문에 대다수의 인공지능 개발 기업(이하 수요기업)들은 데이터의 수집, 가공을 전문적으로 수행하는 공급기업에 의뢰하여 양질의 데이터를 확보한다.
이 때 공급기업은 수요기업의 요구에 맞춰 데이터를 학습이 가능한 상태로 가공하는 작업을 하는데 이를 ‘데이터 라벨링’이라고 한다. 데이터 라벨링은 데이터 속 오브젝트에 고유의 명칭을 부여하는 작업으로, 최근에는 많은 공급기업들이 보다 효율적인 작업을 위해 ‘크라우드소싱 플랫폼’을 적극 활용하고 있다.
크라우드소싱 플랫폼은 간단히 말해 데이터 가공 작업의 전 과정을 관리할 수 있는 통합 시스템이다. 특히 최근에는 여러 플랫폼 기업 중에서도 인공지능 전문 기업 에이아이스튜디오가 선보인 ‘마이크라우드(MyCrowd.ai)’가 공급기업 중심의 다양한 서비스를 인정받으며 여러 공급기업들과 제휴를 맺는 등 국내 대표 크라우드소싱 플랫폼으로 자리매김하고 있다.
마이크라우드는 공급 기업들이 보다 효율적이고 편리하게 가공 작업을 할 수 있는 환경을 제공한다. 먼저 어노테이션 툴(Annotation Tool, 주석도구)을 제공해 공급기업들은 직접 데이터를 가공하거나, 별도의 작업자에게 가공 작업을 요청할 수 있으며 다양한 데이터의 유형에 최적화된 각종 툴과 포맷, 스트럭처 등의 기능을 탑재하여 별도 기술 개발없이 가공 작업을 진행할 수 있다.
뿐만 아니라 가공 작업 시에는 에이아이스튜디오가 자체 개발한 ‘매직핀(Magic Pin)’ 기능을 통해 사진 등의 비정형 데이터에서 오브젝트와 배경을 자동으로 구분할 수 있어 일반 작업 속도보다 10배 이상 빠른 효율적인 작업이 가능하다.
이에 에이아이스튜디오는 최근 인피닉, 그레온, 브랜드컨텐츠, 원트리즈뮤직 등의 공급기업과 전략적 제휴를 체결한 바 있다. 그 중 대표적 사례로 그레온의 경우, 최근 AI 학습용 데이터 구축 사업에 컨소시엄으로 참여한 11개 과제가 최종 선정됨에 따라 스마트 워치 페이스 학습용 데이터, 근력 운동 프로그램 학습용 데이터 등 다양한 데이터 가공 작업을 마이크라우드에서 진행하고 있다.
IT 데이터 시장을 중심으로 다양한 비정형 데이터를 분석, 분류하고 그 과정에서 새로운 인사이트를 도출하는 솔루션이 있어 눈길을 끈다.
데이터 통합 솔루션 전문 기업 ‘데이타솔루션’은 빅데이터 통합 분석 플랫폼인 ‘빅스테이션 3.0’을 통해 직관적이고 정교한 분석 솔루션을 제공한다.
‘빅스테이션 3.0’은 기존 빅스테이션의 업그레이드 버전으로 비정형 데이터에서 패턴, 트렌드, 기산, 빈도, 분포 등을 비교 분석하는 것이 주요 기능이다. 텍스트 데이터 분석에 효과적인 Word2vec, LDA 등 머신러닝 기반의 새로운 분석 모듈을 탑재해 사용자의 편의성을 높였다.
특히 단순 분석 결과만 제공하는 데 그치지 않고, 텍스트 데이터 분석 과정에서 도출된 모든 중간 산출물을 제공하기 때문에 그 과정 내에서 새로운 인사이트도 발굴할 수 있다.
에이아이스튜디오 노성운 대표이사는 “데이터가 ’21세기 원유’라고 불릴 정도로 그 가치와 중요성을 인정받고 있는 만큼 인공지능 데이터 분야는 계속해서 주목을 받을 것이다”며 “이에 에이아이스튜디오는 고도화된 인공지능에 적합한 고품질 데이터가 원활하게 생산, 공급될 수 있도록 크라우드소싱 플랫폼으로서의 필요한 역할을 다 하고자 노력할 것”이라고 전했다.