AI 성장 이끄는 ‘데이터라벨링’ 스타트업 활약 눈길
인공지능(AI)이 우리 일상으로 빠르게 스며들면서 ‘데이터라벨링’ 시장도 급성장하고 있다. 지난해 정부의 데이터 댐 사업 발표에 따르면, 2025년까지 총 15조 5000억 원 규모의 자금이 데이터 구축 산업에 투입될 예정이다. 특히, 데이터라벨링 분야가 주목받고 있는데, 그 이유는 바로 AI 성장을 위해 꼭 필요한 영역이 바로 ‘데이터라벨링’이기 때문이다.
데이터라벨링은 수많은 비정형 데이터들을 AI가 학습할 수 있도록 원천데이터에 이름(라벨)을 붙이는 작업을 말한다. 인공지능이 제대로 작동하기 위한 핵심 과정인 만큼 ‘AI를 만드는 AI’라는 수식이 붙기도 한다. 데이터라벨링은 의료, 패션, 법률, 헬스케어 등 다양한 업계로 퍼져 나가며 첨단 AI 시대를 앞당기고 있다.
재이랩스, 의료 AI 산업 첨단화 이끄는 데이터라벨링 솔루션 ‘메디라벨’ 개발
의료 AI 전문 스타트업 재이랩스는 의료 영상에 특화된 데이터 전처리 솔루션 ‘메디라벨(MediLabel)’을 개발해 헬스케어 산업의 발전에 기여하고 있다. 딥러닝 기술을 활용한 메디라벨은 인공지능의 학습에 필요한 의료 데이터를 빠르고 정확하게 가공해 기존 데이터라벨링 소프트웨어 대비 최대 10배 향상된 속도 실현과 함께 정확도까지 높인 것이 특징이다.
메디라벨을 사용하는 의료진들은 다양한 라벨링 툴을 활용해 편리한 작업이 가능하다. 스마트펜슬 기능은 원하는 픽셀을 자유롭게 선택해 한 번의 클릭으로 복수의 픽셀을 설정함으로써 세밀한 라벨링 작업을 지원하며, 미세한 염증이나 결절을 효과적으로 찾아내는 오토 디텍션 기능이 더해져 연구 효율을 극대화하고 있다. 이 밖에 이미 라벨링 된 몇 장의 데이터를 통해 나머지 슬라이스를 예측할 수 있는 입체 분석 서비스 3D필(Fill) 기능으로 라벨링 소요 시간을 대폭 절감시켰다.
재이랩스는 최근 신규 출시 기능을 선보이며 성능 고도화에 속도를 내고 있다. 특정 영역에 바운딩 박스를 치면 문제 부위 및 결절 등을 자동 라벨링하는 ‘스마트필(Smart Fill)’ 기능을 출시해 뇌경색이나 염증, 종양 등 경계선이 불분명한 형태의 라벨링 정확도를 높였다. 이와 함께 대용량의 환자 데이터를 효과적으로 보관할 수 있는 ‘프로젝트 관리’ 기능도 개발됐으며 기존에 작업했던 라벨링을 학습해 다음 단계의 라벨링을 추천해주는 ‘에이아이 템플릿’ 기능도 추가돼 라벨링 성능을 더욱 높여갈 계획이다.
현재 메디라벨은 서울성모병원, 서울대병원, 세브란스병원 등 국내 유수의 대학병원 및 종합병원에 소속된 의료진들이 도입해 사용하고 있으며 최근 대구가톨릭대학병원과 협업해 코로나19로 인한 폐렴 및 흉부 질환과 관련된 감염병 연구를 진행하고 있다.
한편 정부의 ‘데이터 댐’ 사업에서도 의료AI는 핵심 분야로 꼽히고 있으며 2022년 말까지 개인 주도형 건강정보 플랫폼 ‘마이 헬스웨이’ 구축을 발표함에 따라 의료 데이터라벨링의 수요는 더욱 증가할 것으로 예상된다.
테스트웍스, 국내 최초 자율주행 AI 학습데이터 가공기업.. 자체 솔루션 통해 사회 취약계층에 손길
테스트웍스는 국내 최초의 자율주행 AI 데이터 가공 기업이자 사회적 취약계층을 위한 인공지능 개발에 힘쓰고 있는 스타트업이다. 테스트웍스는 지난 2017년 국내 최초로 자율주행 영상 인식 AI 학습 데이터 가공 서비스를 시작해 인공지능 데이터셋 구축 전문 기업으로 업계의 주목을 받았다.
테스트웍스의 ‘블랙올리브((blackolive)’는 데이터 자동화 가공 및 관리 올인원(All-in-one) 솔루션으로, 대규모 데이터 가공부터 개인정보 비식별화, 가공, 검수까지 라벨링 전 과정을 지원하고 있다. 블랙올리브는 자율주행, 스마트 물류, 스마트 팩토리 등에 적용 가능하며 사용자의 작업 환경을 고려한 트렌디한 UI와 실용적인 기능을 제공하고 있다. 이외에도 데이터 수집, 가공 플랫폼 ‘에이아이웍스(aiworks)’를 통해 크라우드소싱 방식으로 일반 대중들이 데이터라벨링 작업에 참여하고 있으며 작업에 대한 보상으로 현금으로 전환 가능한 포인트를 제공하고 있다.
한편 테스트웍스는 시각 장애인을 위한 인도 보행 영상, 청각 장애인을 위한 수어 영상 데이터 등 장애인을 위한 AI 개발에 필요한 데이터 구축 사업에 적극 참여하고 있어 눈길을 끈다.
딥네츄럴, 언어 데이터 구축 전문 ‘딥네츄럴AI’ 서비스 운영..’레이블링’ 통해 간편하게 작업 가능
AI 학습 데이터 전문 기업 딥네츄럴(DeepNatural)은 인공지능 개발에 필요한 언어 데이터를 전문적으로 수집, 가공하는 딥네츄럴에이아이(DeepNatural AI) 서비스를 제공하고 있다. 이는 크라우드소싱과 머신러닝 기술을 접목한 솔루션으로 기업이나 학교, 연구소 등의 고객사는 별도의 인력 및 데이터 가공 프로그램을 마련할 필요 없이 손쉽게 학습 데이터를 확보할 수 있다.
딥네츄럴은 AI 비서 ‘프라이데이’를 통해 레이블링과 검수의 효율성을 높이는 ‘오토 레이블링’ 기술을 적용하고 있으며 모바일에서도 데이터 수집, 가공이 가능한 크라우드소싱 플랫폼 ‘레이블러’를 출시해 장소의 제약없이 누구나 간편하게 데이터 가공을 할 수 있는 환경을 구축했다.
레이블러는 지난해 대비 누적 가입자가 1500% 이상 증가했으며 지난 2019년부터 올해까지 3년 연속 데이터바우처 공급기업에 선정된 바 있다. 올해는 공급기업 지정과 함께 판매기업으로도 선정돼 YTN의 뉴스 프로그램 데이터를 기반으로 한 ‘딥네츄럴 – YTN 한국어 음성인식 데이터’도 만나볼 수 있다.
크라우드웍스, ‘크라우드소싱’ 방식 도입..23만 일반 대중이 데이터라벨러로
AI 학습 데이터 플랫폼 기업 크라우드웍스는 데이터라벨링 작업을 위해 일반 대중을 참여시키는 ‘크라우드소싱’ 방식을 도입했다. 국내외 다양한 연령층의 회원 23만 명의 데이터라벨러와 AI 수요기업을 연결해주며 데이터 가공 시간과 비용은 절감하고 양질의 일자리 창출에 기여하고 있다.
크라우드웍스는 데이터의 품질 관리 및 서비스 향상을 위해 자체 기술력이 적용된 검수 시스템으로 부적합 데이터를 분류하는 재작업을 의무화해 라벨링 정확도를 높이고 있다. 뿐만 아니라 데이터 품질 향상을 위해 ‘크라우드웍스 아카데미’를 도입해 데이터 라벨러 전문 교육을 진행하고 있다.
크라우드웍스는 데이터 생산성 및 품질 관리 강화를 위해 데이터라벨링 전문 교육 서비스를 확대하고, 데이터 품질 관리 프레임워크 고도와, 기술력 기반 검수 시스템 강화 등을 순차적으로 진행할 계획이다.