국내 최대 ‘코로나19 동선 추적 데이터셋’ 오픈소스
인공지능 전문기업 마인즈랩(MINDsLab)이 코로나바이러스(COVID-19, 코로나19) 환자 경로 시각화와 관련, 국내 최대 규모의 데이터셋을 지난 오픈소스로 공개했다.
마인즈랩에서 공개한 ‘코로나 19 동선 추적 데이터셋’은 확진자의 경로, 연령, 성별, 진단 날짜 등 기초적인 환자 경로 데이터는 물론 22가지의 주요 전염병, 16개의 백신, 의료 시설 등을 포함한 의료 통계 데이터와 다양한 변수에 따른 시각화 된 데이터로 AI 모델 개발 등 기계학습에 필요한 데이터 집합이다.
마인즈랩의 데이터셋은 기존 코로나19 관련 오픈 데이터셋들에 비해 데이터의 양과 품질 그리고 데이터 시각화 부분에서 차별화를 둬 미국의 커뮤니티 사이트 레딧(Reddit)의 개발/딥러닝 부문 1위에 오르는 등 해외 네티즌들 사이에서도 큰 관심을 끌고 있다.
해당 데이터셋을 구축한 마인즈랩 브레인팀 이중건 선임 연구원은 “공익적 가치를 고려하여 누구나 쉽게 사용할 수 있도록 소셜 코딩 플랫폼인 Github에 오픈 소스로 공개하였다”며, “빠르게 확산하고 있는 코로나19를 막기 위해 질병의 최전선에서 사투를 벌이는 의료진과 관계자들에게 마인즈랩이 구축한 데이터셋이 큰 도움이 되기를 바란다.” 고 밝혔다.
마인즈랩의 연구 개발 조직 부문대표 최홍섭 대표는 “이번 데이터셋 공개는 마인즈랩 연구 개발 조직의 연구역량이 세계적 수준에 이르고 있음을 보여주는 획기적 성과” 라며, “이번 데이터셋 구축을 기반으로 코로나19뿐만 아니라 다른 감염병에도 적용할 수 있어 추후 위기 사태에서도 모델링하여 활용도가 높아질 수 있을 것” 이라고 전망했다.
마인즈랩 브레인팀이 구축한 코로나19 동선 추적 오픈 데이터셋은 Github을 통해 누구나 이용할 수 있다.