서치퍼트, 문서검색 포털 시대 연다…국내 최대 규모 문서 빅데이터 기반
문서검색 포털기업 서치퍼트가 11월 6일 기자간담회를 열고 서비스 소개 및 비전 발표 자리를 가졌다. 이번 기자간담회에는 노범석 대표를 비롯해 유병우 개발본부장, 박준 연구소장 등이 참석했다. 앞서 서치퍼트는 약 7개월 간의 베타 서비스 기간을 거쳐 지난 10월 16일 정식 출시했다.
노범석 서치퍼트 대표는 “서치퍼트는 국내 최초로 문서검색 포털 서비스를 표방한다. 문서 데이터의 양이 점점 방대해지고, 특정 문서의 경우 검색에 제한적일 수도 있다”며 “서치퍼트는 일을 효율적으로 하고자 하는 전문가들의 업무 능력을 획기적으로 향상시킬 수 있을 것”이라고 말했다.
실제 서치퍼트는 대법원, 감사원, 국세청 등 214곳의 공공기관 및 정부부처 등을 대상으로 500만 건(약 1억 5천 만 페이지)의 문서를 제공하고 있다. 이는 약 6 테라바이트(Tera Byte)에 해당하는 규모다. 문서 데이터로는 국내 최대 규모다.
서치퍼트는 입법, 법무, 준법, 세무, 기업공시, 정책연구, 선거와 정당, 대통령위원회, 공정거래, 중소벤처 등 카테고리를 데이터 세트로 구분해 문서를 제공한다. 일례로 입법정보는 16대 이후 국회에서 발행된 모든 문서를 포함하고 있으며, 중앙정부는 각 부처에서 발행한 최초일부터 최근일까지 모든 문서를 제공한다. 기업공시는 2009년 이후 기업 공시 전체 데이터를 선보인다.
문서의 저작권 이슈에 대해서 노 대표는 “서치퍼트는 출처가 명확하고 공개가 허용된 문서를 대상으로 제공하고 있다”며, “내년에는 미국 정부 및 UN 관련 문서도 제공할 계획”이라고 밝혔다.
서치퍼트가 보유한 문서 빅데이터를 연구 목적으로 활용하고자 하는 대학 및 연구소, 기업 등에 무상 제공 계획도 밝혔다.
박준 소장은 “서치퍼트의 문서 빅데이터를 무상 제공하게 되면 대용량의 비정형 데이터 문서 수집 비용을 절감할 수 있어 국내 인공지능 연구의 활성화를 기대할 수 있다”며 “AI 기반 한글 자연어 처리를 위한 데이터 활용이 보다 폭넓게 적용 될 것”이라고 말했다.