
문서 AI 전문기업 이파피루스는 자사의 파이썬 기반 문서 데이터 추출 라이브러리 ‘파이뮤PDF 프로(PyMuPDF Pro)’의 2025년 다운로드 수가 전년 대비 5배 이상 증가했다고 11일 밝혔다.
파이썬 패키지 저장소 PyPI(Python Package Index) 집계에 따르면, ‘파이뮤PDF 프로’는 올해 1월부터 11월까지 총 2억 2천만 회 이상 다운로드됐다. 이는 2024년 전체 다운로드 수인 4천 4백만 건을 5배가량 상회하는 수치다. 특히 올해 10월과 11월 두 달 동안에만 1억 2천만 회의 다운로드가 발생하며 하반기 들어 가파른 증가세를 보였다.
이파피루스 측은 이러한 성장 배경으로 AI 서비스 시장의 확대를 꼽았다. 김정아 이파피루스 부사장은 “파이뮤PDF 프로는 문서 내 메타 데이터를 포함한 청크(Chunk, 말뭉치) 생성이 가능하며, LLM(거대언어모델) 및 RAG(검색 증강 생성)에 최적화된 JSON, 마크다운(Markdown), 라마인덱스 리더(LlamaIndex Reader) 형식으로 데이터를 출력할 수 있어 AI 학습용 데이터 추출 및 대화형 서비스 개발 수요가 반영된 것”이라고 설명했다.
기술적으로는 자체 개발한 머신러닝 기반의 레이아웃 분석기가 적용됐다. 시중의 VLM(비전 언어 모델) 방식이 문서를 고해상도 이미지로 인식해 GPU 자원을 필요로 하는 것과 달리, 파이뮤PDF 프로는 문서 구조 자체를 분석해 CPU만으로 구동된다. 회사 측은 이를 통해 VLM 방식 대비 약 10배 빠른 데이터 처리 속도를 구현했으며 비용 효율성이 높다고 강조했다.
또한 테두리가 없거나 셀 병합이 포함된 복잡한 표, 스캔 이미지와 디지털 데이터가 혼합된 문서에서도 데이터 추출이 가능하며, PDF 외에 MS오피스, 한글(HWP), 이미지 등 다양한 포맷을 지원한다.







댓글 남기기