‘파파고’, 문서·웹페이지 형식 그대로 옮겨와 번역하는 API 제공
AI 서비스인 ‘파파고 번역(Papago Translation)’이 번역 API 서비스 확장을 한다. 이를 통해 사용자들은 텍스트를 따로 추출하지 않아도 문서 또는 웹페이지 형식 그대로 번역할 수 있게 됐다.
네이버클라우드는 파파고 번역의 ‘문서 번역 API(Papago Doc Translation API)’와 ‘웹 번역 API(Papago Website Translation API)’를 출시했다.
기존에 문서나 웹페이지를 번역하려면 텍스트를 직접 추려서 번역하고 번역된 문장을 사이트나 서식에 적용해야 하는 불편함이 존재했다. 신규 출시된 기능을 활용하면 변환 작업없이 훨씬 간편하게 번역을 사용할 수 있다.
‘문서 번역 API’는 폰트 크기 및 색상, 정렬 등 서식이나 표는 그대로 유지한 채 번역한 결과를 출력해준다. 파파고의 경우, 네이버의 풍부한 한국어 언어 처리 경험을 기반으로 보다 정확하고 자연스러운 번역 결과를 제공하고 있다. 파파고 문서 번역 API는 마이크로소프트 오피스 형식(docx, pptx, xlsx)를 비롯해 국내에서 활용도가 높은 아래한글(HPW 5.0 버전 이상) 문서 번역까지 지원한다. 또한, 최대 100MB까지 파일을 업로드할 수 있도록 서비스해 사용성을 높였다.
‘웹 번역 API’는 웹페이지 내 소스 언어로 작성된 HTML 문서를 파파고만의 태그 복원 기술을 반영해 원하는 언어로 번역해준다. HTML 소스 내에 태그와 문장을 분리한 후 발췌된 문장 내용만 번역하고, 완성된 번역결과를 다시 HTML 태그와 조합하여 완성된 형태의 HTML로 보여준다.
API방식으로 제공돼 해당 기능을 사용하고자 하는 기업은 시간 및 비용을 절약하면서 업무에 필요한 기능을 바로 적용할 수 있다. 지원 언어는 기존 텍스트 번역에서 높은 품질이 검증된 한국어, 영어, 일본어, 중국어 간체자이다.
네이버클라우드는 추가적으로 현재 개인용 파파고 서비스에서 제공하고 있는 이미지 번역 기능도 기업을 위한 클라우드 서비스로 준비하고 있다. 기존 고객들이 이미지 번역이 필요할 경우 광학 문자 인식(OCR, Optical Character Reader) API와 번역 API를 결합해 활용해야 했다. 이 경우 단순히 문자를 검출해 번역하는 방식으로 문장 구조가 다소 불완전해 사용자가 선택하는 텍스트 영역에 따라 번역 품질이 일정하지 않았다. 파파고 이미지 번역은 인식된 문자들의 디자인과 문장 구조를 분석해 번역에 적합한 문장을 찾는 자체 딥러닝 모델 HTS(Hierarchical Text Structuring)를 연구 개발하여 이미지 번역 품질을 한단계 높였다.
파파고 번역은 네이버가 자체적으로 개발한 인공 신경망 기반 기계 번역 기술인 NMT(Neural Machine Translation)을 이용한 번역 서비스다. 높임말 번역, 치환 번역 등이 가능한 단문 번역 API는 16개 언어쌍을, 언어 감지 API는 12개 언어를 지원하고 있다. 파파고의 높은 번역 기술이 적용된 파파고 서비스는 월간 사용자 수(MAU) 1,300만 명으로(2021년 6월 기준), 2018년 6월 이후 국내 번역 서비스 이용률 1위를 유지하고 있다. 이 외에도 수억명의 글로벌 유저를 확보한 VLIVE(브이라이브), 라인(LINE) 서비스에도 파파고 번역 기술이 적용되어 실시간 댓글, 번역봇과 같은 편의를 제공하고 있다.
네이버가 20년 이상 검색 포털 서비스를 운영하며 축적한 한국어 데이터 양은 세계 최고 수준이다. 대규모의 데이터를 매일 자동으로 학습하며 한국어 언어 처리 능력을 고도화한 것은 물론, 한국어의 고유 높임말 체계나 상황에 따른 발화 등 언어의 문화적 특징까지 반영하며 품질을 더욱 고도화했다. 최근에는 160억을 추가로 투자하는 등 AI 번역 성능 강화를 진행 중이다.