AI 요약
일본 국립국회도서관(NDL)의 NDLラボ는 기존 고사양 GPU 환경이 필수였던 OCR 도구의 높은 진입 장벽을 해결하기 위해, 일반 PC에서도 고속 동작하는 'NDLOCR-Lite'를 개발하여 2026년 2월 24일 공식 출시했습니다. 이번 도구는 'NDL 고전적 OCR-Lite' 개발 과정에서 축적된 지식을 바탕으로 내제화되었으며, 명령행 인터페이스(CLI)뿐만 아니라 일반 사용자도 쉽게 쓸 수 있는 GUI 기반의 데스크톱 앱을 함께 제공하는 것이 특징입니다. 사용자는 별도의 GPU 설정 없이 일본어와 영어를 선택하여 이미지 내 텍스트를 추출할 수 있으며, 기존 도구에서 취약했던 필기체와 영문 인식 기능도 실험적으로 보강되었습니다. CC BY 4.0 라이선스에 따라 적절한 출처 표기만 있으면 상업적 목적을 포함하여 누구나 자유롭게 활용할 수 있어 공공 데이터 활용도가 크게 높아질 것으로 보입니다.
핵심 인사이트
- 출시일 및 배포처: 2026년 2월 24일, NDLラボ 공식 깃허브(GitHub)를 통해 'NDLOCR-Lite' 소스 코드와 실행 파일 공개.
- 라이선스: CC BY 4.0 라이선스 적용으로 출처 표기 시 상용 이용 및 재배포 가능.
- 기술적 특징: Python 3.10 이상 기반의 CLI 버전과 Windows/Mac/Linux용 데스크톱 GUI 버전(v1.0.0) 동시 지원.
- 하드웨어 요구사항: 고성능 GPU가 필수였던 기존 버전과 달리 일반 노트북 CPU 환경에서도 최적화된 성능 발휘.
주요 디테일
- 인식 범위 확대: 기존 NDLOCR가 약점을 보였던 영문 텍스트와 필기체 문자에 대해 실험적인 인식 기능 탑재.
- 다양한 입력 모드: 단일 이미지 파일 및 폴더 단위 처리 외에도 데스크톱 화면을 즉시 캡처하여 인식하는 '캡처 모드' 제공.
- 다양한 출력 결과: 인식된 텍스트 파일(.txt)은 물론, 인식 영역을 붉은 선으로 표시한 이미지 파일과 상세 데이터가 포함된 XML 파일이 함께 생성됨.
- 사용자 주의사항: Windows 환경 설치 시 파일 경로에 전각 문자(한글, 일본어 등)가 포함될 경우 실행 오류 가능성이 있어 영문 경로 권장.
- 전문 도구와의 연계: 일반 문서는 NDLOCR-Lite를, 고문서나 한적(漢籍)은 기존의 'NDL 고전적 OCR-Lite'를 사용하는 최적화된 작업 환경 구성 가능.
향후 전망
- 디지털 아카이빙 가속화: 개인 연구자 및 중소 규모 단체에서 고가의 장비 없이도 대량의 자료를 디지털화하는 데 기여할 것으로 전망.
- 오픈 소스 생태계 기여: 공개된 소스 코드를 바탕으로 한 다양한 파생 도구나 특정 언어/글꼴에 최적화된 커스텀 OCR 모델의 등장이 기대됨.
