GPU 없이 구동되는 경량 AI OCR 도구 'NDLOCR-Lite' 무료 공개... 국립국회도서관 개발, 데스크톱 버전 지원

일본 국립국회도서관(NDL)은 2026년 2월 24일, 고가의 GPU 없이도 일반 노트북에서 구동 가능한 경량 AI OCR 도구 'NDLOCR-Lite'를 무료로 공개했습니다. CC BY 4.0 라이선스를 통해 상용 이용이 가능하며, Windows, Mac, Linux 환경을 모두 지원하는 데스크톱 버전을 제공합니다.

AI 요약

일본 국립국회도서관(NDL)의 NDLラボ는 기존 고사양 GPU 환경이 필수였던 OCR 도구의 높은 진입 장벽을 해결하기 위해, 일반 PC에서도 고속 동작하는 'NDLOCR-Lite'를 개발하여 2026년 2월 24일 공식 출시했습니다. 이번 도구는 'NDL 고전적 OCR-Lite' 개발 과정에서 축적된 지식을 바탕으로 내제화되었으며, 명령행 인터페이스(CLI)뿐만 아니라 일반 사용자도 쉽게 쓸 수 있는 GUI 기반의 데스크톱 앱을 함께 제공하는 것이 특징입니다. 사용자는 별도의 GPU 설정 없이 일본어와 영어를 선택하여 이미지 내 텍스트를 추출할 수 있으며, 기존 도구에서 취약했던 필기체와 영문 인식 기능도 실험적으로 보강되었습니다. CC BY 4.0 라이선스에 따라 적절한 출처 표기만 있으면 상업적 목적을 포함하여 누구나 자유롭게 활용할 수 있어 공공 데이터 활용도가 크게 높아질 것으로 보입니다.

핵심 인사이트

  • 출시일 및 배포처: 2026년 2월 24일, NDLラボ 공식 깃허브(GitHub)를 통해 'NDLOCR-Lite' 소스 코드와 실행 파일 공개.
  • 라이선스: CC BY 4.0 라이선스 적용으로 출처 표기 시 상용 이용 및 재배포 가능.
  • 기술적 특징: Python 3.10 이상 기반의 CLI 버전과 Windows/Mac/Linux용 데스크톱 GUI 버전(v1.0.0) 동시 지원.
  • 하드웨어 요구사항: 고성능 GPU가 필수였던 기존 버전과 달리 일반 노트북 CPU 환경에서도 최적화된 성능 발휘.

주요 디테일

  • 인식 범위 확대: 기존 NDLOCR가 약점을 보였던 영문 텍스트와 필기체 문자에 대해 실험적인 인식 기능 탑재.
  • 다양한 입력 모드: 단일 이미지 파일 및 폴더 단위 처리 외에도 데스크톱 화면을 즉시 캡처하여 인식하는 '캡처 모드' 제공.
  • 다양한 출력 결과: 인식된 텍스트 파일(.txt)은 물론, 인식 영역을 붉은 선으로 표시한 이미지 파일과 상세 데이터가 포함된 XML 파일이 함께 생성됨.
  • 사용자 주의사항: Windows 환경 설치 시 파일 경로에 전각 문자(한글, 일본어 등)가 포함될 경우 실행 오류 가능성이 있어 영문 경로 권장.
  • 전문 도구와의 연계: 일반 문서는 NDLOCR-Lite를, 고문서나 한적(漢籍)은 기존의 'NDL 고전적 OCR-Lite'를 사용하는 최적화된 작업 환경 구성 가능.

향후 전망

  • 디지털 아카이빙 가속화: 개인 연구자 및 중소 규모 단체에서 고가의 장비 없이도 대량의 자료를 디지털화하는 데 기여할 것으로 전망.
  • 오픈 소스 생태계 기여: 공개된 소스 코드를 바탕으로 한 다양한 파생 도구나 특정 언어/글꼴에 최적화된 커스텀 OCR 모델의 등장이 기대됨.
Share

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...