GLM-OCR: 정확성, 속도, 범용성을 모두 갖춘 시각 인식 모델

GLM-OCR은 GLM-V 아키텍처 기반의 0.9B 파라미터 멀티모달 모델로, 복잡한 문서 레이아웃 분석과 고성능 OCR 기능을 제공하는 오픈소스 솔루션입니다.

AI 요약

GLM-OCR은 복잡한 문서 이해를 위해 설계된 최첨단 멀티모달 OCR 모델로, GLM-V 인코더-디코더 아키텍처를 기반으로 구축되었습니다. Multi-Token Prediction(MTP) 손실 함수와 안정적인 강화 학습 기법을 도입하여 인식 정확도와 훈련 효율성을 획기적으로 개선했습니다. 0.9B의 경량화된 파라미터 규모에도 불구하고 OmniDocBench V1.5 벤치마크에서 1위를 차지하며 압도적인 성능을 입증했습니다. 또한, 실제 비즈니스 환경의 복잡한 표, 코드, 직인 등이 포함된 문서를 처리하는 데 최적화되어 있습니다.

핵심 인사이트

  • 소규모 고효율 모델: 0.9B 파라미터의 가벼운 크기로 vLLM, SGLang 등을 통한 빠른 추론이 가능해 엣지 디바이스 및 고동시성 서비스에 적합합니다.
  • 벤치마크 세계 1위: OmniDocBench V1.5에서 94.62점을 기록하며 수식, 표 인식, 정보 추출 등 주요 지표에서 최상위 성능을 보여줍니다.
  • 실무 중심 설계: 복잡한 레이아웃 분석을 위한 PP-DocLayout-V3 파이프라인을 통합하여 현실 세계의 다양한 문서 구조를 정확하게 파악합니다.

주요 디테일

  • 기술 스택: CogViT 시각 인코더, 효율적인 토큰 다운샘플링 커넥터, GLM-0.5B 언어 디코더를 통합하여 구성되었습니다.
  • 최적화 기법: MTP(Multi-Token Prediction)와 풀태스크(Full-task) 강화 학습을 통해 일반화 능력을 극대화했습니다.
  • 유연한 배포: vLLM, SGLang, Ollama 등 다양한 추론 프레임워크를 지원하여 배포 비용과 지연 시간을 단축했습니다.
  • 사용자 친화성: 포괄적인 SDK와 한 줄의 코드로 호출 가능한 인터페이스를 제공하여 기존 생산 파이프라인에 쉽게 통합할 수 있습니다.
  • 오픈소스: Hugging Face 및 ModelScope를 통해 모델 가중치(BF16)와 소스코드가 투명하게 공개되어 있습니다.
출처:hackernews
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...