RAG(검색 증강 생성)를 위한 이미지 인덱싱 방법

기술 문서 AI 어시스턴트 빌더인 Kapa는 쿼리 시점에 실시간으로 비전 모델에 이미지를 전송하는 대신, 인덱싱 단계에서 이미지를 저렴한 비전 모델로 1회 기술하여 텍스트로 저장하는 RAG 최적화 아키텍처를 도입했습니다. 이를 통해 실시간 처리 비용을 기존 대비 1%~6% 수준으로 크게 억제하면서도, 맥네마 검정(p < 0.05) 기준 답변 품질을 통계적으로 유의미하게 향상시켰습니다.

AI 요약

기술 문서 기반 AI 어시스턴트 구축 기업인 Kapa는 수백만 개의 아키텍처 다이어그램, 스크린샷, 회로도 등의 이미지를 효율적으로 RAG(검색 증강 생성) 파이프라인에 활용하는 새로운 이미지 인덱싱 접근법을 제시했습니다. 기존에는 관련 이미지들을 실시간으로 GPT나 Claude 같은 비전 모델에 직접 전송하여 비용이 폭증하는 구조였으나, Kapa는 인덱싱 단계에서 저렴한 비전 모델을 사용해 이미지를 텍스트로 설명 및 변환하여 저장하는 방식으로 문제를 해결했습니다. 이 방식은 실시간 쿼리 시의 과금 부담을 오직 1%에서 6% 수준으로 억제하면서도, 단순 텍스트 정보만 제공할 때보다 구체적이고 실행 가능한 답변을 제공합니다. 실제 하드웨어 및 반도체 등 고객사 데이터를 기반으로 검증한 결과, 답변 유용성 측면에서 통계적으로 유의미한 성능 향상(p < 0.05)이 확인되었습니다. 결과적으로 기업들은 비싼 실시간 비전 API 비용을 지불하지 않고도, 사용자의 문의에 스크린샷과 시각적 가이드를 포함한 고품질 답변을 안정적으로 제공할 수 있게 되었습니다.

핵심 인사이트

  • 인덱싱 시점에 이미지를 저렴한 비전 모델로 분석 및 텍스트 기술(Description)로 변환해 저장함으로써, 쿼리 처리 시 추가되는 비용 오버헤드를 기존 대비 단 1% ~ 6% 수준으로 통제하는 데 성공했습니다.
  • 이미지 컨텍스트를 제공했을 때의 답변 품질 향상 효과를 측정하기 위해 LLM 평가기 및 3개 고객 프로젝트를 대상으로 검정한 결과, 맥네마 검정(McNemar's test) 기준 p < 0.05로 통계적 유의성을 확보했습니다.
  • 실시간 쿼리 시점에 원본 이미지를 직접 처리할 경우, GPT 5.1은 27%, Claude 4.6 Sonnet은 51%의 추가 쿼리 비용이 발생하는 구조적 한계를 확인했습니다.

주요 디테일

  • 기술 문서 내의 이미지는 텍스트 가이드를 보조하는 '설명형(Illustrative)' 이미지와, 배선도나 스펙 표처럼 고유 정보를 담고 있어 그 자체로 해답의 원천이 되는 '부하 지지형(Load-bearing)' 이미지의 두 가지로 분류됩니다.
  • Claude의 경우 이미지 하나를 토큰화할 때 약 975개의 토큰을 소모하는 반면, GPT는 716개의 토큰을 소모하여 이미지 실시간 전송 시 API 비용 부담이 매우 크게 나타납니다.
  • 수백만 개의 스크린샷, 아키텍처 다이어그램, 회로도 등을 보유한 대규모 기술 지식 베이스를 RAG 파이프라인에 최적화하기 위해 인덱싱 시 1회성 비용만 지불하는 아키텍처를 설계했습니다.
  • 단순 텍스트 매칭만으로는 찾기 힘든 구체적인 설정 경로와 클릭 위치를 스크린샷 기반 텍스트 인덱싱을 통해 정확하게 탐색하여 사용자에게 최종 답변으로 전달합니다.

향후 전망

  • 비전 모델의 비용 효율적인 RAG 적용 사례가 입증됨에 따라, 개발자 도구 및 반도체 분야 등 복잡한 시각 자료가 많은 기술 지원 AI 시장에서 이와 같은 일회성 이미지 인덱싱 아키텍처 채택이 급증할 것입니다.
  • 실시간 비전 API 호출에 따르는 막대한 토큰 낭비와 컨텍스트 윈도우 한계 문제를 우회함으로써, 향후 고성능 LLM의 운영 가성비를 극대화하는 RAG 하이브리드 설계 가이드라인으로 자리 잡을 전망입니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...