AI 요약
Autofit2는 Setfit과 SBERT 임베딩을 기반으로 한 소수 샷(few-shot) 텍스트 분류 파이프라인으로, 50개 이상의 언어를 지원하며 단일 JSON 설정 파일만으로 전처리부터 배포까지 자동화된 종단간 프로세스를 제공한다. 수십 개의 레이블된 예제만으로 95~99%의 정밀도를 달성하며, Common Crawl을 통해 100개 이상의 언어로 확장 가능하다. 모델 카드 생성과 CO₂ 배출 추적 기능을 포함하여 재현성과 투명성을 보장한다.
핵심 포인트
- 소수 샷 학습으로 95~99% 정밀도 달성, 수십 개의 레이블된 예제만 필요
- 20개 언어 사전 학습 모델 제공, 50개 이상 언어 평가 코퍼스 지원, 100개 이상 언어 확장 가능
- JSON 기반 설정 파일로 전처리, 미세 조정, 평가, 배포까지 자동화된 파이프라인 구성
- 모델 카드 생성 및 CO₂ 배출 추적 기능 내장
향후 전망
- 다국어 텍스트 분류 작업에서 소수 샷 학습의 실용성을 크게 높여, 기업 및 연구자들의 NLP 도입 장벽을 낮출 것으로 기대
- 오픈소스 기반으로 지속적인 커뮤니티 기여와 모델 확장이 예상됨
출처:GitHub (neospe/autofit2)
