AI 요약
Cactus Compute에서 발표한 'Needle'은 Gemini 3.1의 툴 콜링(Tool Calling) 역량을 2,600만 개의 파라미터로 압축한 'Simple Attention Network' 기반의 초경량 AI 모델입니다. 이 모델은 스마트폰, 스마트워치, AR 안경 등 자원이 제한된 소비자 기기에서 실행되는 것을 목표로 설계되었습니다. 16대의 TPU v6e를 활용해 2,000억(200B) 토큰을 27시간 동안 사전 학습했으며, 이후 20억(2B) 토큰의 함수 호출 데이터셋으로 45분간 추가 학습을 진행했습니다. Needle은 초당 6,000 토큰의 프리필과 1,200 토큰의 디코딩이라는 압도적인 추론 속도를 자랑하며, 단발성 함수 호출 성능 면에서 FunctionGemma-270m이나 Qwen-0.6B와 같은 더 큰 규모의 모델들보다 뛰어난 효율성을 보여줍니다. 사용자는 Mac이나 PC 환경에서 로컬 미세 조정이 가능하며, 모든 가중치와 데이터 생성 방식은 오픈 소스로 제공됩니다.
핵심 인사이트
- 극단적 경량화: Gemini 3.1의 지식을 단 26M 파라미터 규모의 모델로 증류(Distill)하여 온디바이스 AI의 가능성을 확장함.
- 고속 학습 및 추론: 16대의 TPU v6e 환경에서 27시간 만에 200B 토큰을 사전 학습 완료했으며, Cactus 구동 시 초당 6,000 토큰의 프리필 속도 구현.
- 특화된 성능: 단발성(Single-shot) 함수 호출 테스트에서 FunctionGemma-270m, Qwen-0.6B, Granite-350m, LFM2.5-350m 등의 경쟁 모델을 상회하는 성적 기록.
- 완전 오픈 소스: 가중치와 데이터셋 생성 로직이 Cactus-Compute/needle GitHub 저장소에 전면 공개됨.
주요 디테일
- 아키텍처 세부 사항: d=512, 8H/4KV 설정의 Simple Attention Network 구조를 사용하며, 12개의 인코더 레이어와 8개의 디코더 레이어로 구성됨.
- 효율적 설계: 연산 부하를 줄이기 위해 FFN(Feed Forward Network)을 제거하고, ZCRMSNorm, Masked Self Attention, RoPE, Gated Residual 기술을 적용함.
- 사용자 편의성: 'needle playground' 명령어를 통해 로컬 웹 UI(포트 7860)에서 클릭 한 번으로 미세 조정 및 테스트가 가능한 환경 제공.
- 학습 데이터: PleIAs/SYNTH 데이터셋을 통한 사전 학습과 2B 토큰 분량의 단발성 함수 호출 포스트 트레이닝 진행.
- 하드웨어 지원: 일반적인 소비자용 Mac 또는 PC에서 로컬 미세 조정이 가능할 정도로 낮은 자원 요구 사항.
향후 전망
- 스마트워치나 스마트 안경과 같이 전력 및 연산 자원이 매우 제한된 웨어러블 기기에서 실시간 개인 AI 비서 구현이 가속화될 것임.
- 대규모 언어 모델(LLM)의 특정 기능을 소형 모델로 전이하는 증류 기술이 특정 목적(도구 실행 등)을 가진 AI 에이전트 시장의 핵심 전략이 될 것으로 예상됨.
