AI 요약
PrismML은 스마트폰부터 노트북까지 다양한 로컬 기기에서 고품질 디퓨전 추론을 실행할 수 있도록 설계된 소형 이미지 생성 모델 제품군인 'Bonsai Image 4B'를 공개했습니다. 이 모델은 기존 'FLUX.2 Klein 4B'의 아키텍처를 그대로 유지하면서, 트랜스포머 가중치의 표현 방식을 바이너리(1비트) 및 터너리(삼진) 형식으로 변환하여 극적인 경량화를 이뤄냈습니다. 1비트 Bonsai 모델의 최종 트랜스포머 크기는 0.93 GB로, 기존 FP16 모델의 7.75 GB 대비 8.3배 감소했습니다. 또한 애플 실리콘(Apple Silicon) 배포를 기준으로 텍스트 인코더와 FP16 VAE를 모두 포함한 전체 용량은 1비트의 경우 3.42 GB, 터너리의 경우 3.88 GB에 불과해 기존 15.97 GB 대비 비약적으로 줄어들었습니다. 결과적으로 Bonsai Image 4B는 해당 매개변수 체급의 이미지 모델 중 최초로 iPhone에서 직접 실행할 수 있는 온디바이스 AI 성능을 확보하게 되었습니다.
핵심 인사이트
- FLUX.2 Klein 4B 기반 압축: 원본 모델의 아키텍처를 고수하면서 트랜스포머 가중치만 바이너리 및 터너리 형식으로 변환하여 극적인 경량화를 실현했습니다.
- 획기적인 용량 감소: 1비트 트랜스포머 크기는 0.93 GB(8.3배 감소), 터너리 트랜스포머 크기는 1.21 GB(6.4배 감소)로 축소되어 로컬 메모리 점유율을 크게 낮췄습니다.
- 최초의 iPhone 구동 4B 모델: 기존 full-precision FLUX.2 Klein 4B는 iPhone 17 Pro Max의 메모리 한계를 초과하여 구동이 불가능했으나, 1비트 Bonsai 모델(배포 크기 3.42 GB)은 스마트폰에서 직접 원활하게 실행됩니다.
- 실시간 런타임 메모리 절감: 512x512 해상도 이미지 생성 시 평균 활성 메모리는 바이너리 1.5 GB, 터너리 1.96 GB로 기존 11.74 GB 대비 최대 7.8배 절감됩니다.
주요 디테일
- 하이브리드 정밀도 기술: 전체 가중치 중 정밀도에 민감한 약 5%의 프로젝션 레이어(projection layers)는 FP16 상태로 유지하여 모델 품질 저하를 방지하는 설계를 적용했습니다.
- 터너리(삼진) 모델의 화질 우위: 터너리 레이어는 0의 상태(zero state)를 추가로 표현할 수 있어, 1.21 GB로 용량은 1비트보다 약간 크지만 비주얼 품질과 프롬프트 반영도(fidelity)가 더 뛰어납니다.
- 메모리 오프화 기법: 프롬프트 인코딩이 완료된 후 텍스트 인코더를 실시간으로 메모리에서 오프로드하므로, 실제 런타임 시 소요되는 평균 활성 메모리는 전체 패키지 용량보다 훨씬 낮게 유지됩니다.
- 다양한 플랫폼 및 하드웨어 가속: 애플 실리콘 기기(iPhone, iPad, Mac)에서는 MLX 저비트 경로를 활용하고, CUDA GPU 환경에서는 Gemlite 저비트 GEMM 커널을 지원하는 배포 스택을 완비했습니다.
향후 전망
- 온디바이스 이미지 생성 대중화: 클라우드 서버의 비싼 GPU 연산 없이도 개인이 소지한 스마트폰과 보급형 노트북에서 직접 이미지 생성을 수행하는 진정한 의미의 로컬 배포가 활성화될 것입니다.
- 모바일 앱 생태계의 변화: 용량과 메모리 장벽이 허물어짐에 따라, 온디바이스로 작동하는 다양한 인스턴트 이미지 편집 및 생성형 인공지능 앱 개발이 한층 활발해질 것으로 전망됩니다.
