AI 요약
2026년 4월 3일, 일본 국립정보학연구소(NII) 산하 LLM 연구개발 센터(LLMC)는 자체 구축한 'LLM-jp' 커뮤니티를 통해 개발한 신규 대규모 언어모델(LLM) 2종을 오픈소스로 공개했습니다. 이번에 공개된 모델은 86억 파라미터 규모의 'LLM-jp-4 8B'와 320억 파라미터 규모의 MoE(Mixture of Experts) 모델인 'LLM-jp-4 32B-A3B'입니다. 이 모델들은 이전 버전인 LLM-jp-3.1 대비 약 6배 커진 12조 토큰 규모의 고품질 데이터로 학습되었으며, 인터넷 공개 데이터뿐만 아니라 정부 및 국회 문서 등 신뢰도 높은 자원을 포함하고 있습니다. 성능 측정 결과, 일본어와 영어 이해 능력을 측정하는 벤치마크에서 GPT-4o 및 Qwen3-8B를 상회하는 성적을 거두어 전 세계적인 관심을 모으고 있습니다.
핵심 인사이트
- 공개 일자 및 모델 라인업: 2026년 4월 3일, 8.6B 파라미터 모델과 32B 규모의 MoE 모델 2종을 오픈소스 라이선스로 일반에 공개함.
- 압도적인 데이터 규모: 총 19.5조 토큰(일본어 7천억, 영어 17.8조, 기타 8.5천억, 코드 2천억) 중 최적화된 10.5조 토큰과 합성 데이터를 포함하여 총 12조 토큰의 코퍼스를 학습에 활용함.
- 글로벌 벤치마크 상회: '일본어 MT-Bench' 및 'MT-Bench'에서 오픈AI의 GPT-4o와 알리바바의 Qwen3-8B보다 뛰어난 성능을 달성함.
- 강력한 하드웨어 기반: 산업기술종합연구소(AIST)의 AI 클라우드 인프라인 'ABCI 3.0'을 사용하여 풀스크래치 학습을 진행함.
주요 디테일
- 오픈소스 AI 정의(OSAID) 준수: 누구나 입수 가능한 양질의 학습 코퍼스를 수집·선별하여 모델의 투명성과 신뢰성을 확보함.
- 확장된 컨텍스트 처리: 최대 약 65,000(65k) 토큰의 입출력을 동시에 처리할 수 있어 긴 문서 요약 및 복잡한 대화에 유리함.
- 민관 협력 데이터 구축: 국립국어연구소(NINJAL)의 웹 코퍼스와 국립국회도서관(NDL)의 인터넷 자료 수집 사업(WARP) 데이터를 활용해 전문성 있는 일본어 데이터를 확보함.
- 단계적 학습 기법: 10.5조 토큰의 사전 학습 후, 지시 데이터 및 LLM 합성 데이터 1.2조 토큰을 추가한 중간 학습(Instruction Pre-training)을 거쳐 22종의 인스트럭션 튜닝을 완료함.
향후 전망
- 대형 모델 출시 예고: 2026년 내에 더 거대한 파라미터를 가진 'LLM-jp-4 32B' 및 'LLM-jp-4 332B-A31B' MoE 모델을 추가로 공개할 예정임.
- 실무용 경량화 병행: 실운용 환경에서의 편의성을 극대화하기 위한 경량 모델 개발도 동시에 진행되어 일본 내 AI 생태계가 더욱 확장될 것으로 보임.
