12조 토큰의 고품질 코퍼스로 학습한 신규 일본산 LLM ‘LLM-jp-4 8B’ 및 ‘32B-A3B’ 오픈소스 공개... 일부 벤치마크서 GPT-4o 성능 상회

AI 요약

2026년 4월 3일, 일본 국립정보학연구소(NII) 산하 LLM 연구개발 센터(LLMC)는 자체 구축한 'LLM-jp' 커뮤니티를 통해 개발한 신규 대규모 언어모델(LLM) 2종을 오픈소스로 공개했습니다. 이번에 공개된 모델은 86억 파라미터 규모의 'LLM-jp-4 8B'와 320억 파라미터 규모의 MoE(Mixture of Experts) 모델인 'LLM-jp-4 32B-A3B'입니다. 이 모델들은 이전 버전인 LLM-jp-3.1 대비 약 6배 커진 12조 토큰 규모의 고품질 데이터로 학습되었으며, 인터넷 공개 데이터뿐만 아니라 정부 및 국회 문서 등 신뢰도 높은 자원을 포함하고 있습니다. 성능 측정 결과, 일본어와 영어 이해 능력을 측정하는 벤치마크에서 GPT-4o 및 Qwen3-8B를 상회하는 성적을 거두어 전 세계적인 관심을 모으고 있습니다.

핵심 인사이트

공개 일자 및 모델 라인업: 2026년 4월 3일, 8.6B 파라미터 모델과 32B 규모의 MoE 모델 2종을 오픈소스 라이선스로 일반에 공개함.
압도적인 데이터 규모: 총 19.5조 토큰(일본어 7천억, 영어 17.8조, 기타 8.5천억, 코드 2천억) 중 최적화된 10.5조 토큰과 합성 데이터를 포함하여 총 12조 토큰의 코퍼스를 학습에 활용함.
글로벌 벤치마크 상회: '일본어 MT-Bench' 및 'MT-Bench'에서 오픈AI의 GPT-4o와 알리바바의 Qwen3-8B보다 뛰어난 성능을 달성함.
강력한 하드웨어 기반: 산업기술종합연구소(AIST)의 AI 클라우드 인프라인 'ABCI 3.0'을 사용하여 풀스크래치 학습을 진행함.

주요 디테일

오픈소스 AI 정의(OSAID) 준수: 누구나 입수 가능한 양질의 학습 코퍼스를 수집·선별하여 모델의 투명성과 신뢰성을 확보함.
확장된 컨텍스트 처리: 최대 약 65,000(65k) 토큰의 입출력을 동시에 처리할 수 있어 긴 문서 요약 및 복잡한 대화에 유리함.
민관 협력 데이터 구축: 국립국어연구소(NINJAL)의 웹 코퍼스와 국립국회도서관(NDL)의 인터넷 자료 수집 사업(WARP) 데이터를 활용해 전문성 있는 일본어 데이터를 확보함.
단계적 학습 기법: 10.5조 토큰의 사전 학습 후, 지시 데이터 및 LLM 합성 데이터 1.2조 토큰을 추가한 중간 학습(Instruction Pre-training)을 거쳐 22종의 인스트럭션 튜닝을 완료함.

향후 전망

대형 모델 출시 예고: 2026년 내에 더 거대한 파라미터를 가진 'LLM-jp-4 32B' 및 'LLM-jp-4 332B-A31B' MoE 모델을 추가로 공개할 예정임.
실무용 경량화 병행: 실운용 환경에서의 편의성을 극대화하기 위한 경량 모델 개발도 동시에 진행되어 일본 내 AI 생태계가 더욱 확장될 것으로 보임.

원문:https://www.nii.ac.jp/news/release/2026/0403.html

출처:hatena

12조 토큰의 고품질 코퍼스로 학습한 신규 일본산 LLM ‘LLM-jp-4 8B’ 및 ‘32B-A3B’ 오픈소스 공개... 일부 벤치마크서 GPT-4o 성능 상회

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

하버드 연구진, 장내 미생물과 우울증 사이의 숨겨진 염증 연결 고리 발견

초기 우주의 중력파가 암흑 물질을 생성했을 가능성 제기

양자 통신의 패러다임을 바꿀 차세대 ‘광학 토네이도’ 기술 개발

“선사시대 거대 곤충, 생존에 고농도 산소 필수적이지 않았다” - 최신 연구 결과