리오데자네이루의 '자체 개발' LLM, 기존 모델의 단순 병합으로 밝혀져

AI 요약

브라질 리오데자네이루 시 산하 IplanRIO가 자체 개발 및 훈련했다고 발표한 397B 규모의 AI 모델 'Rio-3.5-Open-397B'가 실제로는 무단으로 기존 모델들을 병합한 복제 모델이라는 사실이 밝혀졌습니다. AI 스타트업 Nex-AGI는 2026년 6월 14일 자사의 깃허브(GitHub) 이슈를 통해, 해당 모델이 자체 학습 과정을 거치지 않고 자사의 'Nex-N2_pro' 모델(60%)과 'Qwen3.5-397B-A17B' 베이스 모델(40%)을 단순 원소별 병합한 결과물이라고 고발했습니다. Nex-AGI가 제시한 두 가지 독립적인 증거에 따르면, 하드코딩된 프롬프트를 제거할 경우 모델은 스스로를 'Nex'라고 79%의 확률로 답변하며, 60개 전체 레이어의 가중치 텐서 역시 소수점 자리까지 정확하게 6:4의 결합 비율을 나타냈습니다. 이번 사건은 공공 부문의 성과 부풀리기를 위한 LLM 도용 실태를 적나라하게 보여주는 사례로 평가받고 있습니다.

핵심 인사이트

폭로 발생일 및 대상: 2026년 6월 14일, Nex-AGI는 깃허브 이슈 #4를 통해 IplanRIO의 'prefeitura-rio/Rio-3.5-Open-397B' 모델이 자체 훈련된 오리지널 모델이 아님을 폭로했습니다.
단순 병합 수치: 해당 모델은 'Nex-N2_pro' 가중치 약 0.6(60%)과 'Qwen3.5-397B-A17B' 베이스 모델 가중치 약 0.4(40%)를 element-wise 방식으로 단순 결합한 것입니다.
자체 개발 흔적 전무: Nex-AGI 측의 정밀 분석 결과, IplanRIO 측이 자체적으로 수행한 추가적인 훈련(Training)이나 미세조정(Finetuning)의 증거는 전혀 발견되지 않았습니다.

주요 디테일

정체성 오류 (79% 발현): 'You are Rio'라는 하드코딩된 시스템 프롬프트를 비활성화하자, 해당 모델은 79%의 확률로 스스로를 'Nex, from Nex-AGI'라고 답변했으며 'Rio'라고 답한 확률은 0%였습니다. 심지어 Nex-AGI 조직의 독창적인 배경 설명 문구까지 글자 그대로 답변했습니다.
60개 레이어 가중치 일치: 모델의 60개 전체 레이어 및 네트워크의 모든 구성 요소에서 가중치 텐서가 수천 표준편차 범위 내에서 정확히 0.6 대 0.4 비율의 수학적 병합 관계를 유지하고 있음이 확인되었습니다.
보간 이외의 설명 불가: 모델의 물리적 특성이 단순한 수치적 보간(Interpolation) 이외의 어떠한 독자적 학습 모델로도 매핑되지 않음으로써 단순 카피캣임이 수학적으로 증명되었습니다.

향후 전망

공공 AI 프로젝트의 도덕성 검증 강화: 공공기관이 오픈소스 모델의 성과를 교묘히 포장하여 막대한 예산이나 자체 성과로 홍보하는 행위에 대한 업계 및 정부 차원의 엄격한 감사 절차가 도입될 가능성이 높습니다.
모델 병합(Model Merging)에 대한 규제 및 라이선싱: 기존 오픈소스 LLM 가중치 병합 모델의 출처 표기 의무화 및 무단 도용 방지를 위한 AI 생태계 차원의 라이선스 가이드라인 재정립 논의가 활발해질 것으로 전망됩니다.

원문:https://github.com/nex-agi/Nex-N2/issues/4

출처:hackernews

리오데자네이루의 '자체 개발' LLM, 기존 모델의 단순 병합으로 밝혀져

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

5만 달러 미만으로 살 수 있는 마지막 스포츠카들

이번 주말 놓치면 후회할 넷플릭스 추천작 3선 (7/31~8/2)

구글, 에어태그 겨냥한 위치추적 기기 곧 출시

스파이더맨: 브랜드 뉴 데이' 이후, 피터 파커의 새로운 출발은?