매우 단순한 자가 증류(Self-distillation) 기법을 통한 코드 생성 성능 개선

SSD(Simple Self-Distillation) 기법은 외부 교사 모델이나 검증기 없이 모델의 자체 출력물만으로 코드 생성 능력을 획기적으로 향상시키며, Qwen3-30B-Instruct의 LiveCodeBench v6 성능을 42.4%에서 55.3%로 끌어올렸습니다. 이 방법은 Qwen과 Llama의 4B, 8B, 30B 등 다양한 규모의 모델에서 일관된 성능 향상을 입증했습니다.

AI 요약

본 연구는 대규모 언어 모델(LLM)이 외부 피드백이나 추가 데이터 없이도 자신의 출력물만을 활용해 스스로 코드 생성 능력을 개선할 수 있음을 증명했습니다. 연구진이 제안한 '단순 자가 증류(Simple Self-Distillation, SSD)' 방식은 특정 온도와 절단(truncation) 설정을 통해 모델 스스로 샘플 솔루션을 생성한 뒤, 이를 표준 지도 학습(SFT) 방식으로 파인튜닝하는 매우 단순한 절차를 따릅니다. 이 기법은 특히 고난도 문제 해결 능력 향상에 탁월하며, Qwen3-30B-Instruct 모델의 경우 LiveCodeBench v6에서 12.9%p의 성능 향상을 기록했습니다. SSD는 LLM 디코딩 과정의 '정밀도-탐색 갈등(precision-exploration conflict)'을 해결하여, 불필요한 토큰 분포를 억제하는 동시에 유용한 다양성을 보존합니다. 결과적으로 SSD는 별도의 복잡한 강화 학습(RL)이나 교사 모델 없이도 코드 생성 성능을 보완할 수 있는 새로운 사후 학습 방향을 제시합니다.

핵심 인사이트

  • Ruixiang Zhang 등 6명의 연구진은 외부 검증기나 교사 모델이 필요 없는 SSD(Simple Self-Distillation) 기법을 제안했습니다. (2026년 4월 1일 발표)
  • Qwen3-30B-Instruct 모델은 SSD 적용 후 LiveCodeBench v6 기준 pass@1 성능이 42.4%에서 55.3%로 대폭 향상되었습니다.
  • 본 기법은 Qwen 및 Llama 모델의 4B, 8B, 30B 등 다양한 파라미터 규모와 인스트럭트 및 씽킹(thinking) 변체 모두에서 범용적인 성능 향상을 입증했습니다.
  • SSD는 특히 쉬운 문제보다 고난도 코드 생성 문제에서 성능 개선 효과가 더욱 집중적으로 나타나는 특징을 보입니다.

주요 디테일

  • SSD의 프로세스는 특정 온도(Temperature) 및 절단 구성을 적용한 모델의 자체 출력물을 샘플링한 후, 이를 다시 지도 학습(SFT)에 활용하는 매우 단순한 구조를 가집니다.
  • 연구진은 성능 향상의 원인을 '정밀도-탐색 갈등'으로 분석하며, SSD가 문맥에 따라 토큰 분포를 재구성하여 불필요한 노이즈(distractor tails)를 억제함을 밝혔습니다.
  • 이 방법론은 별도의 보상 모델이나 강화 학습(RL) 프레임워크를 구축할 필요가 없어 연산 효율성과 구현 편의성이 매우 뛰어납니다.
  • 실험에 사용된 벤치마크는 최신 코드 생성 능력을 평가하는 LiveCodeBench v6로, 실질적인 코딩 역량 변화를 정밀하게 측정했습니다.
  • SSD는 단순 샘플링을 넘어 모델이 탐색(Exploration)이 필요한 구간에서는 다양성을 유지하도록 설계되어 창의적인 문제 해결 능력을 보존합니다.

향후 전망

  • SSD는 코드 생성 외에도 수학적 추론이나 복잡한 논리적 과제 등 정답 확인이 어려운 다른 도메인으로의 확장이 기대됩니다.
  • 고가의 교사 모델(Teacher model) 없이도 자가 학습이 가능하다는 점에서 모델의 사후 학습 비용을 획기적으로 낮출 수 있는 보완적 대안이 될 것입니다.
출처:hackernews
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...