LLM 아키텍처 갤러리: 거대언어모델 구조 한눈에 보기

Sebastian Raschka가 공개한 'LLM 아키텍처 갤러리'는 2024년 4월 Llama 3부터 2025년 4월 Llama 4 Maverick까지 주요 모델의 구조를 비교하며, DeepSeek V3(671B)와 같은 거대 MoE 모델과 Gemma 3(27B) 등 최신 밀집 모델의 기술적 차이를 상세히 분석합니다.

AI 요약

Sebastian Raschka의 'LLM 아키텍처 갤러리'는 최신 거대언어모델(LLM)들의 구조도와 팩트 시트를 집대성한 자료로, 2024년부터 2025년 초까지의 기술적 진화를 한눈에 보여줍니다. 이 갤러리는 Llama 3와 같은 전통적인 Dense(밀집) 모델부터 DeepSeek V3 및 Llama 4 Maverick 같은 Sparse MoE(전문가 혼합) 모델까지 폭넓게 다룹니다. 특히 단순한 성능 비교를 넘어 QK-Norm, MLA(Multi-Head Latent Attention), GQA(Grouped-Query Attention) 등 각 모델이 채택한 구체적인 어텐션 메커니즘과 정규화 기법의 차이를 조명합니다. 최신 트렌드는 추론 효율성을 극대화하기 위해 전체 파라미터 중 일부만 활성화하는 MoE 구조와 추론 지연 시간을 줄이기 위한 KV 캐시 최적화로 요약됩니다. 이 자료는 연구자와 엔지니어들이 모델 간의 기술적 계보와 설계 의도를 파악하는 데 핵심적인 가이드를 제공합니다.

핵심 인사이트

  • DeepSeek의 도약: 2024년 12월 26일 출시된 DeepSeek V3는 총 671B 파라미터 중 37B만 활성화하는 Sparse MoE 구조와 MLA 어텐션을 도입하여 대형 모델의 효율적 추론 가능성을 입증했습니다.
  • Meta의 MoE 채택: 2025년 4월 5일 공개된 Llama 4 Maverick은 400B 전체 파라미터 중 17B만 활성화하며, Dense 블록과 MoE 블록을 교차 배치하는 전략을 사용했습니다.
  • 효율성 중심 설계: Mistral Small 3.1(2025-03-18)은 24B 규모로, 기존의 슬라이딩 윈도우(SWA) 설정을 제거하고 KV 캐시 크기를 줄여 지연 시간(Latency) 최적화에 집중했습니다.

주요 디테일

  • Llama 3 8B (2024-04-18): GQA와 RoPE를 사용하는 Dense 디코더 모델로, 이후 출시된 OLMo 2의 정규화 및 어텐션 선택을 대조하는 기준점(Baseline) 역할을 합니다.
  • OLMo 2 7B (2024-11-25): 훈련 안정성을 위해 일반적인 Pre-norm 대신 Inside-residual Post-norm 구조와 QK-Norm을 적용한 투명한 Dense 모델입니다.
  • Gemma 3 27B (2025-03-11): 5:1 비율의 슬라이딩 윈도우 및 글로벌 어텐션을 혼합 사용하며, 대규모 다국어 어휘집을 갖춘 27B 규모의 최적 모델로 설계되었습니다.
  • DeepSeek R1 (2025-01-20): 하드웨어 아키텍처는 V3와 동일(671B/37B)하지만, 추론(Reasoning) 성능에 특화된 트레이닝 레시피를 적용한 모델입니다.
  • Qwen3 235B-A22B: 중국 알리바바의 대형 MoE 모델 시리즈로, 거대 모델 시장에서의 경쟁력을 지속적으로 확장하고 있습니다.

향후 전망

  • MoE의 표준화: 전체 파라미터는 늘리되 활성 파라미터는 억제하여 성능과 비용의 균형을 맞추는 MoE 구조가 대형 모델의 표준 아키텍처로 자리 잡을 것으로 보입니다.
  • 추론 최적화 경쟁: MLA나 QK-Norm과 같이 학습 안정성과 추론 속도를 동시에 잡으려는 아키텍처 수준의 미세 조정 경쟁이 더욱 치열해질 전망입니다.
Share

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...

LLM 아키텍처 갤러리: 거대언어모델 구조 한눈에 보기 | paper!