내 노트북의 Qwen3.6-35B-A3B가 클로드 오퍼스 4.7보다 펠리컨을 더 잘 그렸다

2026년 4월 16일, 사이먼 윌리슨은 알리바바의 Qwen3.6-35B-A3B 모델이 앤스로픽의 클로드 오퍼스 4.7보다 '자전거 타는 펠리컨' SVG 생성 테스트에서 더 우수한 결과물을 생성했다고 발표했습니다. 특히 MacBook Pro M5에서 로컬로 구동된 20.9GB 크기의 Qwen 양자화 모델이 클라우드 기반의 최신 유료 모델인 오퍼스 4.7의 자전거 프레임 묘사 오류를 극복하며 성능의 역전을 보여주었습니다.

AI 요약

2026년 4월 16일, 기술 전문가 사이먼 윌리슨은 알리바바의 최신 모델 'Qwen3.6-35B-A3B'와 앤스로픽의 '클로드 오퍼스 4.7'의 SVG 생성 성능을 비교한 흥미로운 결과를 공유했습니다. 윌리슨의 상징적인 벤치마크인 '자전거 타는 펠리컨' 테스트에서, MacBook Pro M5 기기에서 로컬로 구동된 Qwen 모델이 클로드의 최신 플래그십 모델보다 더 정확한 구조를 묘사하며 승리를 거두었습니다. 클로드 오퍼스 4.7은 사고 수준(thinking_level)을 최대로 설정했음에도 불구하고 자전거 프레임 표현에 실패하는 모습을 보였습니다. 또한 추가로 진행된 '외발자전거를 타는 홍학' 생성 테스트에서도 Qwen은 코드 내에 재치 있는 주석을 포함하는 등 뛰어난 디테일을 보여주었습니다. 이번 사례는 모델의 크기와 범용 성능이 특정 창의적 작업에서의 성과와 반드시 일치하지 않을 수 있으며, 로컬 모델의 비약적인 발전을 시사합니다.

핵심 인사이트

  • 날짜 및 모델: 2026년 4월 16일, 알리바바의 Qwen3.6-35B-A3B 모델이 앤스로픽의 클로드 오퍼스 4.7(Claude Opus 4.7)을 SVG 생성 성능에서 앞지름.
  • 기술 스택: Qwen 모델은 Unsloth에 의해 양자화된 20.9GB 크기의 GGUF 파일(Q4_K_S)로, MacBook Pro M5에서 LM Studio를 통해 로컬 구동됨.
  • 테스트 결과: 클로드 오퍼스 4.7은 자전거 프레임 묘사에서 오류를 범했으나, Qwen은 정확한 형태와 함께 SVG 코드 내에 '선글라스를 낀 홍학'과 같은 주석을 남기는 정교함을 보임.

주요 디테일

  • 로컬 구동 환경: Qwen3.6-35B-A3B 모델은 llm-lmstudio 플러그인을 사용하여 사이먼 윌리슨의 노트북에서 직접 실행되었음.
  • 벤치마크의 역사: '자전거 타는 펠리컨' 테스트는 2024년 10월부터 시작되었으며, 초기에는 조잡한 결과를 냈으나 제미나이 3.1 프로(Gemini 3.1 Pro)에 이르러 실사용 가능한 수준으로 발전함.
  • 클로드의 한계: 클로드 오퍼스 4.7은 최신 모델임에도 불구하고 thinking_level: max 옵션을 적용했으나 결과물의 품질 향상이 미미했음.
  • 상관관계의 붕괴: 저자는 그동안 모델의 펠리컨 묘사 능력과 일반적인 유용성 사이의 상관관계가 높았으나, 이번 결과로 인해 그 연결고리가 깨졌다고 평가함.
  • 성능 평가: 21GB 크기의 양자화된 로컬 모델이 거대한 상용 폐쇄형 모델(Proprietary Model)보다 특정 작업에서 더 유용할 수 있다는 실질적인 사례를 제시함.

향후 전망

  • 로컬 AI의 부상: 고성능 하드웨어(MacBook M5 등)와 최적화 기술(Unsloth 양자화)의 결합으로 로컬에서 구동되는 오픈 소스 기반 모델의 경쟁력이 더욱 강화될 것임.
  • 특수 작업 최적화: 범용적인 지능 지수 외에 SVG 생성과 같은 코드 기반 시각화 능력에서 모델 간의 변별력이 더욱 뚜렷해질 것으로 예상됨.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...