내 노트북의 Qwen3.6-35B-A3B가 클로드 오퍼스 4.7보다 펠리컨을 더 잘 그렸다

AI 요약

2026년 4월 16일, 기술 전문가 사이먼 윌리슨은 알리바바의 최신 모델 'Qwen3.6-35B-A3B'와 앤스로픽의 '클로드 오퍼스 4.7'의 SVG 생성 성능을 비교한 흥미로운 결과를 공유했습니다. 윌리슨의 상징적인 벤치마크인 '자전거 타는 펠리컨' 테스트에서, MacBook Pro M5 기기에서 로컬로 구동된 Qwen 모델이 클로드의 최신 플래그십 모델보다 더 정확한 구조를 묘사하며 승리를 거두었습니다. 클로드 오퍼스 4.7은 사고 수준(thinking_level)을 최대로 설정했음에도 불구하고 자전거 프레임 표현에 실패하는 모습을 보였습니다. 또한 추가로 진행된 '외발자전거를 타는 홍학' 생성 테스트에서도 Qwen은 코드 내에 재치 있는 주석을 포함하는 등 뛰어난 디테일을 보여주었습니다. 이번 사례는 모델의 크기와 범용 성능이 특정 창의적 작업에서의 성과와 반드시 일치하지 않을 수 있으며, 로컬 모델의 비약적인 발전을 시사합니다.

핵심 인사이트

날짜 및 모델: 2026년 4월 16일, 알리바바의 Qwen3.6-35B-A3B 모델이 앤스로픽의 클로드 오퍼스 4.7(Claude Opus 4.7)을 SVG 생성 성능에서 앞지름.
기술 스택: Qwen 모델은 Unsloth에 의해 양자화된 20.9GB 크기의 GGUF 파일(Q4_K_S)로, MacBook Pro M5에서 LM Studio를 통해 로컬 구동됨.
테스트 결과: 클로드 오퍼스 4.7은 자전거 프레임 묘사에서 오류를 범했으나, Qwen은 정확한 형태와 함께 SVG 코드 내에 '선글라스를 낀 홍학'과 같은 주석을 남기는 정교함을 보임.

주요 디테일

로컬 구동 환경: Qwen3.6-35B-A3B 모델은 llm-lmstudio 플러그인을 사용하여 사이먼 윌리슨의 노트북에서 직접 실행되었음.
벤치마크의 역사: '자전거 타는 펠리컨' 테스트는 2024년 10월부터 시작되었으며, 초기에는 조잡한 결과를 냈으나 제미나이 3.1 프로(Gemini 3.1 Pro)에 이르러 실사용 가능한 수준으로 발전함.
클로드의 한계: 클로드 오퍼스 4.7은 최신 모델임에도 불구하고 thinking_level: max 옵션을 적용했으나 결과물의 품질 향상이 미미했음.
상관관계의 붕괴: 저자는 그동안 모델의 펠리컨 묘사 능력과 일반적인 유용성 사이의 상관관계가 높았으나, 이번 결과로 인해 그 연결고리가 깨졌다고 평가함.
성능 평가: 21GB 크기의 양자화된 로컬 모델이 거대한 상용 폐쇄형 모델(Proprietary Model)보다 특정 작업에서 더 유용할 수 있다는 실질적인 사례를 제시함.

향후 전망

로컬 AI의 부상: 고성능 하드웨어(MacBook M5 등)와 최적화 기술(Unsloth 양자화)의 결합으로 로컬에서 구동되는 오픈 소스 기반 모델의 경쟁력이 더욱 강화될 것임.
특수 작업 최적화: 범용적인 지능 지수 외에 SVG 생성과 같은 코드 기반 시각화 능력에서 모델 간의 변별력이 더욱 뚜렷해질 것으로 예상됨.

원문:https://simonwillison.net/2026/Apr/16/qwen-beats-opus/

출처:hackernews

내 노트북의 Qwen3.6-35B-A3B가 클로드 오퍼스 4.7보다 펠리컨을 더 잘 그렸다

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

탄산수의 신진대사 촉진 및 체중 감량 효과에 대한 과학적 검증

암세포 사멸 효율 극대화를 위한 면역세포 강화 기술 개발

북해 해저 '잃어버린 세계'의 발견, 과거 울창한 삼림지대였던 것으로 확인

홍수 및 산사태 유발 위험이 있는 3,100여 개의 '서징 빙하'에 대한 과학계 경고