AI 요약
Anthropic은 코딩 에이전트에게 특정 워크플로우를 교육하는 명령 세트인 'Agent Skills'를 2025년 10월 도입하고, 동년 12월에 오픈 표준으로 공개했습니다. 이 기술은 2026년 3월 기준 GitHub Copilot, OpenAI Codex 등 30개 이상의 플랫폼에 도입되며 빠르게 확산되고 있습니다. 'skill-creator'는 이러한 에이전트 스킬을 자동으로 생성하고 성능을 측정하는 '스킬을 만드는 스킬'로, 일종의 스킬 전용 CI/CD 파이프라인 역할을 수행합니다. 핵심 설계 원칙인 '단계적 개시(Progressive Disclosure)'를 통해 컨텍스트 윈도우를 효율적으로 관리하며, 복잡한 처리를 직접 수행하는 대신 전문화된 하위 에이전트와 스크립트에게 작업을 위임하는 오케스트레이션 구조를 취하고 있습니다. 이를 통해 사용자는 인터뷰부터 테스트, 브라우저 기반 리뷰, 최종 패키징(.skill 파일화)까지의 전 과정을 에이전트의 가이드에 따라 완성할 수 있습니다.
핵심 인사이트
- 표준화된 확산: Agent Skills는 2025년 12월 오픈 표준화 이후 2026년 3월 현재 OpenAI Codex, Gemini CLI 등 30개 이상의 주요 플랫폼에서 채택 중입니다.
- 3단계 레이지 로딩: 컨텍스트 효율을 위해 Level 1(~100 토큰의 이름/설명), Level 2(<5,000 토큰의 본문), Level 3(참조 시 로드되는 자산)로 정보를 단계적으로 개시합니다.
- 오케스트레이션 설계: skill-creator의 SKILL.md는 약 480행의 지시문으로 구성되어 있으며, 직접 연산보다는 하위 에이전트와 8개의 전문 스크립트를 제어하는 관제탑 역할을 합니다.
주요 디테일
- 비유적 관계: MCP(Model Context Protocol)가 도구와 설비를 제공하는 '주방'이라면, Skills는 구체적인 작업 절차를 명시한 '레시피'에 해당합니다.
- 전문 하위 에이전트 활용: 평가 담당 grader.md(224행), A/B 비교 담당 comparator.md(203행), 분석 담당 analyzer.md(275행) 등 역할이 세분화된 프롬프트를 독립적으로 운용합니다.
- 자동화된 벤치마크: eval.json에 저장된 테스트 케이스를 바탕으로 with_skill 버전과 baseline 버전을 병렬 실행하여 성능을 정량적으로 비교합니다.
- 확정적 처리 분리: 통계 집계(aggregate_benchmark.py)나 ZIP 패키징 작업은 에이전트가 직접 하지 않고 별도의 8개 Python/Bash 스크립트에 위임하여 정확도를 높입니다.
향후 전망
- 스킬 개발의 자동화: 에이전트 개발 방식이 단순 프롬프트 작성을 넘어, skill-creator와 같은 도구를 통한 구조적 설계 및 자동 검증 체계로 고도화될 전망입니다.
- 컨텍스트 최적화 경쟁: '컨텍스트 윈도우는 공공재'라는 인식 아래, MCP와 Skill을 결합하여 효율성을 극대화하는 'MCP Light'와 같은 최적화 기법이 업계 표준으로 자리 잡을 가능성이 높습니다.
