CC-Canary: Claude Code의 성능 저하(Regression) 징후 조기 감지 도구

CC-Canary는 Claude Code의 성능 저하(Drift)를 로컬 데이터를 기반으로 정밀 진단하는 오픈소스 도구로, 최대 180일간의 로그를 분석해 성능 변곡점을 포착합니다. Python 3.8 이상 환경에서 npx를 통해 설치 가능하며, 비용(USD) 및 추론 루프 등 핵심 지표를 포함한 HTML/마크다운 형식의 보고서를 제공합니다.

AI 요약

최근 Claude Code 사용자들 사이에서 발생할 수 있는 모델 성능 저하(Regression) 및 드리프트를 조기에 감지하기 위한 전문 도구 'CC-Canary'가 공개되었습니다. 이 도구는 별도의 외부 네트워크 연결이나 계정 생성 없이, 로컬 시스템의 ~/.claude/projects/ 경로에 저장된 JSONL 세션 로그를 직접 분석하여 보안성을 높였습니다. 사용자는 7일부터 180일까지의 분석 윈도우를 설정할 수 있으며, 도구는 비용(USD), 읽기 대 편집 비율(read:edit ratio), 추론 루프, 토큰 사용량 등의 지표를 추출합니다. 분석 결과는 'CONFIRMED REGRESSION' 또는 'SUSPECTED REGRESSION'과 같은 구체적인 판정(Verdict)과 함께 대시보드 형태로 제공됩니다. 특히 스크립트 실행에는 약 2.5초, 최종 리포트의 내러티브 생성에는 10~20초 내외가 소요되는 빠른 성능을 자랑합니다.

핵심 인사이트

  • 분석 윈도우 지원: 사용자의 필요에 따라 7일, 14일, 30일, 60일(기본값), 90일, 180일 단위의 로그 데이터 분석을 지원합니다.
  • 설치 및 환경: python3 ≥ 3.8 환경이 필수적이며, npx skills add delta-hq/cc-canary 명령어를 통해 손쉽게 에이전트 스킬로 추가할 수 있습니다.
  • 자동 변곡점 감지: 복합 건강 점수(composite health-score)를 기반으로 0.75σ(시그마) 임계값을 적용하여 모델 성능이 변화한 특정 날짜(Inflection date)를 자동으로 포착합니다.

주요 디테일

  • 정밀한 비용 추적: 현재 Claude 4.x 요율을 기준으로 세션당 비용(USD)을 ccusage 수준의 센트 단위까지 정밀하게 검증하여 보고합니다.
  • 데이터 정제 기술: 세션 재개나 브랜치 생성 시 발생하는 중복 메시지를 (message.id, requestId) 조합으로 제거(Dedupe)하여 통계의 왜곡을 방지합니다.
  • 리포트 형식: GitHub 이슈 등에 바로 붙여넣을 수 있는 마크다운(.md) 파일과 브라우저에서 자동 실행되는 다크 테마 기반의 HTML 대시보드 두 가지 형식을 제공합니다.
  • 하이브리드 리포팅: 분석 스크립트가 데이터 테이블과 차트를 먼저 생성하면, Claude 모델이 약 20개의 내러티브 슬롯(요약, 근본 원인 분석 등)을 직접 채워 최종 보고서를 완성합니다.
  • 운영 체제 호환: macOS, Linux, WSL 환경을 지원하며, HTML 보고서 자동 열기 기능을 통해 시각적 편의성을 제공합니다.

향후 전망

  • 지속적 고도화: 현재 0.x 버전의 프리알파(pre-alpha) 단계로, 향후 새로운 메트릭 세트와 출력 형식이 추가될 예정입니다.
  • 모델 벤치마크 표준: 대규모 언어 모델(LLM)의 업데이트가 잦아짐에 따라, 개별 개발자의 실제 작업 환경(Workload)에서 모델 성능을 검증하는 필수 도구로 자리잡을 가능성이 큽니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...