AI 요약
최근 Claude Code, Claude Agent SDK, Claude Cowork 사용자들이 경험한 모델 성능 저하 현상은 세 가지 개별적인 시스템 변경 사항이 복합적으로 작용하여 발생한 것으로 밝혀졌습니다. Anthropic은 3월 초부터 발생한 성능 보고를 추적한 결과, 추론 효율(Reasoning effort) 설정 변경, 세션 캐시 버그, 시스템 프롬프트 수정이 각각 성능에 악영향을 미쳤음을 확인했습니다. API 및 인퍼런스 레이어는 영향을 받지 않았으나, Claude Code와 연결된 특정 제품군에서 Sonnet 4.6과 Opus 4.6/4.7 모델의 코딩 품질 및 기억력이 하락하는 문제가 발생했습니다. Anthropic은 4월 20일 배포된 v2.1.116 버전을 통해 모든 문제를 해결했으며, 조사 과정에서 내부 평가 지표와 실제 사용자 피드백 간의 간극을 확인하고 재발 방지를 약속했습니다. 사용자 경험 저하에 대한 책임으로 4월 23일 기준 모든 유료 구독자의 사용 제한(Usage limits)을 초기화하는 조치를 취했습니다.
핵심 인사이트
- 해결 완료 및 보상: 2025년 4월 20일(v2.1.116)자로 보고된 모든 이슈를 해결했으며, 4월 23일 모든 구독자의 사용 제한을 초기화했습니다.
- 영향 모델 및 제품: Sonnet 4.6, Opus 4.6, Opus 4.7 모델이 대상이며 Claude Code, Agent SDK, Cowork 제품군에 영향을 미쳤습니다. (API는 영향 없음)
- 복합적 성능 저하 요인: 3월 4일 추론 설정 변경, 3월 26일 세션 관리 버그, 4월 16일 프롬프트 수정 등 약 두 달에 걸쳐 세 차례의 주요 변경이 성능 하락을 유발했습니다.
주요 디테일
- 추론 설정 오류 (3월 4일): UI 동결 현상을 방지하기 위해 추론 노력을 '높음(High)'에서 '중간(Medium)'으로 낮추었으나, 코딩 지능 저하가 발생하여 4월 7일 다시 원복되었습니다.
- 기억력 상실 버그 (3월 26일): 1시간 이상 유휴 상태인 세션의 이전 사고 과정을 삭제해 지연 시간을 줄이려 했으나, 매 턴마다 기억이 삭제되는 버그가 발생해 4월 10일 수정되었습니다.
- 프롬프트 품질 하락 (4월 16일): 답변의 장황함을 줄이기 위해 추가한 시스템 프롬프트가 코딩 성능을 오히려 떨어뜨리는 부작용을 낳아 4월 20일 철회되었습니다.
- 탐지 지연 원인: 각 변경 사항이 서로 다른 시점에 개별 트래픽 세그먼트에 영향을 주었기 때문에, 내부 벤치마크나 평가 도구에서는 초기 성능 저하를 즉각 재현하기 어려웠습니다.
향후 전망
- 평가 시스템 고도화: 사용자 피드백과 실제 사용 환경 간의 차이를 줄이기 위해 내부 사용성 평가 및 벤치마크 시스템을 개선할 계획입니다.
- 기능 제어권 확대: 사용자가 대기 시간(Latency)과 지능 수준 사이의 트레이드오프를 직접 선택할 수 있도록 옵션을 제공하는 방향으로 제품을 설계할 것으로 보입니다.
