AI 요약
Anthropic의 AI 코딩 도구인 Claude Code가 2026년 2월 업데이트 이후 심각한 성능 퇴행(Regression)을 겪고 있다는 정밀 분석 결과가 GitHub 이슈를 통해 공개되었습니다. 제보자인 stellaraccident는 1월까지 원활하게 수행되던 복잡한 엔지니어링 작업이 2월 12일 적용된 '사고 내용 검열(redact-thinking-2026-02-12)' 패치 이후 사실상 불가능해졌다고 주장했습니다. 구체적인 데이터 마이닝 결과에 따르면, 모델이 지침을 무시하거나 잘못된 수정을 제안하고 지시와 정반대의 결과물을 내놓는 빈도가 급격히 증가했습니다. 해당 팀의 시니어 엔지니어들은 Claude가 더 이상 복잡한 설계를 수행할 수 없다고 판단하여 이미 경쟁사 서비스로 전환한 상태입니다. 이번 사례는 AI 모델의 '사고 과정(Thinking tokens)'이 단순한 부가 기능이 아니라 고난도 업무 수행을 위한 구조적 필수 요소임을 입증하고 있습니다.
핵심 인사이트
- 성능 저하의 기점: 2026년 2월 12일에 배포된 'redact-thinking-2026-02-12' 업데이트가 품질 저하의 직접적인 원인으로 지목되었습니다.
- 방대한 분석 데이터: 6,852개의 세션 파일에서 추출한 17,871개의 사고 블록(Thinking blocks)과 234,760개의 도구 호출(Tool calls)을 정량적으로 분석한 결과입니다.
- 시기별 품질 변화: 제보자는 1월은 정상, 2월은 하락세, 3월은 엔지니어링 도구로서 '완전한 손실(Complete loss)' 상태였다고 정의했습니다.
주요 디테일
- 구체적 오류 행태: 지시 사항 무시, 잘못된 수정을 '최선의 해결책'이라 주장, 요청한 내용과 정반대의 작업 수행 등이 매번 재현되고 있습니다.
- 사고 토큰의 중요성: 데이터 분석 결과 '확장된 사고 토큰(Extended thinking tokens)'의 감소가 다단계 연구 및 컨벤션 준수 능력을 구조적으로 약화시켰음이 드러났습니다.
- 비즈니스 영향: 해당 팀은 Claude의 품질 저하로 인해 이미 타사 AI 제공업체로 서비스를 전환했으며, 해당 업체가 현재 더 우수한 작업 품질을 제공하고 있다고 명시했습니다.
- 기술적 설정: 오류 발생 당시 Permission Mode는 'Accept Edits ON' 상태였으며, 이로 인해 모델의 잘못된 수정이 자동으로 반영되는 등 높은 수준의 부정적 영향(Impact High)을 미쳤습니다.
향후 전망
- Anthropic이 사용자의 비판을 수용하여 사고 과정 노출 및 추론 깊이를 복구하는 패치를 내놓을지 귀추가 주목됩니다.
- AI 모델의 '생각하는 과정'을 시각화하거나 검열하는 기능이 실제 문제 해결 능력에 미치는 부작용에 대해 업계 전반의 논의가 가속화될 전망입니다.
출처:hackernews
