AI 요약
프롬프트를 작성한 직후에는 작성자 본인의 배경지식으로 인해 내용이 명확하다고 착각하기 쉬우나, 다른 세션에서 AI가 이를 실행할 때 '암묵지' 부족으로 재현성이 떨어지는 문제가 발생합니다. 이를 해결하기 위해 TDD(테스트 주도 개발)의 테스트 코드와 유사하게, 별도의 AI(subagent)에게 프롬프트를 실행시키고 막히는 부분을 리포트하게 하여 프롬프트를 단계적으로 개선하는 자동 튜닝 워크플로우가 제안되었습니다. 2025년 이후 버전의 Claude Code와 Task tool을 활용하며, 실행 AI에게 구체적인 시나리오와 [critical] 태그가 포함된 체크리스트를 전달하여 엄격하게 평가합니다. 실행 AI는 불명확한 점, 본인이 임의로 판단한 사항, 재시도 횟수 등을 리포트하며, 작성자는 이를 바탕으로 프롬프트를 보완합니다. 실제 Conventional Commits 자동 생성 프롬프트 사례를 통해 모호한 지침이 어떻게 구체화되는지 증명되었습니다.
핵심 인사이트
- Claude Opus 4.7 환경의 Claude Code를 활용하여 작성자와 실행자를 분리한 '양면 평가' 구조를 확립함.
- 8개의 구체적인 skill에 대해 해당 기법을 적용한 결과, 초기 약 50점이었던 프롬프트 품질이 AI 주관 평가 기준 80~90점으로 상승함.
- 평가 시나리오는 전형적인 케이스(median) 1개와 경계값 케이스(edge) 1~2개를 포함한 2~3개로 구성하여 1~2분 내에 결과를 도출함.
- 체크리스트에 [critical] 태그를 도입하여 최소 기준 미달 시 실패로 간주하는 엄격한 성공 판정 기준을 적용함.
주요 디테일
- Claude Code의 내장 기능인 Task(description, prompt, subagent_type) 툴을 사용하여 별도의 subagent 세션을 자동으로 생성하고 결과를 수신함.
- 리포트 구조에 '재량 보완(지시에 없는 내용을 AI가 임의로 판단한 부분)' 항목을 포함시켜 프롬프트의 논리적 빈틈을 시각화함.
conventional-changelogskill 테스트 중 발견된 '워크플로우 통합 여부'와 같은 모호한 지점을 비교표와 선택 지침을 추가하여 해결함.- 프롬프트 관리 구조를
~/.claude/skills/<name>/SKILL.md형식으로 정형화하여 Claude Code 세션에서 즉시 평가가 가능하도록 설계함. - 단순히 '잘 안된다'는 피드백 대신 **'어떤 용어가 정의되지 않았는지'**를 구체적으로 수집하여 수정 루프의 효율성을 극대화함.
향후 전망
- 프롬프트 엔지니어링이 인간의 감각에 의존하는 단계를 벗어나, AI가 AI를 검증하고 최적화하는 TDD 방식의 자동화가 가속화될 것임.
- 특정 모델(Opus 4.7 등)에 대한 과도한 적응(Overfitting) 문제를 방지하기 위해, 다양한 LLM 모델을 교차 활용하는 평가 체계로 발전할 가능성이 높음.
