Claude Code 및 Codex 사용자를 위한 Harness Engineering 가이드 및 베스트 프랙티스

AI 요약

하네스 엔지니어링은 미첼 하시모토(Mitchell Hashimoto)가 정의한 AGENTS.md의 지속적 개선과 에이전트의 자기 검증 툴 세트를 기반으로 하며, 현재는 인간의 개입 없이 코딩 에이전트를 안정적으로 구동하는 시스템 전체를 의미합니다. 2026년 3월 현재, LLM의 불완전함을 보완하기 위한 '보조바퀴' 역할을 수행하며 리포지토리의 위생 상태와 결정론적 도구 활용이 핵심입니다. 에이전트는 리포지토리 내의 오래된 문서를 최신 정보와 구분하지 못하므로, 텍스트 형태의 문서보다는 실행 가능한 테스트와 구조화된 ADR(Architecture Decision Records)을 통해 맥락을 제공해야 합니다. 이는 에이전트가 직면한 목표 달성을 위해 시스템의 다른 부분을 파괴하는 부작용을 방지하고, 투자할수록 복리로 효과가 쌓이는 개발 문화를 구축하는 것을 목표로 합니다.

핵심 인사이트

미첼 하시모토의 정의: 하네스 엔지니어링은 인간에 의한 AGENTS.md 개선과 에이전트가 작업의 정오를 스스로 검증하는 도구군의 결합을 의미합니다.
리포지토리 위생(Hygiene): 에이전트는 grep, find, cat을 통해 정보를 수집하므로, 낡은 문서나 수동 API 설명은 에이전트의 판단력을 흐리는 '오염원'이 됩니다.
ADR(Architecture Decision Records) 활용: 상태(Accepted, Superseded, Deprecated)와 타임스탬프가 명시된 ADR을 통해 에이전트가 구조적으로 최신 결정 사항을 파악하게 합니다.
복리 효과의 투자: 린터 규칙이나 테스트 하나를 추가하면 이후의 모든 에이전트 세션에서 동일한 오류와 회귀를 영구적으로 방지할 수 있습니다.

주요 디테일

OpenAI 팀의 사례: 초기 에이전트가 비최적 패턴을 복제하는 문제를 해결하기 위해 매주 금요일 업무 시간의 20%를 'AI 슬롭(Slop) 청소'에 할당했으나, 결국 '골든 프린시플'을 코드화하여 자동화했습니다.
Chroma의 연구 결과: 18개의 프론티어 모델을 조사한 결과, 컨텍스트 길이가 길어질수록 무관하거나 오래된 정보로 인해 모델의 성능이 저하되는 현상이 확인되었습니다.
결정론적 도구의 우선순위: HumanLayer의 원칙에 따라, LLM보다 저렴하고 빠른 기존 린터 및 포매터 등 결정론적 도구에 의존하여 에이전트의 판단 부담을 줄여야 합니다.
가비지 컬렉션 에이전트: Codex 기반의 태스크를 정기 실행하여 리포지토리 내의 패턴 이탈을 감지하고 리팩토링 PR을 자동으로 생성하는 체계를 권장합니다.
에이전트의 목표 지향성: 에이전트는 당면한 목표 달성을 위해 스코프 밖의 코드를 손상시킬 수 있으므로, 기존보다 훨씬 높은 수준의 테스트 커버리지가 요구됩니다.

향후 전망

기술의 일시성: 하네스 엔지니어링은 현재 LLM의 한계로 인해 중요하지만, 향후 1년 내 모델 성능 향상으로 에이전트 내부에 흡수되어 사라질 가능성이 있습니다.
엔지니어 역할의 전이: 코드를 직접 생산하는 업무에서 에이전트가 활동할 최적의 '가드레일'과 환경을 설계하는 엔지니어링으로 업무 중심이 이동할 것입니다.

원문:https://nyosegawa.github.io/posts/harness-engineering-best-practices-2026/

출처:hatena

Claude Code 및 Codex 사용자를 위한 Harness Engineering 가이드 및 베스트 프랙티스

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

전자레인지 활용한 새 튀김 방식, 감자튀김 '건강 버전'으로 탈바꿈

잠 못 이루는 폭염의 밤…숙면 돕는 8가지 꿀팁

과학자들이 발견한 충치 치료법… '드릴링' 없이 간단히 해결

장 건강이 기억력 결정에 영향을 미친다