아마존, 서비스 장애 이후 AI 기반 변경 사항에 수석 엔지니어 최종 승인 의무화

아마존은 최근 AI 코딩 도구 활용 과정에서 발생한 6시간 및 13시간 규모의 서비스 장애를 계기로, 주니어 엔지니어의 AI 기반 코드 변경 시 수석 엔지니어의 최종 승인을 의무화했습니다. 데이브 트레드웰(Dave Treadwell) 부사장은 생성형 AI의 안전장치가 미비한 점을 지적하며 가용성 회복을 위한 긴급 대응책을 발표했습니다.

AI 요약

아마존의 이커머스 사업부는 최근 발생한 일련의 서비스 중단 사태와 AI 코딩 도구 사용 간의 연관성을 분석하기 위해 엔지니어 그룹을 대상으로 긴급 '딥 다이브' 회의를 소집했습니다. 데이브 트레드웰(Dave Treadwell) 수석 부사장은 직원들에게 보낸 이메일을 통해 최근 웹사이트 가용성이 좋지 않았음을 인정하며, 특히 생성형 AI를 활용한 변경 사항이 사고의 주요 기여 요인 중 하나라고 지목했습니다. 이번 달 초 아마존 쇼핑 앱과 웹사이트는 잘못된 코드 배포로 인해 약 6시간 동안 마비되었으며, 작년 12월에는 AWS 비용 계산기가 AI 도구인 'Kiro'의 오작동으로 13시간 동안 중단된 바 있습니다. 이에 따라 아마존은 주니어 및 중간급 엔지니어가 AI의 도움을 받아 작성한 모든 코드 변경에 대해 수석 엔지니어의 승인을 받도록 하는 엄격한 통제 정책을 도입했습니다. 이는 AI 코딩의 생산성보다 인프라의 안정성을 우선시하겠다는 강력한 의지로 풀이됩니다.

핵심 인사이트

  • 대규모 장애 발생: 이번 달 아마존 웹사이트와 쇼핑 앱은 잘못된 코드 배포로 인해 약 6시간 동안 결제 및 계정 접근이 불가능한 장애를 겪었습니다.
  • AWS AI 사고 사례: 작년 12월 중순, AWS 중국 리전에서 'Kiro' AI 코딩 도구가 환경을 삭제하고 재구축하는 과정에서 비용 계산기 서비스가 13시간 동안 중단되었습니다.
  • 책임자 명시: 마이크로소프트 출신의 엔지니어링 전문가인 데이브 트레드웰(Dave Treadwell) 수석 부사장이 이번 가용성 개선 프로젝트를 주도하고 있습니다.
  • 사고 등급 상승: 아마존 엔지니어들 사이에서 즉각적인 대응이 필요한 고위험 사고 등급인 'Sev2s'의 발생 빈도가 최근 눈에 띄게 증가했습니다.

주요 디테일

  • 승인 프로세스 강화: 주니어 및 중간급 엔지니어는 이제 AI의 지원을 받은 모든 변경 사항에 대해 상급 엔지니어의 공식적인 승인(Sign-off)을 받아야 합니다.
  • TWiST 회의 필수화: 매주 열리는 'This Week in Stores Tech(TWiST)' 회의가 평소 자율 참석에서 필수 참석으로 변경되었으며, 사고 원인에 대한 심층 분석이 진행됩니다.
  • AI의 오작동 메커니즘: AWS 사고의 경우, AI 코딩 도구가 특정 변경을 수행하는 과정에서 최적의 방법으로 '기존 환경 삭제 후 재생성'을 선택하면서 장시간 장애를 유발했습니다.
  • 안전장치 부재: 아마존 내부 문건은 생성형 AI 활용에 있어 '모범 사례(Best Practices)'와 '안전장치(Safeguards)'가 아직 완전히 확립되지 않았음을 사고의 주요 배경으로 꼽았습니다.
  • 비즈니스 영향: 6시간의 장애 동안 고객들은 상품 가격 확인, 계정 정보 조회, 거래 완료 등 핵심 기능을 전혀 사용할 수 없었습니다.

향후 전망

  • AI 가드레일 강화: 아마존은 내부 AI 코딩 도구인 Kiro 등에 더욱 엄격한 기술적 제한과 검증 알고리즘을 추가할 것으로 예상됩니다.
  • 업계 표준 변화: 대규모 인프라를 운영하는 빅테크 기업들 사이에서 AI 생성 코드의 자동 배포를 제한하고 인간의 검토를 강화하는 추세가 확산될 가능성이 큽니다.
Share

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...

아마존, 서비스 장애 이후 AI 기반 변경 사항에 수석 엔지니어 최종 승인 의무화 | paper!