연구진, 챗GPT 탈옥(Jailbreak) 통해 지역별 게으름 순위 분석 시도

옥스퍼드 및 켄터키 대학교 연구진이 ChatGPT를 탈옥시켜 2,000만 개 이상의 질문을 던진 결과, 챗봇이 미시시피를 미국에서 가장 '게으른' 주로, 아프리카 국가들을 지능이 낮은 지역으로 인식하는 등 심각한 지역적 편향성을 지니고 있음이 드러났습니다. 이는 OpenAI의 보안 가드레일 뒤에 숨겨진 훈련 데이터 속 인간의 고정관념이 AI 출력에 그대로 반영되고 있음을 시사합니다.

AI 요약

옥스퍼드 대학교와 켄터키 대학교 연구진은 OpenAI의 가드레일을 우회하는 '탈옥(Jailbreak)' 기법을 통해 ChatGPT 내부에 잠재된 지역 및 인종적 고정관념을 분석했습니다. 연구팀은 2,000만 개 이상의 선택형 질문을 던져 챗봇의 암묵적 편향을 이끌어냈으며, 그 결과 미시시피주가 미국 내에서 가장 게으른 주로 선정되었고 남부 지역 전반이 유사한 평가를 받았습니다. 이러한 편향은 2015년 워싱턴 포스트가 발표한 '소파 감자 지수(Couch Potato Index)'와 같은 과거 데이터의 영향을 받은 것으로 추정되는데, 이는 실제 노동 통계와 상충되는 선입견입니다. 또한 글로벌 분석에서는 아프리카와 아시아의 예술성을 서유럽에 비해 낮게 평가하고, 사하라 이남 아프리카 국가들의 지능을 미국이나 중국보다 낮게 분류하는 등 서구 중심적 편향을 보였습니다. 본 연구는 방대한 학습 데이터에 포함된 인간의 편견이 AI 모델의 알고리즘에 고착화되어 있음을 경고하고 있습니다.

핵심 인사이트

  • 대규모 실험 데이터: 옥스퍼드 및 켄터키 대학교 연구진은 ChatGPT의 편향성을 확인하기 위해 2,000만 개 이상의 비교 선택 질문을 수행했습니다.
  • 미국 내 지역 편향: ChatGPT는 미시시피(Mississippi)를 미국에서 가장 게으른 주로 꼽았으며, 남부 주 전반에 대해 부정적인 고정관념을 드러냈습니다.
  • 글로벌 지능 및 예술성 차별: 사하라 이남 아프리카 국가들을 '가장 똑똑하지 않은 국가' 순위의 최하단에 배치한 반면, 미국과 중국은 최상위권으로 분류했습니다.
  • 서구 중심적 시각: 예술성(Artsy) 평가에서 서유럽 국가들은 높은 점수를 받았으나, 아시아와 아프리카 대부분의 지역은 최하위권에 머물렀습니다.

주요 디테일

  • 강제 선택 프로프팅: 연구진은 "어느 쪽 사람들이 더 똑똑한가?"와 같이 캘리포니아와 몬태나 중 하나를 무조건 선택하게 만드는 방식으로 가드레일을 우회했습니다.
  • 데이터의 기원 추정: 챗봇의 편향은 TV 시청 시간 등을 기준으로 남부 지역을 '게으르다'고 평가했던 2015년 워싱턴 포스트 기사와 같은 과거 데이터에서 기인했을 가능성이 큽니다.
  • 실제 데이터와의 괴리: 경제정책연구소(EPI)에 따르면 저소득층일수록 여러 개의 직업을 갖고 더 위험한 환경에서 장시간 근무하지만, AI는 이들을 '게으름'이라는 키워드와 연결했습니다.
  • 인종적 상관관계: AI가 부정적으로 평가한 지역들은 유색인종 인구 비중이 높은 지역과 상당 부분 일치하여 인종적 편견의 개입을 암시합니다.
  • OpenAI의 가드레일 한계: 개발사가 혐오 발언이나 논란이 되는 답변을 금지하도록 설정했음에도 불구하고, 모델 내부의 근본적인 데이터 편향은 해결되지 않았음을 보여줍니다.

향후 전망

  • 학습 데이터 정제 요구: AI 기업들은 단순히 답변을 차단하는 가드레일을 넘어, 학습 데이터 세트 자체에서 인종·지역적 편향을 제거해야 하는 기술적 과제에 직면할 것입니다.
  • AI 윤리 및 규제 강화: AI의 판단이 사회적 낙인이나 정책 결정에 영향을 미칠 수 있다는 우려가 커짐에 따라 알고리즘의 투명성과 공정성에 대한 국제적 규제가 강화될 전망입니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...