GitHub의 가짜 '스타(Star)' 경제와 조작 실태

카네기 멜런 대학교(CMU) 등의 공동 연구팀은 2019년부터 2024년까지 GitHub 내 18,617개 저장소에서 약 600만 개의 가짜 '스타(Star)' 조작 사례를 적발했으며, 특히 AI/LLM 관련 프로젝트가 주요 타겟인 것으로 나타났습니다. 가짜 스타는 개당 최저 0.03달러에 거래되며 벤처 캐피털(VC)의 투자 유치를 위한 지표 왜곡에 악용되고 있어, 미국 연방거래위원회(FTC)가 위반 건당 53,088달러의 벌금을 부과하는 등 강력한 규제에 나섰습니다.

AI 요약

GitHub의 '스타' 수치가 소프트웨어의 신뢰도를 넘어 벤처 캐피털(VC)의 투자 결정 지표로 활용되면서, 이를 인위적으로 조작하는 거대한 암시장이 형성되었습니다. ICSE 2026에서 발표될 예정인 CMU, 노스캐롤라이나 주립대, Socket의 공동 연구에 따르면 'StarScout' 도구를 통해 5년간 3억 2,600만 개의 스타를 분석한 결과 약 600만 개의 가짜 스타가 식별되었습니다. 특히 2024년 들어 조작 행위가 급증하여 스타 50개 이상인 저장소의 16.66%가 연루되었으며, AI 및 LLM 리포지토리가 블록체인을 제치고 가장 큰 조작 카테고리로 부상했습니다. 이러한 조작은 단순한 인기 과시를 넘어 수백만 달러 규모의 시드 투자를 이끌어내기 위한 수단으로 악용되고 있으며, 이에 따라 정부 차원의 법적 규제와 플랫폼의 자정 노력이 강화되고 있는 추세입니다.

핵심 인사이트

  • 대규모 조작 실태: 2019~2024년 사이 301,000개 계정을 동원해 18,617개 리포지토리에서 총 600만 개의 가짜 스타가 생성되었습니다.
  • AI/LLM 분야 집중: AI 관련 프로젝트에서 177,000개의 가짜 스타가 발견되며 블록체인 분야를 제치고 비악성 카테고리 중 최대 조작 대상을 기록했습니다.
  • 투자 지표 악용: VC인 Redpoint에 따르면 시드 단계의 중앙값 스타 수는 2,850개이며, 많은 투자사들이 스타 성장률을 자동 스크래핑하여 투자 소싱 신호로 활용하고 있습니다.
  • 플랫폼 교란: 조작된 스타를 통해 78개의 리포지토리가 GitHub Trending 목록에 진입하여 플랫폼의 유기적인 발견 알고리즘을 무력화했습니다.

주요 디테일

  • 저렴한 조작 비용: 가짜 스타는 전용 웹사이트, Fiverr, 텔레그램 등을 통해 개당 0.03달러에서 0.85달러(최저 약 0.06달러 수준)에 공개적으로 거래되고 있습니다.
  • 연구 데이터 규모: 연구팀은 20테라바이트의 GitHub 메타데이터와 67억 개의 이벤트를 분석하여 조작 패턴을 추적했습니다.
  • 높은 적중률: 분석 결과 조작 의심으로 분류된 리포지토리의 90.42%와 계정의 57.07%가 2025년 1월 기준 GitHub에 의해 이미 삭제된 상태입니다.
  • 법적 처벌 규정: FTC의 2024년 신설 규정에 따라 가짜 사회적 영향력 지표 사용 시 위반 건당 53,088달러의 과태료가 부과될 수 있으며, SEC는 이미 지표를 부풀린 스타트업 설립자를 기소한 사례가 있습니다.
  • 샘플링 분석: 20개 프로젝트를 대상으로 한 자체 분석 결과, 일부 리포지토리는 스타를 준 계정의 36~76%가 팔로워가 전혀 없는 유령 계정인 것으로 드러났습니다.

향후 전망

  • VC 실사 강화: 단순히 스타 숫자에 의존하던 방식에서 벗어나 포크 대비 스타 비율(Fork-to-Star ratio) 및 계정의 신뢰도를 검증하는 고도화된 실사 과정이 필수화될 것입니다.
  • 플랫폼 검증 도구 확산: 'StarScout'과 같은 분석 도구가 대중화되어 오픈소스 생태계의 투명성을 감시하는 역할을 할 것으로 예상됩니다.
  • 법적 책임 강화: 투자 유치를 목적으로 지표를 조작한 설립자들에 대한 SEC 및 FTC의 법적 조치가 더욱 빈번해질 전망입니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...