GLM 5.2, 벤치마크에서 Claude를 능가하다

Zhipu AI의 오픈웨이트 모델 GLM 5.2가 IDOR 탐지 벤치마크에서 F1 39%를 기록, Claude Code(32%)를 능가했다. 단순 프롬프트만으로도 취약점당 약 0.17달러의 비용으로 경쟁력 있는 성능을 보여, 보안 작업에서 오픈소스 모델의 가능성을 입증했다.

기사 4: GLM 5.2, 벤치마크에서 Claude를 능가하다

AI 요약

Semgrep이 IDOR(불안전한 직접 객체 참조) 탐지 벤치마크에서 Zhipu AI의 오픈웨이트 모델 GLM 5.2가 Claude Code를 능가하는 결과를 발표했다. GLM 5.2는 39% F1 점수를 기록해 Claude Code(32%)를 앞질렀으며, 취약점 발견당 약 0.17달러의 비용 효율성을 보였다. GLM 5.2는 MIT 라이선스로 공개된 오픈웨이트 모델로, 보안 작업에 관심 있는 팀이 자체 하드웨어에서 실행하고 미세 조정할 수 있다는 장점이 있다.

핵심 포인트

  • GLM 5.2, IDOR 탐지 벤치마크에서 39% F1 기록, Claude Code(32%) 능가
  • 취약점 발견당 약 0.17달러의 낮은 비용 효율성
  • MIT 라이선스로 공개된 오픈웨이트 모델로 자체 하드웨어 실행 및 미세 조정 가능
  • Semgrep의 멀티모달 파이프라인(53-61% F1)에는 미치지 못했으나, 단순 프롬프트만으로 우수한 성능

향후 전망

  • 오픈웨이트 모델의 보안 취약점 탐지 성능이 크게 향상되어, 보안 팀의 AI 활용 방식에 변화가 예상됨
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...