기사 4: GLM 5.2, 벤치마크에서 Claude를 능가하다
AI 요약
Semgrep이 IDOR(불안전한 직접 객체 참조) 탐지 벤치마크에서 Zhipu AI의 오픈웨이트 모델 GLM 5.2가 Claude Code를 능가하는 결과를 발표했다. GLM 5.2는 39% F1 점수를 기록해 Claude Code(32%)를 앞질렀으며, 취약점 발견당 약 0.17달러의 비용 효율성을 보였다. GLM 5.2는 MIT 라이선스로 공개된 오픈웨이트 모델로, 보안 작업에 관심 있는 팀이 자체 하드웨어에서 실행하고 미세 조정할 수 있다는 장점이 있다.
핵심 포인트
- GLM 5.2, IDOR 탐지 벤치마크에서 39% F1 기록, Claude Code(32%) 능가
- 취약점 발견당 약 0.17달러의 낮은 비용 효율성
- MIT 라이선스로 공개된 오픈웨이트 모델로 자체 하드웨어 실행 및 미세 조정 가능
- Semgrep의 멀티모달 파이프라인(53-61% F1)에는 미치지 못했으나, 단순 프롬프트만으로 우수한 성능
향후 전망
- 오픈웨이트 모델의 보안 취약점 탐지 성능이 크게 향상되어, 보안 팀의 AI 활용 방식에 변화가 예상됨
