컴퓨터 과학발표 2025.01· 488최근 1년 485회

LLM의 소프트웨어 취약점 탐지 능력

보안 소프트웨어 개발에 대규모 언어 모델(LLM)이 통합되면서, 이 모델들이 단순히 취약한 코드를 탐지하는 것을 넘어 표준화된 분류 체계에 따라 취약점을 안정적으로 분류할 수 있는지에 대한 의문이 제기됩니다. 본 연구는 Llama3, Codestral, Deepseek R1 세 가지 최신 LLM을 대상으로, Big-Vul 데이터셋의 선별된 하위 집합과 8가지 대표적인 CWE(Common Weakness Enumeration) 범주를 활용하여 체계적인 평가를 수행했습니다. 폐쇄형 분류 설정을 통해 각 모델의 취약점 존재 식별 및 정확한 CWE 레이블 매핑 성능을 평가했습니다. 연구 결과, 높은 탐지율과 현저히 낮은 분류 정확도 사이에 뚜렷한 대조가 나타났으며, 과도한 일반화와 오분류가 빈번하게 발생했습니다. 또한, 모델별 편향과 일반적인 실패 모드를 분석하여, 현재 LLM이 미세한 보안 추론을 수행하는 데 있어 한계를 밝혀냈습니다. 이러한 통찰은 LLM이 교육 보조 도구로 채택되고 있음에도 불구하고 그 한계가 명확히 이해되어야 하는 교육 환경에서 특히 중요합니다. 학생들 사이에서 오개념이 확산되는 것을 방지하기 위해 LLM의 동작에 대한 미묘한 이해가 필수적입니다. 본 연구 결과는 LLM이 보안에 민감한 환경에 안정적으로 배포되기 전에 해결해야 할 주요 과제를 제시합니다.

분석 보기 원문