LLM의 소프트웨어 취약점 탐지 능력
Can Open Large Language Models Catch Vulnerabilities?
DeepSeek-AI, Daya Guo, Dejian Yang 외 5인·arXiv (Cornell University)·발표 2025.01· 488 인용
최근 1년 485회 인용· 분야 최상위· 떠오르는 연구
한국어 핵심 요약
보안 소프트웨어 개발에 대규모 언어 모델(LLM)이 통합되면서, 이 모델들이 단순히 취약한 코드를 탐지하는 것을 넘어 표준화된 분류 체계에 따라 취약점을 안정적으로 분류할 수 있는지에 대한 의문이 제기됩니다. 본 연구는 Llama3, Codestral, Deepseek R1 세 가지 최신 LLM을 대상으로, Big-Vul 데이터셋의 선별된 하위 집합과 8가지 대표적인 CWE(Common Weakness Enumeration) 범주를 활용하여 체계적인 평가를 수행했습니다.
폐쇄형 분류 설정을 통해 각 모델의 취약점 존재 식별 및 정확한 CWE 레이블 매핑 성능을 평가했습니다. 연구 결과, 높은 탐지율과 현저히 낮은 분류 정확도 사이에 뚜렷한 대조가 나타났으며, 과도한 일반화와 오분류가 빈번하게 발생했습니다.
또한, 모델별 편향과 일반적인 실패 모드를 분석하여, 현재 LLM이 미세한 보안 추론을 수행하는 데 있어 한계를 밝혀냈습니다. 이러한 통찰은 LLM이 교육 보조 도구로 채택되고 있음에도 불구하고 그 한계가 명확히 이해되어야 하는 교육 환경에서 특히 중요합니다.
학생들 사이에서 오개념이 확산되는 것을 방지하기 위해 LLM의 동작에 대한 미묘한 이해가 필수적입니다. 본 연구 결과는 LLM이 보안에 민감한 환경에 안정적으로 배포되기 전에 해결해야 할 주요 과제를 제시합니다.
섹션 미리보기
연구 배경
소프트웨어 개발에 LLM이 깊이 통합되면서, 이 모델들이 단순히 취약 코드를 탐지하는 것을 넘어 표준화된 분류 체계에 따라 취약점을 안정적으로 분류할 수 있는지에 대한 의문이 제기됩니다. 본 연구는 LLM의 취약점 탐지 및 분류 능력을 체계적으로 평가합니다.
핵심 발견
최신 LLM들이 취약점 탐지에서는 높은 성능을 보였으나, CWE 분류 정확도는 현저히 낮았습니다. 이는 LLM이 미세한 보안 추론에 한계가 있음을 시사하며, 보안 민감 환경 배포 전 해결해야 할 과제를 드러냅니다.
관련 컴퓨터 과학 논문
의료 SAM 어댑터: 의료 영상 분할 적용
2025·332
어포던스 컴파일 지능: LLM 시스템의 인지 임피던스 매칭
2026·2,990
오픈소스 API 취약점 탐지 및 PoC 마이그레이션
2025·16,167
쿨백-라이블러 발산 위한 Kd-트리
2025·2,154