Caramel LabCaramel Lab

임상 LLM의 적대적 환각 취약성 분석

Multi-model assurance analysis showing large language models are highly vulnerable to adversarial hallucination attacks during clinical decision support

Mahmud Omar, Vera Sorin, Jeremy D. Collins 외 5인·Communications Medicine·발표 2025.08· 101 인용
최근 1년 100회 인용· 분야 최상위· 떠오르는 연구

한국어 핵심 요약

대규모 언어 모델(LLM)은 임상 환경에서 유용성이 기대되지만, 허위 정보를 생성하는 환각 현상이 문제로 지적됩니다. 특히, 프롬프트에 조작된 세부 정보를 삽입하여 모델이 거짓 정보를 생성하거나 정교화하도록 유도하는 적대적 공격으로 인한 환각은 심각한 위험을 초래할 수 있습니다. 본 연구는 이러한 적대적 환각 공격에 대한 LLM의 취약성을 다중 모델 분석을 통해 평가했습니다. 연구팀은 300개의 의사 검증 시뮬레이션 임상 시나리오를 개발했으며, 각 시나리오에는 조작된 실험 결과, 신체/방사선 징후, 또는 의학적 상태와 같은 단일 허위 정보가 포함되었습니다. 이 시나리오들은 짧은 버전과 긴 버전으로 구성되었고, 6개의 LLM을 대상으로 기본 설정, 완화 프롬프트 적용, 그리고 온도 0(결정론적 출력)의 세 가지 조건에서 총 5,400개의 출력을 생성하여 분석했습니다. 분석 결과, LLM의 환각 발생률은 모델 및 프롬프트 방식에 따라 50%에서 82%에 달하는 높은 수치를 보였습니다. 완화 프롬프트는 전체 환각률을 평균 66%에서 44%로 유의미하게 감소시켰으며(p < 0.001), GPT-4o의 경우 53%에서 23%로 감소했습니다(p < 0.001). 그러나 온도 설정 조정은 유의미한 개선 효과를 보이지 않았습니다. 결론적으로, LLM은 적대적 환각 공격에 매우 취약하며, 이는 안전장치 없이 임상 의사결정 지원에 활용될 경우 심각한 위험을 초래할 수 있음을 시사합니다. 프롬프트 엔지니어링을 통한 오류 감소는 가능하지만, 환각을 완전히 제거하지는 못했습니다.

섹션 미리보기

연구 배경

대규모 언어 모델(LLM)은 임상 분야에서 잠재력이 크지만, 허위 정보를 생성하는 '환각' 현상이 문제입니다. 특히, 프롬프트에 조작된 정보를 삽입하여 모델이 거짓을 생성하게 하는 적대적 환각 공격은 환자 안전에 심각한 위협이 될 수 있습니다.

핵심 발견

LLM의 적대적 환각 발생률은 50%에서 82%로 매우 높았습니다. 완화 프롬프트는 환각률을 66%에서 44%로 유의미하게 낮췄지만, 완전히 제거하지는 못했습니다. 온도 설정 조정은 개선 효과가 없었습니다.

전체 8개 섹션 분석

내가 읽고 있는 논문도 이렇게 정리해드릴게요

연구 배경 · 방법론 · 결과 · 한계점까지 8개 섹션 풀 분석. PDF 업로드 한 번이면 끝.

내 논문 분석하기

관련 컴퓨터 과학 논문

컴퓨터 과학 전체 보기