사고의 환상: 대규모 추론 모델의 한계
The Illusion of Thinking
Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh 외 3인·SuperIntelligence - Robotics - Safety & Alignment·발표 2025.09· 119 인용
최근 1년 119회 인용· 분야 최상위· 떠오르는 연구
한국어 핵심 요약
최근 대규모 언어 모델(LLM)은 답변 도출 전 상세한 사고 과정을 생성하는 대규모 추론 모델(LRM)을 도입하며 추론 벤치마크에서 성능 향상을 보였습니다. 그러나 이러한 모델의 근본적인 능력, 스케일링 특성, 그리고 한계는 아직 충분히 이해되지 않고 있습니다. 기존 평가는 주로 최종 답변의 정확성에 초점을 맞추며 데이터 오염 문제와 추론 과정의 구조 및 품질에 대한 통찰력 부족이라는 한계를 가집니다.
본 연구는 이러한 간극을 체계적으로 탐구하기 위해 제어 가능한 퍼즐 환경을 활용했습니다. 이 환경은 일관된 논리 구조를 유지하면서 복잡성을 정밀하게 조작할 수 있게 하여, 최종 답변뿐만 아니라 내부 추론 과정까지 분석하여 LRM이 어떻게 ‘생각’하는지에 대한 통찰을 제공합니다.
다양한 퍼즐에 대한 광범위한 실험 결과, 최신 LRM은 특정 복잡성 수준을 넘어서면 정확도가 완전히 붕괴됨을 확인했습니다. 또한, 문제 복잡성이 증가함에 따라 추론 노력은 특정 지점까지 증가하다가 충분한 토큰 예산에도 불구하고 감소하는 직관에 반하는 스케일링 한계를 보였습니다. 표준 LLM과 LRM을 동일한 추론 연산량으로 비교한 결과, 세 가지 성능 구간이 식별되었습니다. 저복잡도 작업에서는 표준 모델이 LRM을 능가하고, 중복잡도 작업에서는 LRM의 추가적인 사고 과정이 이점을 보이며, 고복잡도 작업에서는 두 모델 모두 완전히 붕괴하는 양상을 보였습니다.
LRM은 정확한 계산에 한계가 있으며, 명시적 알고리즘을 활용하지 못하고 퍼즐 전반에 걸쳐 일관성 없는 추론을 보였습니다. 본 연구는 추론 과정과 모델의 계산 행동을 심층적으로 분석하여 LRM의 강점과 한계를 밝혀냈습니다.
섹션 미리보기
연구 배경
최신 대규모 추론 모델(LRM)은 상세한 사고 과정을 생성하여 추론 성능을 향상시켰습니다. 그러나 이들의 근본적인 능력과 한계는 여전히 불분명하며, 기존 평가는 최종 답변 정확성에만 치중하여 추론 과정의 질적 분석이 부족합니다.
핵심 발견
LRM은 특정 복잡도 이상에서 정확도가 급격히 저하되며, 추론 노력은 특정 지점 이후 감소하는 역직관적인 스케일링 한계를 보였습니다. 또한, 저복잡도에서는 표준 LLM이 LRM을 능가하는 반면, 고복잡도에서는 두 모델 모두 성능이 붕괴됩니다.
관련 컴퓨터 과학 논문
임베딩 가설: 푸리에 회로에서 No-Q 어텐션까지
2026·327
나선형 시간: 시공간 재해석 및 머신러닝 응용
2026·178
추상 함수 언어 논리: 역설 없는 추론
2025·581
비선형 시스템의 보편적 기하학적 조직화 법칙
2026·58