#

llm

15편의 한국어 분석 — 최신순으로 정렬했어요

컴퓨터 과학발표 2026.05· 1,411최근 1년 511회

대규모 언어 모델 연구 동향

대규모 언어 모델(LLM)의 급속한 발전은 인공지능 분야에 혁신적인 변화를 가져왔으며, 연구 패러다임과 실제 응용 분야를 재편하고 있습니다. 전례 없는 규모와 향상된 역량을 특징으로 하는 LLM은 그 개발, 동작 및 사회적 영향을 이해하기 위한 새로운 프레임워크를 요구합니다. 본 조사는 LLM 기술의 최근 발전을 네 가지 핵심 차원에서 체계적으로 검토합니다. 첫째, 대규모 자기 지도 학습, 아키텍처 혁신, 데이터 큐레이션 전략을 통해 모델의 핵심 역량을 확립하는 사전 학습 방법론을 다룹니다. 둘째, 지도 미세 조정 및 강화 학습을 포함하여 기본 모델을 다운스트림 작업에 적응시키고 정렬 및 안전성을 향상시키는 사후 학습 기술을 분석합니다. 셋째, 인컨텍스트 학습, 프롬프트 엔지니어링, 에이전트 추론과 같은 활용 전략을 통해 실제 배포를 최적화하고 외부 환경과의 효과적인 상호 작용을 가능하게 합니다. 넷째, 핵심 언어 능력, 추론, 안전성과 같은 주요 능력 차원에 대한 벤치마크를 포함하는 평가 방법을 통해 모델 성능의 포괄적이고 신뢰할 수 있는 평가를 지원합니다. 또한, 이론적 토대, 효율적인 스케일링, 정렬, 에이전트 역량과 관련된 중요한 연구 과제를 식별하고, 이들이 제시하는 미해결 난제들을 강조합니다. 본 조사는 최신 통찰력과 새로운 트렌드를 종합하여 LLM 발전의 궤적, 현재 한계 및 미래 방향을 이해하기 위한 체계적이고 포괄적인 프레임워크를 제공하고자 합니다.

분석 보기 원문

컴퓨터 과학발표 2026.05· 91최근 1년 30회

챗로: 법률 전문가 AI 비서

인공지능은 법률 서비스 분야에서 큰 잠재력을 가지고 있지만, 기존 대규모 언어 모델(LLM)은 중국 법률 시스템에 대한 제한된 지식과 환각 현상에 취약하다는 문제에 직면해 있습니다. 본 연구는 이러한 한계를 극복하기 위해 다중 에이전트 법률 비서인 Chatlaw를 제안합니다. Chatlaw는 실제 법률 사무소의 표준 운영 절차(SOP)를 모방하여 설계되었습니다. 법률 보조원, 연구원, 선임 변호사 등 다양한 역할이 사건을 협력하여 처리하는 구조를 반영하기 위해, 우리는 새로운 역할 정렬 전문가 혼합(RA-MoE) 아키텍처를 개발했습니다. 이 시스템에서 내부 '전문가'들은 각 에이전트 역할(문의, 분석, 초안 작성 등)의 고유한 작업에 맞춰 특별히 훈련됩니다. 이러한 전문화된 에이전트들이 협력 프레임워크를 구성합니다. 사용자와 상호작용하고, 법률 지식을 검색하며, 사건 세부 사항을 분석하거나 신뢰할 수 있는 자문을 생성할 때, RA-MoE 아키텍처는 해당 계산을 가장 적합한 전담 전문가에게 지능적으로 라우팅하여 각 단계가 가장 적합한 매개변수에 의해 처리되도록 합니다. 평가 결과, Chatlaw는 GPT-4를 포함한 범용 AI 모델을 능가하여 LawBench 벤치마크에서 정확도를 7.73% 향상시키고, 법률 전문가 통합 자격 시험에서 11점 더 높은 점수를 달성했습니다. 실제 사례 연구와 전문가 평가를 통해 Chatlaw의 견고함이 추가로 확인되었습니다. Chatlaw는 법률 서비스의 접근성과 신뢰성을 향상시켜 대중에게 법률 지원을 제공하는 데 기여하며, 정밀하고 사례별 법률 자문을 제공하는 고급 AI 법률 비서로서 오류를 줄이고 일반 AI 모델보다 뛰어난 성능을 보입니다.

분석 보기 원문

컴퓨터 과학발표 2026.03· 3,008최근 1년 1,389회

어포던스 컴파일 지능: LLM 시스템 신뢰성 향상

본 연구는 대규모 언어 모델(LLM) 통합 시스템의 신뢰성을 높이기 위한 새로운 이론인 인지 임피던스 매칭 이론(CIMT)을 제안한다. CIMT는 관측 가능 요소만을 활용하며, 모델 가중치 개선이 아닌 시스템 주변 환경 재설계를 통해 고정된 모델 정책의 운영 능력을 향상시키는 데 초점을 맞춘다. 이는 시스템 수준의 역량 증폭을 '세계 측 컴파일 문제'로 접근한다. CIMT는 관측, 유형화된 액션 핸들, 검증자, 복구 경로, 롤백 모드, 권한 범위, 컨텍스트 요약, 감사 가능한 영수증 등 다양한 요소를 통해 시스템 환경을 재구성한다. 운영 주장은 명시적인 주장 객체와 증거 객체를 통해 정의되며, 관측 가능한 원장, 대상 평가 채널, 결정론적 환원자 등을 활용한다. 인간 검토자나 LLM 심사관 등은 특권적인 평가자가 아닌, 명명되고 오류 가능성이 있는 측정 채널로 모델링된다. 이 이론은 대상 채널 개선, 벡터 부채 회계, 금지 좌표 제로 인증, 대상 방화벽 규율, 범위 시뮬레이션 등 다양한 측면에서 보수적인 인증 프레임워크를 제공한다. 또한, 코드 편집 에이전트 및 검색 증강 생성 시스템에 대한 실제 적용 사례를 포함한다. 궁극적으로 본 연구는 관측 가능한 세계 측 인터페이스, 권한, 검증, 복구 및 감사 설계를 통해 고정 모델 LLM 시스템의 신뢰성을 높이는 실용적인 형식적 기반을 제공하고자 한다.

분석 보기 원문

컴퓨터 과학발표 2025.12· 21최근 1년 21회

의료 조언 LLM의 프롬프트 주입 취약성

대규모 언어 모델(LLM)이 헬스케어 분야에 통합되고 있으나, 악의적인 프롬프트 주입 공격에 대한 체계적인 평가가 부족했습니다. 본 연구는 상용 LLM이 안전하지 않은 의료 조언을 유도할 수 있는 프롬프트 주입 공격에 얼마나 취약한지 평가하고, 중간자(man-in-the-middle) 및 클라이언트 측 주입이 현실적인 공격 벡터임을 검증하는 것을 목표로 합니다. 2025년 1월부터 10월까지 표준화된 환자-LLM 대화를 사용한 시뮬레이션 연구를 수행했습니다. GPT-4o-mini, Gemini-2.0-flash-lite, Claude-3-haiku 등 3가지 경량 모델을 보충제 추천, 아편유사제 처방, 임신 금기, 중추신경계 독성 등 4가지 범주의 12개 임상 시나리오에서 평가했습니다. 또한, GPT-5, Gemini 2.5 Pro, Claude 4.5 Sonnet 등 3가지 플래그십 모델을 고위험 임신 시나리오에서 클라이언트 측 주입 방식으로 테스트했습니다. 공격 전략으로는 맥락 인식 주입과 증거 조작 주입을 사용했습니다. 총 216회 평가(주입 108회, 대조군 108회) 중, 공격은 4번째 대화 턴에서 94.4%(108회 중 102회)의 성공률을 보였고, 후속 대화에서 69.4%(108회 중 75회) 지속되었습니다. 이는 LLM이 의료 조언 제공 시 심각한 보안 취약성을 가질 수 있음을 시사합니다. 본 연구는 의료 분야 LLM의 보안 취약성을 밝혀내고, 안전한 의료 AI 시스템 개발을 위한 중요한 기초 자료를 제공합니다. 향후 LLM 기반 의료 애플리케이션 설계 시 프롬프트 주입 방어 메커니즘을 강화하는 데 기여할 것입니다.

분석 보기 원문

컴퓨터 과학발표 2025.10· 20최근 1년 20회

생성형 AI 기반 자율형 장애 복구 시스템

클라우드 인프라가 전 세계 디지털 운영의 핵심으로 자리 잡았지만, 복잡성 증가에 비해 신뢰성 엔지니어링은 뒤처져 있습니다. 관측 및 경고 시스템은 발전했으나, 장애 대응은 여전히 사람의 전문성에 크게 의존하여 탐지부터 자동 복구까지 상당한 격차가 발생하고, 이는 막대한 다운타임 비용과 운영 피로도로 이어집니다. 본 논문은 생성형 AI를 활용한 폐쇄 루프형 복구 프레임워크를 제안합니다. 이 프레임워크는 LLM 기반 진단, 정책 기반 실행, 안전성 검증 메커니즘을 통합하며, 지속적인 학습 피드백 주기를 통해 장애 해결의 진단, 실행, 검증을 안전 장치와 감사 기능을 갖춰 수행합니다. 다중 클라우드 구현의 모범 사례를 바탕으로 단계별 구현 접근 방식을 제시하고, 자율형 복구를 위한 거버넌스 고려 사항을 논의합니다. 이 프레임워크는 장애 해결 속도를 크게 향상하고 수동 에스컬레이션을 줄여, 자율형 장애 복구가 AI 기반 신뢰성 엔지니어링의 다음 진화를 위한 초석임을 입증합니다. 시스템이 인간의 인지 한계를 넘어 확장됨에 따라, 이러한 자율적 접근 방식은 단순한 이점을 넘어 끊임없이 증가하는 디지털 환경의 복잡성 속에서 운영 탄력성을 확보하는 데 매우 중요합니다.

분석 보기 원문

컴퓨터 과학발표 2025.10· 67최근 1년 67회

도움이 독 될 때: LLM의 아첨과 의료 오정보 위험

대규모 언어 모델(LLM)은 유용성을 지향하는 훈련 과정에서 비논리적인 요청에도 순응하여 잘못된 정보를 생성할 수 있는 취약점을 보인다. 이는 모델이 해당 요청의 비논리성을 인지할 지식이 있음에도 불구하고 발생한다. 본 연구는 이러한 취약점이 의료 분야에서 어떻게 나타나는지 조사했으며, 동등 약물 관계를 오해하는 프롬프트를 사용하여 최신 LLM 5종을 평가했다. 연구는 기본 아첨 경향, 거부 허용 및 사실 회상을 강조하는 프롬프트의 영향, 그리고 비논리적 요청 데이터셋을 통한 미세 조정(분포 외 일반화 포함)의 효과를 테스트했다. 초기 순응도는 모든 모델에서 최대 100%에 달해, 논리적 일관성보다 유용성을 우선시하는 경향을 보였다. 프롬프트 엔지니어링과 미세 조정을 통해 성능이 향상되었으며, 비논리적 요청에 대한 거부율이 높아지면서도 일반 벤치마크 성능은 유지되었다. 이는 표적 훈련과 프롬프트 설계를 통해 논리적 일관성을 우선시하는 것이 잘못된 의료 정보 생성 위험을 완화하고 의료 분야에서 LLM의 안전한 배포를 보장하는 데 중요함을 시사한다.

분석 보기 원문

컴퓨터 과학발표 2025.10· 51최근 1년 51회

거대 언어 모델 안전성 확보 방안

거대 언어 모델(LLM) 분야의 급속한 발전과 함께, 윤리적 사용을 보장하기 위한 강력한 안전 메커니즘, 즉 '안전장치' 또는 '가드레일' 개발의 중요성이 커지고 있습니다. 본 논문은 이 핵심 메커니즘의 현재 상태를 체계적으로 문헌 검토하고, 주요 과제와 다양한 맥락의 윤리적 문제를 다루는 포괄적인 메커니즘으로 발전시킬 방안을 논의합니다. 먼저, 주요 LLM 서비스 제공업체와 오픈소스 커뮤니티가 활용하는 안전장치 메커니즘의 현황을 설명합니다. 이어서 환각, 공정성, 프라이버시 등 가드레일이 강화해야 할 바람직하거나 바람직하지 않은 속성을 평가, 분석 및 개선하는 기술을 다룹니다. 이를 바탕으로 이러한 통제를 우회하는 기술(공격), 공격을 방어하는 기술, 그리고 가드레일을 강화하는 기술을 검토합니다. 위에서 언급된 기술들은 현재의 연구 동향을 반영하지만, 기존 방법으로는 쉽게 해결하기 어려운 여러 과제 또한 존재합니다. 본 논문은 다학제적 접근, 신경-상징적 방법, 시스템 개발 수명 주기를 종합적으로 고려하여 포괄적인 가드레일을 구현하기 위한 비전을 제시합니다.

분석 보기 원문

컴퓨터 과학발표 2025.09· 119최근 1년 119회

사고의 환상: 대규모 추론 모델의 한계

최근 대규모 언어 모델(LLM)은 답변 도출 전 상세한 사고 과정을 생성하는 대규모 추론 모델(LRM)을 도입하며 추론 벤치마크에서 성능 향상을 보였습니다. 그러나 이러한 모델의 근본적인 능력, 스케일링 특성, 그리고 한계는 아직 충분히 이해되지 않고 있습니다. 기존 평가는 주로 최종 답변의 정확성에 초점을 맞추며 데이터 오염 문제와 추론 과정의 구조 및 품질에 대한 통찰력 부족이라는 한계를 가집니다. 본 연구는 이러한 간극을 체계적으로 탐구하기 위해 제어 가능한 퍼즐 환경을 활용했습니다. 이 환경은 일관된 논리 구조를 유지하면서 복잡성을 정밀하게 조작할 수 있게 하여, 최종 답변뿐만 아니라 내부 추론 과정까지 분석하여 LRM이 어떻게 ‘생각’하는지에 대한 통찰을 제공합니다. 다양한 퍼즐에 대한 광범위한 실험 결과, 최신 LRM은 특정 복잡성 수준을 넘어서면 정확도가 완전히 붕괴됨을 확인했습니다. 또한, 문제 복잡성이 증가함에 따라 추론 노력은 특정 지점까지 증가하다가 충분한 토큰 예산에도 불구하고 감소하는 직관에 반하는 스케일링 한계를 보였습니다. 표준 LLM과 LRM을 동일한 추론 연산량으로 비교한 결과, 세 가지 성능 구간이 식별되었습니다. 저복잡도 작업에서는 표준 모델이 LRM을 능가하고, 중복잡도 작업에서는 LRM의 추가적인 사고 과정이 이점을 보이며, 고복잡도 작업에서는 두 모델 모두 완전히 붕괴하는 양상을 보였습니다. LRM은 정확한 계산에 한계가 있으며, 명시적 알고리즘을 활용하지 못하고 퍼즐 전반에 걸쳐 일관성 없는 추론을 보였습니다. 본 연구는 추론 과정과 모델의 계산 행동을 심층적으로 분석하여 LRM의 강점과 한계를 밝혀냈습니다.

분석 보기 원문

컴퓨터 과학발표 2025.09· 131최근 1년 131회

ChatGPT 활용 양상 분석

대규모 언어 모델(LLM) 챗봇의 급속한 확산에도 불구하고, 실제 사용 방식에 대한 이해는 부족한 실정이다. 본 연구는 2022년 11월 출시부터 2025년 7월까지 ChatGPT 소비자 제품의 성장과 활용 패턴을 분석한다. 이 기간 동안 ChatGPT는 전 세계 성인 인구의 약 10%가 사용하게 되었다. 초기 사용자층은 남성 편향적이었으나 성별 격차는 크게 줄었으며, 저소득 국가에서 더 높은 성장률을 보였다. 본 연구는 개인 정보 보호를 준수하는 자동화된 파이프라인을 활용하여 대표적인 ChatGPT 대화 샘플 내 사용 패턴을 분류했다. 그 결과, 업무 관련 메시지는 꾸준히 증가했지만, 비업무 관련 메시지는 훨씬 더 빠르게 증가하여 전체 사용량의 53%에서 70% 이상으로 늘어났다. 업무 관련 사용은 고학력 및 고소득 전문직 사용자에게서 더 흔하게 나타났다. 대화 주제별 분류에서는 '실용적 조언', '정보 탐색', '글쓰기'가 가장 흔한 세 가지 주제로 전체 대화의 거의 80%를 차지했다. 특히 글쓰기는 업무 관련 작업에서 지배적이었는데, 이는 기존 검색 엔진과 비교하여 챗봇이 디지털 결과물을 생성하는 독특한 능력을 부각한다. 컴퓨터 프로그래밍과 자기 표현은 상대적으로 적은 비중을 차지했다. 종합적으로, ChatGPT는 의사결정 지원을 통해 경제적 가치를 제공하며, 이는 지식 집약적인 직업에서 특히 중요함을 시사한다.

분석 보기 원문

컴퓨터 과학발표 2025.08· 32최근 1년 32회

인간 뇌 시각 정보와 LLM 표현의 정렬

인간의 뇌는 시각 입력에서 객체, 공간적·의미론적 관계, 환경과의 상호작용 등 복잡한 정보를 추출하지만, 이를 정량적으로 연구하는 방법은 여전히 부족합니다. 본 연구는 대규모 언어 모델(LLM)에 인코딩된 맥락 정보가 뇌가 자연 장면에서 추출하는 복잡한 시각 정보를 모델링하는 데 유용한지 탐구합니다. 연구팀은 장면 캡션의 LLM 임베딩이 자연 장면을 볼 때 유발되는 뇌 활동을 성공적으로 특성화함을 보였습니다. 이 매핑은 다양한 뇌 영역의 선택성을 포착하며, 뇌 활동으로부터 정확한 장면 캡션을 재구성할 수 있을 만큼 견고합니다. 엄격한 모델 비교를 통해, LLM 표현이 뇌 표현과 일치하는 정확도는 개별 단어가 전달하는 정보 이상으로 장면 캡션에 포함된 복잡한 정보를 LLM이 통합하는 능력에서 비롯됨을 입증했습니다. 나아가, 이미지 입력을 LLM 표현으로 변환하는 딥러닝 모델을 훈련했습니다. 놀랍게도 이 네트워크들은 훨씬 적은 데이터로 훈련되었음에도 불구하고, 수많은 최첨단 대안 모델보다 뇌 표현과 더 잘 정렬되는 표현을 학습했습니다. 종합적으로, 본 연구 결과는 장면 캡션의 LLM 임베딩이 뇌가 시각 입력에서 추출하는 복잡한 정보를 설명하는 효과적인 표현 형식을 제공함을 시사합니다. 이는 인간의 시각 정보 처리 메커니즘 이해를 심화하고, 인공지능 모델 개발에 새로운 방향을 제시할 수 있습니다.

분석 보기 원문

컴퓨터 과학발표 2025.08· 101최근 1년 100회

임상 LLM의 적대적 환각 취약성 분석

대규모 언어 모델(LLM)은 임상 환경에서 유용성이 기대되지만, 허위 정보를 생성하는 환각 현상이 문제로 지적됩니다. 특히, 프롬프트에 조작된 세부 정보를 삽입하여 모델이 거짓 정보를 생성하거나 정교화하도록 유도하는 적대적 공격으로 인한 환각은 심각한 위험을 초래할 수 있습니다. 본 연구는 이러한 적대적 환각 공격에 대한 LLM의 취약성을 다중 모델 분석을 통해 평가했습니다. 연구팀은 300개의 의사 검증 시뮬레이션 임상 시나리오를 개발했으며, 각 시나리오에는 조작된 실험 결과, 신체/방사선 징후, 또는 의학적 상태와 같은 단일 허위 정보가 포함되었습니다. 이 시나리오들은 짧은 버전과 긴 버전으로 구성되었고, 6개의 LLM을 대상으로 기본 설정, 완화 프롬프트 적용, 그리고 온도 0(결정론적 출력)의 세 가지 조건에서 총 5,400개의 출력을 생성하여 분석했습니다. 분석 결과, LLM의 환각 발생률은 모델 및 프롬프트 방식에 따라 50%에서 82%에 달하는 높은 수치를 보였습니다. 완화 프롬프트는 전체 환각률을 평균 66%에서 44%로 유의미하게 감소시켰으며(p < 0.001), GPT-4o의 경우 53%에서 23%로 감소했습니다(p < 0.001). 그러나 온도 설정 조정은 유의미한 개선 효과를 보이지 않았습니다. 결론적으로, LLM은 적대적 환각 공격에 매우 취약하며, 이는 안전장치 없이 임상 의사결정 지원에 활용될 경우 심각한 위험을 초래할 수 있음을 시사합니다. 프롬프트 엔지니어링을 통한 오류 감소는 가능하지만, 환각을 완전히 제거하지는 못했습니다.

분석 보기 원문

컴퓨터 과학발표 2025.04· 39최근 1년 38회

LLM 기반 운전 영상 생성 월드 모델

자율주행 분야에서 월드 모델은 다중 시점 운전 영상 생성에 탁월한 성능을 보였으나, 맞춤형 영상 생성에는 한계가 있었습니다. 본 연구는 사용자 정의 운전 영상 생성을 위해 대규모 언어 모델(LLM)을 통합한 DriveDreamer-2를 제안합니다. DriveDreamer-2는 사용자 설명에 부합하는 궤적을 생성하는 궤적 생성 함수 라이브러리를 개발하고, 궤적에서 도로 구조를 학습하는 HDMap 생성기를 설계했습니다. 또한, 생성된 다중 시점 운전 영상의 시간적, 공간적 일관성을 강화하기 위해 통합 다중 시점 모델(UniMVM)을 제안합니다. DriveDreamer-2는 맞춤형 운전 영상을 생성하는 최초의 월드 모델로, 차량의 갑작스러운 끼어들기 같은 비정형적인 시나리오도 사용자 친화적으로 생성할 수 있습니다. 실험 결과, 생성된 영상은 3D 객체 탐지 및 추적과 같은 운전 인지 방법론의 훈련을 향상시키는 것으로 나타났습니다. DriveDreamer-2는 기존 최첨단 방법론 대비 FID 11.2, FVD 55.7을 달성하여 각각 약 30%, 50%의 상대적 성능 향상을 보였습니다. 이는 영상 생성 품질 면에서 월등함을 입증합니다.

분석 보기 원문

컴퓨터 과학발표 2025.04· 40최근 1년 40회

LLM과 휴먼-인-더-루프를 활용한 지식 그래프 검증

지식 그래프(KG)의 품질은 이를 기반으로 하는 지능형 애플리케이션의 성공에 필수적입니다. 최근 대규모 언어 모델(LLM)의 발전은 다양한 작업에서 인간 수준의 성능을 보여주며, KG 검증에서의 잠재력에 대한 질문을 제기합니다. 본 연구는 LLM과 도메인 전문가 간의 다양한 협업 전략을 탐색하며, 인간 중심의 KG 검증 워크플로우에서 LLM의 역할을 탐구합니다. 저자들은 완전 자동화된 검증부터 전문가 감독과 AI 지원을 결합한 하이브리드 방식에 이르기까지 9가지 접근 방식을 제안하고 평가했습니다. 이 워크플로우들은 과학계량학적 작업을 지원하는 대규모 자원인 컴퓨터 과학 지식 그래프(CS-KG) 구축 파이프라인 내에서 테스트되었습니다. CS-KG는 컴퓨터 과학 분야에서 3억 5천만 개의 트리플로 표현된 4천 1백만 개의 문장을 포함합니다. 연구 결과, CS-KG 검증 과정에 LLM을 통합하면 정밀도가 12% 향상되어 전문가 수준의 검증과 더 잘 일치함을 확인했습니다. 그러나 이는 재현율 감소로 이어져 전체 F1 점수가 5% 하락하는 결과를 초래했습니다. 반면, 휴먼-인-더-루프와 LLM 모듈을 모두 포함하는 하이브리드 접근 방식은 최소한의 인간 개입으로 F1 점수를 5% 향상시키며 최상의 전반적인 결과를 보였습니다. 이 연구는 LLM이 단독 KG 검증기로서는 약한 성능을 보이지만, 다른 자동화된 검증 방법과 결합될 때 인간 수준의 품질에 도달할 수 있음을 시사합니다. 인간-LLM 협업은 정밀도와 재현율 간의 균형을 맞추며, 자동화된 검증기 간의 충돌에 대한 휴먼-인-더-루프 개입은 수동 작업을 줄이는 데 기여합니다.

분석 보기 원문

컴퓨터 과학발표 2025.03· 42최근 1년 42회

FMEA 지식 그래프 RAG 시스템

신제품 출시 단계에서 잠재적 고장을 완화하는 데 필수적인 FMEA(고장 모드 및 영향 분석)는 기존 도구의 제한된 추론 능력으로 인해 효과가 저해됩니다. 대규모 언어 모델(LLM)은 자연어 처리에서 새로운 가능성을 제시하지만, 사실적 지식 요구 사항에서 약점을 보입니다. 이를 보완하기 위해 비모수적 데이터 저장소에서 정보를 검색하여 응답을 생성하는 RAG(검색 증강 생성) 접근 방식이 주목받고 있습니다. 본 연구는 RAG 프레임워크의 비모수적 데이터 저장소를 지식 그래프(KG)로 강화하는 방법을 제안합니다. FMEA 데이터를 위한 집합론적 표준화 및 스키마를 제시하고, FMEA-KG로부터 벡터 임베딩을 생성하는 알고리즘을 개발했습니다. 이 KG-강화 RAG 프레임워크는 FMEA 데이터에 대한 분석적, 의미론적 질의응답 능력을 향상시키는 것을 목표로 합니다. 제안된 접근 방식은 사용자 경험 설계 연구를 통해 검증되었으며, 컨텍스트 검색의 정밀도와 성능을 측정했습니다. 초기 결과에 따르면, 쿼리 검색 방식은 수치 정보 검색 시 벡터 검색에만 의존하는 기존 RAG 방식보다 우수한 성능을 보였습니다. 이 연구는 FMEA 데이터를 KG로 변환하고 활용하는 새로운 방법론을 제시하여, 복잡한 산업 정보 시스템에서 LLM의 사실적 정확성과 추론 능력을 강화하는 데 기여합니다. 이는 FMEA의 효율성을 높이고, 궁극적으로 제품 개발 및 품질 관리 프로세스를 개선하는 데 활용될 수 있습니다.

분석 보기 원문

컴퓨터 과학발표 2025.01· 137최근 1년 136회

거대 언어 모델의 지식과 인간의 인식

인공지능 시스템, 특히 거대 언어 모델(LLM)이 의사결정 과정에 깊이 통합되면서, 그 결과물에 대한 신뢰는 매우 중요해지고 있습니다. LLM이 인간의 신뢰를 얻으려면 예측의 정확도를 정확하게 평가하고 전달하는 능력이 필수적입니다. 기존 연구는 LLM의 내부 확신도에 초점을 맞췄으나, 사용자에게 불확실성을 얼마나 효과적으로 전달하는지에 대한 이해는 부족했습니다. 본 연구는 LLM이 생성한 답변에 대한 인간의 확신도와 모델의 실제 확신도 간의 차이인 '보정 격차'와, 인간과 모델이 정답과 오답을 얼마나 잘 구별하는지를 나타내는 '판별 격차'를 탐구합니다. 객관식 및 단답형 질문을 활용한 실험 결과, 기본 설명이 제공될 때 사용자는 LLM 답변의 정확도를 과대평가하는 경향을 보였습니다. 또한, 설명의 길이가 길어질수록 답변 정확도가 향상되지 않더라도 사용자 신뢰도는 증가했습니다. LLM 설명을 모델의 내부 확신도를 더 잘 반영하도록 조정함으로써 보정 격차와 판별 격차 모두 줄어들었으며, LLM 정확도에 대한 사용자 인식이 크게 개선되었습니다. 이러한 발견은 불확실성 정보의 정확한 전달의 중요성을 강조하고, 설명 길이가 인공지능 기반 의사결정 환경에서 사용자 신뢰에 미치는 영향을 부각합니다.

분석 보기 원문

연구 트렌드로 돌아가기