어텐션 메커니즘만으로 충분하다
Attention Is All You Need
Ashish Vaswani, Noam Shazeer, Niki Parmar 외 5인·발표 2025.08· 6,578 인용
최근 1년 110회 인용· 분야 최상위
한국어 핵심 요약
기존의 지배적인 시퀀스 변환 모델들은 인코더-디코더 구조의 복잡한 순환 또는 컨볼루션 신경망을 기반으로 하며, 최신 모델들은 어텐션 메커니즘을 통해 인코더와 디코더를 연결했습니다. 본 연구는 순환 및 컨볼루션을 완전히 배제하고 오직 어텐션 메커니즘에만 기반한 새로운 신경망 아키텍처인 트랜스포머(Transformer)를 제안합니다.
두 가지 기계 번역 태스크에 대한 실험 결과, 트랜스포머 모델은 기존 모델들보다 우수한 번역 품질을 보였으며, 병렬화가 용이하여 훈련 시간이 현저히 단축되었습니다. 특히 WMT 2014 영어-독일어 번역 태스크에서 28.4 BLEU를 달성하여 기존 최고 앙상블 모델보다 2 BLEU 이상 향상된 성능을 기록했습니다.
또한, WMT 2014 영어-프랑스어 번역 태스크에서는 8개의 GPU로 3.5일 훈련 후 41.8 BLEU라는 새로운 단일 모델 최고 기록을 수립했습니다. 이는 기존 최고 모델들의 훈련 비용에 비해 극히 일부에 불과합니다. 트랜스포머는 대규모 및 제한된 훈련 데이터 모두에서 영어 구성요소 파싱(constituency parsing)에 성공적으로 적용되어 다른 태스크에도 잘 일반화됨을 입증했습니다.
이 연구는 어텐션 메커니즘만으로도 시퀀스 변환 태스크에서 최첨단 성능을 달성할 수 있음을 보여주며, 향후 자연어 처리 모델 설계에 새로운 방향을 제시합니다.
섹션 미리보기
연구 배경
기존 시퀀스 변환 모델은 복잡한 순환/컨볼루션 신경망과 어텐션 메커니즘을 사용합니다. 본 연구는 이러한 복잡성을 줄이고, 오직 어텐션 메커니즘만을 활용한 새로운 아키텍처를 제안합니다.
핵심 발견
트랜스포머 모델은 기계 번역에서 기존 최고 모델들을 능가하는 성능을 보였습니다. 훈련 시간 단축 및 병렬화 용이성도 확인되었으며, 다양한 NLP 태스크에 성공적으로 일반화될 수 있음을 입증했습니다.
관련 컴퓨터 과학 논문
임베딩 가설: 푸리에 회로에서 No-Q 어텐션까지
2026·327
나선형 시간: 시공간 재해석 및 머신러닝 응용
2026·178
추상 함수 언어 논리: 역설 없는 추론
2025·581
비선형 시스템의 보편적 기하학적 조직화 법칙
2026·58