임베딩 가설: 푸리에 회로에서 No-Q 어텐션까지
The Embedding Hypothesis: From Fourier Circuits to No-Q Attention
Rigoni, Nathan·Zenodo (CERN European Organization for Nuclear Research)·발표 2026.03· 327 인용
최근 1년 38회 인용
한국어 핵심 요약
토큰 임베딩 레이어는 트랜스포머 어텐션의 기하학적 기반을 형성한다. 본 연구는 이 주장을 네 단계에 걸쳐 발전시킨다. 첫째, 임베딩 기울기에 나이퀴스트 주파수 모드를 부여하는 PFFT(Prescribed Fourier Frequency Training)가 모듈러 산술에서 그로킹(grokking) 도달 에포크를 92.7% 단축하고(782회→57회), 암기 단계를 97.9% 감소시킴을 보인다. 이는 임베딩의 기하학적 권위를 유지하고 기울기 노이즈를 줄여 달성된다.
둘째, Sounding Hammer 진단 결과, 기울기 영역 푸리에 조향(steering)은 BPE 어휘 기울기가 스펙트럼적으로 평탄하여(ρ=0.42) 언어 모델 임베딩에 안전하게 전이될 수 없음을 확인했다. 적용 시 BPC가 치명적으로 회귀(2.90→9.47)한다. 이에 푸리에 조향의 안전성을 특성화하는 NOC(Natural Ordering Conditions)를 도입한다.
셋째, 훈련 중 중요해지는 주파수 모드를 동적으로 추적하는 PFFT의 동적 변형인 FGP(Fourier Gradient Projection)를 일반적인 기울기 영역 도구로 제시한다. 이는 NOC의 제약을 공유한다. 넷째, TinyStories 및 FineWeb으로 훈련된 언어 모델의 가중치 궤적 분석을 통해 Q, K, V, MLP 등 모든 가중치 행렬이 잔여 연결을 통해 토큰 임베딩과 동일한 두 팔 형태의 궤적을 상속함을 발견했다.
이러한 보편적 상속성은 No-Q 어텐션을 제안하는 동기가 된다. 이는 모든 레이어에서 Q=x(투영 없음)로 설정하는 방식이다. W_Q가 없을 경우, 임베딩의 기하학적 구조가 어텐션 메커니즘에 직접 도달하며, W_Q와 임베딩 간의 경쟁적 기울기 간섭이 제거된다. No-Q 어텐션은 TinyStories에서 검증 BPC를 3.18%, FineWeb에서 2.24% 개선하며, 매개변수는 8% 적게 사용하고 모듈러 산술에서 그로킹을 51.0% 가속한다. 토큰 임베딩은 어텐션에 공급되는 조회 테이블이 아니라, 그 자체가 어텐션 쿼리이다.
섹션 미리보기
연구 배경
트랜스포머 모델에서 토큰 임베딩 레이어는 어텐션 메커니즘의 기하학적 토대를 이룬다. 본 연구는 이 임베딩의 역할과 어텐션 메커니즘 간의 관계를 심층적으로 탐구하며, 기존 어텐션 구조의 비효율성을 개선하고자 한다.
핵심 발견
Q, K, V, MLP 등 모든 가중치 행렬이 토큰 임베딩으로부터 동일한 궤적 형태를 상속함을 발견했다. 이를 바탕으로 W_Q 행렬을 제거한 No-Q 어텐션을 제안하며, 이는 모델 성능 향상과 매개변수 감소 효과를 가져왔다. 토큰 임베딩은 단순한 조회 테이블이 아닌, 어텐션 쿼리 자체임을 밝힌다.
관련 컴퓨터 과학 논문
나선형 시간: 시공간 재해석 및 머신러닝 응용
2026·178
추상 함수 언어 논리: 역설 없는 추론
2025·581
비선형 시스템의 보편적 기하학적 조직화 법칙
2026·58
임상 LLM의 적대적 환각 취약성 분석
2025·101