Caramel LabCaramel Lab

임베딩 가설: 푸리에 회로에서 No-Q 어텐션까지

The Embedding Hypothesis: From Fourier Circuits to No-Q Attention

Rigoni, Nathan·Zenodo (CERN European Organization for Nuclear Research)·발표 2026.03· 327 인용
최근 1년 38회 인용

한국어 핵심 요약

토큰 임베딩 레이어는 트랜스포머 어텐션의 기하학적 기반을 형성한다. 본 연구는 이 주장을 네 단계에 걸쳐 발전시킨다. 첫째, 임베딩 기울기에 나이퀴스트 주파수 모드를 부여하는 PFFT(Prescribed Fourier Frequency Training)가 모듈러 산술에서 그로킹(grokking) 도달 에포크를 92.7% 단축하고(782회→57회), 암기 단계를 97.9% 감소시킴을 보인다. 이는 임베딩의 기하학적 권위를 유지하고 기울기 노이즈를 줄여 달성된다. 둘째, Sounding Hammer 진단 결과, 기울기 영역 푸리에 조향(steering)은 BPE 어휘 기울기가 스펙트럼적으로 평탄하여(ρ=0.42) 언어 모델 임베딩에 안전하게 전이될 수 없음을 확인했다. 적용 시 BPC가 치명적으로 회귀(2.90→9.47)한다. 이에 푸리에 조향의 안전성을 특성화하는 NOC(Natural Ordering Conditions)를 도입한다. 셋째, 훈련 중 중요해지는 주파수 모드를 동적으로 추적하는 PFFT의 동적 변형인 FGP(Fourier Gradient Projection)를 일반적인 기울기 영역 도구로 제시한다. 이는 NOC의 제약을 공유한다. 넷째, TinyStories 및 FineWeb으로 훈련된 언어 모델의 가중치 궤적 분석을 통해 Q, K, V, MLP 등 모든 가중치 행렬이 잔여 연결을 통해 토큰 임베딩과 동일한 두 팔 형태의 궤적을 상속함을 발견했다. 이러한 보편적 상속성은 No-Q 어텐션을 제안하는 동기가 된다. 이는 모든 레이어에서 Q=x(투영 없음)로 설정하는 방식이다. W_Q가 없을 경우, 임베딩의 기하학적 구조가 어텐션 메커니즘에 직접 도달하며, W_Q와 임베딩 간의 경쟁적 기울기 간섭이 제거된다. No-Q 어텐션은 TinyStories에서 검증 BPC를 3.18%, FineWeb에서 2.24% 개선하며, 매개변수는 8% 적게 사용하고 모듈러 산술에서 그로킹을 51.0% 가속한다. 토큰 임베딩은 어텐션에 공급되는 조회 테이블이 아니라, 그 자체가 어텐션 쿼리이다.

섹션 미리보기

연구 배경

트랜스포머 모델에서 토큰 임베딩 레이어는 어텐션 메커니즘의 기하학적 토대를 이룬다. 본 연구는 이 임베딩의 역할과 어텐션 메커니즘 간의 관계를 심층적으로 탐구하며, 기존 어텐션 구조의 비효율성을 개선하고자 한다.

핵심 발견

Q, K, V, MLP 등 모든 가중치 행렬이 토큰 임베딩으로부터 동일한 궤적 형태를 상속함을 발견했다. 이를 바탕으로 W_Q 행렬을 제거한 No-Q 어텐션을 제안하며, 이는 모델 성능 향상과 매개변수 감소 효과를 가져왔다. 토큰 임베딩은 단순한 조회 테이블이 아닌, 어텐션 쿼리 자체임을 밝힌다.

전체 8개 섹션 분석

내가 읽고 있는 논문도 이렇게 정리해드릴게요

연구 배경 · 방법론 · 결과 · 한계점까지 8개 섹션 풀 분석. PDF 업로드 한 번이면 끝.

내 논문 분석하기

관련 컴퓨터 과학 논문

컴퓨터 과학 전체 보기