[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)
NSA는 알고리즘·하드웨어 최적화를 결합한 natively trainable 희소 어텐션으로, 토큰을 거칠게 압축한 뒤 세밀히 선택하는 동적 계층적 전략으로 전역 맥락과 국소 정밀도를 동시에 보존합니다. 연산 집약도 균형 설계와 엔드투엔드 학습으로 사전학습 비용을 줄이면서도 Ful...