출력 고정형 시스톨릭 배열에서의 무손실 희소 행렬 연산을 위한 Cross-tile Pre-execution
Cross-tile Pre-execution for Lossless SpMM on Output-stationary Systolic Array

초록

희소 행렬곱(SpMM)을 지원하는 다양한 가속기가 제안되었으나, 모델 정확도 감소나 하드웨어 복잡도 증가를 수반하는 한계가 있었다. 본 논문은 시스톨릭 어레이(SA)의 타일 단위 연산에서 낭비되는 연산·저장 자원을 활용하기 위해, 각 타일의 빈자리에서 다음 타일의 nonzero 연산을 미리 수행하는 Cross-Tile Pre-execution(CTP)을 제안한다. CTP는 SA의 동작을 고려하여 미리 수행할 nonzero 연산을 선택하고, 생성된 partial sum을 별도의 레지스터에 보관하여 원래의 연산 결과를 보장한다. 함께 제안하는 Blocked SA는 출력 레지스터를 재배치하여 기존 SA에서 CTP가 쓸 수 없던 빈자리까지 활용 가능하게 하며, Two-Tail Adder Tree(TTAT)로 동시에 전달되는 두 타일의 partial sum들이 섞이는 일 없이 각자 누적되게 한다. 실험 결과 CTP는 기존 기법 대비 평균 1.67×, 1.23x, 기존 SA 대비 최대 3.63×의 가속을 달성했다.

키워드

DNNUnstructured sparsitySystolic arrayDouble bufferingPre-execution
제목
출력 고정형 시스톨릭 배열에서의 무손실 희소 행렬 연산을 위한 Cross-tile Pre-execution
제목 (타언어)
Cross-tile Pre-execution for Lossless SpMM on Output-stationary Systolic Array
저자
심현보신동군
발행일
2026-05
유형
Y
저널명
전자공학회논문지
63
5
페이지
27 ~ 39