상세 보기
출력 고정형 시스톨릭 배열에서의 무손실 희소 행렬 연산을 위한 Cross-tile Pre-execution
Cross-tile Pre-execution for Lossless SpMM on Output-stationary Systolic Array
- 심현보;
- 신동군
초록
희소 행렬곱(SpMM)을 지원하는 다양한 가속기가 제안되었으나, 모델 정확도 감소나 하드웨어 복잡도 증가를 수반하는 한계가 있었다. 본 논문은 시스톨릭 어레이(SA)의 타일 단위 연산에서 낭비되는 연산·저장 자원을 활용하기 위해, 각 타일의 빈자리에서 다음 타일의 nonzero 연산을 미리 수행하는 Cross-Tile Pre-execution(CTP)을 제안한다. CTP는 SA의 동작을 고려하여 미리 수행할 nonzero 연산을 선택하고, 생성된 partial sum을 별도의 레지스터에 보관하여 원래의 연산 결과를 보장한다. 함께 제안하는 Blocked SA는 출력 레지스터를 재배치하여 기존 SA에서 CTP가 쓸 수 없던 빈자리까지 활용 가능하게 하며, Two-Tail Adder Tree(TTAT)로 동시에 전달되는 두 타일의 partial sum들이 섞이는 일 없이 각자 누적되게 한다. 실험 결과 CTP는 기존 기법 대비 평균 1.67×, 1.23x, 기존 SA 대비 최대 3.63×의 가속을 달성했다.
키워드
DNN; Unstructured sparsity; Systolic array; Double buffering; Pre-execution
- 제목
- 출력 고정형 시스톨릭 배열에서의 무손실 희소 행렬 연산을 위한 Cross-tile Pre-execution
- 제목 (타언어)
- Cross-tile Pre-execution for Lossless SpMM on Output-stationary Systolic Array
- 저자
- 심현보; 신동군
- 발행일
- 2026-05
- 유형
- Y
- 저널명
- 전자공학회논문지
- 권
- 63
- 호
- 5
- 페이지
- 27 ~ 39