稀疏-稠密矩阵乘法(SpMM)广泛应用于科学计算和深度学习等领域,提高它的效率具有重要意义。针对具有带状特征的一类稀疏矩阵,提出一种新的存储格式BRCV(Banded Row Column Value)以及基于此格式的SpMM算法和高效图形处理单元(GPU)实现。由于每个稀疏带可以包含多个稀疏块,所提格式可看成块稀疏矩阵格式的推广。相较于常用的CSR(Compressed Sparse Row)格式,BRCV格式通过避免稀疏带中列下标的冗余存储显著降低存储复杂度;同时,基于BRCV格式的SpMM的GPU实现通过同时复用稀疏和稠密矩阵的行更高效地利用GPU的共享内存,提升SpMM算法的计算效率。在两种不同GPU平台上针对随机生成的带状稀疏矩阵的实验结果显示,BRCV的性能不仅优于cuBLAS(CUDA Basic Linear Algebra Subroutines),也优于基于CSR和块稀疏两种不同格式的cuSPARSE。其中,相较于基于CSR格式的cuSPARSE,BRCV的最高加速比分别为6.20和4.77。此外,将新的实现应用于图神经网络(GNN)中的SpMM算子的加速。在实际应用数据集上的测试结果表明,BRCV的性能优于cuBLAS和基于CSR格式的cuSPARSE,且在大多数情况下优于基于块稀疏格式的cuSPARSE。其中,相较于基于CSR格式的cuSPARSE,BRCV的最高加速比为4.47。以上结果表明BRCV可以有效提升SpMM的效率。
稀疏矩阵是元素大部分为零的矩阵,它的非零元素占比非常小,通常小于总数的1%。稀疏矩阵乘法广泛应用于大型科学计算[1]、深度学习[2-6]、分子化学[7]和图形分析计算[8-10]等领域。特别在深度学习领域,利用矩阵的稀疏性已成为提高深度神经网络训练和推理性能,以及在保持准确性的同时减小模型大小的主要方法之一[2,11-13]。在图神经网络(Graph Neural Network, GNN)[4]中,表示图的邻接矩阵通常具有稀疏性,稀疏-稠密矩阵乘法(Sparse-dense Matrix Multiplication, SpMM)因此成为GNN训练和推理中的主要操作之一[8-9,14]。
稀疏矩阵的存储格式很多,其中以下4种基本的存储格式被广泛接受:行压缩(Compressed Sparse Row, CSR)格式、坐标格式(COOrdinate format, COO)、ELLPACK(ELL)和对角线格式(DIAgonal format, DIA)[15-16]。此外,Liu等[17]提出了基于CSR扩展的CSR5格式;Ecker等[18]针对3种不同的并行处理器架构提出了CSR5BC(CSR5 Bit Compressed)、HCSS(Hybrid Compressed Slice Storage)和LGCSR(Local Group CSR)这3种新的稀疏矩阵格式,均分别在相应的目标架构上提供了良好的性能;Xie等[19]提出了CVR(Compressed Vectorization-oriented sparse Row)格式,可以同时处理输入矩阵中的多个行以提高缓存效率;程凯等[20]提出了由ELL和CSR格式混合而成的HEC(Hybrid ELL and CSR)格式,改善稀疏矩阵的存储效率;Zhang等[21]提出了两种适用于ARM处理器的对齐存储格式ACSR(Aligned CSR)和AELL(Aligned ELL),实验结果证明了这两种格式均具有明显的性能优势;Coronado-Barrientos等[22]提出了适用于不同体系结构的AXT格式,实验结果表明它可提高不同稀疏模式矩阵的存储效率;Bian等[23]提出了单一格式CSR2,实验表明该格式可实现低开销的格式转换和高吞吐量的计算性能,与CSR5相比,性能有明显提升;Karimi等[24]提出了一种平衡线程级并行和内存效率优化的图形处理单元(Graphics Processing Unit,GPU)内存感知格式VCSR(Vertical CSR),通过设计可配置的重排序方案可以最小化转换开销,显著减少全局内存事务的数量。
很多学者针对特殊稀疏结构提出特殊格式,特别是针对分块稀疏的研究工作有很多,其中应用最广泛的是块压缩稀疏行(Blocked Compressed Sparse Row, BCSR)格式以及基于此的一些变体。由于BCSR格式对整个矩阵使用单一的分块划分大小,并且要求分块严格对齐,因此会显式地引入更多的零填充。Vuduc等[25]提出了不对齐的BCSR(Unaligned BCSR, UBCSR)和可变块行(Variable Block Row, VBR)格式,以存储不同分块大小的子矩阵;Almasri等[26]提出了一种稀疏矩阵压缩块存储格式CCF(Compressed Chunk storage Format),将非零元数相同的行分配给同一个块,以增强负载平衡,在Intel x86处理器上的实验结果表明它为非结构化矩阵提供了优异的性能;杨世伟等[27]提出了基于BRC格式改进的BRCP(Blocked Row-Column Plus)存储格式,这种格式采用二维分块的方法,针对稀疏矩阵非零元分布特点,自适应地选择分块参数,保证了BRC格式的高效运行,优化了计算结果的确定性,且确保了再现性,具有较高的效率;Li等[28]提出了VBSF(Variable Blocked SIMD Format)格式,解决了主存访问的不连续性的问题,提高了存储和计算效率;Ahrens等[29]提出一种快速优化的VBR矩阵行划分算法1D-VBR(1D-Variable Block Row),在固定列分组的条件下确定最佳的行分组划分方式;Aliaga等[30]提出一种基于坐标稀疏矩阵格式的变体,将稀疏矩阵的非零元划分为相等大小的块以分配工作负载,该格式平衡了工作负载并压缩了索引数组和数值信息,适用于多种多核处理器平台。
由于稀疏矩阵乘法的重要性,很多学者基于上述稀疏格式,特别是CSR格式,在CPU、GPU、FPGA(Field-Programmable Gate Array)等不同硬件平台上对稀疏矩阵的效率进行改进,特别地,基于GPU的研究工作较多。NVIDIA 公司提供了一个cuSPARSE库[31]处理稀疏矩阵的乘法,在cuSPARSE库中,有一组基本线性代数子程序,用于处理稀疏矩阵。此外,Yang等[3]基于CSR格式,在GPU上实现了两种高效的SpMM算法,主要采取行划分和均匀分配非零值两种策略,以实现稠密矩阵的合并访问以及TLP(Thread-Level Parallelism)和ILP(Instruction-Level Parallelism)的负载平衡,实验结果表明该算法相较于cuSPARSE平均可实现2.69的加速比;Huang等[8]提出GE-SpMM(GEneral-purpose Sparse Matrix-matrix Multiplication),用于GNN在GPU上的应用,可以更高效地加载数据,减少总内存事务,并优于cuSPARSE库的SpMM算法;Wang等[11]提出了一种基于GPU用于SpMM算法的代码生成器SparseRT,直接生成PTX(Parallel Thread Execution)代码,加速了DNN(Deep Neural Network)的推理;Gale等[2]开发了基于CSR存储格式的专门针对深度学习应用的SpMM算法的GPU实现,可以降低内存需求,相较于cuSPARSE平均可达到3.58的加速比;但当问题规模较大时,算法的性能会受到共享内存带宽的限制。
本文针对一类稀疏矩阵提出一种新的存储格式BRCV(Banded Row Column Value)。这一类稀疏矩阵的特点是非零元素呈带状分布,即具有一致列下标的相邻行天然形成不同的带子,同一带子中非零元素的列下标可以不连续,即同一带子中的非零元素呈线状或块状分布;反之,位于相同行的所有块也可形成一个带子。因此带稀疏存储格式BRCV可看作分块稀疏格式,包括均匀分块稀疏格式BCSR及其变种可变分块格式UBCSR的一种推广。与这些分块格式不同,BRCV不需要对带子中的块单独标记和处理。带状稀疏矩阵广泛存在于和图相关的应用中,如现实世界中的图广泛存在社区结构[32-35],这种图的邻接矩阵就天然呈稀疏带状分布,且该带状不是传统的对角带状[36]。
3)提出了一种新的基于CSR格式的SpMM的高效GPU实现SCSR(Shared-memory CSR)。它采用了分块和针对稀疏矩阵的共享内存优化等技术,效率优于NVIDIA的cuSPARSE。
4)在随机生成的带状稀疏矩阵和GNN实际应用的数据集上对基于BRCV的SpMM实现的性能进行了评估。结果表明SpMM算法的GPU实现性能明显优于SCSR、cuBLAS(CUDA Basic Linear Algebra Subroutines)和基于CSR格式的cuSPARSE,多数情况下性能优于基于块稀疏格式的cuSPARSE,验证了BRCV格式的优势。
图1 稀疏矩阵
图2 BCSR格式
GPU的系统架构是单指令多线程(Single Instruction Multiple Threads, SIMT)。一个GPU由多个流多处理器(Streaming Multiprocessor, SM)组成,一个SM由多个流处理器(Streaming Processor, SP)和一些其他的关键资源(寄存器、共享内存)组成。统一计算设备架构(Compute Unified Device Architecture, CUDA)提供了应用程序和GPU硬件之间的桥梁。在CUDA架构下,一个程序被划分为Host端和Device端两部分:Host 端指在CPU上执行的部分,Device 端指在GPU上执行的部分。CUDA中的核心概念是内核函数,内核函数从 CPU 端调用,运行在GPU上,一般把算法最耗时的部分放在内核函数中,利用GPU强大的计算能力快速完成。
在CUDA架构下,GPU执行时的最小单位是线程(Thread)。CUDA将线程组织成几个不同的层次:网格(Gird)、线程块(Thread Block)、线程束(Warp)和线程。几个线程可以组成一个线程块,几个线程块可以组成一个线程网格,线程块中的线程被组织成Warp的形式,每个周期、每个SM的硬件调度程序都会选择下一个要执行的Warp(即只有Warp被交换进出,而不是单独的线程),使用细粒度多线程同步隐藏内存访问延迟。在内核函数中,不同线程块之间彼此独立,不能相互通信,按照任意顺序串行或并行执行。每个线程有自己的寄存器空间,同一个线程块中的每个线程则可以共享一份共享内存,所有的线程都共享一份全局内存、常量内存和纹理内存。共享内存比寄存器慢,但是比全局内存快,因此适当使用共享内存和寄存器资源利用数据重用和局部性对性能至关重要。
图3 社区结构网络
图4 带稀疏矩阵
证明 BRCV格式的存储复杂度为:
算法1 基于BRCV格式的SpMM算法。
1) for=0 to-1 do
2) for=0 to-1 do
4) for=0 to[+1]-[]-1 do
6)=[] +
7) for=0 to-1 do
图5 基于BRCV格式的SpMM的GPU实现
6)=%= 0?:%
Band sparse matrix multiplication and efficient GPU implementation LIU Li1,2, CHEN Changbo1* (1,,400714,;2,,400714,) Sparse-dense Matrix Multiplication (SpMM) is widely used in the fields such as scientific computing and deep learning, and it is of great importance to improve its efficiency. For a class of sparse matrices with band feature, a new storage format BRCV (Banded Row Column Value) and an SpMM algorithm based on this format as well as an efficient Graphics Processing Unit (GPU) implementation were proposed. Due to the fact that each sparse band can contain multiple sparse blocks, the proposed format can be seen as a generalization of the block sparse matrix format. Compared with the commonly used CSR (Compressed Sparse Row)format, BRCV format was able to significantly reduce the storage complexity by avoiding redundant storage of column indices in sparse bands. At the same time, the GPU implementation of SpMM based on BRCV format was able to make more efficient use of GPU’s shared memory and improve the computational efficiency of SpMM algorithm by reusing the rows of both sparse and dense matrices. For randomly generated band sparse matrices, experimental results on two different GPU platforms show that BRCV outperforms not only cuBLAS (CUDA Basic Linear Algebra Subroutines), but also cuSPARSE based on CSR and block sparse formats. Specifically, compared with cuSPARSE based on CSR format, BRCV has the maximum speedup ratio of 6.20 and 4.77 respectively. Moreover, the new implementation was applied to accelerate the SpMM operator in Graph Neural Network (GNN). Experimental results on real application datasets show that BRCV outperforms cuBLAS and cuSPARSE based on CSR format, also outperforms cuSPARSE based on block sparse format in most cases. In specific, compared with cuSPARSE based on CSR format, BRCV has the maximum speedup ratio reached 4.47. The above results indicate that BRCV can improve the efficiency of SpMM effectively. band sparse matrix; sparse matrix storage format; sparse matrix multiplication; Graphics Processing Unit (GPU); shared memory This work is partially supported by Youth Top-notch Talent Project of Chongqing Talent Plan (2021000263). LIU Li, born in 1998, M. S. candidate. Her research interests include high-performance computing, deep learning. CHEN Changbo, born in 1981, Ph. D., research fellow. His research interests include computer algebra, high-performance computing, applied machine learning. TP332 A 1001-9081(2023)12-3856-12 10.11772/j.issn.1001-9081.2022111720 2022⁃11⁃21; 2023⁃05⁃04; 2023⁃05⁃06。 重庆英才计划青年拔尖人才项目(2021000263)。 刘丽(1998—),女,河南信阳人,硕士研究生,CCF会员,主要研究方向:高性能计算、深度学习;陈长波(1981—),男,山东济宁人,研究员,博士,CCF会员,主要研究方向:计算机代数、高性能计算、应用机器学习。3.3 等高的简化处理
