基于遗传搜索的卷积神经网络结构化剪枝

2022-05-31 01:13龚赛君曹红董志诚
电脑知识与技术 2022年11期
关键词:相似度遗传算法

龚赛君 曹红 董志诚

摘要:随着深度神经网络在人工智能领域的广泛应用,其模型参数也越来越庞大,神经网络剪枝就是用于在资源有限设备上部署深度神经网络。结合神经网络通道级编码和自动剪枝的概念,提出了一种基于遗传算法的通道搜索模型。其主要思想是通过小波分解计算剪枝网络与原始网络特征映射的相似性,以相似度为适应度函数进行通道的搜索。在实验中,选择ResNet系列网络在ImageNet数据集上的剪枝性能进行评估,与现有的神经网络剪枝算法相比,该模型不仅具有更高的剪枝率,而且具有更好的精度。

关键词:神经网络剪枝;遗传算法;特征映射;相似度;小波分解

中图分类号:TP391      文献标识码:A

文章编号:1009-3044(2022)11-0004-03

1 概述

神经网络剪枝被广泛用于降低深度卷积神经网络在资源有限设备中的计算成本。人们提出了许多方法来压缩大型神经网络,方法是根据不同的评估标准对不重要的通道进行剪枝。然而,大多数这些需要提前手动设置剪枝率[1,7]。为了克服这些问题,近年来,使用神经结构搜索方法[2,6]自动剪枝神经网络成为一个非常活跃的研究课题。

基于神经结构搜索的网络修剪[6]的典型方法是通过搜索预训练的大型网络的潜在子网络,微调剪枝后的神经网络得到最终模型。在搜索过程中,基于神经结构搜索的算法只关注每层网络的最佳大小,而忽略了特定通道的重要性。在随机选择中,真正有价值的通道可能会被删除,导致剪枝网络的准确性降低。为了克服这一问题,提出了一种基于遗传算法和神经结构搜索的剪枝方法[3,8],该方法编码并选择预先训练的大型模型的重要通道以生成较小的网络,同时保持较好的准确性。

此外,为了评估剪枝后的神经网络的性能,大多数基于神经结构搜索的算法通常会重新训练剪枝后的网络,以获得指导搜索过程的准确性[4]。为了提高搜索效率,提出了一种小波特征提取方法,直接计算原始大网络和剪枝后的网络在适应度函数上的相似度。基于小波变换特征映射,可以生成不同大小通道输出特征图的相似性度量,以便提取包含高频和低频的特征,指导剪枝过程,以找到最具代表性和鉴别能力的通道。

结合上述分析,笔者提出一种基于遗传搜索的卷积神经网络结构化剪枝模型,该模型可以在通道级自动剪枝网络。实验中,笔者在ImageNet数据集上评估了针对ResNet系列网络对通道剪枝算法的有效性。与现有的网络剪枝算法相比,在最大剪枝率的情况下,该算法的剪枝精度得到了显著提高。

图1为基于遗传搜索的卷积神经网络结构化剪枝模型概述。没有剪枝的神经网络是原始网络。图中的圆圈表示卷积神经网络的通道。在迭代搜索过程中,通过遗传算法的迭代获得剪枝网络模型的编码。最后利用从原始网络中提取的知识,对具有最佳编码的剪枝网络进行微调。

2 剪枝算法详解

2.1 搜索架构概述

在这项工作中,目标是减少原始网络中的通道数量,在保证准确性的情况下得到剪枝后的网络。提出的基于遗传搜索的卷积神经网络结构化剪枝模型包含三个步骤,如图1所示:1) 训练需要剪枝的大型神经网络(原网络) ;2) 使用该模型剪枝原始网络各层的通道;3) 知识蒸馏剪枝后的网络以提高精度。在整个搜索过程中,最重要的部分是如何准确地选择最具代表性的通道到剪枝后的网络中。

2.2 遗传算法搜索

根据遗传算法的传统迭代方法,原始网络X可以根据通道数编码为cn。最后的剪枝网络O通过从cn中搜索获得。

其中ci是种群中的第i个个体。该模型中的种群个体是剪枝网络的通道编码,可在公式(2) 中定义:

其中C是种群,0表示已被裁剪的通道,1表示没被裁剪的通道。显然,优化选择数千个通道并非小事,在这项工作中,提出了一种新的策略,将遗传算法的适应度函数改成原网络和种群中个体表示的剪枝网络特征图之间的相似度,这样加快了整个算法的搜索过程。

首先,随机初始化种群[c],[n]表示种群中的个体数,[c1]表示的剪枝网络和X共享相同权值。然后,根据X特征图的下采样大小将神经网络搜索过程划分为st阶段,例如,整个X網络可以分割为图1中的[4x,8x,16x,32x]。种群个体根据[p1](参考公式(6)) 进行排序,其由Fi和fi之间的相似性计算。然后,可以通过交叉、变异选择生成进入下一次迭代的新种群(参考公式(3)) 。

2.3 适应度选择

在模型中设计了合适的适应度函数,通过小波变换计算剪枝网络与原始网络特征映射的相似性。提取的小波变换特征包含高频和低频,指导剪枝过程,找到最具代表性和鉴别能力的通道。

在公式(4) 中,F★是小波分解后的特征F,α是控制小波函数拉伸的尺度,τ是控制小波函数的平移,融合公式如式(5) 所示,由F★得到F’。由于不同的频率分量可能包含更丰富的信息[5],因此F★中的频率的高频[hf]和低频[lf]会融合,获得F'以增强相似性度量。

使用Haar小波函数对特征映射进行变换和聚合,它简单有效。如图1所示,原始网络和剪枝网络中不同大小的特征映射在小波域进行变换,然后使用公式(5) 对这些包含高频和低频的小波特征进行融合。最后用公式(6) 计算相似度[p]。

3  实验和结果展示

实验中,在ResNet系列网络上使用ImageNet数据集。在梯度下降算法中,初始学习率定义为0.1,在训练过程中,学习率逐渐降低,在知识蒸馏中设置了大约25个迭代次数。

ResNet:在ImageNet数据集上,对原始ResNet 50进行150次的训练,批处理大小为256;对原始ResNet 101进行200次的训练,批处理大小为128。提出的模型和测试模型在双NVIDIA GTX1080ti上用Pytorch实现和测试。

3.1 对比方法

FPGM[9]:提出了一种基于几何中值的滤波器剪枝算法(FPGM) 。FPGM删除冗余过滤器,而不是相对不重要的过滤器。但是,此方法需要手动设置剪枝率。

TAS[13]:提出了一个可转换的架构搜索(TAS) 模型,通过通道概率分布和知识转移剪枝网络。主要方法与笔者的方法类似,但TAS旨在搜索剪枝后网络的最佳大小。

HRank[11]:发现CNN的一个规则:即使每次输入的图像不同,特征图的同一部分总是有一个较大的秩,表明它们在网络中非常重要,因此可以根据秩的统计信息修剪网络。

JST[12]:通过同时进行训练和剪枝实现自动搜索算法,在保持竞争性分类精度的同时,节省了自动剪枝算法中原始网络的预训练时间。

SFP[10]:提出了一种软滤波剪枝(SFP) 方法,即在训练网络的同时进行剪枝。每训练完一轮就计算相应通道的L2范数,按照L2范数排序后,排名较低的通道根据剪枝率设置为零,但不会直接删除,也会参与下一轮计算。

SRR-GR[14]:在冗余度较高的层中剪枝过滤器的性能优于在所有层中剪枝最不重要的过滤器的性能。为了测量网络中的结构冗余度,该方法为每个层建立一个无向图,其中每个顶点表示一个过滤器,边由过滤器权重之间的距离定义。

3.2 实验结果

如表1所示。与经过测试的几种最先进的剪枝模型相比,笔者提出的模型不仅实现了更高的修剪率,而且具有更好的准确性。例如,笔者的模型将ResNet-50剪枝59.1%,剪枝后的网络达到76.34%的精确度,在精确度方面比TAS高0.14%,同时减少了近15.6%的参数量。

4 结论

在本文中,笔者提出了一种新的基于遗传搜索的卷积神经网络结构化剪枝模型,该模型在通道级别对网络进行剪枝。其主要思想是利用遗传算法在通道级对整个体系结构进行修剪。在适应度函数中,应用小波变换融合包含高频和低频的通道特征映射来指导剪枝过程。在实验中,选择ResNet系列网络对ImageNet数据集的剪枝性能进行评估。结果表明,与现有的神经网络剪枝算法相比,该模型具有更高的剪枝率和更高的精度。在未来,可以考虑将模型应用到其他剪枝任務中,例如物体检测或图像分割,以进一步评估压缩结果。

参考文献:

[1] SunY,Wang X G,Tang X O.Sparsifying neural network connections for face recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June27-30,2016,Las Vegas,NV,USA.IEEE,2016:4856-4864.

[2] Elsken T,Metzen J H,Hutter F.Efficient multi-objective neural architecture search via Lamarckian evolution[C]// 2019 ICLR.

[3] Holland J B ,  Holland J , Holland J H , et al. Adaption in Natural and Artificial Systems[C], 1975 Ann Arbor, 6(2):126–137.

[4] Yang T J,Howard A,Chen B,et al.NetAdapt:platform-aware neural network adaptation for mobile applications[C]//Computer Vision – ECCV 2018,2018:289-304.

[5] Qin Z Q,Zhang P Y,Wu F,et al.FcaNet:frequency channel attention networks[C]//2021IEEE/CVFInternationalConferenceonComputerVision (ICCV).October10-17,2021,Montreal,QC,Canada.IEEE,2021:763-772.

[6] 包振山,秘博闻,张文博.基于人工经验网络架构为初始化的NAS算法[J].北京工业大学学报,2021,47(8):854-862.

[7]房志远,石守东,郑佳罄,胡加钿.一种融合弱层惩罚的卷积神经网络模型剪枝方法[J/OL].计算机工程:1-8[2021-08-16].https://doi.org/10.19678/j.issn.1000-3428.0061461.

[8] 赫彦文,刘紫阳,李建义,等.基于遗传算法的测试用例自动生成方法综述[J].廊坊师范学院学报(自然科学版),2020,20(4):16-20.

[9] He Y,Liu P,Wang Z W,etal.Filter pruning via geometric Median for deep convolutional neural networks acceleration[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June15-20,2019,LongBeach,CA,USA.IEEE,2019:4335-4344.

[10] He Y,Kang G L,Dong X Y,etal.Soft filter pruning for accelerating deep convolutional neural networks[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence.July13-19,2018.Stockholm,Sweden.California:InternationalJoint Conferences on Artificial Intelligence Organization,2018:2234–2240.

[11] Lin M B,Ji R R,Wang Y,etal.HRank:filter pruning using high-rank feature map[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June13-19,2020,Seattle,WA,USA.IEEE,2020:1526-1535.

[12] Lu X T,Huang H,Dong W S,etal.Beyond network pruning:a joint search-and-training approach[C]//Proceedingsof the Twenty-Ninth International Joint Conference on Artificial Intelligence.July11-17,2020.Yokohama,Japan.California:International Joint Conferences on Artificial Intelligence Organization,2020.

[13] Dong X Y,Yang Y.Network pruning via transformable architecture search[J].arXiv e-prints ,2019, arXiv–1905.

[14] Wang Z,Li C C,Wang X Y.Convolutional neural network pruning with structural redundancy reduction[C]//2021IEEE/CVFConferenceonComputer Vision and Pattern Recognition (CVPR).June20-25,2021,Nashville,TN,USA.IEEE,2021:14908-14917.

收稿日期:2021-12-20

基金項目:国家自然科学基金(61561046) ;中央支持地方改革发展项目(项目编号:XZ201901-GB-16) ;西藏大学2021年中央财政支持地方高校改革发展专项资金项目申报书(一流学科培育项目) ;中央财政支持西藏大学2020年改革发展地方高校;中央财政支持西藏大学2019年改革发展地方高校

作者简介:龚赛君(1997—) ,女,湖南株洲人,硕士,主要研究方向为模型压缩;曹红(1997—) ,女, 四川成都人,硕士,主要研究方向为计算机视觉;通信作者:董志诚(1982—) ,男,四川阆中人,博士,主要研究方向为通讯与信号处理。

猜你喜欢
相似度遗传算法
遗传算法对CMAC与PID并行励磁控制的优化
基于自适应遗传算法的CSAMT一维反演
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
改进的协同过滤推荐算法
模糊Petri网在油田开发设计领域的应用研究
协同进化在遗传算法中的应用研究
相似度算法在源程序比较中的应用
基于灰度的图像边缘检测与匹配算法的研究
影响母线负荷预测的因素及改进措施