刘晓彬 彭俊桂 黄有章
随着深度学习的发展,人脸识别、自动驾驶、图像识别和AI绘图等深度学习技术也早就融入大众生活中。这些技术离不开深度学习的快速发展,如Vgg,ResNet,DenseNet等神经网络模型的提出,对深度学习的模型的快速发展产生了深远影响,许多深度模型都在借鉴前人的思想上被开发出来。但这些模型往往内存占比大,且对设备计算能力要求高等,使得一些移动端设备或计算能力有限的边缘设备无法使用,大大限制了移动端设备的发展和应用。
要解决移动端的应用在图像领域识别准确度、参数量大和计算效率等问题,适用于移动设备部署神经网络架构是关键所在。谷歌团队提出了一种可分离卷积代替标准卷积的方法,构建了MoblieNet V1神经网络,这种神经网络模型大大减少了模型参数,加快计算效率同时还可以确保模型准确率,之后再此基础上衍生Mobilenet系列模型。
Zhang X等人基于通道混洗技术提出了ShuffleNetV1,大大减少了1x1卷积的使用,同时可以使通道之间保持信息互通,之后衍生出ShuffleNet系列模型。
除了人工设计的神经网络架构外的轻量级网络,还有基于神经网络架构搜索(neural architecture search,NAS)和网络架构压缩方式构建的轻量级网络。
EfficientNet基于NAS提出来神经网络架构,提出混合缩放法,选择更优宽度、深度和分辨率维度缩放比例等,从而使模型以很少的参数量达到更高的精度。Deep Compression通过剪枝、量化和霍化曼编码等方式压缩模型,将模型压缩至很小的值从而不损失精度。
上述这些轻量级模型的出现推动了移动设备和边缘设备的发展和应用。对MobileNet V2轻量级网络进行改进,可增大原来主干的卷积和大小,同时改变倒残差结构,加入3x3卷积核,使得模型拥有不同卷积感受野提取的特征信息。在CIFAR-10数据集上进行图像识别性能实验,改进Mobile NetV2的准确率达到88.52 %,比原本的MobileNetV2高了2.23 %
MobileNetV2
MobileNetV2的提出使得模型轻量化,同时还确保了准确率,为如今的移动端设备和边缘设备的发展提供了新思路,也为之后更好轻量化模型的提出奠定了基础。MobileNet模型提出了可分离卷积结构,主要由深度卷积和逐点卷积组成,这种结构大大减少了计算量,同时减少模型内存。
MobileNetV2的模型提出到残差结构,这种结构将图像特征映射到高维进行更好特征提取后,在通过1x1的卷积降到原来的维度,同时加入残差,使得模型不会过深而导致梯度消失等现象。
改进MobileNetV2模型是通过扩大卷积核视野,同时在倒残差结构上多加一个卷积捷径。通过扩大卷积核获得更大的视野,从而獲取更多的特征图信息,同时再残差模块加入小卷积核,使得模型融合不同卷积核获取的特征信息,从而弥补一些特征信息提取的丢失。改进后的倒残差结构主干使用7×7的卷积核大小,倒残差结构增加的一个3×3大小的卷积核。
采用Anaconda环境,使用Pyhon3.8,pytorch1.10.1,CUDA10.2搭建网络模型,在GPU(p100)显卡上进行模拟训练。
实验用到CIFAR-10数据集一共10个类别,每个类别6 000张,共有60 000张彩色图像,50 000张用于训练,10 000张用于测试。采用标准的数据扩充,填充至40x40的大小,进行随机翻转,前100轮学习率为0.1,后100轮学习率为0.01。
在CIFAR-10上的实验从模型准确度,参数量和计算量上相比较,准确度上改进的MobileNetV2比MobileNetV2高2.23 %,比ShuffleNetV2高2.38 %,在参数量上改进的Mobile NetV2为3.6 MB,计算量FLOPs和Madd分别为574.25 MB和1.13 GB,都高于MobileNetV2和ShuffleNetV2。
改进MobileNet V2的改进思路主要是扩大原主干MobileNet V2卷积核大小,以获取更大的感受野,同时改变倒残差结构,整合不同卷积核大小提取的特征信息。在CIFAR-10数据集上,改进MobileNet V2与ShuffleNet V2和MobileNet V2轻量级神经网络进行性能对比,改进Mobile Net V2网络准确率为88.52 %,高于ShuffleNet V2和Mobile NetV2准确率2 %左右,但参数量和计算量上ShuffleNet V2和MobileNetV2也都占有优势。
总体来看,轻量级网络模型的提出大大减少了模型参数,同时还有较高的准确度,为移动设备核边缘设备提供了技术基础。