周孟然, 吴长志
(安徽理工大学a.电气与信息工程学院;b.人工智能学院,安徽 淮南 232001)
由于科技的日益进步和电机需求的日益增大,电机也被越来越广泛应用于生活和生产中的方方面面;其中永磁电机是一种利用永磁体建立磁场的直流电机,且兼具电机体积小和简单结构,工作效率高等优点被广泛运用[1]。作为永磁电机中最为重要的磁瓦,它质量的好坏将直接影响永磁电机的使用寿命和工作性能。由于在磁瓦实际生产过程中受到生产原料、加工工艺、冶金技术、人为操作等要素的影响,例如破损、裂纹、磨损、表面不均匀、气孔等缺陷故障[2]会在磁瓦表面产生,从而影响永磁电机的使用寿命并且会进一步影响相关产品的使用性能。目前,传统方法磁瓦缺陷检测及分类工作由人工目测完成,除了额外需要雇佣和培养专门从事表面缺陷检测的人员以外,长时间高强度的机械化工作,很容易让工作人员产生用眼疲劳从而出现漏检和误检,从而无法保证检测及分类的准确率[3],因此不符合大规模的工业生产的要求[4]。
最近几年,由于深度学习(Deep Learning)以及卷积神经网络(Convolutional Neural Networks, CNN)的飞速发展,其成本小,时间快的良好性能优点使得检测及分类方法得到了广泛研究[5]。CHEN等[6]提出一种可以有效且迅速识别复杂背景和缺陷特征的基于卷积神经网络的模型,可以用来检测太阳能电池的表面缺陷,有很好的准确率。刘畅[7]等人在原有的卷积神经网络的基础上加入分类神经网络且将U-net网络中一些卷积层使用空洞卷积来代替,从而很好的实现了对磁瓦缺陷检测的研究及应用。常海涛等[8]在进行缺陷检测时将加速区域卷积神经网络(Faster Region-based Convolutional Neural Network,Faster R-CNN)应用进来,从而对磁瓦表面缺陷进行了更好的分类及检测。余永维[9]等人根据磁瓦本身所具有的特殊性质,提出一种基于自适应形态学滤波的缺陷提取方法,此方法是用分区域沿扫描线的一维自适应形态学滤波模拟出缺陷的背景,最后同原始图像做对照,从而检测出磁瓦表面缺陷。郭龙源[10]等人提出基于掩膜区域卷积网络(Mask R-CNN)的缺陷检测算法来针对传统方法难以准确切割缺陷的问题,具有很好的检测效果。张京爱[11]等人通过构造符合实际生产场景样本集的基础上,构造的磁瓦缺陷识别算法网络模型,增加了识别精度和推广能力。上述方法都是宝贵的经验,或多或少都存在一些问题,比如光线不均匀导致切割缺陷存在误差,比如网络参数过于巨大从而不具有很好的通用性,因此可能不适用于现代工厂的大规模生产。
基于上述方法或算法中存在的问题,提出一种基于ResNet-18的磁瓦表面缺陷检测方法。ResNet-18网络模型具有很好的自主学习能力,针对磁瓦的6种状态进行测试,获得较高的准确率,基本上可以满足工业生产的需求。
ResNet (残差网络)是由微软研究院设计师何恺明[12]等人提出,并且在ImageNet大赛中获得冠军,对比其他网络其错误率低,准确率高,参数量少等优点,效果突出,从发表至今仍然活跃在图像处理的前沿,是整个行业的巨大突破。
ResNet主要解决的问题就是退化问题,在主观意识中,因为神经网络越往深层次拓展就越容易进行特征提取,从而更好地完成图像分割,处理等任务,从而得出准确率的显著提高。然而事实情况却并非如此,越深层次的网络拓展越容易造成训练及测试的误差提升,其根本原因就是因为过拟合现象的发生造成的,梯度消失造成每层网络相乘的结果梯度越来越小,从而总梯度出现趋于0的现象。
ResNet网络模型的出现,将会很好的解决这一现象的产生,其主要核心残差块的出现很好的解决梯度消失和过拟合的产生。尽管在还未出现ResNet网络之前,各领域研究人员通过批量归一化,减少网络层数等方法来降低过拟合的发生,但是由于需求深层网络来提高准确率,他们的效果往往并不如人意。ResNet网络最重要也是最核心的部分就是残差块的出现。
如图1所示,表示神经元的局部情况。图1左边为正常函数顺序传播途径,原始输入为x,经过方框中权重层,激活函数,权重层后,希望得出的输出为f(x),再继续作为往后的神经元输入;图1右边为残差网络模块(Residual Block),也是ResNet中最基础的网络模块,同样原始输入为x,但是经过方框中权重层,激活函数,权重层后希望得到的输出为f(x)-x,这是一种残差映射,其中,如果图1右边下方的加权运算的参数权重等设为0,那么同样得到所想要的输出f(x),这就是一种恒等映射,再继续将输出的结果作为后续神经元的输入。在实际应用中,如果得出的f(x)非常的接近恒等映射,就可以很轻易的捕捉到整体映射过程的细小波动,更有利于整个神经网络的参数调整和更快的向前传播以及结果准确率的提升。
图1 一个正常块(左)和一个残差块(右)
如图2为ResNet-18的网络结构图,输入通道数为64的7×7卷积层通过批量归一化层进入最大池化层;接下来是两个相同的没有1×1卷积核的残差模块;再进入三个有1×1卷积核的残差模块;最后是平均池化层和6输出的全连接层。其中残差块中的卷积层都为3×3大小,没有1×1卷积核的残差模块的通道数均为64,有1×1卷积核的残差模块的通道数第一个为128,第二个为256,第三个为512。最后全连接层输出6分类,对应磁瓦无缺陷和5种不同的缺陷类型。在ResNet-18中每个残差块中加入批量归一化(batch normalization)[13]操作,可以进一步提升网络模型训练收敛速度及泛化能力,其中参数选取了ImageNet大赛中使用的参数;在ResNet-18每个残差快中都加入了ReLu[14]激活函数,使部分神经元随机输出为0,形成非线性输出,不仅可以有效减少计算步骤,而且可以有效避免过拟合现象的发生;选择交叉熵损失函数为该网络的损失函数,采用自适应矩估计(adaptive moment estimation,adam)[15]优化算法来降低损失。
原始数据集是来自“Surface defect saliency of magnetic tile”[16]这篇论文的开源数据集,是中国科学院自动化所收集整理并发表于网上。如图3可知磁瓦无缺陷和5种不同类型的缺陷,其中无缺陷图片占大多数,对应着工厂实际生产的情况,有952张图片;气孔类型的缺陷有115张图片;裂纹类型缺陷有85张图片;磨损类型缺陷有32张图片;断裂类型缺陷有57张图片;不均匀类型缺陷有103张图片;总计有1344张原始图片数据集。这些原始数据图片有着不同尺寸大小,且拍摄的磁瓦种类也有所不同,基本上所有的磁瓦缺陷情况都包含其中,在将不同尺寸图片放入ResNet-18网络训练时将其尺寸统一转化为64×64,以便于网络的正常运行。
图2 ResNet-18的网络结构图
因为原始数据集的图片数量比较少,且数据集中样本分布极其集中,因此造成了后续训练时出现了过拟合现象。为了防止此现象的发生,采用了通过数据增强的方法来扩充数据集来消除过拟合现象的发生。数据增强不仅可以防止过拟合的发生,还可以改善图像视觉效果来提高磁瓦缺陷检测的准确率。采用的数据增强的方法有旋转,翻转,加噪等方式来扩充数据集,如图4所示。经过数据增强后的气孔型缺陷集为920张图片;裂纹型缺陷集为680张图片;断裂型缺陷集为456张图片;磨损型缺陷集为256张图片;不均匀型缺陷集为824张图片;无缺陷集为1904张图片;总计有5040张图片。选择以8:2的比例将数据集随机划分为测试集和验证集。
图3 磁瓦缺陷类型图,从左到右依次为
实验测试平台为本人的笔记本电脑,其搭载Intel-i5 11400的CPU,NVIDIA-3050Ti 4G的显卡,8G的ddr4内存条,512G固态硬盘。在Windows10系统操作环境下由python和pytorch软件完成该文章所需要的运行代码,并完成相应的分析操作,做后得出结论。
图4 数据增强后数据集,从左到右依次为
为了验证网络模型的可行性,采取将数据集逐步增强的方式来验证,分别将原始数据集、左右镜像、上下翻转、旋转90°、加入黑白噪声点处理后的数据集放入ResNet-18网络模型中进行训练。如图5所示,原始数据集准确率最高为95.88%,整体损失值为4.11;扩充1倍即加入旋转90°图片后数据集准确率最高为96.81%,整体损失值为3.95;扩充2倍即再加入上下翻转图片后数据集准确率最高为97.17%,整体损失值为3.42;扩充3倍即再加入左右镜像图片后数据集准确率最高为97.81%,整体损失值为3.23;最后将所有增强类型图片加入数据集准确率最高为99.30%,整体损失值为1.21。图5中蓝色柱条表示测试准确率,灰色柱条表示损失情况。表1表示所有情况的汇总。
图5 测试准确率及损失
表1 各类型缺陷扩充后图片张数
近年来,有的学者采用U-Net,傅里叶变换等算法来对磁瓦图像的缺陷进行检测,为了验证该文章对磁瓦缺陷检测的准确率和泛化能力,通过不同数据集扩充方法做横向对比,通过和他人的方法结果准确率来做纵向对比,其结果如表2。从中可以看出相比于其他方法,本文方法准确率有所提升。
表2 不同方法网络结果对比
采取了不同方式扩充数据集来降低无缺陷类型图片数量过于庞大造成的数据过拟合现象的发生,不同数据增强方式不仅避免了过拟合的产生而且增强了网络的泛化能力,增加其普遍性的应用。结果表明:ResNet-18网络具有较好的性能,可以迅速且准确的完成对图像的特征采集及分析,进而完成结果的分类,在不同数据集的情况下依然有着不俗的表现,取得较高的准确率。相比于其他学者的方法网络等,文章中方法也有着更高的准确率及更低的损失,验证了不同数据集下该网络的可行性。基于ResNet-18的磁瓦缺陷检测基本满足磁瓦检测的需求,可以为不同场景的工业环境提供一种检测方式的可能。