基于CAD模型虚拟仿真数据的深度学习目标检测

2022-01-26 06:22李福东杨月全
关键词:汽缸模板网格

姜 定, 李福东, 俞 松, 杨月全

(扬州大学信息工程学院(人工智能学院), 江苏 扬州 225127)

近年来, 人工智能技术伴随着计算机硬件的更新得到了长足发展, 基于深度学习的图像识别和目标检测等计算机视觉研究成果显著. 基于区域建议方法的两阶段网络RCNN模型最先得到应用[1-2], 展现出深度学习对图像强大的特征学习能力. 基于直接回归的单阶段深度网络YOLO系列[3-4]和SSD系列[5-6]应用更为广泛, 这类方法大多针对网络特征提取模块和网络结构进行改进和设计, 大幅提升了训练速度和检测精度. 然而, 上述深度学习方法对网络设计的复杂度较高, 需要大规模的数据进行训练, 尤其是在数据缺失的情况下难以满足工业实际应用的需求[7]; 因此, 张欣彧[8], Hu[9], Wang[10]等采用小样本或轻量级数据集进行机器学习或深度学习训练, 实时性得到巨大提升. 在实际工业应用中, 传统的机器或深度学习方法通常采用相机采集的RGB图像作为训练对象, 虽能提供足够数量的数据,但存在诸多不足: 采集过程繁琐, 人力、物力和时间消耗量大, 且易干扰生产过程; 工业相机拍摄的图像质量较高, 但占据空间太大, 须经预处理后输入网络进行学习. 本文以针对深度学习目标检测的工业应用为导向,在YOLOv3网络模型基础上进行分析和优化, 同时采用一种基于CAD模型的虚拟仿真技术[11]生成数据集进行训练和测试,最终利用实际图像进行检测和结果分析.

1 YOLOv3深度网络

1.1 网络结构

YOLO系列深度网络是端到端的单阶段目标检测经典模型之一, 其算法主要思想是“分而治之”, 即将输入图像划分为S×S(不妨设S为网格划分大小)个单元网格, 每个网格负责检测中心落在其中的目标物. YOLOv3网络模型基于YOLOv1和YOLOv2进行了改进与创新, 其检测精度和检测速度已达更好的平衡. 由于YOLOv3突出的轻量且高速的特性, 使得其十分适用和满足工业应用行业的需求. YOLO系列网络模型的主要改进情况如表1所示.

表1 YOLO系列模型对比

YOLOv3模型的主要改进之一便是采用以全卷积网络为主体的Darknet-53特征提取模块, 借鉴残差结构整合网络模型, 通过步长为2的卷积核来代替Darknet-19中的最大池化实现下采样. YOLOv3网络结构如图1所示, 其中P为输入图像, DBL为卷积层的最小组件(包含卷积层、批量归一化和激活函数), Y1、Y2、Y3为3种尺度预测输出.

图1 YOLOv3网络结构示意图

为了解决YOLOv1、YOLOv2模型对小物体检测效果较差的问题, YOLOv3采用多尺度预测方法, 将Darknet-53模块提取的深层特征图像和上采样后的小尺度输出特征进行拼接,形成中等尺度的特征输出, 进而生成大尺度的特征输出. 特征图像尺度越大,划分的网格越精细, 对小物体的检测精度则越高.

1.2 包围框预测

图2 包围框预测示意图

YOLOv3将目标物中心的初步定位任务布置给每一个划分出的单元格, 将待检测物的定位限制在其中一个单元格内, 并以此为基点去寻找所有满足该目标特征的像素信息. 在此基础上, 预测前首先采用逻辑回归对聚类获得的3组包围框模板进行目标性评分, 去除不必要的模板类, 然后选出超过设定阈值且评分最高的一组模板作为拟合标准. 每次预测时, 网络都会在最佳模板上预测出目标中心与所在单元网格左上角的归一化相对坐标(tx,ty)、预测框相对于整幅图片的缩放比例, 即归一化长宽(tw,th).包围框预测原理如图2所示, 其中(Cx,Cy)为特征图像中当前位置相对左上角网格偏移的网格数坐标;hp,wp为预设模板框的高和宽;hb,wb为预测包围框的高和宽.

每个负责检测物体中心的网格都会预测输出多个目标概率值和G个包围框, 每个包围框输出tx,ty,th,tw及目标置信度c等5个值.故对于某一尺度的网络输出V, 其张量形式为

表2 多尺度与模板框的对应关系

V=S×S×(G×5+N),

(1)

式中N为数据集中物体类别总数.

最终, 网络会在目标性评分后的G个包围框中选取评分最高的模板框进行预测, 摒弃其他分数较低的模板框, 以减少网络预测时的计算量.模板框对应关系如表2所示.

2 本文改进工作

2.1 参数优化

基于YOLOv3模型结合实际工业应用的特点, 优化处理输入端和损失函数中部分参数, 对置信度预测时的交并比(intersection over union, IoU)部分进行改进, 借鉴使用带距离的交并比(distance-IoU, DIoU)[12]进行代替. 预测框的置信度c可反映所划分的某个网格是否包含目标物, 同时衡量输出包围框对该目标定位的准确性高低. 置信度

c=Robj×I,

(2)

其中Robj为判别系数, 若初步判断网格不包含目标中心, 则Robj值为0, 否则为1;I为DIoU损失.

网络结构的深度和训练样本的规模很大程度上决定了深度学习模型所承载的计算量和参数量,分别由时间复杂度Tl和空间复杂度Sl进行衡量[13]:

其中O(·)为复杂度函数,D为神经网络层的深度,l为卷积网络层数,Ml为网络输出特征图像的边长,Kl为卷积核的边长,Cl为输入/输出的通道数.故在特定的模型和硬件条件下, 改变Ml的大小可以有效改善训练的耗时.

笔者将YOLOv3模型中的输入图像尺寸由416×416修改为352×352, 同时保持下采样次数不变, 使得第一层尺度训练的网格单元由13×13变为11×11, 如图3~4所示. 由图3~4可知: 适当减小输入尺寸可提升网络训练速度, 同时保持相当的精度; 11×11的网格中非目标区域的网格预测包围框的数量更少, 减少了不必要的预测.

图4 S=11网格划分

2.2 虚拟仿真数据

笔者通过OpenGL图形库实现一种基于目标工件CAD模型的虚拟仿真图像生成方法, 可针对所需工业零件的特点,快速生成易用的轻量级仿真数据. 工业零件(现以铝合金材质的汽缸体为例,其材质参数如表3所示)的实物图、CAD模型和仿真模型如图5所示.

图5 工件展示图

表3 汽缸体材质参数表

首先,将工件的CAD模型导入Blender软件中,设置对应其实物的纹理、材质、透明度和高光模式等;其次,将制作的汽缸体仿真模型读入OpenGL图形库,设置光源和背景,以达到仿真可视化效果;最后,调整模型和光源的位姿,通过虚拟相机在一定范围内进行空间采样,快速生成符合要求的图像.

运用Labelme软件制作汽缸体对应的标签文件, 包含图片序号0001.jpg、尺寸为(800,600)dpi、通道数为3、目标类别为Cylinder以及包围框范围x∈(408,481),y∈(219,316)等信息.

该仿真数据无须进入现场采集图像和预处理,采集成本大幅降低,并且可以直接输入网络中进行特征学习,灵活性较高,可较大程度地满足工业应用需求.

3 实验结果与分析

3.1 实验数据

虚拟采样6 000幅仿真工件图像作为实验样本, 其分辨率均为800像素×600像素. 样本中5 000幅训练图像各自对应其标签文件信息,每幅图像均包含1个对象;剩余的1 000幅图像作为测试对象,每幅包含1个或多个工件目标.

3.2 模型训练与测试

以5 000幅仿真工件(汽缸体)图像作为输入, 其中4 500幅作为训练集,500幅作为验证集.该验证集不仅可用于调整模型的各类超参数,在经一定阶段的训练后进行单独验证,从而提高泛化能力; 而且可用于初步评估模型的性能,通过调整网络参数优化学习方向.

由于本文主要面向工业应用方向且考虑工业零件的特殊性,网络的训练并未使用COCO数据集上保存的预训练模型,而是从头开始训练,以评估其训练效果. 训练时预先设置100个训练周期,每2个周期保存当前最优模型. 采用Adam优化算法,初始学习率为0.01,随着迭代自适应调整学习率. 设置批量归一化样本数为4,验证比例系数为0.1,采用均方误差和二值交叉熵作为损失函数.

3.3 结果分析

笔者对改进前后的网络模型进行了训练与测试,并采用保存的最优模型检测实际工件图像. 网络在测试时最终输出各图片中每个目标工件的包围框信息、类别信息和预测得分, 同时保存网络最优模型. 现采用传统的YOLOv3算法及本文改进方法分别对含1 000幅仿真工件图像的测试数据集进行检测, 结果如表4所示, 其中Pa45表示阈值为0.45时的平均精度. 由表4可知, 本文改进后的网络虽然收敛速度稍缓于YOLOv3网络,但是检测耗时更低,且重复检测样本和未检测样本较少,整体网络性能均有一定程度的提升. 部分检测样例如图6所示, 图中数值表示网络对图片中目标物的最终检测得分.

表4 2种算法的实验参数对比

图6 仿真汽缸体检测样例

此外, 选取并保存改进后的最优模型, 将虚拟仿真数据替换为真实汽缸体图片进行测试, 取得较为稳定的检测效果, 部分检测样例如图7所示. 由图7可知, 经仿真图像训练后的模型可以较为稳定地检测实际工件图片, 对于单个汽缸体、较为接近的多个汽缸体及无关物体干扰状态下的汽缸体均能较好地正确分类和定位,对100幅复杂现实场景下的图像检测成功率可达89.6%, 虚拟仿真环境下的检测成功率达98.7%.

图7 真实汽缸体检测样例

猜你喜欢
汽缸模板网格
高层建筑中铝模板系统组成与应用
铝模板在高层建筑施工中的应用
特高大模板支撑方案的优选研究
网格架起连心桥 海外侨胞感温馨
Inventors and Inventions
Smallblock V8 LT1
追逐
一种自动化陶瓷切割设备
谈柴油机机体组件的检修