可训练变换器和RdNet在果实识别网络中的应用

2021-04-02 12:06崔翔宇赵红朱智富袁焕涛仇俊政牟亮
关键词:目标检测卷积神经网络葡萄

崔翔宇 赵红 朱智富 袁焕涛 仇俊政 牟亮

摘要:  为解决YOLO算法由于其端到端的网络结构导致某些尺度上的特征被淡化或丢失使识别率较低的问题,本文以葡萄为例,对可训练变换器和RdNet在果实识别网络中的应用进行研究。提出基于可训练变换器和多尺度特征图融合的改进YOLO算法,以自主设计的基于堆叠残差块和降采样块的RdNet作为特征提取网络,采用converter变换器结构进行不同尺度的特征变换融合,从采集并筛选的葡萄果园照片中,随机选取120张作为测试集,将其余照片进行数据增强,得到480张图片作为训练集,并分别对提出的模型、YOLOv3和快速区域提出卷积神经网络(faster region-convolutional neural networks,Faster R-CNN)三种算法进行训练,使用其在测试集上的F1值与AP值评估各模型的性能差异。实验结果表明,模型在测试集上的F1值可达9258%,AP值可达9233%,而在Nvidia Jetson TX2平台上,检测速度达到19 f/s,單张640×480图片的推理时间为526 ms,达到了较理想的识别准确率,且能满足采摘机器人的实时性要求。该研究在果园等场景中可以得到更好的应用效果。

关键词:  卷积神经网络; 葡萄; 目标检测; 多尺度特征; YOLO

中图分类号: TP391.41文献标识码: A

作者简介:  崔翔宇(1996-),男,硕士研究生, 主要研究方向为用于果实采摘和无人驾驶感知的计算机视觉。

通信作者:  赵红(1973-),女, 博士,副教授,主要研究方向为汽车节能减排与新能源技术。 Email: qdlizh@163.com

我国是农业大国,有着上百万平方公里的农业土地,但农场与果园却面临日益严重的劳动力短缺[1]。近年来,随着农业信息化与机械化的不断发展[2],果实采摘机器人[35]成为未来农业发展的一项很重要的课题。我国的葡萄果园环境较复杂,葡萄密集程度高,葡萄采摘机器人对葡萄串做出精确识别与定位的算法提出了较高的要求。针对自然环境下的葡萄串识别问题,国内外学者陆续提出基于传统机器视觉的识别方法。田锐等人[6]通过提取基于RGB空间的人工特征方法进行葡萄串识别;刘平等人[7]使用颜色空间中H分量提取轮廓与重叠边界轮廓相融合的方法,这两种方法对环境变化敏感,鲁棒性较差;罗陆峰等人[8]通过对H分量模糊聚类,提取最大连通区域的方法进行葡萄识别。此外,大多数基于传统视觉[913]的果实识别算法都存在对环境变化敏感、鲁棒性差的问题。随着计算机硬件算力的提升,传统的视觉算法由于鲁棒性差,精度低逐渐被基于深度学习算法所替代。R. Girshick等人[14]在CVPR2014上提出了R-CNN算法,并取得了较高的检测精度,但由于其候选区的生成和对每个候选区的推理,导致其训练复杂和运行缓慢,无法满足实时应用的需求。而基于R-CNN提出的一系列改进算法[1516],通过区域生成网络(region proposal network,RPN)代替传统的候选框生成方法,在速度上有了大幅提升,但在追求实时性场景下,有时仍无法满足需求;2015年提出的YOLO算法[17]及其后来改进的算法[1819],在保证较高精度的情况下,大幅提升检测速度,但由于单阶段算法结构的限制,仍不能很好的对不同尺度的特征进行提取融合。随着基于深度学习目标检测算法的兴起,越来越多的学者将其应用到果园果实识别场景中,赵德安等人[20]直接使用YOLOv3算法进行复杂背景下的果园苹果识别,但并未根据应用场景对算法做出具体的修改;王细萍等人[21]采用卷积神经网络进行苹果病害图像的识别,但这种堆叠卷积层的方法不能很好利用多层特征的关联信息;魏玮等人[22]采用残差网络[23]通过跳跃连接降低冗余特征来提高检测精度,并提高检测速度,但这种方法同时也会导致部分特征信息的丢失;肖经纬等人[24]通过压缩后的残差网络结构来提升检测速度和精度,但仍会使模型的特征表达能力有所损失。因此,本文在YOLOv3算法框架基础上,采用模块化网络结构[25]设计,对葡萄串的特性设计全新的特征提取网络和损失函数,提出一种改进的葡萄串检测算法。该算法将特征提取网络得到的不同尺度的特征图进行融合,增强模型的特征提取与处理能力,提高了模型的鲁棒性,从而提升了对果园中葡萄串的检测效果。

1网络结构设计

本文提出的葡萄检测算法由特征提取网络、特征融合网络及一些常用的后处理部分组成。其中,特征提取网络RdNet由自主设计的基本残差模块和降采样模块堆叠组成,负责从输入图像中提取不同尺度的特征;特征融合网络用于将不同尺度的特征图进行融合,以得到包含更多特征信息的特征图;后处理部分包括将特征转换为预测值的预测层以及非极大值抑制等生成预测框的常用算法。

1.1特征提取网络RdNet

为提高训练精度及网络质量,一般会采用堆叠的卷积层进行特征提取,但由于随着卷积层层数的增加,会导致网络训练时出现梯度消失和梯度爆炸的问题。本文利用残差网络中使用跳远连接来避免梯度爆炸或梯度消失的思想,通过重复堆叠自主设计的残差模块与降采样模块,设计了特征提取网络RdNet,其网络结构如图1所示。输入图像通过残差块的卷积层进行特征提取,在几个特定的位置使用降采样模块,对特征图进行尺度变换,从而提取到不同尺度的特征。在每个残差块和降采样块输出时,都使用LeakyReLU激活函数对特征激活。在特征提取网络的后半部,提取出80×60,40×30,20×15三种尺度的特征图route0、route1、route2,用于后续特征融合网络进行多尺度特征图融合。

网络子模块结构如图2所示。由图2a可以看出,本文以该残差模块作为特征提取网络的基本单元,输入特征在主路径经过三层卷积进行特征提取,该过程只改变特征的通道数,而不改变特征的尺度大小。同时,在捷径对输入特征进行一次卷积,将其变换为与主路径相同维度的输出,从而将两条路径的输出叠加再进行激活,得到残差模块的输出。

由图2b可以看出,降采样模块采用与残差模块对称的结构,主路径由三个卷积层构成,其中第二层卷积层采用特定的卷积步长,并采用same方式填充,从而得到尺度缩小为特定倍数的特征图(图2中以步长等于2为例);捷径为一个与卷积层同样步长的最大池化层,从而得到与卷积层相同尺度的输出,把两条路径的输出叠加,再使用LeakyReLU函数进行激活,得到降采样模块的输出。

1.2特征融合网络

由于不同尺度的特征图对不同深度的信息特征提取能力有较大区别,采用单一尺度特征图直接进行预测,会使准确率大幅下降,若对多种尺度的特征图分别进行预测,则会因特征表达不完整导致检测效果仍然不理想。因此,本文提出了一种基于可训练变换器的特征融合网络,特征融合网络结构如图3所示。从特征提取网络提取三个尺度的特征图route0、route1、route2,分别经过一次卷积将通道数减半变为128,将得到的route2_cat直接作为特征融合网絡的一个输出;采用nearest方法对route2_cat进行上采样,变换为与卷积后route1相同的尺度,再经过与converter2沿通道方向相乘,得到变换后的特征层,将此特征层与卷积后的route1叠加,即可得到特征融合网络的第二个输出route1_cat;对route1_cat进行相同的上采样和变换器操作,并与卷积后的route0叠加,得到特征融合网络第三个输出route0_cat。使用三个融合后的特征图分别进行预测,可以增强模型的特征表达能力,得到更好的检测效果。

1.3后处理部分

在预测层中,与YOLO算法类似,将主干网络输出矩阵的每个像素点都作为一个检测点,每个检测点负责检测特定尺度先验框的物体,预测层对特征融合层返回的三个融合后的特征图分别进行预测,并对三种特征图分别使用不同大小的先验框,最终在每个检测点得到七维预测信息,其中每个预测框包含预测框的置信度、预测框的分类和分类得分,以及预测框相对于先验框中心点的偏移和相对于先验框宽高的调整值,其中三个特征图经过预测层,分别产生4 800,1 200,300个预测框。

为了防止对同一物体的重复预测,在预测层之后采用非极大值抑制(non-maximum suppression,NMS)算法,对重叠率大于阈值的预测框进行筛选,两个框的重叠率使用交并比(两个检测框交集与并集的比值)来量化,若交并比大于设定的阈值06,说明两框为同一目标,将同一目标中得分较低的检测框去掉,对于每个目标只留下得分最高的一个检测框后,对预测值进行解码,得到预测框实际的宽、高及中心点坐标,即可完成对物体的预测。

2实验与结果分析

2.1实验环境

本实验使用Nvidia Geforce RTX2080Ti GPU进行网络训练。为测试模型在采摘移动平台上的性能,本文选用arm64架构的Nvidia Jetson TX2移动计算平台为测试环境,其配置为8 GB内存加16 GB交换内存,搭载ubuntu1604操作系统,装机环境为jetpack33,依赖环境为cuda100、python37、pytorch131和numpy1174,并使用opencv和matplotlib库进行预测结果和数据的可视化。

2.2数据采集与图像标注

为使用于模型训练的数据与采摘机器人实际工作场景保持一致性,将Intel的RealSense D435摄像头分别安装在距离地面60,90和120 cm的位置录制视频,为使模型得到较高的鲁棒性,分别在早晨、中午、傍晚进行视频录制,将录制的视频剪辑,并按3 s的时间间隔进行抽帧,得到500张图片,从去除不理想数据后得到的400张图片中,随机选取120张作为测试集,概率地对剩余图片进行调光,水平翻转,顺时针及逆时针旋转5°等操作进行数据增强,随机选取增强后数据中的480张图片作为最终的训练集。

使用labelImg图像标注工具,对所有测试集和训练集图片中的葡萄串进行框选,生成xml标签文件。使用python的xml库从xml标签文件中,提取每个期望检测到的目标边框左下角点与右上角点的坐标值xmin、xmax、ymin、ymax,将其转换为边框中心点坐标x、y与边框的宽和高w、h,将所有边框的转换结果保存到txt文件中,供训练和测试脚本调用。

2.3网络训练

本文的网络训练采用自主设计的损失函数,将损失值分为正样本和负样本两部分。训练样本通过前向传播后,得到n(n=6 300)个预测框,计算出每个预测框与标签中真实预测框的交并比,并与设定好的阈值06进行比较,将交并比大于阈值的预测框作为正样本,小于阈值的预测框作为负样本,分别计算正负样本的损失。负样本直接使用预测置信度的累加作为损失值,正样本损失值则分为真值框交并比与置信度的差值、类别预测得分与真值(0或1)的差值、预测框的位置及宽高误差三部分,对三部分损失值按照不同权重进行叠加,再将正负样本损失值相加,即为最终的损失值。正负样本损失为少5倍,每批量的样本数为32,最大迭代次数设置为12 000,网络训练损失值迭代曲线如图5所示。由图5可以看出,网络的损失值在第11 000到12 000次迭代间逐渐趋于稳定。

2.4结果分析

本文模型检测葡萄串效果图如图6所示。由图6可以看出,对大部分葡萄串目标,模型都可以正确识别,并得到较精确的边框。由于使用了较多遮挡和重叠数据进行训练,在测试时,模型也可以提取有效特征,并对有遮挡或重叠的葡萄串目标做出正确的检测。

使用训练好的模型对测试集进行推理,将得到的n个预测框按照其置信度从大到小排序,分别取前1,2,…,n作为预测正样本,其他作为预测负样本,每次分别计算预测结果的recall值和percision值,并根据这些值绘制P-R曲线,P-R曲线如图7所示。

在相同硬件環境下,使用相同数据集对搭载DarkNet19的YOLO v3,Faster R-CNN进行训练与测试,计算F1 score和AP值,并与本文提出算法进行对比,不同模型检测结果对比如表1所示。

由表1可以看出,在自然条件下进行葡萄串单目标检测时,本文所提出的基于可训练变换器的多尺度特征融合方法的F1值比YOLO v3高出366%,而比Faster R-CNN高出245%;AP值比YOLOv3高出478%,比Faster R-CNN高出309%;检测速度比FasterR-CNN高出8 f/s,比YOLOv3高出4 f/s,说明本文算法在识别准确率和检测速度上与YOLOv3和Faster R-CNN相比,都有较明显的优势。

3结束语

本文提出的基于可训练变换器的RdNet葡萄串检测算法,加入了特征变换器,相较于经典端到端的模型,更能充分的从各尺度特征提取有用的信息。经训练后,在自然条件下,模型检测的F1值和AP值分别达到9258%和9233%,在Nvidia jetson TX2上检测速率可达19 f/s,相对于YOLO v3和Faster R-CNN算法都有较明显的优势,可以满足果实采摘机器人实时性要求。该研究为采摘机器人提供了良好的技术支持。未来可针对不同果实的特征,将模型应用于多种果实的识别。

参考文献:

[1]齐元静, 唐冲. 农村劳动力转移对中国耕地种植结构的影响[J]. 农业工程学报, 2017, 33(3): 233-240.

[2]张新红, 刘阳. 新一代信息技术驱动下我国智慧农业发展路径选择[J]. 河南农业, 2020,(6): 35-37.

[3]陈燕, 王佳盛, 曾泽钦, 等. 大视场下荔枝采摘机器人的视觉预定位方法[J]. 农业工程学报, 2019, 35(23): 48-54.

[4]吕继东, 赵德安, 姬伟. 采摘机器人振荡果实匹配动态识别[J]. 农业工程学报, 2013, 29(20): 32-39.

[5]方建军. 移动式采摘机器人研究现状与进展[J]. 农业工程学报, 2004, 20(2): 273-278.

[6]田锐, 郭艳玲. 基于机器视觉的葡萄自动识别技术[J]. 东北林业大学学报, 2008, 36(11): 95-97.

[7]刘平, 朱衍俊, 张同勋, 等. 自然环境下贴叠葡萄串的识别与图像分割算法[J]. 农业工程学报, 2020, 36(6): 161-169.

[8]罗陆锋, 邹湘军, 熊俊涛, 等. 自然环境下葡萄采摘机器人采摘点的自动定位[J]. 农业工程学报, 2015, 31(2): 14-21.

[9]Linker R, Cohen O, Naor A. Determination of the number of green apples in RGB images recorded in orchards[J]. Computers and Electronics in Agriculture, 2012, 81: 45-57.

[10]Xu Y W, Imou K J, Kaizu Y, et al. Two-stage approach for detecting slightly overlapping strawberries using HOG descriptor[J]. Biosystems Engineering, 2013, 115(2): 144-153.

[11]Zhao C Y, Lee W S, He D J. Immature green citrus detection based oncolour feature and sum of absolute transformed difference (SATD) using colour images in the citrus grove[J]. Computers and Electronics in Agriculture, 2016, 124: 243-253.

[12]Hussin R, Juhari M R, Kang N W, et al. Digital Image processing techniques for object detection from complex background image[J]. Procedia Engineering, 2012, 41: 340-344.

[13]Liu S, Yang C H, Hu Y C, et al. A method for segmentation and recognition of mature citrus and branches-leaves based on regional features[C]∥Chinese Conference on Image and Graphics Technologies. Singapore: Springer, 2018: 292-301.

[14]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥IEEE conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580-587.

[15]Girshick R. Fast r-cnn[C]∥IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1440-1448.

[16]Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.

[17]Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]∥IEEE conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.

[18]Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]∥IEEE Conference on Computer Visionand Pattern Recognition. Honolulu: IEEE, 2017: 7263-7271.

[19]Redmon J, Farhadi A. YOLOv3: An incremental improvement[J]. Arxive-Prints, 2018(4): 1-6.

[20]赵德安, 吴任迪, 刘晓洋, 等. 基于YOLO深度卷积神经网络的复杂背景下机器人采摘苹果定位[J]. 农业工程学报, 2019, 35(3): 164-173.

[21]王细萍, 黄婷, 谭文学, 等. 基于卷积网络的苹果病变图像识别方法[J]. 计算机工程, 2015, 41(12): 293-298.

[22]魏玮, 蒲玮, 刘依. 改进YOLOv3在航拍目标检测中的应用[J]. 计算机工程与应用, 2020, 56(7): 17-23.

[23]He K, Zhang X, Ren S, et al. Deepresidual learning for image recognition[C]∥IEEE Conference on Computer Vision & Pattern Recognition. IEEE Computer Society, 2016.

[24]肖经纬, 田军委, 王沁, 等. 基于改进残差网络的果实病害分类方法[J]. 计算机工程, 2020, 46(9): 221-225.

[25]毛勇华, 代兆胜, 桂小林. 一种改进的5层深度学习结构与优化方法[J]. 計算机工程, 2018, 44(6): 147-150.

Abstract:  In order to solve the problem that the YOLO algorithm has a low recognition rate due to its end-to-end network structure, which causes the features at certain scales to be faded or lost, we take grape as an example to apply the trainable transformer and RdNet in the fruit recognition network research. We propose an improved YOLO algorithm based on the fusion of trainable transformers and multi-scale feature maps. The self-designed RdNet based on stacked residual blocks and downsampling blocks is used as the feature extraction network, and the converter transformer structure is used to transform and fusion features of different scales. From the collected and screened photos of the grape orchard, 120 photos were randomly selected as the test set, and the rest of the photos were enhanced to obtain 480 images as the training set. We trained our model, YOLOv3 and Faster R-CNN (faster region-convolutional neural networks) three algorithms, are used its F1 value and AP value on the test set to evaluate the performance of each model. The results show that the F1 value of our model can reach 92.58% on the test set, and the AP value can reach 92.33%. On Nvidia Jetson TX2 platform, it can reach a detection speed of 19 f/s (frame per second). The inference time of a 640*480 picture is 52.6 ms, which achieves an ideal recognition accuracy rate and can meet the real-time requirements of the picking robot. So the research can get better application effects in scenes such as orchards.

Key words: convolutional neural network; grape; object detection; multi-scale features; YOLO

猜你喜欢
目标检测卷积神经网络葡萄
葡萄熟了
当葡萄成熟时
视频中目标检测算法研究
基于深度卷积神经网络的物体识别算法
行为识别中的人体运动目标检测方法
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
移动机器人图像目标识别
基于卷积神经网络的树叶识别的算法的研究
基于P3电位的目标检测研究