周奇
摘要:由于人工进行的特征提取存在很多不可控的个人主观偏见,为了降低人为因素对实时检测造成的影响问题,本文中将借鉴先进的深度学习研究成果,以YOLO网络结构为改进蓝本,将浅层神经网络提取的低层特征和高层神经网络提取的抽象特征进行融合,提出一种新的YOLO网络模型变种。改进后的方法在检测视频中的轮船时具有较高的精确度,并可对检测到的轮船进行定位和计数。同时检测速度达到46帧/s,满足实时性的要求。
关键词:轮船检测;YOLO;多目标;实时检测;神经网络
中图分类号:TP183 文献标识码:A 文章编号:1009-3044(2018)10-0196-02
Abstract:In order to reduce the influence of human factors on real-time detection, there are many uncontrollable individual subjective prejudices in the feature extraction. In the target detection of the article, it will draw on the advanced research results of deep learning, take YOLO network structure as the blueprint for improvement , The low-level features extracted by shallow neural network and the abstract features extracted by high-level neural network are fused, and a new variant of YOLO network model is proposed. The improved method can be applied to real-time detection of video-based multi-targets in ships, and it has a higher detection rate for ships in video The accuracy of the detected ship can be located and counted. At the same time detection speed of 46 frames/s, to meet the real-time requirements.
Key words: ship detection; YOLO; multi-target; real-time detection
1 引言
在計算机视觉研究领域中多目标检测技术一直是一个热门研究方向。在现有的检测目标技术方面如人脸检测[1]、行人检测[2]等已经有了非常成熟的应用方案,相较而言,在移动轮船检测上还没有十分成熟的应用方案。传统的基于卷积神经网络[3]的目标检测技术都会使用到滑动窗口,例如RCNN[4]、SPP-Net[5]、Fast-RCNN[6]、Faster-RCNN[7]方法。但这些方法难以满足基于视频的轮船多目标实时检测。直到YOLO[8]、SSD[9]的提出才从另一个思维角度解决了候选区域选择的问题,从此目标检测的精确度和速度进入一个新的不同高度的研究领域。
本文根据卷积神经网络在计算机视觉领域的研究,借鉴YOLO算法,将浅层神经网络提取的低层特征和高层神经网络提取的抽象特征进行融合,提出一种新的YOLO网络模型变种。在实施环境中对该算法进行真实测试,测验结果表明YOLO算法在移动轮船多目标检测领域能够提供较高的检测准确度且检测计算速度保证了实时性的性能要求。
2网络设计
本文所设计的网络以YOLO的网络为设计蓝本,根据轮船目标的多特征属性,使用浅层卷积神经网络提取轮船的低层特征,并采用卷积层将已提取的高层特征和低层特征进行特征融合,以进一步提高检测的准确度。
2.1轮船目标检测及定位
每一个网格都会预测B个边界框(bounding boxes),每个边界框都有相应的预测参数,这些参数总共有5个,它们分别是:X,Y,W,H,Config(Ship)。X代表边界框的中心横坐标;Y 代表边界框的中心纵坐标;W代表边界框的宽度;H代表边界框的高度;Config(Ship)代表存在轮船物体的可信度评分。这个可信度评分Config(Ship)用于反应根据当前的边界框模型内存在轮船目标的可能性Pr(Ship)和边界框预测目标轮船位置的准确度IOU(pred|truth)。可信度Config(Ship)的计算公式为:
如果边界框内不存在轮船目标,则Pr(Ship)=0,如果存在目标则Pr(Ship)=1,同时根据预测的边界框和真实的边界框计算IOU(pred|truth)。IOU(pred|truth)的计算公式为:
BB(pred)为基于训练数据的标签参考标准框;BB(truth)为目标检测时的目标边界框;ares(.)表示求面积。
2.2轮船多特征融合
通过卷积神经网络层[10]对轮船目标进行特征提取,在不同层次提取轮船特征的抽象程度不同,高层网络提取的特征最为抽象,可视化的结果类似轮船的整体轮廓;中间层提取的特征抽象程度不高,可视化的结果类似组成轮船的线条;底层网络提取的特征相对具体,可视化的结果就更趋近于点。通过融合使不同层级的特征在同一维度下参与对于轮船目标的检测,以提高检测时的精度。具体的实现即在原有的YOLO网络中添加新的卷积层用于提取轮船目标具体的特征,并将这些特征融合到高层网络中提取出的高层抽象特征。设计的网络结构如图1所示。
3实验结果及分析
3.1实验平台
本文的实验环境为:Inter(R) Xeon(R) CPUE5-2690 v2 @ 3.00GHz, 32G内存,NvidaiaGefore GTX1080, Ubuntu 14.04,64位操作系统。
3.2实现结果
在该实验环境下,检测器检测速度达到46帧/s满足基于视频的目标实时性检测和准确性要求。对第一组数据进行检测的实验结果如图2所示;对第二组数据进行检测的实验结果如图3所示。
图2中给出了第一组数据的检测结果,图像从左到右从上到下依次排列,共4张图片。在对视频进行检测的过程中每隔20秒截取一张检测图片,对这4张图片依次按照从左到右从上到下排列。在每帧图像中检测器会使用绿色矩形方框标记出已检测出的轮船,同时在绿色方框的左上角依次给当前方框进行编号,编号的个数表示已检测出的移动轮船目标的个数,每个不同的编号用于区分不同的移动目标。视频中轮船的大小各异,背景环境对于轮船检测的影响也比较大。但检测器能够检测出绝大部分的轮船,并依次标记出不同的轮船。
在实验结果二中先后出现了人、山、视频logo等干扰视频检测的非轮船物体存在,检测器依旧能够自动有效的忽略这些干扰物体的存在,只检测轮船目标。
3.3实验结果分析
通过对实验结果进行分析,可以知道该方法能够应用于基于视频的轮船多目标检测中。在将原有的多种类目标检测优化为单种类目标检测后算法的实时性进一步提高了。同时在检测的过程中该方法能够自动忽略掉人、山、灯塔等非轮船目标,只识别检测出移动轮船目标,且能够对检测出来的轮船进行定位与分类标记。
4结束语
通过在实际的视频数据上进行测试验证,已证实本文的方法在基于视频的轮船多目标检测上,其检测准确率和定位的精准度都有优异的表现。但是该检测方法存在的不足有以下两点:1)当使用画面颜色为灰色的视频进行测试时,即使视频中出现轮船,检测器也不会进行任何处理。该问题的出现是由于在进行网络设计时,对于轮船颜色特征的融合不够,融合的特征主要是形状等低层特征;2)检测中当轮船目标之间相互遮掩的频率过高时,检测容易发生抖动。这是由于算法没能完全解决轮船相互遮挡、相互影响的问题所导致的。基于视频数据中上下帧之间的上下文环境关联关系,如果引入帧间的数据关联信息,对解决这一检测器抖动问题有很大的助益。帧间上下文信息在视频检测中的作用也是目前移动目标检测的研究热点。
參考文献:
[1] 程春玲,刘胜昔.基于BING与卷积神经网络的人脸检测算法[J].南京邮电大学学报:自然科学版,2017(6):1-7.
[2] 芮挺,费建超,周遊,方虎生,朱经纬.基于深度卷积神经网络的行人检测[J].计算机工程与应用,2016(13):162-166.
[3] 周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-12.
[4] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[J]. Computer Science, 2013:580-587.
[5] He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition.[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,37(9):1904.
[6] Girshick R. Fast R-CNN[C]//IEEE International Conference on Computer Vision.IEEE,2015:1440-1448.
[7] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015:1-1.
[8] Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[J].2016:6517-6525.
[9] Wei L, A. Dragomir: SSD: Single ShotMulti- BoxDetector. arXiv preprint arXiv: 1512.02325v5,2016.
[10] Lecun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J].Neural Computation, 2014,1(4):541-551.