卢亚辉,张纬华,和飞飞,王 帅,郝锦虎,杜玉红
(1.中国人民解放军63966部队,北京 100071;2.天津工业大学机械工程学院,天津 300380)
随着计算机技术在图像领域应用不断深入,人工智能和大数据分析等技术被广泛地运用在部队的各项工作中,开展作战试验初期,大多采用填写表格的方式获取一些难以采集的数据,给参试指战员带来很多的额外工作,并且产生了大量谬误数据,即使把表格电子化后效果依然不好。如何在作战试验开展过程中,以无感知方式获取相关数据成为大家研究的重点。通过实践,音视频方式成为作战试验数据采集获取的重要技术方式。在近期的作战试验中,各项目组均采取了以摄像器材为主的视频采集手段,在不干扰作战人员工作的前提下,获取第一手的作战试验视频数据,因此如何对采集到的视频数据进行处理是推进作战试验工作开展的首要任务。
国内外对作战试验的数据采集及图像处理识别做了大量研究。文献[1]中发现作战试验视频数据采集指标体系尚未建立,使得视频数据采集存在一定的盲目性,造成时间和器材的浪费,同时产生大量无用视频干扰后期视频数据处理工作;文献[2]中发现视频数据预处理工作手段不足,造成人工处理时间极长,视频数据质量无法保证,导致海量视频数据事后处理困难,无法为评估工作提供有力支撑;文献[3]中发现智能化视频数据深入学习能力不足,对数据特征参数的处理能力达不到要求。同时由于应用场景复杂多变、图像视频采集和分析挖掘技术的原因,严重制约了图像视频数据的利用。
本文首先从拍摄设备选型、数据采集时的注意事项及建议两个方面对图像采集进行分析,然后对采集后图片进行预处理后通过YOLO 等算法对其进行识别后归纳出识别准确性与有效性,旨在解决上述相关问题。
图象数据采集时,经常会受场地等自然环境的影响,由此造成图象在收集与传送过程中会受照射灯光不平衡、光响应不一致和拍摄角度等各种因素的影响,使视觉图象含有噪声影响而造成图象品质变坏,从而影响图象的的识别准确度。所以可以针对上述图片的采集流程,从清晰度、抖动、反射、失焦和拍摄角度5 个角度,对图片采集人员的操作过程给出相应的采集建议[4]。
(1)清晰度
在选择拍摄设备时,尽量选用高清的摄像机或者录像机,拍摄比例尽量选择16∶9 或者4∶3,所输出的图像像素在1 440×900 以上,这样可以保证即使输出图像存在一定的失真,也不会对后续的图像处理及相关信息识别产生太大影响。
(2)抖动
拍摄时如果出现些许抖动,就可能会改变待识别文字或特征点在视频中的位置,从而偏离识别区,并且可能造成短暂的失焦模糊。如果有可能的话建议在拍摄过程中通过简单的辅助设备提高相机的稳定性,如八爪鱼等设备,如图1 所示,在提高采集效率的同时也避免了采集人员长时间劳累。
图1 防抖动设备
(3)反光
采集内部设备时,当座舱盖打开时,上方的光线会照进座舱内,使屏幕产生反光。建议关闭舱门或者利用纸板等简易工具进行杂光遮挡,尽量减少屏幕反光。调节好摄像机的明暗反差和光照性质,可以合理运用硬光、柔光,硬光有强的光,在高光端很明亮,暗部层次很少,边条比较清晰明朗,颜色也有很大的浓度。而柔光则能够让主体背后的阴影更加柔和,当物体上的照度相对较低时,其颜色的强度就会比较微弱。所以合理运用灯光,也可以获得良好的效果。
(4)失焦
在已掌握的某些视频资料中发现,有些视频会在某时刻突然失焦,相机具备自动对焦功能,会自动重新使画面清晰,但失焦期间采集的图像会识别失败,有可能影响某些指标的统计。建议在进行拍摄过程时要做好调焦工作。
(5)拍摄角度
建议尽量可以包含某些设备的屏幕边缘,这样不仅可以确保画面不缺失,有多余的部分还可通过剪辑去除掉[5]。软件可以根据边框建立相关坐标系,如图2 所示,对图像进行预处理,矫正相关画面,从而提高图像识别稳定性。
图2 拍摄屏幕边缘
当前部队上用于图像采集的摄像器材以摄像机为主,辅助以照相机,相机是指获取图像的前端采集设备,也是图像采集的关键硬件之一,采集图像的质量优劣会对图像处理的速度有很大影响。
相机根据应用途径可分为民用相机和工业相机两种,工业相机的主要参数包括传感器类型、最大帧率、触发方式、分辨率、像素深度和数据接口等,图像质量好、噪声较小、感光较好[6]。民用相机的图像传感器采用隔行扫描,携带方便,操作简单。相机根据扫描方式可分为面阵相机和线阵相机。前者以平面为单位获取图像,可以一次采集完整的图像信息,易于调节、成本低;而后者每次曝光一行图像,然后拼接形成整个图像,调节相对复杂,成本较高。另一方面,分析对比黑白相机与彩色相机,在同样的条件下,黑白相机具有更高的精度,图像边缘的采集效果更好,可以直接处理黑白相机获取的灰度信息。分辨率是相机的最基本参数,是指相机每次获取图像的像素数,根据目标所需精度与视野范围可求出相机单方向分辨率。分辨率和像素深度共同决定了图像的大小,其中像素深度越高,采集到的图像质量就越高,但是也降低了采集的速度,增加图像处理的数据量,同时成本也会提高。
(1)民用相机
索尼Alpha 7R IV 相机,如图3 所示。采用新的背照式影像传感器,背照式结构与出色降噪技术相结合,可提供高感光低噪点的优异影像画质[7],镜头更加牢固的同时提升了舒适性和稳定性。
图3 Alpha 7R IV相机
佳能EOS R6 相机,如图4所示。自动对焦的范围最大可以达到100%×100%全屏对焦,约0.05 s的自动对焦速度。EOS R6还搭载了机身防抖,实现了机身防抖和镜头防抖的协同工作。
图4 EOS R6 相机
(2)工业相机
海康MV-CE200-10GM/GC 工业相机,如图5 所示。这款是2000 万像素的工业面阵相机,具有噪点低、分辨率高、图像优异及性价比高等特点,可无缝链接第三方软件。
图5 MV-CE200-10GM/GC工业相机
大恒图像LA-CC-04K05B 工业相机,如图6 所示。采用基于先进的双线彩色CMOS 技术,有出色的灵敏度和速度,可以满足各种领域不同的需求。
图6 LA-CC-04K05B工业相机
图像预处理是为了提高图像识别的准确度而对图片上模糊信息进行处理的一个步骤。本文根据部队对拍摄图像的处理需求,对常见的图像预处理操作按照功能和需求分为了5种,如图7所示。
图7 图像预处理操作
(1)图像转化
由于拍摄角度等技术的问题,可能会使得上传的图片倾斜,导致扫描的图像位置不正,因此需对其进行放缩、旋转、平移等校正工作,为便于后续预处理操作,还需将其进行归一化,常见的有Hough 变换等方法。
(2)图像二值化
二值化又被称作灰度分割,将图像的灰度分为0和1 两种值。设定一个函数g(m,n),表示某一个像素点(m,n)的灰度值,则有g(m,n)∈{0 ,1,…,255},gx(m,n)∈{ 0,1},二值化过程如下:
图像二值化的流程如图8所示。
图8 二值化流程
(3)图像平滑去噪
图像平滑的目的之一是消除噪声,二是模糊图像,降噪和平滑滤波操作可以将二值化处理后所存在的噪音和线条边缘毛刺进行消除。图像平滑去噪的流程如图9所示。
图9 平滑去噪流程
(4)图像分割
图像分割指将图像的某些感兴趣的特征区域分割提取的技术,分割的目的是把图像分成一块一块的区域,是基于像素特性的分布,通过阈值处理完成的[9]。
传统的图像分割技术分为全局分割和区域分割。其中全局分割又称为阈值分割,分为全局阈值法、迭代式阈值分割和直方图阙值分割等;区域分割技术主要包括区域生长法和分水岭分割法[8]。如今,基于深度学习的图像分割技术正在逐渐广泛使用中,基于YOLO 算法的图像分割技术,不仅提升了图像分割速度,而且精度也能够满足要求,因此得到了广泛的使用。
为了将目标从背景当中分离出来,减少背景对目标的干扰,提升检测速度,实现更好的目标识别效果,首先将卷积核在图像上滑动,把图像每个像素点的灰度值与卷上的数值相乘,再将所有的数值相加得到最终的图像像素灰度值。然后确定池化区域的大小,将得到的卷积特征分割成多个区域,然后用这些区域的池化特征来确定池化之后的卷积特征。
最后对每个cell分别进行预测,其中,每个cell对应两个boundingbox,两个boundingbox负责坐标的预测。根据预测到的坐标便可将目标从背景中分离出来。
(5)图像边缘检测
在目标检测过程中,要对目标边缘进行检测,确定目标在图像中的位置,为下一步目标的识别做好准备,传统的图像边缘检测需要对图像的每个像素点均进行检测,增加了边缘检测的时间。而如果将图像进行分块处理,对每块区域分别进行检测,可大大减少边缘检测的时间[9-10]。
图10 所示为480×640 像素的图像,将其分为32×32的若干个子块,然后对每个子块分别进行检测。
图10 分块后的图像示意图
公式为:
首先对子块的左侧、右侧、左下和右下4 个顶点灰度值代入式(2)进行判断,如果判断结果为真,说明4个顶点至少存在一个像素点包含目标区域。然后对每个子块分别进行上述操作,并将包含目标区域的子块进行标记,并得到每个子块坐标。随后根据包含目标区域子块坐标,便能得到包含目标区域的最小矩形范围。最后将最小矩形范围内的每个边缘块进行边缘检测,就能得到目标的边缘。
YOLO 算法识别模型在训练时需要将图片进行划框分块后得到每个模块的内容及中心坐标,并求出长和宽。
图11 YOLO算法模型流程
依此将输入的预处理后的坦克图像缩放为标准尺寸的正方形图片,分割成M×M的网格后在网格中随机生成边界框,其置信度函数公式为:
式中:P(Ci|O)为网格中的目标所属目标类别i的概率;P(O)是判断网格中有无目标出现;RIOU为边界框和标记框的预测交叉比值。
模型的损失函数为:
该算法将目标分类和目标定位两个问题合成一种方法,利用分类框和检测框来实现模型的识别,提高算法效率的同时也能识别图像的所有内容。
这是一种通过回归网络来实现端到端的识别算法模型[11-12],结构模型如图12所示。
图12 SSD算法模型流程
首先根据图像特征生成不同大小,不同尺度的特征图,对特征图上的点进行抓取,抓取的参数设置为最小尺度值0.2,最大尺度值0.9,特征抓取盒为5 种,设有n个特征图:
根据坐标点来抓取特征,模型的损失函数为:
训练完毕后通过不同尺度特征对提取的深层图像特征进行识别和预测,并去除冗余检测框得到结果,这一模型加入了区域建议的步骤,保证识别准确性的同时提高了预测准确性。
本文采用佳能EOS R6 相机获取了一张彩色的坦克车图片,首先对其进行二值化处理,将彩色图片变成灰白图片后,然后利用3 种算子(Roberts 算子、Prewitt 算子和Sobel 算子)分别对其进行边缘检测和形状提取后,将结果进行对比进行输出,这一过程的部分代码如下:
运行结果如图13所示。
图13 图像预处理结果
本文利用佳能EOS R6 相机获取了一张坦克图片,对坦克图片进行遮挡后进行识别实验,实验结果如图14所示。可以看到当坦克上半部分被遮挡时,识别准确率大约在68%,下半部分被遮挡时,识别准确率大约在87%,证明坦克的上半部分包含信息要比下半部分多,经过不断训练后识别准确率也提升了大约15%。
图14 图像识别结果
对于本文所提的YOLO 算法和SSD 算法,利用数据集中随机的100张图片进行实验后可得到如表1所示的实验结果。从表中可以看出两种算法的识别准确率均达到了90%以上,证明了深度学习在图像分类和识别上的优越性。两种算法的识别效果非常接近,但YOLO 算法在每一项上均略高于SSD 算法,因此建议采用YOLO 算法进行后续的改进与操作。
表1 算法识别结果
本文针对于当前部队上所面临的视频采集问题,通过分析视频采集硬件并选型,提出采集指导建议来为后续的数据采集准确性提供保证。针对于采集的图像数据处理盲目性,提出从图像二值化、边缘检测、图像分割等5 个方面来对其进行预处理,为图像识别打下坚实的基础,最后通过YOLO 算法模型和SSD 算法模型对其进行验证,达到图像识别的目的。当前从数据从采集到处理均是由人工完成的,因此可以将本文的内容和人工工作结合,将这一过程智能化,通过设计和开发系统软件的方式来实现电脑的智能采集处理和识别,提高工作效率。