王奕婷 高美珍 洪家平 陈英豪 乔丰收
(1.北京师范大学人工智能学院 北京 100875)(2.湖北师范大学物理与电子科学学院 黄石 435002)
(3.湖北师范大学计算机科学与技术学院 黄石 435002)
(4.中国人民解放军91919部队 黄冈 438000)(5.武汉船舶通信研究所 武汉 430079)
在目标检测[1~3]领域,传统的方法如方向梯度直方图结合支持向量机[4~5]的算法在实时性和准确率之间达到平衡,但对于遮挡和目标方向改变的情况存在漏检。为使结果更加精确,基于区域候选[6~7]的方法被提出并大量探索。这类方法先提取目标备选区域,然后训练神经网络以实现目标检测。但在保证准确率的前提下,候选区域提取方法有一定计算复杂度且生成候选框的数量较多,造成后续训练和测试的计算量大,难以应用于实时监测的场景。
在现有模型的基础上,引入选择性注意机制[8~9]能够更加高效地实现目标备选区域提取。Ji等人在卷积神经网络中引入多尺度注意机制[10]产生显著性映射图,并在多个数据集上达到了更高的检测精度。赵谦等[11]借鉴视觉注意模型生成显著图,能够滤除部分干扰并对目标区域进行增强以达到更高的准确率。但随着外界环境的变化与目标数量的增加,该方法表现欠佳且实时性不够,需要更加高效的视觉注意机制模型。
近年来,构建基于注意机制的算法模型逐渐成为研究热点,并被广泛应用于分类[12~13]、检测[14]与分割[15]、目标跟踪与识别[16~17]、质量评估[18]等多个领域。Itti等提出一种基于视觉注意的系统[19],融合多尺度图像特征并进行叠加构建显著图,能够减少背景噪声的干扰并实现不同场景下的目标区域提取,但处理后图像的边缘信息丢失。在此基础上,许永恩等引入边缘信息的提取[20]以实现更精确的目标检测,但其在复杂场景下检测精度不高,且较Itti模型运算速度有所下降。为提高定位准确率,Harel等提出基于图的视觉注意(GBVS)模型[21],在特定特征通道上生成激活图,对其进行归一化得到显著的区域。该模型在自然图像场景下检测准确度高,但无法精确提取出目标区域轮廓且运算速度较慢。
针对上述问题,本文提出并构建一种基于选择性注意机制的目标区域高效提取模型。这种方法可以不依赖于光照、方向等其他底层特征,且不需要高性能设备的安装,大大降低了运算量。
将二维尺度的图像从空间域转化到频域,能够根据不同的频率成分来区分不同组成部分的信息。图1展示了原始图像及其变换后的结果。
图1 原始图像与变换图示
图1(a)为原始图像,将给定的三通道RGB图像转换为灰度图像,如图1(b)所示。进行二维离散余弦变换,得到对应的幅度与频率的变化关系。图1(c)展示了变换后得到的频域部分区域,采用灰度图像的方式呈现,共分为256个灰阶。随着水平方向的自左向右和垂直方向的自上向下变化,频率数值由小到大递增。图示表明,能量主要集中在低频部分。
为进一步观察不同水平和垂直等级的数值变化情况,在离散余弦变换的结果中选择部分的行和列,分别绘制水平和垂直方向的幅度-频率关系曲线,如图2和图3所示。
图2 水平方向的幅度-频率关系曲线
图3 垂直方向的幅度-频率关系曲线
可以看到,图像中大部分信息存在于频域中的低频区域。对输入信号的不同频率成分的信息进行变换和分析,能够去除部分冗余信息并突出较为显著的目标区域。根据以上分析,构建模型并进行理论分析。
本文提出一种基于频域分析的计算模型,操作步骤分为预处理和算法实现两部分。先对图像进行预处理,再通过分析频谱信息并进行函数映射与差值计算,提取目标区域。
读入原始图像并统一调整格式,采用加权平均法将彩色图像转为灰度图像,如式(1)。
其中,x、y分别为输入图片的水平和垂直位置,R(x,y)、G(x,y)、B(x,y)为输入图像每个像素对应的红、绿、蓝通道的值,f(x,y)为变换得到的灰度图像。在不影响图像的有效信息表示和目标提取准确度的前提下,设置图像大小为原来的一半可以提高后续的运算和处理速度。
为去除图片中的部分冗余信息,构建计算模型如图4所示。
图4 基于选择性注意机制的区域备选流程图
预处理得到的f(x,y)作为输入信号,其中,图像的长为M,宽为N,0≤x≤M,0≤y≤N。对输入的信号进行二维离散余弦变换,从空域转换到频域。
式中 0≤u≤M,0≤v≤N,DCT代表对信号进行离散余弦变换,u、v是变换后二维数组的坐标,F(u,v)为不同频率坐标位置的系数值。将F(u,v)的相位信息记为φ(u,v)。图像的相位包含了数据的空间位置信息,因此提取出来可以在幅值进行映射变换后重构显著区域图。
构造式(3),在频域中对幅值信息进行映射。定义a为补偿因子,当a取值为10时,特性曲线如图5所示。
图5 映射函数特性曲线
其中,x为输入信号,g(x)为输出。这里的输入信号为|F(u,v)|,也即经过离散余弦变换后的幅度。
将F(u,v)经过函数g(x)映射变换的函数记为G(u,v),采用邻域平均法对输出信号处理得到I(u,v)。通过数值作差,在变换域中减去相对冗余的成分,而保留较为显著的成分,将差值结果记作H(u,v)。
在变换域中构建式(5),将形状信息与幅值信息结合在一起。
对Hf(u,v)进行二维离散余弦逆变换,得到变换后的信号h(i,j)。
式中IDCT表示对信号进行二维离散余弦逆变换。再对恢复的信号进行绝对平方运算并进行线性滤波,记得到的结果为hn(i,j),如式(7)、(8)、(9)。
其中,p(i,j)为n阶矩阵。对hn(i,j)进行直方图均衡化得到输出,即为目标备选区域图。
实验统一采用Intel(R)CoreTMi5-7200U CPU@2.50GHz、4.00GB RAM的硬件配置和Matlab R2018b的软件环境,比较本文提出的算法与Itti提出的视觉注意模型和基于图的视觉显著性(GBVS)模型的处理效果与运算速度。
选用SOD数据集和INRIA Person数据集进行测试和验证。其中,SOD数据集包含300张不同目标类别的自然场景图像及对应的人工标注过的目标区域图,用于定量评估模型效果。INRIA Person数据集共有2573张图片,被分为训练集和测试集,每集合包括正样本和负样本。正样本中包含多种类型的行人目标图片;负样本为不包含行人的其他场景图片。训练集和测试集的正样本中分别包含2416和1126个不同姿态的人物。
4.2.1 定量评估
在SOD数据集上进行测试并采用检测精度(precision)作为评估指标,如式(10)。其中,TP表示被正确地划分为正例的个数,FP表示被错误地划分为正例的个数。
分别用本文构建的模型、Itti模型和GBVS模型处理SOD数据集上的图像,将其结果与人工标注的目标区域图比较并根据上式计算得出预测精度值,如表1。
表1 不同方法在SOD数据集评估结果
采用本文提出的算法得到的检验精度为0.5641,Itti提出的模型精度为0.5184,GBVS模型的精度为0.6132。该算法的精度介于Itti模型与GBVS模型之间,说明在自然场景目标的数据集上表现优良。
4.2.2 实测效果
行人检测作为一个特殊领域,超出了一般的目标检测。为进一步验证该方法的效果,选用INRIA Person数据集作为实验测试数据,该数据集包含有公路、街道、商场、山地、桥梁、湖泊、雪地等室内外的多种场景,能够较为全面地体现不同场景下的样例。
分别采用本文提出的算法、Itti提出的模型和GBVS模型对INRIA Person数据集进行处理,图6展现了不同方法处理的效果。其中,左侧的(a)栏为原始图片;(b)栏为本文方法处理后的目标备选区域图;(c)栏为Itti模型处理结果图;(d)栏为基于图的视觉显著性模型计算结果。
图6 原始图像与不同算法处理结果
可以看到,本文处理结果比Itti模型和GBVS模型提取出的区域轮廓更加精确,并且在不同天气、不同背景、不同数量行人的情况下都能完整地提取出行人所在区域,具有优越的表现。
4.2.3 运算速度
统计本文算法、Itti提出的视觉注意模型以及基于图的视觉显著(GBVS)模型在INRIA Person数据集正负样本的运算时间如表2。该时间为读取图片、进行数据预处理、模型计算、写入指定文件夹总共的时间。
表2 统一环境配置下的累计运行时间
经计算,本文提出算法平均每张图片的实测时间约为 0.061s,Itti模型约为 0.2273s,GBVS模型约为0.4978s。统一条件下与Itti模型及GBVS模型相比,该方法平均每张图片的处理时间降低了一个数量级,显著提升了运算速度。不同方法在数据集上的平均运行时间如表3。
表3 统一环境配置下的平均运行时间
针对目前引入视觉注意机制的目标检测方法计算量大且难以适应复杂背景与多目标场景检测的问题,本文提出一种基于选择性注意机制的模型,能够对目标区域进行高效提取。该模型基于数据驱动,不需要有关场景的先验信息,采用便携采集设备即可实现,因此具有较强的适用性。在SOD数据集上,本文方法的检测精度高于Itti模型。结果表明该方法显著提升了运算速度,在INRIA Person数据集上平均每张图片处理时间为0.061s,相较Itti模型和GBVS模型每张图片处理时间减少一个数量级,并且能够更精准地刻画目标的边缘轮廓。