崔文飞,边东岩,王会峰,武泽键,杨文光
(1.长安大学电子与控制工程学院,陕西 西安 710064;2.濮阳市高级技工学校,河南 濮阳 457000)
建立交通场景样本库对无人车进行驾驶场景测试,是测试无人车信息感知系统静态稳定性与安全性的基础环节之一。建立交通场景样本库,需要对不同的交通情况分类,而采集图像数据过程中不可避免地存在车辆静止(等待交通信号灯、交通拥堵等情况)和车速较低(车辆起步)时采集到的大量相似图像。庞大的冗余图像数据没有很高的价值,故应在场景分类前对现有交通场景库进行去重操作。
图像去重算法可以分为2类:一类基于传统密码学的图像去重;另一类基于感知哈希的图像去重[1]。文献[2-8]通过不同的方法提取整幅图像的特征,生成不同序列实现图像去重。文献[9]通过对图像分块计算每块图像DCT系数,最终量化为哈希序列。
基于以上研究,本文针对交通场景下的相似图像去重问题,提出了一种基于超像素分割下感知哈希的交通场景图像去重算法。
图像的超像素分割是一种将图像分割为多个超像素区域,每个区域内颜色、纹理等特征相似,在图像视觉方面广泛应用的预处理步骤[10]。这些图像区域保留了该区域的有效信息,不会对整个图像的视觉表达产生影响。
相关的计算公式为
(1)
dc为颜色距离,是图像Lab颜色空间下的像素点间的距离;l,a,b分别为图像Lab颜色空间下的各个分量;ds为空间距离;x,y分别为图像空间坐标系下的坐标分量;D为最终的距离度量;Nc为最大颜色距离,这里取Nc=10。
图1和图2分别为交通场景原图像和取超像素个数K为200的图像。
图1 原图像
图2 超像素分割后的图像
由于超像素的性质是把一些具有相似特性的像素“聚合”起来,形成一个更具有代表性的大“元素”[13],在计算得到超像素分割后的图像后,对图像灰度化[14]。计算每个超像素块的像素均值序列化后作为图像的像素特征;选择其中1个像素作为超像素块的描述,所有像素描述组合作为整幅图像的描述。在此基础上进行DCT变换,按照特定的顺序对系数编码生成图像的感知哈希序列,并作为图像DCT特征。图像感知哈希算法如图3所示。
图3 图像感知哈希算法
经过超像素分割后,计算出每个超像素区域的均值,从而获得区域图像像素的均值特征矩阵。从矩阵左上角开始,按照从左到右、从上到下的顺序依次排列,进而将矩阵转化为一个特征向量MPix,称为均值特征向量。整个图像的像素均值记为MAPix,以此对均值向量量化为M。公式为
(2)
对经过预处理的图像描述集合进行DCT变换,获得图像的DCT系数矩阵Ceof。在图像信号变换中,DCT变换是一种准最佳变换[15]。其变换矩阵的基向量能很好地描述图像信号的相关特征。
交通图像原图像和DCT谱系数如图4所示。由图4b可知,集中在图像左上角的点亮,而右下角的点暗,图中的点越亮代表有效信息占据越大。因此,可认为与图像有关的重要可感知信息都集中在DCT变换后系数的左上角部分,而且呈往右下角扩散的顺序递减[16]。
这里包含的控制变量有人口总量,实际GDP总量,人均实际GDP和贸易量。需要注意的是,由于金融发展水平的内生性,我们不排除经济增长对金融发展的潜在反馈机制,同时已有文献提出通货膨胀与金融发展具有一定联系[17],所以经济增长率(GDP growth)和通货膨胀(Inflation)也作为控制变量加入模型。
图4 原图像与DCT谱系数图像
选取系数矩阵Ceof中从左上角开始,按Zigzag模式[17]顺序如图5所示扫描整个图像描述集,得到特征系数序列F,通过特征系数矩阵表达整幅图像,以代表图像的信息。
图5 Zigzag 模式
计算系数矩阵Ceof的均值gAvg,即
(3)
将整个系数矩阵中大于等于gAvg的记为1,小于gAvg的记为0,最终得到图像的DCT特征感知哈希H为
(4)
采用Jaccard距离[18]作为比较2个感知哈希序列值之间相似性的一种度量。用D(x,y)表示2副图像的感知哈希序列x(x1,x2,…,xn)和y(y1,y2,…,yn)的Jaccard距离。统计序列x和y中同为0的个数记为M00;统计序列x为1,序列y为0的个数记为M10;统计序列x为0,序列y为1的个数记为M01;统计序列x和y中同为1的个数记为M11,则有
(5)
通过上述公式分别计算图像均值特征M和DCT系数特征H的Jaccard距离,并记为D1和D2。根据权重确定2种特征对图像相似度做的贡献,则有
D(x,y)=θ1×D1+θ2×D2
(6)
其中,θ1+θ2=1,计算出2幅图像间的D(x,y)越大,表示它们的相似度越小。通过设置合理的阈值T来区别相同及相似图像:当D(x,y)≥T,则表示2幅图像不同;当D(x,y) 图6 图像去重过程 测试机器的CPU为2.6 GHz Intel Core i5,内存为6 GB,采用Windows10系统和MATLAB 2019。基于交通场景的相似图像去重算法流程主要包括2个部分: a.感知哈希的构造过程。在实际去重过程中先提取归一化后图像的超像素,计算图像像素均值特征,构建基于超像素的图像集,在构建的图像描述基础上进行DCT变换,提取变换后的系数特征,最终将计算获得的2部分二值序列保存在文本文件中,方便下一步计算和查找。 b.相似图像检测过程。首先计算现有交通场景图像的感知哈希序列,并存储在哈希序列库中。当有待检测图像传来时,计算待检测图像的感知哈希序列。通过相似性度量,若计算所得结果大于等于设定的阈值,检测结果场景库中不存在相似图像,并将此图像入库;反之删除图像。 选取KITTI、DeepTesla、Cityscapes数据集中共1 000张图像构建初始数据库,针对图像的DCT特征向量使其两两组合计算不同的图像间的距离。一共产生500 500组感知距离。最终特征感知距离频数分布统计直方图如图7所示。 图7 感知距离频数分布统计直方图 由图7可知,向量间感知距离频数的均值为55.7,方差为8.5,表明由部分数据集组成的测试数据库抗冲突性强,延展性高。能保证场景库多样性,为测试实验提供了数据保证。 在实验中,随机从建立的数据库中选择250张相同的图像作为算法准确性的测试数据,计算选取图像的像素特征和DCT特征的感知序列分别与存储在特征序列数据库中的图像感知序列的距离,在θ1=θ2=0.5的条件下,计算它们的相似度,测试在不同阈值下的去重效果,结果如表1所示。 表1 不同阈值下去重效果 由表1不同阈值下去重准确率与错误率可知,在相同图像去重方面,取不同的阈值均有去重效果,但随着阈值增大,去重错误率也随之增大。当阈值T=0.15时,去重效果最好,错误最低,最能保证能完全剔除相同图像。 以KITTI、DeepTesla、Cityscapes 数据集中的图像作为实验对象。选取有代表性的相同场景的图像,包括连续图像帧、不同相机视角拍摄的场景图像,并对交通场景做了一些调整,如亮度调整、伽玛校正、加水印等操作来构成测试的数据集,每一类选取500张图像。选取的部分图像如图8所示。 图8 图像调整 为了更进一步说明本文算法的效果,通过与其他算法,如文献[6]中的像素域平均值感知哈希算法AVG-hash、文献[7]中DCT感知哈希算法D-phash和文献[9]中分块DCT感知哈希去重算法BDCT-hash进行对比实验,计算不同算法下去重准确率。实验结果如表2所示。 表2 不同算法的去重准确率比较 % 由表2可知,本文算法在对图像执行不同操作的去重准确率平均为98.55%。实验结果表明,针对图像本身做调整,这几个算法都有比较好的处理效果,但针对连续图像等的操作本文去重效果更好。这也更符合实际应用的条件。本文算法可准确识别相同图像,提高了相同图像的识别率。 为了进一步说明本文算法的鲁棒性,采用ROC曲线进行对比分析。ROC曲线是以二分类问题的真阳性率为纵坐标,以假阳性率为横坐标绘制的曲线。计算公式为: RTPR=NTP/(NTP+NFN) (7) RFPR=NFP/(NFP+NTN) (8) NTP为实际相似的2幅图像被认定为相似的数目;NFN为实际相似的2幅图像被认定为不同的数目;NFP为实际不同的2幅图像被认定为相似的数目;NTN为实际不同的2幅图像被认定为不同的数目;RTPR为真阳性率;RFPR为假阳性率。 由此绘制ROC曲线如图9所示。 图9 ROC曲线 由图9可知,本文算法的鲁棒性要略优于文献[7]和文献[9]的算法。在RFPR>0.1时,本文算法有较高的RTPR,在RTPR<0.7时,本文算法有较低的RFPR。故本文算法鲁棒性好,能更好地实现交通场景预处理。 交通场景样本库是无人车虚拟测试中很重要的部分,建立样本库的过程中会收集大量的样本来保证场景样本多样化,但这会造成样本库中存在大量的重复及相似的样本,这种重复及相似样本增大了后续处理的复杂度。本文在现有的感知哈希算法基础上提出了提取超像素的感知哈希算法。经对比实验表明,该方案具有较高的准确性和鲁棒性。相比较其他算法,本文算法准确率平均为98.55%,满足交通场景图像去重的要求。可准确识别出相似图像,为构建典型交通场景样本库提供了有利条件。4 实验分析
4.1 算法准确性
4.2 算法高效性
4.3 算法鲁棒性
5 结束语