基于多方向显著子区域置信表决的多目标检测

2018-11-17 02:50费树岷
计算机工程与应用 2018年22期
关键词:差分背景方向

路 红,杨 晨,费树岷

1.南京工程学院 自动化学院,南京 211167

2.东南大学 自动化学院,南京 210096

1 引言

多目标检测(如行人检测、车辆检测等)是计算机视觉领域研究热点[1],也是目标跟踪[2-3]、图像理解[4]、目标分类[5]和识别[6]系统的关键技术。由于目标检测能够自动发现视觉显著或异常区域,在视频监控[7-8]、医学诊断[4]和视觉导航[9]等领域具有广泛应用。准确性和鲁棒性是评估检测算法有效性的两个重要方面[10]。然而,实际场景中,背景中相似目标干扰、遮挡、场景光照变化等,使得多目标场景中的目标个体定位变得困难;当目标与所处背景或其他邻近目标具有相似的外观特征(如色彩)时,将会引起检测区域扩大或不完整检测;多目标互遮挡时,经常引起合并检测,影响实际应用系统的目标个体定位准确性。同时,实际室外场景中非均匀光照和阴影等也会影响检测性能。因此,实现准确、鲁棒的多目标检测仍然是一项挑战性任务。

经典的基于场景运动分析的多目标检测方法有背景差分[8,11-12]、帧间差分[13]和光流法[14-15]等。其中,背景差分法由于能快速获得相对完整的目标区域,得到了广泛应用,但是该方法需要鲁棒的背景更新以适应场景变化,当目标与背景特征相似时,容易引起检测丢失或检测不完整问题。Xin等[16]利用GF-Lasso(Generalized Fused Lasso)前景建模方法实现鲁棒的目标检测。文献[11]通过实时获取自适应阈值,在一定程度上克服了背景光线变化等引起的检测丢失问题。帧间差分根据连续邻帧间运动变化检测目标,不需要重构背景,但是难以获得暂时静止的目标(比如车辆暂时停下来载客)信息;对于外观色彩等特征均匀的目标,往往只能检测到目标边缘。光流法耗时多,不适合实时视频处理;针对这个问题,文献[15]利用局部光流法提取运动特征,有效降低了计算复杂度。相比之下,基于目标外观特征的检测算法可以克服上述基于运动分析方法的局限,如基于色彩匹配的Mean Shift算法,通过利用目标邻域的梯度信息和核密度估计以搜索和定位目标。相对于穷尽搜索方法,Mean Shift可以快速收敛到目的目标位置[12,17];相对运动分析方法,Mean Shift不需要依赖运动信息。然而,邻域中相似特征干扰和模糊外观等会使得Mean Shift定位到局部最优,从而出现误检测。因此,为了提高检测质量,多算法融合逐渐成为研究热点,如基于背景差分和结构纹理特征融合的检测算法[18]、Mean Shift与Particle Filter融合的检测算法等[19]。最近的多目标检测方法集中在显著区域检测方面[9,20-22]。其中,Gabor滤波由于其生物学合理性和鲁棒性受到关注[23]。类似于人类的视觉感受野,Gabor滤波具有良好的方向选择性和空间定位能力,有利于局部显著区域的检测,因此被广泛地应用于仿生显著性计算框架中[24],并在目标检测和识别方面得到深入研究。Brenning等[20]基于Gabor滤波器组和纹理特征检测岩石冰川流结构,并利用推广的线性模型和SVM识别结构模式。文献[9]针对舰船目标检测和提取,利用多通道Gabor滤波模糊综合评价融合以增强目标区域,抑制海水背景的干扰。Dahmane等[21]利用一组Gabor滤波器提取面部基准点特征,并提出了一种条件Gabor相位算法以实现面部跟踪和行为识别。文献[22]基于多尺度多方向Gabor滤波器虚部提取图像灰度变化信息,检测图像兴趣点。然而,不同的Gabor滤波器组改进方法针对的是具体的应用环境和目标,针对不同场景中的任意目标,目前还没有普遍适用的方法。

本文针对实际交通场景中的多运动车辆,研究多目标自动检测方法。实验中发现,车辆的视觉显著特征具有方向敏感性,即同一个目标在某个方向上受背景噪声干扰严重,而在其他方向上却可能具有高信噪比。另外,不同方向检测结果的公共交集中包含目标有效像素。如果能根据这些规律,合理评价不同方向的目标显著特征对检测输出的贡献,将有利于提高多目标检测质量和效率。基于这个思想,本文针对道路交通多车辆检测,提出一种基于多方向显著子区域检测、子区域交集判断和置信表决的多目标检测方法。提出的基于多阈值条件的目标子区域选择、交集状态判断和有效交集子区域置信表决检测方案,在多目标交互干扰和遮挡、相似色彩干扰并伴随非均匀光照影响、阴影等情况下,能有效定位最优目标区域。实验结果表明,本文方法在实际的视频图像序列多目标检测中,具有较高的准确性和鲁棒性。

2 显著子区域置信表决和多目标检测

2.1 算法原理

图1 多目标检测算法流程

图2 显著特征点检测

本文的多目标检测算法主要包括:多方向显著特征点检测、基于多阈值条件的目标有效子区域提取、交集计算及有效交集子区域确定和置信表决。算法流程如图1所示。首先将序列图像I(t)转化为灰度图像,并利用Gabor滤波提取目标区域的四方向显著特征点,其中t为帧序号。然后利用灰度形态学滤波和区域填充等,连接邻近的断裂显著区域,同时抑制噪声影响。进一步利用二值化和多阈值方案获得第si个目标有效子区域通过计算有效子区域间交集C(x,t)获得有效交集子区域Ei(l,t)和第l个交集子区域的交集状态κi(l,t)。最后通过加权融合交集面积占空比和有效交集子区域相对面积占空比,进行置信表决。其中,x=(x,y)为图像像素坐标。κi(l,t)=1,表示方向i存在有效交集子区域,否则,该方向不存在有效交集子区域。最后通过对Ei(l,t)置信表决以获得目标最优检测。

实验中发现,刚体目标(这里主要指交通车辆)在0、π/4、π/2和3π/4方向上,比其他方向具有更强的显著性和目标描述有效性。为了提高计算效率,选择方向数m=4,并利用i∈{ }1,2,…,m 描述第i个方向。si=1,2,…,ni表示沿i方向的二值前景子区域,ni表示子区域总数。

2.2 多方向显著特征点检测

二维Gabor核函数定义如式(1)所示,其中x'=(x',y')经空间坐标 (x,y)旋转 θi得到,即 x'=x cosθi+y sinθi,y'=-x sinθi+y cosθi。w0为中心频率,用于控制频率尺度和滤波器的中心位置。θi决定滤波器方向,σ为标准差。

这里,二维Gabor核函数进一步描述为偶对称滤波器Gi,e和奇对称滤波器Gi,o,如式(2)和(3)所示。λ为波长,θi对应0、π/4、π/2和3π/4方向。

对Gi,e和Gi,o线性插值并分别与I(t)进行卷积,得到I(x,t)的分量幅度特征和。根据式(4)融合奇、偶分量幅度特征,计算每个像素坐标的幅度输出值,获得图2所示的显著特征点分布。

2.3 目标有效子区域获取

图3 前景检测

图4 有效子区域和交集状态

图3中,第1行前景车辆目标相对背景路面之间具有明显的辨识度,显著特征点提取受背景干扰较小。虽然在0和π/2两个方向背景中车道线和树枝阴影也比较显著,但是在π/4和3π/4两个方向上,这些干扰明显得到了抑制。第2~3行场景中,前景车辆与路面背景色彩相似或与路牙色彩相似,在π/4、π/2和3π/4方向子图中,显著特征点提取受噪声干扰比较严重,目标自身发生了检测不完整、片段检测等问题。值得注意的是,这种情况下,Gabor滤波器在0方向上对噪声干扰敏感性较小,具有良好的目标区域特征点检测能力,因此可以依赖该方向显著特征检测结果获得目标的有效检测。

2.4 子区域交集判断和置信表决

由于Gabor滤波器对不同方向特征具有不同敏感性,2.3节得到的同一目标的有效子区域间具有较大差异,如图4所示。另外,实际场景中,有效子区域可能会由于混入噪声而扩大检测区域,或者由于不完整检测只是提取了目标部分区域。因此,不是所有的有效子区域都是目标的最优检测,需要合理评价不同方向的目标有效子区域对检测输出的贡献,以优选目标最佳检测结果。

为了计算任意目标对应的有效检测的数目,也即确定存在任意目标有效子区域检测的滤波器方向数目,利用式(9)计算有效子区域间交集图像C(x,t)。并利用面积滤波等消除由于子区域间轻微合并产生的小面积交集(此时视为无效交集),获得第l个二值交集区域C(x,l,t),其中“1”表示交集像素,“0”表示非交集像素;l=1,2,…,N,N为连通域总数目(对应输出检测的目标数目)。

设xl,t和AC(l,t)分别为C(x,l,t)的中心坐标和面积。本文利用式(10)和(11),通过判断xl,t是否属于第i个方向中第si个有效子区域Bi(si,t),以确定有效交集子区域Ei(l,t)和交集状态κi(l,t)。如果 xl,t∈Bi(si,t),则κi(l,t)=1,表示方向i存在有效交集子区域(如图4第5列矩形框),否则该方向不存在有效交集子区域(如图4第5列第3行左边白色车,沿π/4、π/2和3π/4方向不存在有效交集子区域)。

图5 最优检测结果

某些交通场景中,静止的背景区域,如密集分布的绿岛等,也具有视觉显著特性,因此会作为显著目标被检测到。为了提高检测效率,有效定位目标(如运动车辆),本文对被检测场景的背景进行了事先学习和标定,有效抑制了背景显著区域的检测输出。

2.5 算法步骤

初始化参数λ、σ和T1~T5,输入序列图像I(t),执行以下步骤。

步骤1根据式(4)计算,获得显著特征像素点。

步骤2采用形态学滤波、面积滤波和二值化等,得到前景图像

步骤3计算面积最小化对应的子区域外接矩形框尺度,并根据式(8)的多阈值条件,选择目标有效子区域Bi(x,si,t)。

步骤4根据式(10)和(11)判断有效交集子区域Ei(l,t)和交集状态κi(l,t)。

步骤5加权融合交集面积占空比和有效交集子区域相对面积占空比,根据式(12)计算i方向的置信表决系数vi(l,t)。

步骤6利用式(13)计算最大vi(l,t),获得目标最优检测输出O(l,t)。

3 实验结果及分析

为了评估本文方法在实际场景中多目标检测的准确性和鲁棒性,以及对不同目标运动和外观状态变化的自适应性,实验部分采用了作者自己拍摄的两个某市交通场景视频图像序列,分辨率分别为720×1280(图6)和480×640(图7)像素。交通场景中目标运动状态包括:相邻目标间交互干扰、遮挡、相似色彩干扰、非均匀光照和阴影影响等。多目标序贯驶入和退出视场,运动过程中,由于所处景深不同,每个运动车辆的尺度和外观特征发生实时变化。权衡检测效率和准确性,选取λ=5.5,σ=5.5,其他实验参数根据经验设置。实验结果和对比如图6和图7所示,表1给出了本文检测算法的性能分析和对比。本文方法设置了目标区域的面积阈值,以检测车辆目标,因此面积较小的行人作为噪声被滤除。

图6 图像序列1的多目标检测结果和对比

图7 图像序列2的多目标检测结果和对比

本文方法与经典帧间差分、阈值自适应背景差分和GF-Lasso方法进行了对比。为了对比公平,背景差分和帧间差分方法都采用与本文方法相同的图像滤波、二值化和消噪处理方法以获得前景目标区域,涉及的阈值参数也都调整到了恰当值,以尽可能降低误检测率。另外,由于背景差分、帧间差分和GF-Lasso方法容易将邻近的多个目标合并检测为一个区域,通常不满足本文方法的多阈值条件,如尺度率,从而大幅降低检测率,这里没有对这三种方法采用多阈值条件。图6和图7中,第1行为原图,第2行为本文方法沿四方向检测的目标有效子区域(红、绿、蓝、紫红色矩形框标记不同方向有效子区域)。第3~6行为本文方法、背景差分、帧间差分和GF-Lasso方法检测结果(红色外接矩形标记)。

图6给出了交通视频图像序列1的检测结果。该视频的主要挑战是邻近目标间交互干扰、目标阴影和背景噪声等。从左向右分别对应第4、26、44和72帧。与前面分析的结论一致,某些方向上存在目标有效检测,但在其他方向上并不一定具有该目标的有效显著特征。如第4帧中,绿色框标注的目标沿θi=π/4是显著的,但是该目标在其他方向如θi={ }0,π/2上并不具有效显著特征。第26和44帧中,所有目标沿θi=π/2方向都未检测到目标有效交集子区域,但是通过对其他方向子区域进行置信表决可以得到最优检测输出。相比之下,背景差分和GF-Lasso算法主要检测运动的目标,因此目标阴影(与目标一起运动)被作为前景检测出来。背景差分方法下,目标间交互干扰引起的合并检测,背景中相似色彩引起检测空洞甚至丢失检测等是不可避免的。如第44帧中,白色和蓝色汽车被合并检测为同一个目标,而GF-Lasso算法则较好地解决了这个问题,实现了目标的独立检测。第72帧中,由于目标距离太近,背景差分、帧间差分和GF-Lasso方法均将黄色车和两个红色车合并为一个检测输出。帧间差分算法对目标位移和运动速度敏感,将邻近多目标检测为扩大了的合并框。尽管研究者们针对帧间差分的上述局限提出了很多改进算法,由于相邻目标间具有相近的运动像素,合并检测问题仍然是存在的。由于抑制了背景显著区域的检测输出,第2行中本文方法沿四方向检测到的显著区域(右上角的绿岛、右下角的视频字幕),并未在第3行的最终检测结果中出现。尽管本文方法在少量帧中存在若干合并检测(如第72帧中两个合并检测的红色车辆),但总体取得了较好的检测性能。另外,本文方法能够有效抑制目标阴影影响。

交通视频图像序列2的检测结果如图7所示。该视频的主要挑战是非均匀光照,背景中相似色彩干扰,运动目标间交互遮挡等,从左向右分别对应第48、108、124和154帧。在第48帧中,黑色车在三个方向(即θi={π/4,π/2,3π/4})上具有有效显著检测,而白色车和棕色车仅在两个方向(分别标记了两种色彩矩形框)上表现出了有效显著性。尽管在第48和154帧中,处于场景阴影下的相邻两辆车的距离很近,发生了交互遮挡,本文方法仍然能够单独地检测和定位每个目标,如图7第3行所示。第108帧中,被阴影覆盖的背景路面与前景中两个黑色车具有相似的色彩特征。从实验结果可以看出,3π/4方向(右上角黑色车)或π/2方向(右下角黑色车)的目标显著性比较弱,因此最优检测需要通过其他方向的有效交集子区域进行置信表决得到。第124帧中,尽管背景中的白色路牙与白色车辆具有相似的色彩特征,本文方法仍能准确定位目标。同样场景情况下,背景差分方法在第108帧中丢失了右下角目标;GF-Lasso方法在第48和108帧中均丢失了右下角目标。由于场景阴影影响,运动像素与背景像素混淆,导致背景差分和帧间差分法都发生了合并检测,如第48、124和154帧所示。GF-Lasso方法在第48和124帧中展现出较好的目标独立检测性能,但在第154帧发生断裂检测(右前方一个目标被标记为两个目标)和合并检测(右边两个目标被合并为一个目标)。然而本文方法在上述情况下均能获得每个目标的独立检测并较好地定位目标个体。

表1给出了检测结果分析和性能对比。本文定义目标有效检测如式(14)所示。其中,AO(l,t)⋂R(l,t)为最优检测O(l,t)和实际目标区域R(l,t)的交集面积;AR(l,t)为R(l,t)的面积,R(l,t)为离线手动获得。独立检测这里定义为目标与检测矩形框间“一对一”对应关系;合并检测定义为多个目标与同一个检测矩形框间的“多对一”对应关系;独立检测率为独立检测到的目标数目占有效目标检测总数目的比率;合并检测率为合并检测的目标数目占有效目标检测总数目的比率。合并检测率较高,说明所采用的检测算法在实际应用系统中,对单个目标区域的定位或捕捉能力较差。

由于合并检测的矩形框尺度和面积通常不满足多阈值条件,对应同一个检测框的多个目标将被视为无效检测,从而引起背景差分、帧间差分和GF-Lasso方法获得的有效检测率大幅降低。为此,在对这三种方法统计目标有效检测数目时,去掉了多阈值条件限制。尽管如此,视频图像序列1的实验结果中,背景差分和帧间差分方法的有效目标检测数目相比本文方法仍然是偏低的(分别为248个和242个);GF-Lasso方法检测比较敏锐,获得了比本文方法多的有效目标数目。但是由于上述三种方法均存在较多的合并检测(合并检测率分别为14.5%和19.0%和14.9%),使得目标独立检测率都低于本文方法(92.1%)。如表1所示。

表1 检测结果分析和性能对比

视频图像序列2中,帧间差分法比本文方法检测到了稍多的有效目标数目(210个),但是其独立检测率仅为86.7%,低于本文方法(检测率为98.1%)。由于一些帧中黑色车辆目标与背景阴影色彩相似,导致GF-Lasso方法产生检测不完整和断裂检测较多,使得有效目标检测数目较低,但是其独立检测率(94.4%)仅次于本文方法。同样的场景干扰体现在背景差分法较低的独立检测率(93.0%)上。两个实验视频中,本文方法均给出了较低的合并检测率(分别为7.9%和1.9%)。

所有的对比实验均在Windows 7操作系统,Matlab环境下执行。视频序列1平均运行时间为1.15 s/帧,检测每个目标所耗费的平均时间为0.29 s/帧。视频序列2平均运行时间为1.02 s/帧,检测每个目标所耗费的平均时间为0.51 s/帧。相比常用的八方向Gabor滤波,本文采用的四方向Gabor滤波在特征提取阶段降低了近一半的运算量。相比背景差分、帧间差分和GF-Lasso方法,本文方法在多方向子区域检测、交集判断和置信表决方面有一定时间耗费,这是以获得更高的鲁棒、准确检测性能为代价的。编码优化和实时检测是进一步的研究重点。

4 结束语

本文针对智能交通监控系统中的路面多运动车辆提出一种新的多目标检测算法。采用四方向Gabor滤波提取目标显著特征,以较少的方向数获得目标显著像素,以提高计算速度。根据多阈值条件和最小面积外接矩形限制获得目标有效子区域参数,有利于提高后续面积占空比计算的准确性。判断有效交集子区域数目和交集状态,并根据有效交集子区域置信表决获得目标最优检测,提高了复杂交通场景中多车辆交互干扰、背景相似色彩干扰、非均匀光照及阴影影响等情况下的检测定位性能。尽管本文方法在现有的场景下取得了鲁棒的检测结果,后续还需要进一步针对更加复杂场景中的多目标检测进行性能测试。将本文算法融入多目标跟踪框架,提高交互遮挡和混淆目标的跟踪鲁棒性等是下一步的工作。

猜你喜欢
差分背景方向
RLW-KdV方程的紧致有限差分格式
2022年组稿方向
“新四化”背景下汽车NVH的发展趋势
数列与差分
2021年组稿方向
2021年组稿方向
《论持久战》的写作背景
黑洞背景知识
基于差分隐私的大数据隐私保护
位置与方向