张 博
(长沙师范学院信息科学与工程学院,湖南 长沙 410100)
随着科学技术的发展和人民生活水平的提高,各种机器人广泛应用于人们的日常生活、工作和生产中。20世纪60年代,一些学者提出了一种利用从图像中获取的信息来控制机器人动作的方法。但受当时计算机水平的限制,该视觉机器人在每个动作周期内只能获取一次图像信息,无法利用图像信息对其进行实时控制。随着计算机技术和模式识别技术的发展,20世纪80年代以后,视觉机器人可以通过图像一次动作连续获取目标的状态信息,并利用这些信息对机器人进行实时控制,使机器人成为一个具有视觉反馈的闭环系统,这种视觉闭环控制的机器人称为视觉伺服。视觉伺服使机器人具有感知外部环境的能力。计算机视觉的目标跟踪技术被广泛应用在实时监控、视频分析等领域[1]。视频序列目标跟踪表示在视频的某一帧中,提供待追踪目标的初始化信息(目标方位与尺寸等),利用在线跟踪器评估目标在后续帧中的状态信息[2]。因现实场景的复杂性与目标种类的不确定性,目标跟踪会遇到形态变化、光照变化、遮挡等问题,无法精准实现预期视觉跟踪任务。
相关学者从不同角度来提升视觉目标跟踪可靠性:文献[3]在特征提取中融入残差网络的注意力机制,使用区域重叠率下损失函数优化跟踪定位结果;文献[4]通过提取邻近目标标记特征,融合特征标记的汉明距离获得标记的置信度,使用置信度最高的邻近标记明确目标方位;文献[5]在核相关滤波算法前提下进行目标特征融合,采用树形尺度自适应法评估目标尺度大小,找出最优响应方位;文献[6]通过校正目标分割失效结果获得目标位置,把分割得到的目标框作为样本更新MDNet网络,增强网络分类性能,完成目标跟踪任务;文献[7]使用量子遗传算法,把像素点方位看作种群个体,将颜色直方图拟作特征点,采用相似性度量计算个体适应度值,获取相似度最高的像素点输出值来实现跟踪工作;文献[8]利用变异算子增强种群多样性,提升蚱蜢优化算法全局探索能力,在蚱蜢位置更新时添加非线性动态权重,提升方法收敛速率的同时锁定目标所处范围;文献[9]运用高斯混合势概率假设密度滤波算法降低跟踪计算量,利用径向速度跟踪算法完成目标跟踪;文献[10]将Mean Shift算法原理应用到目标跟踪领域中,提出了一种核函数带宽自适应变化的Mean Shift跟踪算法,减少了噪声和遮挡对跟踪结果的影响;文献[11]提出了Cam Shift算法,Cam Shift算法也是一种使用广泛的确定性跟踪算法,它是在MeanShift算法的基础上发展而来的,除了在位移空间上对目标进行搜索外,它还在尺度空间上对目标进行搜索,并将其成功运用到目标跟踪上,实现人机交互;文献[12]在Cam Shift算法框架上提出了一种根据目标的先验知识的多颜色分布,并设计了一种价值函数,通过最小化价值函数对目标进行跟踪;文献[13]提出了一种自适应颜色空间跟踪算法,该算法通过计算目标与背景的相似度选择颜色空间;文献[14]为了实现对形变目标的跟踪,研究了一种基于卡尔曼滤波的主动轮廓模型,算法融合目标的位置和速度信息,同时提出一种基于光流的检测机,减少复杂背景和遮挡的影响;文献[15]在粒子滤波框架下用颜色特征进行目标跟踪,设计了一种自适应调整颜色分布的方法以减少光照变化或干扰对跟踪结果的影响。
以上方法进行目标跟踪时,均没有考虑目标所处环境的复杂性,极易丢失关键数据,导致跟踪时效性不高,输出结果不尽人意。本文针对以上问题,提出一种基于决策树分类的视觉目标精准跟踪算法。
图像分割是视觉目标跟踪的核心步骤,把初始图像变换成更加抽象紧凑的表达模式,划分图像背景信息与图像目标信息。这里提出一种均值漂移与模糊C均值聚类下图像分割方法。模糊C均值聚类方法是使用隶属度获得各数据点类属某个聚类,从而进行聚类的策略,假设
X={x1,x2,…,xa},
(1)
式(1)中,X是视觉图像内的像素集合,xj是像素特征值,则目标最优聚类的函数解析式为
(2)
式(2)中,eij是第i类内样本xj的隶属度,hij是样本与聚类中心之间的欧式距离,n是样本数量,d是样本特征类型总和。
本文引入均值漂移法,综合考虑图像像素之间的相邻位置关联,无需预先划分聚类个数,参数的初始化对聚类结果的影响较低,以提高图像分割效果,改善参数初始化误差较高的问题。均值漂移法是一种自主探寻概率密度局部最大的非参数密度估计策略,经过迭代计算确定目标方位。倘若存在一个概率密度函数f(x),已知在n维空间中涵盖k个样本点构成的数据集,则f(x)的核密度估计值是
(3)
式(3)中,L(x)代表核函数,Hi为带宽矩阵。
图像可被划分成空间数据与色彩数据两部分,位置空间与色彩空间互相独立,实施均值偏移时,核函数被化解成两个空间的核函数乘积,记作
O(x)=Os(xs)·Or(xr),
(4)
式(4)中,xr是色彩特征,xs是空间特征。由此,将均值偏移计算公式定义为
(5)
全方位分析聚类样本空间不同样本矢量对聚类成效的影响,代入加权思想,将模糊C均值聚类问题变换成如式(6)所示的数学模型:
(6)
式(6)中,pk代表加权指数。
运用拉格朗日乘数法,获得优化后图像分割聚类迭代方程如式(7)所示,实现视觉待追踪图像分割任务。
(7)
为明确图像帧整体属性,消除冗余物体干扰,预测视觉目标的所属范围,使用决策树分类法融合待跟踪目标特征,提高目标跟踪可靠性。决策树是一个从上到下的划分制度,以根节点为初始点,分析节点全部属性特征的信息增益比。把一组视觉图像数据描述成多维数据集,倘若包含m个目标特征类型,视觉图像数据集类型未知,将数据集分类所需的信息熵记作
(8)
式(8)中,s代表图像数据集合。
将属性变量ck看作目标分类属性,分析目前数据集所需要的信息熵数量为
(9)
式(9)中,
(10)
(11)
利用式(9)计算特征分类并融合信息熵,终止分类后把当前节点变换为叶节点[16],将数据内多数的所属类型判断为目标类型,计算识别结果可信度[17],完成精准的目标特征融合。可信度运算公式为
(12)
式(12)中,wi是第i组视觉图像数据的权重,代表对特征融合结果的信息程度。
为有效处理复杂环境下视觉目标的快速运动,增强目标跟踪的抗遮挡性与鲁棒性,设计一种基于混沌粒子滤波的视觉目标精准跟踪算法。混沌理论很好地解决了非线性动力学问题[18],将混沌离散系统F′记作
(13)
式(13)中,矢量q为混沌系统当前所属状态,矢量q0为混沌系统的初始状态,矢量γ0是混沌离散系统参数的实际值。
混沌系统参数估计问题就是探寻最佳的待估计参数,让待估计系统的状态参数和原始混沌系统状态参数之间的偏差最小[19]。偏差目标函数表示成
(14)
式(14)中,yk表示待估混沌变量,N为参数估计迭代次数。
粒子滤波为一种序列蒙特卡罗滤波算法,它的本质是通过抽取样本(粒子)来取代状态的后验分布概率[20]。若粒子数量变得足够多,利用随机抽样策略就能获得近似的状态后验概率。运用粒子滤波实施目标跟踪,要构建目标跟踪系统的状态模型,将视觉目标跟踪变换成所建状态模型的状态矢量估计[21],状态矢量用于定义目标的方位、速率与加速度等数据。单个目标的状态矢量通常取决于自身几何特征与区域参数,目标状态矢量模型为
(15)
视觉图像目标跟踪时,观测模型内涵盖纹理特征检测、色彩特征检测和运动边缘特征检测[22]。各粒子均表示一个目标状态的可能预测值,按照此定义,将图像观测过程中的似然函数描述为
(16)
式(16)中,Eki表示第i个粒子观测值和实际值之间的距离,ϑ表示高斯方差。
小波变换能展现出图像时域与频域内隐含信息,可作为纹理特征检测工具,通过多层小波变换[23],把图像划分成8个频率子带,将第i个子频带的纹理信息描述成:
(17)
式(17)中,M、C′依次为子带图像的长度与宽度,x(i,j)是像素点(i,j)内的小波指数。
将视觉图像的全局纹理特征用含有8个元素的特征矢量T来描述,记作
T=[e1e2e3e4e5e6e7e8]。
(18)
色彩特征最直观地定义视觉目标的外观,在复杂环境视频目标跟踪中具备极强稳定性。色彩特征不用采取大量运算,仅需把数据图像内的像素值变换为具体的色彩参数即可。把色彩特征检测计算公式表示成
(19)
式(19)中,R(p,q)、G(p,q)、B(p,q)依次为图像内的三种颜色通道,p为映射矩阵。
运动边缘特征有效突出了目标轮廓状态,分析相邻两帧图像序列的绝对差[24],对帧差图像进行梯度运算,获得视觉目标的边缘数据。假设In、In-1依次为图像的第n帧和第n-1帧,则二者的绝对差值为
en=|In-In-1|,
(20)
那么t时段的边缘图像为
Et=∇et。
(21)
采用混沌系统评估下一帧视频序列内的目标方位,手动挑选第一帧的初始边界,运动状态通过(x,y,w′,μ)来描述,(x,y)是某时段视觉目标的位置坐标,w'为目标宽度,μ表示纵横比。目标跟踪时,遮挡处理是一个棘手问题,极有可能造成目标丢失现象。针对遮挡问题,从以下几个方面着手处理:
1)遮挡估计。遮挡估计就是探寻全部粒子权值内的最高权值[25],若该权值低于临界值1,证明存在遮挡现象。
2)运动轨迹预测。评估目标处在遮挡状况后,当前图像追踪推导结果错误概率较高,所以对目标进行运动轨迹预测:维持上一帧的粒子状态不变,依照线性经验方程推算目标可能处在某个范围,线性经验方程公式为
(22)
式(22)中,zn表示当前预测值,zn-1、zn-2、zn-3均为前几帧的位置预测值。
解决遮挡状况后,利用自适应参照模板算法创建视觉目标跟踪模型,记作
(23)
为验证本文方法的优越性,进行定量与定性实验分析,仿真平台为Matlab 7.0,实验使用OTB100开源数据集,此数据集内包含100个公开检测序列,涵盖光照、遮挡、旋转、尺度变化等多个视觉跟踪场景。在实验中,我们将目标跟踪数目m从5变化到100,则融合信息熵数量为:F(Ck)=[0,1 000]×[0,1 000]。由于所有的目标跟踪都被观测到,因此观测数目将随着目标跟踪数目的增加而增加。将文献[3]注意力机制法、文献[4]置信度评估法、文献[5]核相关滤波算法、文献[6]校正目标分割方法、文献[7]量子遗传算法、文献[8]蚱蜢优化算法作为对比方法。
定量分析中将中心位置偏差、跟踪重叠率和跟踪耗时作为评估指标,中心位置偏差表示目标中心位置和真实中心位置之间的欧式距离,计算公式为
(24)
式(24)中,(xu,yu)是跟踪目标的坐标方位,(xw,yw)是原始图像内目标的实际坐标方位。
跟踪重叠率可展现跟踪算法的正确性,倘若Ra是某视频帧在t时段所跟踪到的目标像素区域,Rb为目标在此帧内的实际像素区域,将t时段下跟踪重叠率表示成式(25)。若T值高于50%,认定当前跟踪效果满足预期精度需求,反之跟踪失败。
(25)
在OTB100数据集内随机挑选一个视频序列进行实验,分析本文方法与其他六种性能的优劣,图1为三种方法视觉目标跟踪中心位置偏差对比结果。
图1 视觉目标跟踪中心位置偏差对比Fig.1 Comparison of position deviation of visual target tracking center
观察图1看出,本文方法在不同的视频帧中均具备极好的跟踪效果,中心位置偏差要远远小于其他六个对比方法。这是因为本文方法采用决策树分类策略,快速融合目标特征信息,明确跟踪目标的所处范围,大幅降低跟踪偏差。
七种方法视觉目标跟踪重叠率实验结果如图2所示。从图中可知,注意力机制法和置信度评估法伴随视频帧的增多,重叠率逐步减少,最终稳定在45%与40%;本文方法目标跟踪时,图像帧内的目标像素和实际像素的重叠率都大于70%,证明其跟踪结果精度较高,应用可靠性优于两个对比方法。
图2 视觉目标跟踪重叠率对比Fig.2 comparison of visual target tracking overlap rate
跟踪时间是衡量跟踪方法性能的重要指标,分析七种方法目标跟踪的时间大小,结果如图3所示。能够看出,本文方法跟踪耗时最短,实时性强。
图3 视觉目标跟踪时间对比Fig.3 comparison of visual target tracking time
针对当前视觉目标跟踪算法存在的准确度不高、效率缓慢等不足,提出一种基于决策树分类的视觉目标精准跟踪算法。实施目标跟踪前,使用图像分割策略划分图像目标信息与背景信息,大致判断待跟踪目标的物体状态;利用决策树分类法融合待跟踪目标特征,消除多余数据干扰;运用粒子滤波器构建目标跟踪系统状态模型,计算目标的位置、活动速度与加速度等情况,使用混沌系统优化粒子跟踪准确性,通过线性经验方程处理跟踪遮挡问题,获得令人满意的跟踪结果。仿真实验结果表明所提方法在复杂环境下视觉目标跟踪方面的优越性。
在接下来的研究中,将低分辨率场景作为重点分析对象,进一步提高方法在该环境下目标跟踪的稳定性。