基于均值漂移的立体视频对象分割*

2010-08-09 05:03沈萦华吕朝辉

电视技术 2010年12期

沈萦华，吕朝辉

（中国传媒大学信息工程学院，北京 100024）

责任编辑:哈宏疆

1 引言

视频分割是指将图像或视频序列按一定的准则分割成区域，目的是为了从视频序列中分离出视频对象。立体视频对象分割技术是从静态图像分割技术和单通道视频分割技术的基础上发展起来的。进行立体视频对象分割[1-3]，可以利用静态图像分割技术和单通道视频分割技术中的分割方法，先提取一路通道视频的目标，然后根据视差估计提取另一通道的相应目标。立体图像对中的深度信息指示了三维对象的空间位置，可以直接利用视差图来提取出不同深度层面的物体。

根据视差图的特性，笔者提出了利用改进的均值漂移算法与视差图相结合的方法对立体视频对象进行分割。通过实验验证，这种分割方法可以取得很好的分割效果。

2 视差估计

所谓视差是指同一个点在两幅图像中投影点之间的位置偏差，定义P点在左右成像平面的投影点离各自平面中心的位移之差为视差dv，即:

式（1）把物体与像平面的距离z（即三维世界中的深度）及视差d直接联系了起来。视差包含了三维场景物体的空间信息，可以用来描述相对深度。处在同一目标对象上的点，由于它们与摄像机之间的距离相近，其视差也相近，具有连续性；但在对象边界处，由于不同对象离摄像机的距离不同，故视差不同，具有间断性。离摄像机较近的物体，产生较小的立体视差；而离摄像机较远的物体则产生较大的立体视差。

笔者使用的是一种基于自适应权值的视差估计方法[4]。

3 立体视频对象的分割

3.1 分割前的预处理

为了抑制视差图中的噪声，采用3×3模板的中值滤波方法对视差图进行滤波。由连续性约束可知，除了对象边界处深度间断的地方，物体的视差变化是连续的。根据这个约束条件可以对立体图像对的视差图中处于不同视差平面的物体使用改进的mean shift方法对视频对象进行提取。

3.2 改进的mean shift算法

mean shift是一种非参数密度估计的方法[5]。算法的核心是对特征空间的样本点进行聚类，得到密度梯度为零的点。在d维欧氏空间Rd中，有n维样本点组成的集合 S=｛xi，1≤i≤n｝，点 x 估计的密度概率值为

将g（x）作为G（x）轮廓函数，将（4）代入（3），得

mean shift向量 mh，G（x）总是指向密度大的方向，即密度梯度增加的方向。

笔者基于视差图的分割，对mean shift向量进行了改进

式中:d（x）代表灰度值。由于视差图具有不同层次的灰度值，通过不同的灰度值可以确定不同的对象，在mean shift向量中通过加入灰度权值，可以更准确地区分不同层次的对象。

3.3 基于改进的mean shift的视频对象的分割

笔者是通过对视差图使用改进的均值漂移聚类的方法得到视频对象的分割。聚类是按照事物间的相似性进行分类的过程，聚类过程中聚类中心点的寻找是关键，聚类中心点是特征空间中密度的局部最大值点。mean shift方法是通过mean shift矢量迭代来定位密度的模式点，mean shift方法对图像进行聚类时，迭代计算每一个像素点的mean shift矢量，来确定相应的密度模式点，并准确的将像素点归到对应的区域内。如果对图像中的每一个像素点都进行迭代计算，则计算量较大，为提高分割算法的效率，笔者利用视差图的特性对mean shift算法进行了改进，改进的mean shift的算法步骤如下:

1）根据灰度值的不同对视差图中的所有像素进行分类，属于同一灰度级的像素进行标记Mi；

2）窗口中心处于当前某一像素的位置；

3）检查当前像素的4邻域，如果其中某个像素与当前像素处于同一灰度级，则用邻域像素取代当前像素，返回 3），否则 4）；

4）计算mean shift向量，将窗口中心移至邻域的像素的位置，直到mean shift向量小于某一阈值时停止；

5）通过聚类，合并小于某一阈值的区域，进行分割。

4 实验结果

为验证算法的有效性，选取了人工合成图像和自然图像进行实验。人工合成图像的分割结果如图1所示。选取的人工合成图像包含有灰度值及形状不同的区域。可以看出，笔者所采用的方法能够准确分割出不同灰度层次的区域。

图1 人工图像的分割结果

自然图像的分割如图2所示，原始图像采用了Tsukuba立体视频序列对。图2a和图2b为原始的左图像和右图像，图2c为求得的视差图，图2d为使用改进的mean shift算法分割的视差图，图2e和图2g为灯和雕塑对象区域的二值掩模图像，图2f为对象灯的分割结果，图2h为对象雕塑的分割结果。通过实验结果可知，对图像中前景的两个对象可以取得很好的分割效果，分割对象的边缘比较平滑准确。

5 结论

笔者提出了一种利用改进的mean shift算法分割视差图的立体视频对象提取方法。首先利用自适应权值的视差估计方法得到立体视频对象的视差图，然后使用改进的mean shift算法对获得的视差图进行分割，实验结果表明这种方法可以准确的提取视频中具有语义信息的对象。进一步的工作可以结合对象的运动信息，修正单独依赖深度信息进行分割的不足，以普遍适应对各种场景立体视频序列对象的分割。

[1]朱仲杰，郁梅，蒋刚毅.用于立体视频会议系统的立体对象分割和跟踪算法[J].计算机辅助设计与图形学报，2004，16（3）:16-20.

[2]DOULAMIS A D，DOULAMIS N D，NTALIANIS K S，etal.Unsupervised semantic object segmentation of stereoscopic video sequences[C]//Proc.IEEE International Conference on Intelligence,Information and Systems.Washington D.C.:IEEE Press，1999:527-533.

[3]袁惇，吕朝辉.立体视频对象分割综述[J].电视技术，2006，30（S1）:123-124.

[4]吕朝辉，袁惇.一种基于自适应权值的立体匹配方法[J].光学技术，2007，33（4）:501-504.

[5]COMANICI D，MEER P.Mean shift:a robust approach toward feature space analysis[J]. IEEE Trans. Pattern Analysis and Machine Intelligence，2002，24（5）:603-619.