基于全连接条件随机场的道路场景语义分割方法

2019-08-08 06:23王瑶冯峰
电脑知识与技术 2019年18期

王瑶 冯峰

摘要:道路场景图像的准确分割是对道路场景进一步分析与理解的前提条件。针对基于点对条件随机场(Conditional Random Field,CRF)的道路场景语义分割方法仅考虑了局部邻域关系,无法表达像素点之间的相互依赖关系,易产生误分割现象的问题,本文提出基于全连接CRF模型的道路场景图像语义分割方法。首先,通过像素点间的相互依赖关系获取空间全局信息,利用Textonboost分类器提取图像的基本结构特征建立模型的一元势能项,利用高斯核函数的线性组合构建模型的二元势能项;之后,采用平均场近似算法实现模型的优化推理;最后,采用道路场景数据库Sowerby-7进行实验分析,验证所提模型的可行性和有效性。实验结果表明,与基于点对条件随机场模型相比,该模型能够得到较好的语义分割结果。

关键词:全连接CRF;道路场景;图像语义分割

中图分类号:TP391        文献标识码:A

文章编号:1009-3044(2019)18-0212-03

道路场景图像语义分割主要是提取车辆前方可通行的道路区域,为智能驾驶系统的路径规划和车辆控制提供道路信息,是实现自动驾驶、辅助驾驶和自主导航等机器视觉应用中的关键技术之一[1-4]。现有的道路场景图像语义分割方法主要利用颜色、纹理以及道路几何形状等图像基本结构特征进行分割。Sirmacek等人[5]总结了基于颜色的道路检测分割算法,包含K-means聚类、最近邻法等,此类算法往往对路面阴影、积水等干扰敏感,分割性能易衰减且需要对图像进行复杂的预处理操作;Hou等人[6]提出了基于纹理的道路边缘分割法,该方法适用于边缘清晰的直线道路,对于边缘模糊场景复杂的道路无法得到较好的分割结果;肖红光等人[7]基于道路几何形状的算法,提出一种新的高分辨率SAR图像道路提取算法,要求道路边缘轮廓清晰以便于控制点的选取,但该方法过分依赖控制点,建模条件复杂且对边缘不清晰的路面没有很好的分割能力。上述这些方法提取到的像素特征往往是图像的局部特征,而且分类器对像素分类只考虑了当前点信息,像素之间互相独立无法获取上下文信息,因而无法获得更好的语义分割结果。

近年来,条件随机场(Conditional Random Field,CRF)模型由于能够充分融合图像多特征和表达空间上下文信息,可以很好地解决上述方法存在的问题。Costea等人[8]基于点对CRF的基本理论,提出了一种快速的交通场景语义分割方法,该方法利用相邻像素点构建点对势能函数,引入多范围分类功能来捕捉局部结构和上下文信息,实现了快速的交通场景语义分割,但该方法不能描述相邻较远的连接关系;Geng等人[9]利用点对CRF模型引入邻域像素间空间信息,并实现了动态地将颜色、纹理、空间及边缘等多种特征融合,有效提高了图像分割的精度,但对于图像中边缘细小的区域,分割结果仍不理想。这是由于点对CRF模型只考虑了局部邻域关系,仅能描述简单的邻域平滑等先验知识,无法描述更远距离的空间关系。全连接CRF模型则进一步考虑了单个像素和其他所有像素的关系,在图像中的所有像素对上建立依赖关系,因此,本文利用全连接CRF模型对道路场景图像进行语义分割,通过像素点间的相互依赖关系获取空间全局信息,利用Textonboost分类器提取图像的基本特征建立模型的一元势能项,利用高斯核函数的线性组合构建模型的二元势能项,并采用平均场近似算法实现模型的推理。实验结果表明,与基于点对条件随机场模型相比,本文模型能够得到较好的语义分割结果。

1 点对CRF模型

给定图像的观察场[Y={y1,y2,...,yN}i∈N],其中yi为图像中第i个像素的像素值,N为该图像中的像素总数;定义图像的标号场[X={x1,x2,...,xN}i∈N],其中[xi={1,2,...,L}]为该图像的类别标签,L为语义类别标签个数。图像中的每一个像素值yi对应一个类别标签xi,这样每个像素点作为一个结点,结点间的关系作为边,从而构成一个条件随机场(X,Y)。点对CRF模型就是通过观察变量yi来推测像素i对应的类别标签xi。那么,在该模型中,求解满足最大后验概率的X*即为最优的类别标签分配结果:

2 全连接CRF模型

针对基于点对CRF模型的道路场景语义分割方法仅考虑了局部邻域关系,无法表达像素点之间的相互依赖关系,容易产生误分割现象,本文提出基于全连接CRF模型的道路场景图像语义分割方法。该方法进一步考虑了单个像素和其他所有像素的关系,在图像中的所有像素对上建立依赖关系,利用邻域像素之间的相互作用引入空间全局信息,获得更准确的道路场景分割结果。

3 模型推理

全连接CRF模型具有成千上万的边连接,因而对能量函数的计算和推理过程非常复杂。平均场近似(Mean Field Approximation,MFA)算法[12]是一种高效的推理优化算法,其优点在于当有很多边连接存在时,依然可以快速推理达到收敛,效率极高。因此,本文采用MFA算法对全连接CRF模型进行优化推理。

4 实验结果与分析

为了验证所提模型和推理算法的可行性和有效性,以道路场景数据库Sowerby-7[10]为实验对象,在实验环境为Intel(R) Core(TM) i5-8300H CPU @ 2.30GHz 8.00G的台式机上,通过VS2010平台采用C++语言编程实现,并结合Opencv基本算法库提高算法开发效率。

4.1 定性分析

现从道路场景数据库Sowerby-7中选取3张图进行分割实验,并将全连接CRF模型的语义分割结果与点对CRF模型的进行对比,如图1所示。

从室外道路场景语义分割结果可以看出,使用點对CRF模型的分割结果在图像的局部区域存在缺失、模糊或者出现明显的边缘带现象,这是因为点对CRF只考虑了局部邻域关系,无法表达像素点之间的高级依赖关系;相对于点对CRF模型来说,全连接CRF模型对室外道路场景图像的分割结果有了明显提高,不仅能够有效地描述图像区域一致性,而且分割的边缘细节也较为清晰,因此基于全连接CRF模型的图像语义分割方法在室外道路场景上能够得到较好的语义分割结果。

4.2 定量分析

为了进一步量化点对CRF模型和全连接CRF模型对室外道路场景图像的语义分割结果,采用PRI指标[13]进行评估。从表1不同模型分割结果的PRI值对比可以看出,第1、2、3幅图在基于全连接CRF模型下的PRI值比基于点对CRF模型下的依次增长了2.51%、19.6%、17.1%。

5 结论

本文针对基于点对CRF模型的道路场景语义分割方法仅考虑了局部邻域关系,无法表达像素点之间的相互依赖关系,容易产生误分割现象的问题,提出基于全连接CRF模型的道路场景图像语义分割方法,利用邻域像素之间的相互作用引入空间全局信息,获得更准确的道路场景语义分割结果。同时采用道路场景数据库Sowerby-7中的图像进行实验对比分析,验证了所提模型的可行性和有效性。实验结果表明,与基于点对CRF模型相比,全连接CRF模型在室外道路场景语义分割和标注的准确率方面都能够得到较好的实验效果。

参考文献:

[1] PASSANI M, YEBES J J, BERGASA L M. Fast pixelwise road inference based on Uniformly Reweighted Belief Propagation[C]//.Intelligent Vehicles Symposium.2015.

[2] ZHOU H, KONG H, WEI L, et al. Efficient Road Detection and Tracking for Unmanned Aerial Vehicle[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(1): 297-309.

[3] SHIN B S, XU Z, KLETTE R. Visual lane analysis and higher-order tasks: a concise review[J]. 2014, 25(6): 1519-47.

[4] HILLEL A B, LERNER R, DAN L, et al. Recent progress in road and lane detection: a survey[J]. Machine Vision & Applications, 2014, 25(3): 727-45.

[5] SIRMACEK B, UNSALAN C. Road detection from remotely sensed images using color features[C]//.International Conference on Recent Advances in Space Technologies.2011.

[6] HOU X, ZHANG T, XIONG G, et al. Image resampling detection based on texture classification[J]. Multimedia Tools & Applications, 2014, 72(2): 1681-708.

[7] 肖紅光, 文俊, 陈立福, 等. 一种新的高分辨率SAR图像道路提取算法[J]. 计算机工程与应用, 2016, 52(15): 198-202.

[8] COSTEA A D, NEDEVSCHI S. Fast traffic scene segmentation using multi-range features from multi-resolution filtered and spatial context channels[C]//.Intelligent Vehicles Symposium.2016.

[9] GENG X, ZHAO J. Interactive Image Segmentation with Conditional Random Fields[M]. IEEE Computer Society, 2008.

[10] SHOTTON J, WINN J, ROTHER C, et al. TextonBoost for Image Understanding: Multi-Class Object Recognition and Segmentation by Jointly Modeling Texture, Layout, and Context[J]. International Journal of Computer Vision, 2009, 81(1): 2-23.

[11] 李瀚, 杨晓峰, 邓红霞, 等. 基于网格搜索算法的PCNN模型参数自适应[J]. 计算机工程与设计, 2017, 38(1): 192-7.

[12] KR?HENBüHL P, KOLTUN V. Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials[J]. 2012,

[13] MIGNOTTE M. A Label Field Fusion Bayesian Model and Its Penalized Maximum Rand Estimator for Image Segmentation[M]. 2010.

【通联编辑:唐一东】