杨 勇,郭 玲,叶阳东,周小佳
多类变分模型优化的自然图像分割方法
杨 勇1,2,郭 玲1,叶阳东2,周小佳3
(1. 黄河科技学院信息工程学院 郑州 450063;2. 郑州大学信息工程学院 郑州 450060;3. 电子科技大学自动化工程学院 成都 610054)
针对自然图像中内容的多样性、复杂性以及随机性,若采用区域内部恒定聚类中心假设的CV(Chan-Vese)模型以及多类水平集模型,则难以有效刻画具有非线性、连续性变化的自然图像内容。该文通过对区域内部自由度调控的多变量学生-概率密度分布描述,提出了多类非线性变分活动轮廓模型,它打破了区域内部恒定密度的约束。由于多类非线性变分活动轮廓模型缺乏区域外力,容易分割出离散、零碎的噪声区域,通过引入测地线区域外力约束项,能有效分割出区域间的光滑边界。针对多类变分模型的最小化问题是NP难问题,提出对多类变分活动轮廓模型进行离散化表达,然后构建对应的多层图割模型,并利用最大流/最小割优化方式快速求得全局近似最优解。实验表明,该文提出的分割方法能够准确地分割出多类非同质目标区域,且区域之间的边界光滑,视觉效果好。
活动轮廓; 图割优化; 变分模型; 自然图像分割
基于变分模型的图像分割方法[1-2]能够提供光滑封闭的曲线,并能够结合先验信息获得非同质的目标[3]区域,因而被广泛地应用于目标检测、视觉跟踪、场景理解、图像检索以及医学图像分析[4]等领域。
基于变分模型的图像分割方法一般分为两大类:基于边的分割方法以及基于区域的分割方法。基于边的分割方法主要利用图像的局部梯度吸引活动轮廓朝着图像的边缘方向进化[5-6]。虽然该方法在特定应用环境下能够获得较好的分割结果,但对初始标记点以及初始轮廓的位置比较敏感,且在缺乏全局信息的约束下,容易受噪声的干扰。基于区域的分割方法,它假设每个区域内部的统计密度是同质的,依靠全局信息来引导活动轮廓的演化。相对基于边的分割方法[7-9]而言,它对初始轮廓的位置不敏感,因此具有较强的抗噪声能力。但它丢失了图像的全局刻画,导致分割的结果容易出现虚假的目标区域,且捕获的目标边缘不够光滑。
文献[10]提出将边缘信息(梯度)与区域信息相结合的方法,但在进行边缘结合时,并未引入边缘检测能力更强的测地线项。且自然图像通常包含多个非同质目标区域[7,11],各个区域内部的概率密度变化具有非线性及连续性,若采用恒定的聚类中心描述,则难以实现可靠、有效的多类自然图像分割。
本文通过自由度调和的多变量混合学生-概率密度分布来提高多类非同质目标区域的非线性以及连续性刻画[12]。为了提高抗噪能力及光滑边缘的检测能力,本文引入了测地线边缘外力项。由于本文提出的多类变分活动轮廓模型的最小化问题是NP难问题,如果采用多类水平集的方法[13]进行求解,其收敛较慢,容易陷于局部最小。为了打破此瓶颈,本文提出利用微分几何与积分几何的相关理论,建立最小割与测地线之间的关系,将多类变分活动轮廓模型的最小化问题转化为多层图割模型[14-16]的最大流/最小割问题,这不仅能够提高自然图像的分割速度,而且能够求得全局近似最优解。
假设0是一幅自然图像,其对应的图像域。对应的分割区域边界子集为,它将自然图像0分割为若干互不联通的子区域,满足:,且,其中表示所有不连通的分割区域数。图像0常被假设为个类别区域,如果每个区域内部用个恒定聚类中心描述,则它丢失了区域内部存在的非线性与连续性变化。为了更好地描述特征空间的变化,本文引入了多变量混合学生-分布进行描述,它通过自由度调节参数来调节概率密度分布的形状变化。在时,多变量混合学生-分布退化为多变量高斯分布。则本文提出的多类变分模型可表达为:
通过区域项与边缘项的结合,式(4)中所对应的能量函数不仅能够有效约束活动轮廓的边界长度,也可以进行区域边界的有效检测,共同提高非同质目标区域的整体描述能力。但式(4)所提出的多类变分活动轮廓能量函数是变分形式,计算复杂且最小化是NP难问题,所以很难直接对其进行优化。文献[7]提出了多类水平集优化方式,但它需将目标能量函数嵌入到高维空间,且要求被处理的区域数必须是偶数。因此,很难将其应用于优化式(4)所对应的能量函数。而本文提出了利用积分几何与微分几何之间的关系对所提出的多类变分活动轮廓模型进行离散化推导与表达,进而建立测地线与最大流/最小割间的联系,通过构建多层图割模型来进行快速优化求解。
式(4)中对应的多类活动轮廓能量函数为变分形式,由于变分能量函数复杂,难以直接将其运用于二维离散图像,因此首先需要进行离散化表达。
假设图像0可表示为二维离散格图,与分别对应于图像的宽和高。为了便于离散化描述,首先引入一个辅助函数,如果,;否则。在二维格图上,位于位置的类别标签为,则对应的标签图可定义为,则式(4)中的区域项可离散化为:
在多类的情况下,可根据图对应的多个分割边界曲线,以及对应的邻域标签区域来共同离
为方便计算,式(5)~式(8)中与都未写成格点形式(实际执行时需采用格点形式计算)。为了捕获光滑的边界,提高抗噪能力,需要将离散的区域内力与边缘外力相结合,即离散化的多类变分活动轮廓为:
式(7)中对应的多类离散能量函数具有凸函数形式,且边缘项为多标签的Potts模型,因此很难直接对其最小化求解。而文献[18]提出的craph cuts优化方法,能够快速求解凸函数的最小化问题,因此可将其扩展于求解式(9)对应的多类能量函数。对于能量函数的最小化问题可将其转化为对应多层图割模型的最大流/最小割问题。首先,构建一个多层图(多层图的网络流从源点(source)流向汇点(sink)),它的每一层对应于一个二维格图,其上每个点对应于自然图像0中的一个像素,层与层之间的边表示像素隶属于某一类的相似度。对于点,它可能被分配到类中的任意一类,因此多层图就对应于一个三维格图,它可定义为。对于多层图上任意一点可表示为,相邻图层间的边表示-link,同层格图上的边表示-link。对应于的顶点集可表示为。因此,式(7)中的区域项能量与边缘项能量,可利用顶点集中的点分别表示为-link边集Edge_与-link边集(边缘项边集)Edge_。则区域项边集E_可表示为:
b. 对应于4类能量函数构建的3层图
在多类变分活动轮廓演化的过程中,图像区域被活动轮廓分割为多个标签区域,为了及时将分割后的标签区域作用于区域内部,需对多变量学生-分布及时进行相关统计参数的更新。由于样本之间相互独立,次迭代时整个图像的类最大期望/最大似然能量为:
由于上面相关参数的偏导数等于0,可得:
1)=0,利用CEM3ST算法[10]初始化活动轮廓区域的总数,以及各个区域内部对应的初始统计参数和。
2) 将式(7)对应的多类变分活动轮廓能量转化为对应的多层图。
3) 利用最大流/最小割算法[19]进行多层图割优化,令=+1,并根据分割后标签区域更新各个标签区域对应的相关统计参数和,并重新计算相似度。
为了合理地进行实验评估与量化分析,将采用改进的多段恒定变分能量模型(MMPC-ACM)[6]方法以及多类彩色纹理图像分割方法(CEM3ST)[10]与本文的方法进行实验对比分析。在MMPC-ACM方法中,作者假定每个区域内部采用相同数量的恒定密度中心描述,即。在CEM3ST方法中,平滑因子与除噪常数分别为10和5。在本文方法中,边缘外力项调节因子设置为5。为了对本文提出的方法进行有效地验证,将采用具有非线性密度变化的自然图像进行实验对比与量化分析。
图3a提供了自然图像,它包含多个非同质目标区域,且不同区域间具有明显的边界差异性。如天空、草地、岩石、山林等。图3中第1列、第2列、第3列分别表示分割边界、标签均值图、分割结果图。由图3c提供的分割区域与分割边界可见,MMPC- ACM方法虽能将多个非同质目标区域分割出来,但在目标区域的边界处容易出现边界模糊及误分割现象,此外,部分边界出现重叠。这种分割结果出现的原因在于MMPC-ACM方法采用恒定聚类中心来描述每个区域内部的概率密度,容易出现过拟合或欠拟合现象。当区域间的边界具有多样变化的密度分布时,MMPC-ACM方法容易分割出很多无意义的边界,影响最终分割的整体效果。而CEM3ST方法与本文提出的方法能够准确的将多个非同质目标区域分割开来。相比而言,本文的方法比CEM3ST方法捕获的边缘更加准确,且最终分割的边界更加光顺。
图3 自然场景图像的分割边界、标签均值图以及分割结果对比
为了进一步验证本文方法对概率密度的非线性及连续性描述,图4提供了猕猴图像,它包含的特征信息在特征空间具有某种非线性变化,图中第1列、第2列、第3列分别表示分割边界、标签均值图、分割结果图。图4b与图4d提供了利用自由度调控的多变量混合学生-分布进行密度描述的分割结果,其能够更加准确的将同质目标区域分割出来,虽然图4d具有较好的目标区域整体性,但是对于阴影区域与树叶区域它难以进行有效的区分,而本文方法能够很好地将猕猴区域、树叶区域以及阴影区域分割开来。且分割效果更加接近于地面真实分割。而MMPC-ACM方法采用5个恒定聚类中心来描述每个区域,其分割结果如图4c所示,出现了很多离散的、零碎的小区域,且部分目标同质区域被细分,因此它丢失了同质目标区域的非线性刻画。此外,由分割结果可见,利用多段恒定聚类中心难以有效描述具有复杂性、非线性的猕猴区域与植物区域,它容易将植物区域分割为多个零碎区域,且对猕猴嘴部的小阴影区域比较敏感。而采用本文提出的自由度调控多变量混合学生-分布描述,它不仅具有较好的非线性描述能力,而且能够有效地刻画目标区域间的非线性密度变化。因此,对于大多数具有非线性密度分布的图像而言,利用自由度调控的多变量混合学生-分布描述更加适合,它具有更强的非线性描述能力。
图4 具有非线性的自然图像分割结果对比
虽然对本文方法在自然图像上进行了实验对比与结果分析,但都是基于整体分割性能的描述。而关于本文所提出的区域内力项与区域外力项(数据项与边缘)的作用依然不是很清晰。为了合理、有效地分析本文提出的测地线区域外力的边界检测能力,图5采用了区域间具有复杂跳变的边界以及区域差异性较大的图像进行测试。由未添加测地线项的图5c分割结果可见,玫瑰花与摩天大楼被分割为破碎的区域,且出现了很多无意义的目标区域,这将严重影响图像分割结果在高层语意场景理解与视觉分析等方面的应用。此外,不同目标区域间出现了不连续、陡然跳变、尖锐的边界。这种结果出现的原因在于未添加边界检查项时,即本文提出的模型退化为普通的多类CV模型,它缺乏边界的检测以及物理空间的局部约束。与之相反,它不仅可以吸引活动轮廓朝着法线方向移动,而且可以通过区域内力的作用,保证同质目标区域内部的特征进行聚集,共同分辨出不同目标间的区域边界,如图5b所示,活动轮廓朝着法线方向移动,而且可以通过区域内力的作用,保证同质目标区域内部的特征进行聚集,共同分辨出不同目标间的区域边界。
图5 带边缘检测项与不带边缘检测项的分割结果对比
为了客观评价3种对比方法的有效性,本文采用文献[20]提出的概率随机检索PRI(probabilistic rand index)进行准确率量化计算,PRI的取值在0~1之间。较大的量化准确率值反映实验分割的结果更加接近于真实的人工分割结果。图6提供了由伯克利自然图像库随机选取60张自然图像的量化结果。如图6a所示,本文方法计算的PRI准确率值高于CEM3ST方法与MMPC-ACM方法,且准确率值以58%的比例集中在0.8~1.0之间分布(图6b所示),而CEM3ST方法与MMPC-ACM方法分别为45%和35%。此外,表1提供了3种对比方法的PRI平均均值与平均运行时间。本文方法的PRI平均值达到0.805,而CEM3ST方法与MMPC-ACM方法分别为0.974和0.789,本文方法的平均准确率值较高。通过平均分割时间消耗可见,本文方法对应的分割速度更快。这些量化指标值可进一步说明,本文方法的整体性能要优于CEM3ST方法与MMPC-ACM方法。
图6 按升序排列的PRI准确率值及对应的区间比例分布
表1 3种方法的PRI均值与运行时间对比
本文将多类变分活动轮廓模型与多层图割模型相结合,提出了一种新的自然图像分割方法。为了提高图像特征的非线性与连续性刻画,将自由度调节的多变量学生-分布引入到多类CV变分模型中,它突破了恒定聚类中心假设。同时,针对活动轮廓模型缺乏区域外力的缺陷,引入了测地线区域外力约束项,它不仅能够有效分割出区域间的光滑边界,而且避免了分割出离散、零碎的噪声区域。对于本文提出的多类变分模型的最小化问题是NP难问题,通过离散化多类变分活动轮廓模型,可将能量函数的最小化问题转化为多层图割模型的最大流/最小割优化问题,并可求得全局近似最优解。此外,对于本文提出的分割方法进行了合理的实验验证,通过对比分析表明,本文提出的分割方法不仅具有较高的分割准确率、光滑的边界,而且最终分割的区域视觉效果较好。
[1]李伟斌, 高二, 宋松和. 一种全局最小化的图像分割方法[J]. 电子与信息学报, 2013, 35(4): 791-796.
LI Wei-bin, GAO Er, SONG Song-he. A global minimization method for image segmentation[J]. Journal of Electronics & Information Technology, 2013, 35(4): 791- 796.
[2] 郑锦, 仙树, 李波. 基于形状约束和局部演化的二值水平集运动目标分割[J]. 电子与信息学报, 2013, 35(5): 1037- 1043.
ZHENG Jin, XIAN Shu, LI Bo. Moving object segment- ation using binary level set based on shape constraint and local evolution[J]. Journal of Electronics & Information Technology, 2013, 35(5): 1037-1043.
[3] LEINER B J, RAMIREZ B E, VALLEJO E. Comparative study of variational and level set approaches for shape extraction in cardiac CT images[C]//International Seminar on Medical Information Processing and Analysis. [S.l.]: SPIE, 2014.
[4] ZHANG T, FREEDMAN D. Tracking objects using density matching and shape priors[C]//IEEE International Conference on Computer V ision. [S.l.]: IEEE, 2004: 1950- 1954.
[5] CASELLES V, CATTE F, COLL T, et al. A geometric model for active contours in image processing[J]. Numerische Mathematik, 1993, 66: 1-31.
[6] VESE L, CHAN T. A multiphase level set framework for image segmentation using the mumford and shah model[J]. International Journal of Computer Vision, 2002, 50(3): 271-293.
[7] CHAN T, VESE L. Active contours without edges[J]. IEEE Transactions on Image Processing, 2001, 10(2): 266-277.
[8] LANKTON S, TANNENBAUM A. Localizing region-based active contours[J]. IEEE Transactions on Image Processing, 2008, 17(11): 2029-2039.
[9] MUMFORD D, SHAH J. Optimal approximations by piecewise smooth functions and associated variational problems[J]. Communications on Pure and Applied Mathematics, 1989, 42: 577-685.
[10] 全刚, 孙即祥. 基于活动轮廓的图像分割方法研究[D].长沙: 国防科技大学, 2010.
QUAN gang, SUN Ji-Xiang . Image segmentation method based on active contour[D]. Changsha: National University of Defense Technology, 2010.
[11] TAO W B, CHANG F, LIU L M, et al. Interactively multiphase image segmentation based on variational formulation and graph cuts[J]. Pattern Recognition, 2010, 43(10): 3208-3218.
[12] BYEONG R L, BEN A H, HAMID K. An active contour model for image segmentation: a variational perspective [C]//IEEE International Conference on Acoustics, Speech, & Signal Processing. [S.l.]: IEEE, 2002, 2: 1585-1588.
[13] KASS M, WITKIN A, TERZOPOULOS D. Snakes: Active contour models[J]. International Journal of Computer Vision, 1988, 1: 321-331.
[14] YANG Yong, HAN Shou-dong, WANG Tian-jiang, et al. Multilayer graph cuts based unsupervised color-texture image segmentation using multivariate mixed student’s t-distribution and regional credibility merging[J]. Pattern Recognition, 2013, 46(4): 1101-1124.
[15] ISHIKAWA H. Exact optimization for markov random fields with convex priors[J]. IEEE Transactions on Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(10): 1333-1336.
[16] BAE E, TAI Xue-cheng. Graph cuts for the multiphase Mumford-Shah model using piecewise constant level set methods[EB/OL]. [2014-01-20]. http://www.doc88.com/p- 303734285052.html.
[17] BOYKOV Y, KOLMOGOROV V. Computing geodesics and minimal surfaces via graph cuts[C]//IEEE International Conference on Computer V ision. Nice, France: IEEE, 2003: 1-8.
[18] BOYKOV Y, VEKSLER O. ZABIH R. Fast approximate energy minimization via graph cuts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(11): 1222-1239.
[19] FULKERSON D, FOLD L. Flow in networks[R]. [S.l.]: Princeton University Press, 1962.
[20] UNNIKRISHNAN R, PANTOFARU C. HEBRET M. Toward objective evaluation of image segmentation algorithms[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 929-944.
编 辑 叶 芳
Multi-Class Variational Model for Natural Image Segmentation
YANG Yong1,2, GUO Ling1, YE Yang-dong2, and ZHOU Xiao-jia3
(1. School of Information Engineering, Huang He Science and Technology College Zhengzhou 450063; 2.School of Information Engineering, Zheng Zhou University Zhengzhou 450060; 3. School of Automation Engineering, University of Electronic Science and Technology of China Chengdu 610054)
The content of the natural image is diversity, complexity, and randomly, so that the nonlinear and continuity change of natural image cannot be described effectively by using the constant density assumption of regions in CV (Chan-Vese) model or multiphase level sets model. In this paper, we propose a multi-class nonlinear variational model that can break up the bottleneck of constant density through introducing the multivariable mixed student-distribution. We further integrate the geodesic active model into the proposed model for getting some smoothly edges between regions. Additionally, the energy minimization of our proposed model is a NP hard problem, but, we can discretize the variational formulation into discretization form, and then find the approximate optimization solution through maximization flow/minimization cuts theory. Lastly, a large number of natural images are adopted for experiment comparison. The segmentation results demonstrate the superiority of our proposed method, such as the effective discriminate ability of multiple non-homogeneous regions, smooth edges, and good visual effect.
active contour; graphcut optimization; natural image segmentation; variational model
TP391.04
A
10.3969/j.issn.1001-0548.2016.05.020
2014-06-05;
2016-03-17
国家自然科学基金(U1204610);国家青年科学基金(61502432);河南省教育厅重点基础研究项目(14A520054, 15B520015);河南省人力资源与社会保障厅博士后项目(2014022);河南省科技厅重点科技攻关项目(152102210001)
杨勇(1983-),博士,主要从事图像分割、模式识别、视觉计算等方面的研究.