随机森林在图像分割中的应用研究

2017-06-19 19:32刘步实刘致锦覃晓褚徐涛梁木玲
现代计算机 2017年13期
关键词:图像处理分类器样本

刘步实,刘致锦,覃晓,褚徐涛,梁木玲

(广西师范学院计算机与信息工程学院,南宁 530023)

随机森林在图像分割中的应用研究

刘步实,刘致锦,覃晓,褚徐涛,梁木玲

(广西师范学院计算机与信息工程学院,南宁 530023)

图像分割是计算机视觉领域尤为关键的任务之一,在很多医学CT、数字媒体等领域都有着举足轻重的作用。通过对2000年后出现的一些主要的图像分割方法进行整理研究,着重阐述基于集成学习框架下随机森林方法的主要性质,并广泛调研随机森林方法在图像分割领域中的应用成果,以及对其可以改进的方向进行论述。

0 引言

图像分割作为机器视觉领域尤为关键的任务之一,受益于现代数字媒体化的快速发展,一直颇受众多学者的重视和研究。图像分割通过实现共享一定的相似属性,将图像中有意义的、感兴趣的区域提取出来,该区域与其他区域之间一般会呈现较明显的特征差异,这使得它在很多医学CT、MRI、数字媒体等领域都是不可或缺的。

研究学者们对原有算法的不断改进以及融入新的理论方法,尤其是2000年后出现了不少新的分割方法。而对于图像分割方法的分类也会有所差异,一般意义上,我们会将这些方法分为:基于区域、基于阈值、基于边缘的分割方法。2000年后,许多学者们根据不同的图像分割新技术,可以将它们划分为:基于聚类的、基于图论的、基于ACM的、基于Markov Random Fields(MFRs)等。此外,不少学者们还新颖地将机器学习方法融入到视觉系统中,利用机器学习方法,特别是集成学习解决图像分割问题,逐渐地成为一种重要的学习趋势。本文针对这种基于集成学习框架下的随机森林(RF)算法作了更细致的论述了,并介绍了该方法在图像分割领域的应用与改进方向。

1 基于集成学习的框架

图像分割技术也可以看作是数学问题,根据图像或者是研究对象的先验知识,通过数学模型、理论来获得较好的分割结果。随着AI的迅速发展,机器学习在各行各业中得到了广泛的重视与应用,集成学习(En鄄semble Learning)的方法更是成为了国内外机器学习领域的一个热门,通过结合多个学习器,获得比单个方法更优越的稳定性和泛化性能。它主要有三个步骤:(1)生成具有差异性的分类成员;(2)选择最合适的集成分类器;(3)按照一定的策略组合分类器。集成学习不仅在预期结果精度上得到非常显著的提升,而且还提高了鲁棒性。其中,Bagging和Boosting是集成学习的代表性算法,本文介绍的随机森林(RF)就属于Bag鄄ging思想上的一种延伸。

Jianhua Jia和Licheng Jiao[1]等作者提出了一种选择性谱聚类集成算法,并把Bagging算法用在有监督学习中,用该方法对SAR对象进行分割取得了很好的效果。Franek L[2]等人提出了一种集成聚类框架,与其他有监督算法的不同之处在于可以自适应地解决组合分割的问题。Song Xiangfa[3]等人使用基于稀疏编码和集成学习的多实例学习(MIL)来解决图像分类问题。

2 随机森林方法概述

随机森林 (Random Forests)是由Leo Breiman和Adele Cutler提出的集群分类器算法。该方法在训练集中随机抽取若干样本,通过重采样的方法,并构建多个分类树,最终的预测、分类结果是由分类树投票决定。随机森林可以处理数据量较大的高维训练集,且不需要显式的特征选择,就能达到较快的分类速度、不易过拟合以及较强的抗噪声能力。它也是集成学习中的代表性算法之一。

定义1 随机森林含有若干树状分类器h(x,θk),k=1,…组成的分类器,其中x指输入变量,θk是各自独立的且满足同分布bootstrap集上的随机向量,每个分类器为输入变量x投票,将获得投票数量最多一个分类作为x的分类结果。

定义2给定分类器h1(X),h2(X),…,hk(X),从原始数据集(X,Y)随机抽取的样本集合。得到余量函数为:

余量函数反映了(X,Y)的正确分类投票率与错误分类投票率的差异水平。余量函数得到的值越大,表示分类器的性能越准确可靠。

定义3 分类器的泛化误差(错误率):

随机森林采用作为基预测器的集成分类器,通过传统的分类树生长规则来生成若干个分类树。与传统方法的生长规则又有所不同,随机森林的生长过程如下:

(1)设数据集中含有N个样本,我们有放回的随机选择N个样本。这选择好的N个样本作为个别样本训练集用来训练一颗分类树,作为分类树根节点处的全部样本数据。。

(2)在分类树的每个节点需要分裂时,从每个样本的所有属性中随机选出m个属性,接着从这m个属性中采用某种分裂策略(例如Gini、IG方法)选择其中一个作为根节点属性。Gini公式:

(3)分类树形成过程中每个节点都要按照步骤2进行分裂 (即如果下一次该节点选出来的那个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无需继续分裂),直到不能再分裂为止。整个形成过程中不需要进行剪枝操作,使其充分生长。

(4)按照步骤1~3训练出大量分类树。将待预测的数据样本放进训练好的模型中作分类处理,统计每个树分类器的预测并按照投票数量最多一个作为最终分类结果。

构建过程如图1所示。

图1 随机森林构建图

随机森林算法(RF)不仅对于拥有庞大数据量、多维特征的训练集保持高效的训练效果,处理精确度高,而且可以有效地处理训练集中数据缺失、特征遗漏等现象,这在已有的许多机器学习算法中是无法替代的。

在RF中有两项是随机的:(1)每个树的训练样本都是随机选取的;(2)每个节点的分类属性都是随机的。这两个性质不仅大大提升了训练速度,对离散型数据和连续型数据都可以很好地适应,还能避免出现过拟合的情况。而有放回的采样过程,使数量本来就较小的样本被抽中的概率低于数量较多的样本,这么做就增强了整个过程不被噪声影响的能力。

每次Bagging抽样产生的样本集合,原始数据集N中就会有概率的样本(约1/3左右)未被抽中,这些未被抽中的数据就是袋外数据(OOB)。这些数据作为袋外数据估计,用来判断集群分类的精确度,通过测试个别训练集中样本数据从而对集群分类器整体的最终分类效果作评估。RF方法在整个图像处理的分类过程中,为每个输入变量都设定了一个特殊的值来评定其重要性。在构造RF时,对于不平衡的训练集一般会使用OOB的误差估计生成泛化误差的一种无偏的内部估计,不必像其他算法作交叉验证(CV),有效地平衡了数据的误差。

目前,判断随机森林的性能指标主要有分类精度(Accuracy)、灵敏度(Sensitivity)、几何均值(G-mean)等;算法的运行效率一般是关注时间复杂度、空间复杂度的角度,不过以随机森林现在的发展现状,更值得考虑的是其时间复杂度的问题。

3 随机森林在图像分割中的应用

随机森林方法的图像处理技术在计算机视觉领域的研究人员中间也掀起了一股研究热潮,主要原因有以下几点:

(1)随机森林相比当下流行的算法具有更优异的分类准确性。能够在大规模的图像纹理等特征复杂的情况下很好地处理这些高维数据,对于平衡数据和非平衡数据都可以保证较为稳定的误差,并且随机森林方法可以抑制过拟合现象。

(2)随机森林会提供一些对数据的分析评价。 随机森林在整个图像处理的分类过程中,为每个输入变量都设定了一个特殊的值来评定其重要性。不仅能生成泛化误差的一种无偏的内部估计,还可以有效地处理训练集中数据缺失、特征遗漏等现象,具有较强的抗噪能力。

(3)随机森林处理精度高,运算速度快。集群分类器的树与单个分类器的树,它们的计算量和学习深度是成正比的,使其可以更好地适用在分类、回归等问题,且集群分类器里所有的树是可执行并行化的。

Xiao Liu[4]等作者提出了一种几何先验的随机森林方法来获得分割对象的自适应几何先验,不仅取得了较好的分割效果,分割速度也非常快。Tri Huynh[5]等作者提出一种结构化的随机森林方法对CT图像通道结构化输出,实现刚性配准。Bowen Zhao[6]等作者提出了一种基于随机森林分类器和稀疏自动编码特征的肺部图像分割方法,对于临床肺血管CT图像的分割有着非常重要的意义。M.Yaqub[7]等作者提出了一个随机森林分类框架内的三维分割技术,通过特征选取以及加权的改进方法,使得该技术在医学图像的分割精度上有着显著地改善。Piotr Dollár[8]等作者充分利用局部图像块的实时结构优势,在结构化学习框架里采用随机决策森林的方法,解决局部边缘检测的预测问题。雷震[9]将旋转不变性引入霍夫投票(HV),结合随机森林方法应用在了遥感图像领域,为遥感目标的检测节省了上百倍的计算量。

4 随机森林方法的改进方向

得益于随机森林算法良好的性质,在视觉机器、图像处理、医学、管理学等方面都引起了研究人员的关注和学习。不过由于它的理论与应用的结合还处于完善的阶段,因此人们对于其性能的改进也提出了许多新颖的思路,国内外的改进研究大致包含三个方向:第一,将其它方法与随机森林算法融合。Gall[10]等人提出结合Hough变换和随机森林RF,得到霍夫森林算法(Hough forests)应用到目标跟踪、行为识别领域,不仅检测精度高,匹配时间也非常快。Ishwaran[11]等人提出了一种适用于高维数据的RF衍生算法,随机生存森林算法(RSF),它的特点是对每个样本构造生存树,然后对这些树分析预测效果。马景义[12]等人分析了RF算法与AdaBoost算法的优缺点,提出了一种拟自适应分类随机森林算法,该方法可以不区分训练集测试集就能达到很好地收敛效果。第二,在随机森林算法的前期对样本进行预处理。吴琼[13]等人提出先将NCL(Neigh鄄borhood Cleaning Rule)技术进行预处理,再把已经处理好的样本引入到随机森林算法中进行分类预测;第三,优化随机森林算法的生成过程。李慧[14]等人针对训练集的样本数量和样本抽样方法进行了改进,对于大数据的分析与处理效果都有着显著的提高。

5 结语

随着人工智能、数字媒体技术的高速发展,图像分割作为机器视觉领域的重中之重,亟需越来越多性能高、鲁棒性强的优秀方法来促进和提高自身的发展。本文重点介绍的随机森林方法近几年得到了不少研究学者的关注,由于它在预期结果精度上有着非常显著的提升,鲁棒性好,越来越广泛地被运用在各个研究领域。此外,本文还论述了随机森林方法的构造过程、性能特征以及评价指标,对随机森林算法未来的发展方向和趋势进行了总结。

[1]Jian-hua JIA,Li-cheng JIAO etal.Bagging-Basd Spectral Clustering Ensemble Selection.Pattern Recognition Letters,2011,32:1456-1467.

[2]Franek L etal.Image Segmentation Fusion Using General Ensemble Clustering Methods.10th Asian Conference on Computer Vision, 2010.

[3]Song Xiang-fa,Jiao LC etal.Sparse Coding and Classifier Ensemble Based Multi-Instance Learning for Image Categorization.Signal Processing,2013,93(1):1-11.

[4]Xiao Liu,Ming-li Song,Da-cheng Tao etal.Random Geometric Prior Forest for Multiclass Object Segmentation.IEEE Trans.on Image Processing,2015,24(10):3060-3070.

[5]Tri Huynh,Yao-zong GAO et al.Estimating CT Image from MRIData Using Structured Random Forest and Auto-Context Model. IEEE Trans.on Medical Imaging,2016,25(1):174-183.

[6]Bo-wen Zhao,zhu-lou Cao,Si-cheng Wang.Lung Vessel Segmentation Based on Random Forests.Electronics Letters,2017,53(4): 220-222.

[7]M.Yaqub,M.k.Javaid,C.Cooper,J.A.Noble.Investigation of the Role of Feature Selection and Weighted Voting in Random Forest for 3-D Volumetric Segmentation.IEEE Trans.on Medical Imaging,2014,33(2):258-271.

[8]Piotr Dollár,C.Lawrence Zitnick.Fast Edge Detection Using Structured Forests.IEEE Trans.on Pattern Analysis and Machine Intelligence,2015,37(8):1558-1570.

[9]雷震.随机森林及其在遥感影像处理中应用研究[D].上海:上海交通大学,2012.

[10]Gall J,Yao A et al.Hough Forest for Object Detection,Tracking,and Action Recognition[J].IEEE Trans.on Pattern Analysis and Machine Intelligence,2011,33(11):2188-2202.

[11]Ishwaran H,Kogalur U B,Blackstone E H,Lauer M S.Random Survival Forest[J].The Annals of Applied Statistics,2008,2.

[12]马景义,吴喜之,谢邦昌.拟自适应分类随机森林算法[J].数理统计与管理,2010,9.29(5):805-811.

[13]吴琼,李运田,郑献卫.面向非平衡训练集分类的随机森林算法优化[J].工业控制计算机,2013,26(7):89-90.

[14]李慧,李正,佘堃.一种基于综合不放回抽样的随机森林算法改进[J].中国计算机学会服务计算学术会议,2014.

Research on the App lication of Random Forest in Image Segmentation

LIU Bu-shi,LIU Zhi-jin,QIN Xiao,CHU Xu-tao,LIANGMu-ling
(College of Computer and Information Engineering,Guangxi Teachers Education University,Nanning 530032)

Image segmentation is one of themost important tasks in the domain of computer vision;it plays an important role inmany fields such as medical CT,digitalmedia and so on.Introduces some of themainmethod in image segmentation technology after2000,emphatically focuses on the properties of the Random Forestmethod based on ensemble learning framework.Investigates the application results of using Random Forestmethod in the fieldsof image segmentation,also discusses the direction thatcan be improved.

广西自然科学基金项目(No.2016GXNSFAA380209)

刘步实(1991-),女,江西乐平人,硕士研究生,研究方向为计算机图像处理

刘致锦(1991-),男,山东临沂人,硕士研究生,研究方向为计算机图像处理

覃晓(1973-),女,广西河池人,硕士研究生导师,副教授,研究方向为数据挖掘、计算机图像处理

褚徐涛(1993-),男,浙江宁波人,硕士研究生,研究方向为计算机图像处理

梁木玲(1992-),女,广西人,本科,研究方向为计算机图像处理

2017-03-31

2017-05-02

1007-1423(2017)13-0003-04

10.3969/j.issn.1007-1423.2017.13.001

图像分割;聚类;集成学习;随机森林

Image Segmentation;Clustering;Ensemble Learning;Random Forest

猜你喜欢
图像处理分类器样本
海战场侦察图像处理技术图谱及应用展望
学贯中西(6):阐述ML分类器的工作流程
人工智能辅助冠状动脉CTA图像处理和诊断的研究进展
基于朴素Bayes组合的简易集成分类器①
基于ARM嵌入式的关于图像处理的交通信号灯识别
基于图像处理的废有色金属自动分选算法研究
规划·样本
基于差异性测度的遥感自适应分类器选择
随机微分方程的样本Lyapunov二次型估计
浅谈多分类器动态集成技术