图像语义分割方法综述

2019-09-23 01:21
测控技术 2019年7期
关键词:语义驱动特征

(空军工程大学 信息与导航学院,陕西 西安 710077)

图像语义分割(Semantic Segmentation)是一种将图像划分成一系列具有特定语义信息的图像区域的方法,已成为图像理解分析领域的一个研究热点,并展现出广阔的应用前景。例如,在智能汽车领域,通过对无人车前景物体图像进行语义分割可以有效地帮助计算机判断路况[1-2];在医疗领域,通过对医学图像进行语义分割可帮助医生迅速分析和判断患者病情[3-4]。

鉴于图像语义分割方法的巨大应用价值,国内外大量研究机构和学者开展了相关研究,并取得大量研究成果。其中国外典型的机构包括:加州大学伯克利分校的机器视觉实验室、普林斯顿大学的计算机视觉实验室、斯坦福大学的人工智能和视觉实验室以及卡内基梅隆大学的视觉与自主系统实验室等[5-7]。在国内,近年来不少机构也对图像语义分割进行了较为深入的研究工作,如香港中文大学、清华大学、国防科技大学、中国科学院自动化研究所、西安电子科技大学、上海交通大学和中山大学等[8-12]。

从方法研究的角度看,图像语义分割的研究最早可追溯到计算机视觉的研究,早期的代表性成果是美国麻省理工学院Robertsr[13]提出的三维物体感知。之后麻省理工大学人工智能实验室的D.Marr[14-15]将图像处理与生物神经学等多学科结合,提出了著名的马尔视觉计算理论,极大地促进了计算机视觉的研究进展。Bajcsy[16]和Aloimonos[17]等人针对马尔视觉计算理论缺乏高层知识反馈等问题相继提出了目的视觉和主动视觉等理论。从20世纪80年代以来,马尔科夫随机场(Markov Random Field,MRF)和条件随机场(Conditional Random Field,CRF)理论在图像语义分割中掀起一阵热潮。Grenande[18]与Geman[19]的工作给出了计算机视觉问题通过MRF建模的完备数学描述,成功将MRF模型引入到图像分析领域。Kumar[20]将CRF模型扩展到2-维格型结构,开始将其引入到图像分析领域,引起了学术界的高度关注。随着深度学习热潮的出现,很多学者将其应用到图像语义分割,极大地提高了分割效果[21-23]。

1 图像语义分割方法

图像语义分割可以视为一种在传统图像分割的基础上,给各图像区域赋予某种语义属性的特殊的图像分割方法。为便于理解,图1给出了一幅图像的语义分割示意图,其中图1(a)为原始图像,图1(b)为其语义分割结果,其将图像分割为画像、椅子、桌子、地板等语义区域,每个区域采用不同颜色进行标注区分[24]。

图1 图像语义分割示意图

为了实现图像语义分割,国内外众多学者提出了大量方法。从驱动类型来看,图像语义分割方法可分为基于模型驱动的方法和基于数据驱动的方法。

1.1 基于模型驱动的图像语义分割方法

基于模型驱动的方法通过图像语义分割进行数学建模,首先建立图像语义分割的明确的数学模型,然后通过训练数据确定相应数学模型的参数,最终利用确定模型实现图像语义分割。

根据建模方法的不同,基于模型驱动的方法进一步可分为生成式(Generative)和判别式 (Discriminative)两大类,如表1所示。对于输入x,类别标签y,用生成式模型估计它们的联合概率分布P(x,y),而判别式模型用于估计条件概率分布P(y|x)。

(1) 生成式模型。

基于生成式模型的图像语义分割方法先学习图像特征和标签的联合概率,通过贝叶斯公式计算给定图像特征时各个标签的后验概率,并依据后验概率进行图像标注[25]。这类方法具有可扩展的训练过程,对训练图像集人工标注的质量要求较低。目前生成式模型主要有3类:概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)、隐狄利克雷分配(Latent Dirichlet Allocation,LDA)和MRF模型。

表1 模型驱动的方法

PLSA和LDA通过隐主题将图像的视觉特征与语义特征相关联,对图像进行语义标记。Hofmann[26]等人在2001年提出的PLSA模型最开始应用于文本与自然语言的研究中,通过计算词语和文本对应的概率分布确定词语在文本中的相似性。在训练数据太少或者存在噪音的情况下, PLSA 有时会出现过拟合的现象,针对这个问题,PLSA 通常采用期望最大化方法(Expectation Maximization,EM)对隐变量模型进行最大似然估计[27]。Blei[28]等人提出的LDA模型将超参层引入PLSA 模型,建立了隐变量的概率分布,在图像语义分割中得到广泛应用。

MRF模型是目前应用更为广泛的一种生成式模型。MRF模型能够很好地利用标记图像的上下文信息,将标记图像中的上下文信息和输入的图像特征包含在一个统一的理论框架中。现有的许多图像标记方法,如对数回归分类器[29]、支持向量机(Support Vector Machine,SVM)[30]等,只能用于独立分布的标记数据,本身很难对表征数据相关性的上下文信息建模。图像上下文信息只是简单地用于后处理过程,而没有应用在分类器的分类过程中,可能会降低图像标记精度。MRF模型在分类过程可以利用部分先验上下文信息和一些通过训练得到的上下文信息,提高初步分类的结果。

二是切实强化防洪薄弱环节治理,着力提升防洪保安能力。加快推进大中型病险水库、病险水闸除险加固工程,开工建设泗河、洙赵新河、大汶河、马颊河等重要支流治理,力争完成德惠新河续建任务;加快进一步治淮前期工作并及早组织实施,加快千里海堤工程建设。

(2) 判别式模型。

基于判别式模型的图像语义分割方法假设图像特征到标签之间的映射是某种参数化的函数,直接在训练数据上学习此函数的参数。这类方法将各个语义概念视为独立的类别,一般来说能取得较高的标注精度。判别式的图像语义分割模型主要包括贝叶斯(Bayes)模型、高斯混合模型(Gaussian Mixture Model,GMM)、SVM模型和CRF模型。

Bayes模型通过Bayes公式求解后验概率,实现对图像的语义分割。Shi等人[27]对每个语义概念进行建模,将先验层次知识与图像的多级概念结构表示方法相结合,再利用Bayes框架实现图像语义分割。在基于模型驱动的语义分割方法中,建立的模型往往需要大量的图像数据来进行参数学习,这种情况下,很多研究者使用GMM模型进行图像语义分割。Barnard[31]利用GMM模型对图像中的每个语义类的分布进行建模,最后用EM方法对模型参数进行学习。

SVM定义为特征空间上的间隔最大的线性分类器,即确定一个最优分类超平面,使两类训练样本中距离超平面最近的样本与超平面距离最大。SVM因其可处理非线性、高维小样本并且具有良好的泛化能力,在图像语义分割中得到广泛的应用。文献[32]详细介绍了SVM,文献[5]将SVM用于图像语义分割,在PASACAL 2009和PASACAL 2010数据集上进行测试。Felzenszwalb等人[33]组合梯度下降直方图和SVM在PASACAL图像分割挑战赛上获得第七名的成绩。

CRF是Lafferty等人[34]提出的一种概率图模型,最初用于处理序列数据。由于可以融合多特征和上下文信息,随后CRF模型在图像标记中得到了成功的应用[35]。相比于MRF模型,CRF模型不仅可以利用标记图像上下文信息,还可以利用观察图像中从局部到全局各种形式的上下文信息[9]。

1.2 基于数据驱动的图像语义分割方法

与基于模型驱动的方法不同,基于数据驱动的方法从图像数据本身出发,可利用大量训练数据自动学习特征,然后联合优化特征表示和分类器,充分挖掘其中蕴含的类别信息来实现图像语义分割。最近几年,深度学习技术在处理多种计算机视觉任务上取得了巨大进展,尤其是一些处理图像分类和目标检测问题的方法,如卷积神经网络(Convolutional Neural Network,CNN)等[36-38],越来越多的研究者开始利用CNN来解决图像标记问题。相对于传统方法, CNN通过训练数据自动学习特征,可以控制整体模型的拟合能力,是一种典型的数据驱动的语义分割方法。很多基于深度学习的方法[39-41]既需要大量的训练数据来确定网络参数,也需要建立相应的模型,本小节根据这类方法需要通过大量训练数据自动学习特征的特点将其统一归为基于数据驱动的图像语义分割方法介绍。

CNN是一种高性能的深层神经网络模型。一方面,CNN神经元间的连接是非全连接的,另一方面,同一层中某些神经元之间的连接的权重是共享的。它的非全连接和权值共享的网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。如基于ImageNet训练的AlexNet[37]模型输出一个1000维的向量表示输入图像属于每一类的概率。AlexNet[42]只能用于对图像分类,无法完成语义分割任务。Long等人的FCN(Fully Convolutional Network)[23]提出了使用全卷积网络进行语义分割,推广了原有的基于全连接层的网络结构,在不带有全连接层的情况下能进行密集预测。FCN可以接受任意尺寸的输入图像,对最后一个卷积层的feature map进行上采样,使它恢复到与输入图像相同的尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。

尽管FCN具有强大的灵活性,但仍然存在其所提取特征的类内紧凑度不够以及类间可分性不高的问题,针对这些问题,目前针对FCN的改善主要集中在引入全局上下文信息以及改善分割边缘两个方面。在引入全局上下文信息方面, DeepLab模型[39]将全连接CRF引入到FCN中,对FCN预测结果进行后处理。它将每个像素点表示为CRF模型中的节点,无论两个像素距离多远,每个像素对都可以用一个成对项表示。Zheng[40]等人提出了另外一种引入全局上下文信息的方法CRFasRNN,将CRF的求解推理迭代过程看成了RNN的相关运算,嵌入CNN模型中,最终实现FCN与CRF的端到端结合训练。文献[41]提出的深度解析网络(Deep Parsing Network,DPN)将MRF与传统CNN结合,将MRF的单位置函数和双位置函数的推断和学习统一到CNN中,取得了比CRFasRNN更好的分割性能。在改善分割边缘方面,文献[43]针对FCN池化会造成分辨率下降的问题提出使用空洞卷积层(Dilated Convolution Layer),可使感受野呈指数级增长,而空间维度不至于下降。2016年剑桥大学提出的SegNet[44],使用不到1000张图训练出城市道路分割网络,对很多场景都有很好的泛化性,通过逐步的编码解码使其能较好保留细节信息。文献[45]利用金字塔池化实现整体轮廓信息与细节纹理结合,在一定程度上解决了分割任务中的多尺度问题。

基于模型驱动的语义分割方法对特征和分类器分开优化,研究者往往采用手工设计特征提取方法,再采用合适的分类器对特征进行分类,这类方法可显式地分析特征的表示方式,但描述能力有限。而典型的基于数据驱动的语义分割方法,如CNN,可通过训练数据自动学习特征,然后联合优化特征表示和分类器,最大程度地发挥了二者联合协作的性能,但是这类方法难以有清晰的数学表达。

2 语义分割方法评价标准

为评估图像语义分割方法的性能,除了时间、内存开销外,主要是从语义分割的准确性进行衡量。目前,图像语义分割的准确性度量的指标主要包括像素精度(Pixel Accuracy,PA)、平均像素精度(Mean Pixel Accuracy,MPA)和均交并比(Mean Intersection over Union,MIoU),其定义如下。

假设测试数据集中总共有n个类(从L1~Ln),pij表示第i类数据中被标记为第j类的数量,pji表示第j类数据中被标记为第i类的数量,则

① PA 定义为正确分类像素数与总像素数的比值。

(1)

② MPA 相较于PA,在每个类别的基础上计算正确分类像素的比例再求平均。

(2)

③ MIoU是一种最为常用的准确性评估标准,只需求每一类真实标记和预测标记交集与它们并集的比值再取平均,这种评估标准可以较好地评估语义分割方法的性能。

(3)

上述的3种评价标准中,PA和MPA仅简单地计算正确分类像素的比例,而MIoU通过计算每一类真实标记和预测标记交集与它们并集的比值的平均值作为评估标准,相对于其他两种方法计算更为精确。目前研究者主要采用MIoU评估其方法性能。

3 结束语

图像语义分割是图像理解分析的重要组成内容,其研究具有重要理论意义和广阔应用前景。介绍了主流的图像语义分割方法。目前,图像语义分割方法的研究已取得巨大进展,随着深度学习等理论的发展以及海量图像数据的涌现,认为图像语义分割方法面临的问题及其发展趋势包括如下几方面。

① 深度学习模型中的参数设置问题。深度学习模型中的参数确定在很大程度上会直接影响最终的性能,当前的深度学习模型的参数包括网络层数、迭代次数和学习率等基本都是依据经验得到的,虽然也取得了较为不错的结果,但没有从中总结出规律。因此,找到合适的参数设置方法是提高深度学习模型性能和推动深度学习技术向前迈进的重要方向。

② 深度学习方法的实时性问题。深度学习模型往往包含的层数较多,其中有海量的参数需要训练,耗时非常长,严重降低了方法的实时性。因此,如何在保证精度的基础上提高方法的实时性是后续研究工作的一个重点研究方向。

③ 基于模型驱动的方法的特征提取问题。当前基于模型驱动的方法需要依据先验知识人工设计特征,很多时候特征设计不合理会导致特征表征性不强,因此,如何提取更具表征性的特征是后续研究的一个重要方向。

猜你喜欢
语义驱动特征
根据方程特征选解法
离散型随机变量的分布列与数字特征
基于模糊PI控制的驱动防滑仿真系统分析
屈宏斌:未来五年,双轮驱动,砥砺前行
语言与语义
轨旁ATC系统门控柜接收/驱动板改造
不忠诚的四个特征
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
基于S3C6410的Wi-Fi驱动移植实现