基于多尺度多色域特征融合的乳腺癌图像分类

2022-05-10 00:03白艳萍
计算机技术与发展 2022年4期
关键词:灰度分量纹理

张 莉,张 成,郝 岩,程 蓉,白艳萍

(1.中北大学 理学院,山西 太原 030051;2.中北大学 信息与通信工程学院,山西 太原 030051)

0 引 言

根据世界卫生组织的数据,乳腺癌是世界上第二大常见的癌症,同时也是女性中发病率最高的癌症,严重危害着女性同志的身心健康[1]。随着乳腺癌患者年轻化趋势的不断增强,患者的人数也不断增加,因此迫切需要借助计算机辅助诊断系统建立针对乳腺癌病理图像的分类方法,缓解大量病理图像给医生带来的负担。

目前,针对乳腺癌组织病理图像识别主要有两种方法:一种是基于手工提取特征结合机器学习的算法,另一种是基于深度学习的算法。虽然第二种算法是以卷积层为核心的网络结构,能够更有效地实现特征学习过程,但第一种算法耗费时间更少、质量更高,也能获得良好的识别效果。因此该文主要对第一种算法进行研究。Spanhol等[2]公布了BreaKHis乳腺癌数据集并研究了结合传统纹理特征与SVM等分类器的分类效果。Gupta等[3]运用了Gabor特征、复杂小波特征和对立色局部二值模式等多特征融合以及利用多数投票策略将支持向量机、最近邻分类器、决策树等分类器进行集成,实验准确率达到了87%。Wang等[4]通过融合4个形状特征和138个颜色特征,实现了对乳腺癌图像的分类。张飞飞等[5]通过融合形状、灰度以及纹理特征构造了三个不同的样本空间,空间中构造SVM分类器,采用相对多数投票法进行集成输出结论,实现对肺癌图像的分类。Kausar等[6]利用卷积神经网络对Haar小波两层分解后的乳腺癌图像进行深度特征提取,实现了对乳腺癌组织病理图像的分类。

特征提取与融合是实现图像分类的重要途径,它保留了图像的大量信息,对乳腺癌组织病理图像的分类也具有非常重要的意义。在计算机辅助诊断阶段,常用的分类器为SVM,但单个SVM不能精准判别对象类别,降低了稳定性和泛化性能,故将SVM作为成员分类器,进行SVM集成以提高泛化性能。本研究基于多尺度多色域特征融合的性质,丰富了模型中的特征信息,有效融合了乳腺癌组织病理图像颜色以及纹理特征,运用集成SVM模型进行分类识别。

1 颜色空间转换

对于彩色图像的识别,颜色空间的选择是一个至关重要的环节。在RGB彩色空间中,所有颜色通过R(红色)、G(绿色)、B(蓝色)三个分量组合形成。这种方式与人类视觉感知并不贴近。所以需要将RGB空间转换到HSV空间。HSV空间是一个均匀的六角椎体模型,它是通过H(色调)、S(饱和度)、V(明度)表示颜色的。其模型的三个坐标是独立的,能把HSV空间各个分量的变化表现得很清晰[7]。转换公式如下:

(1)

(2)

(3)

式中,arccos为反三角函数中的反余弦;R、G、B分别为红色、绿色、蓝色的像素值;max(R,G,B)为R,G,B三个分量的最大值;min(R,G,B)为R,G,B三个分量的最小值。

2 颜色矩特征提取

颜色矩是一种以数字为基础的方法,通过计算矩来描述颜色的分布。颜色的主要信息一般集中在低阶矩中,因此常采用一阶矩(均值)、二阶矩(方差)、三阶矩(偏度)来描述颜色的分布特征。一阶矩表示颜色分量的均值,即平均强度;二阶矩表示颜色的方差;三阶矩表示颜色的偏斜度,即不均匀性[8-9]。计算颜色矩的公式如下:

一阶矩:

(4)

二阶矩:

(5)

三阶矩:

(6)

式中,i为颜色分量,i=1为H分量,i=2为S分量,i=3为V分量;Pij为颜色分量i的像素值为j的概率值;N为像素点个数。

根据上述所提到的HSV空间的特性,分别提取H、S、V颜色分量的三个颜色矩特征,共得九个颜色矩分量[10]。选取良性与恶性中具有代表性的病理图像进行颜色矩统计。统计结果见表1。

由表1可以看出,良性与恶性肿瘤图像H、S、V三个颜色分量的颜色矩有较大差异,为良、恶性乳腺癌组织病理图像分类提供重大依据。

3 Haar小波的多尺度图像分析

3.1 小波变换原理

小波变换是图像处理中一种比较常见的基于傅里叶变换而发展的小波分析方法,是具有多分辨率特点的时频分析方法[11]。其基本原理为:利用低通和高通滤波器对原始图像的水平方向和垂直方向分别进行卷积操作,将原始图像分解为低频图像(LL)、水平细节(HH)、垂直细节(HV)、对角细节(HD)这四个低尺度分量。

图1为小波分解示意图。

表1 良性与恶性病理图像HSV空间颜色矩特征参数值

图1 图像二层小波分解示意图

3.2 乳腺癌组织病理图像多尺度分析

由图1可知,随着分解层数的增加,图像尺寸随之减小,因此分解层数不宜太高,利用Haar小波对乳腺癌病理图像进行二层小波分解。每一次分解都可以形成三个高频分量(HH、HV、HD)和一个低频分量(LL)。高频分量表示图像的边缘和噪声。低频分量表示图像的近似,它保留了原始图像90%以上的能量。在进行下一层分解时,仅对分解得到的低频图像进行。

图2显示了不同层数下的小波分解所得乳腺癌病理图像。

图2 Haar小波分解示意图

由于低频信息中包含了原始乳腺癌病理图像大部分的能量,高频信息中较好地保留了低频信息中丢失的细节信息,因此,在本实验中选用经过两次小波分解所得到的高频分量图像进行多尺度灰度共生矩阵特征提取[6]。

4 灰度共生矩阵

灰度共生矩阵是在20世纪70年代由Haralick[12]首次提出的,自此被广泛应用于纹理特征提取。它是通过研究具有一定距离像素对之间的空间相关性来表述图像纹理特征。由于灰度共生矩阵计算量较大,一般不直接应用,而是在此基础上采用二次统计量描述纹理信息。

给定一幅数字图像I(x,y),其灰度级为L,则灰度共生矩阵G(x,y)为I(x,y)中沿方向θ,间隔为d的两个像素点对(i,j)的统计数目n。G(x,y)的尺寸为L×L,n为灰度共生矩阵在G(i,j)的像素值。

乳腺癌组织病理图像多尺度灰度共生矩阵求取:

在早期的研究中,乳腺癌病理图像主要是在单一尺度下进行灰度共生矩阵特征提取,但在不同尺度下,纹理层次信息呈现出不同的特征,因此单一尺度不能很好地描述乳腺癌纹理特征。于是该文将多尺度的思想与乳腺癌病理图像融合,在多尺度下提取上述8个灰度共生矩阵纹理特征,即两层小波分解得到的高频分量、颜色转换后的H分量、S分量、V分量。

对于乳腺癌组织病理图像灰度共生矩阵特征提取,为保留图像的最大信息,选择乳腺癌图像灰度级L=256,步长d=1,方向参数选取0°,45°,90°,135°这四个方向特征值的平均值,从而大大减少了方向对特征参数的影响[13]。

该文使用了8种灰度共生矩阵特征。分别是二阶矩、对比度、相关性、逆差距、均值和、熵、和方差与差方差。纹理特征公式如下:

(1)二阶矩:表示图像纹理的粗细程度。纹理越粗,值越大。

(7)

(2)对比度:表示图像的清晰程度以及纹理的变化程度。图像越清晰,纹理越明显,值越大。

(8)

(3)相关性:表示纹理的非均匀性。哪个方向值大,纹理就指向该方向。

(9)

(4)逆差距:度量图像局部灰度均衡性。

(10)

(5)均值和。

(11)

(6)熵:表示纹理复杂度。纹理越复杂,值越大。

(12)

(7)和方差:表示纹理变化的快慢及其周期性大小。值越大,纹理周期越大。

(13)

(8)差方差:表示邻近像素灰度级差异。值越大,对比度越强烈。

(14)

5 乳腺癌组织病理图像特征提取与分析

针对乳腺癌组织病理图像的分类,提出一种多尺度与多色域特征融合的特征提取方法。首先对病理图像进行多色域处理,提取HSV空间的三个色彩分量,分别对三个色彩分量提取9维颜色矩特征以及24维灰度共生矩阵纹理特征。其次利用Haar小波对病理图像进行两层分解,提取高频分量的48维灰度共生矩阵特征。最后将多尺度特征与多色域特征串联融合。

具体操作步骤如下:

(1)对原始乳腺癌病理图像进行两层Haar小波分解得到6个高频分量,分别记为[HHn1,HVn1,HDn1,HHn2,HVn2,HDn2]。n为乳腺癌病理图像个数。

(2)将原始彩色图像转换到HSV色彩空间,并提取H、S、V三个色彩分量,分别记为[Hn,Sn,Vn]。

(3)对步骤1、2所得的9类子图像分别提取其灰度共生矩阵的8个特征参数。以第一层小波分解所得高频水平分量为例,记为:

[HHn11,HHn12,HHn13,HHn14,HHn15,HHn16,HHn17,HHn18]。

(4)重复上述步骤,获取9个分量图像的8维灰度共生矩阵纹理特征,并将其串联融合为纹理特征矩阵F1。记为:

(15)

得到一个n×72维的特征矩阵。

(5)对H、S、V三个分量分别提取颜色矩特征。以H分量为例,记为[Hn9,Hn10,Hn11]。

(6)重复上述步骤,获取三个分量子图的颜色矩特征,并将其串联融合成颜色特征矩阵F2。

(16)

得到一个n×9的特征矩阵。

(7)将纹理特征矩阵与颜色特征矩阵串联融合得到一个n×81的特征矩阵。

6 乳腺癌组织病理图像分类识别

6.1 数据集

实验选用的是由Spanhol发布的BreaKHis数据集。该数据集中包括了从82名患者中所获取的7 909张乳腺癌显微活检图像,其中良性有2 480张,恶性有5 429张。包含了4种放大倍数(40x,100x,200x,400x),尺寸大小为700×460像素。

表2显示了乳腺癌数据集样本分布。

图3显示了40x放大倍数下乳腺癌样本图像。

表2 乳腺癌图像样本数据

图3 乳腺癌良性、恶性组织病理图像样本

6.2 基于支持向量机的多数投票策略

6.2.1 支持向量机理论

由于对乳腺癌组织病理图像进行二分类(良性、恶性),于是主要描述二分类SVM。分类思想是将低维空间中线性不可分的数据样本映射到高维空间使其线性可分。并在高维空间中找到一个最优超平面,使得不同类别数据点之间的距离最大化[14-15]。

设n个样本集{((xi,yi)|i=1,2,…,n)},xi∈Rnyi∈{-1,+1},xi为训练样本点,yi为其对应标签。使y=+1类与y=-1类数据点的间隔最大的超平面如下:

ωTxi-b=0,i=1,2,…,n

(17)

为了保证数据点xi所允许的偏离差最小,引入松弛变量ξi≥0,惩罚因子c,得到了如下目标函数:

(18)

为处理非线性数据,选用RBF核函数对SVM进行推广,RBF核函数公式如下:

K(x,xi)=exp(-g‖(x-xi)2‖)

(19)

其中,g为核函数半径。

g=1/2σ2

(20)

根据给定的RBF核函数,SVM分类器表示为:

F(x)=sgn(f(x))

(21)

(22)

其中,f(x)为SVM分类超平面决策函数。

6.2.2 集成SVM的多数投票策略

以数据集中40x放大倍数的1 995张图像为例,随机选取70%训练集(Trainx0)和30%测试集(Testx)。将Trainx0的1 395张图像平均划分成三份训练集(Trainx1、Trainx2、Trainx3),将这三种训练集两两组合又形成三种训练集(Trainx4=[Trainx1;Trainx2]、Trainx5=[Trainx1;Trainx3]、Trainx6=[Trainx2;Trainx3])。对上述7种训练集训练形成7种SVM分类器,并用Testx进行测试。

为了融合不同训练样本所训练分类器的输出结果,选择了多数投票策略。多数投票策略是一种决策规则,其中新的乳腺癌组织病理图像样本的类别是根据不同SVM分类器分类所获得的标签通过投票(标签)来决定的,规定收到投票最多的类用作测试样本的最终标签[3,5]。

图4显示了乳腺癌组织病理图像分类的总过程。

图4 图像分类的总过程

6.3 实验结果

为了验证多尺度与多色域特征提取与融合算法的分类效果,对比了传统的单一尺度灰度共生矩阵与其他特征提取方法对实验结果的影响。为了更全面更客观地对分类效果进行评价,针对不同的特征提取方法,根据指标体系(准确率(Acc)、敏感性(Sen)、特异性(Spe))进行评价[16]。指标体系的公式如下:

(23)

(24)

(25)

其中,TP为正确分类的良性;TN为正确分类的恶性;FP为错误分类的良性;FN为错误分类的恶性。

表3显示了不同特征提取方法对实验结果的影响。实验结果表明,本研究方法优于其他传统的特征提取方法,并且针对不同放大倍数下的乳腺癌组织病理图像,该方法取得了较好的分类结果。

表3 不同特征提取方法实验结果对比 %

为了探讨基于SVM分类器的多数投票策略的分类效果,针对准确率(Acc),与7种SVM分类器的分类结果作对比(见表4)。实验结果表明,多数投票策略集成了单个SVM的良好性能,提高了泛化能力。

表4 基于SVM分类器的多数投票

将文中方法与采用同一数据集所使用的方法进行比较,见表5,该方法识别率更高,鲁棒性和泛化性能更好。

表5 文中方法与其他方法识别率比较 %

7 结束语

提出一种多尺度多色域特征融合的乳腺癌组织病理图像分类算法。分别介绍了颜色空间转换、颜色矩、Haar小波分析、灰度共生矩阵等原理。利用集成SVM的多数投票策略对该算法获取的BreaKHis乳腺癌数据集特征进行分类识别。实验结果表明,该算法在乳腺癌图像分类识别中的准确率均优于单一尺度以及传统的GLCM算法,对于不同放大倍数下的乳腺癌组织病理图像也取得了较好的识别准确率。通过基于SVM的多数投票策略,集成了单一SVM的良好性能,提升了实验准确率。与其他乳腺组织病理图像分类方法进行对比分析,证明了该分类方法优于其他传统的分类方法。在未来的研究工作中,可以研究多分类任务的乳腺癌组织病理图像分类方法。

猜你喜欢
灰度分量纹理
航空滤光片阵列多光谱图像条带灰度调整算法
天津港智慧工作平台灰度发布系统和流程设计
画里有话
Arduino小车巡线程序的灰度阈值优化方案
一斤生漆的“分量”——“漆农”刘照元的平常生活
一物千斤
肺纹理增多是病吗?
童梦
论《哈姆雷特》中良心的分量
TEXTURE ON TEXTURE质地上的纹理