汪友明, 张菡玫, 汤少杰
(西安邮电大学 自动化学院, 陕西 西安 710121)
数字乳腺层析(digital breast tomosynthesis, DBT)[1]图像是由许多从不同角度拍摄所得低剂量X射线,经重建后合成的断层图像,其成像技术可以减少乳房X线照相术的组织重叠,提高乳腺癌的检测率。相较于其他CT图像,其识别度更高,辨别率更清晰。
对DBT图像中的乳腺组织进行分类,须先对其纹理特征进行提取。基于灰度共生矩阵(gray level co-occurrence matrix, GLCM)的纹理特征提取算法[2]具有较强的适应力和鲁棒性,但GLCM和视觉不匹配,且很少用到全局信息,难以发掘纹理间像素的依赖关系[3]。基于对视觉的分析,只用一种方法提取纹理特征,很难得到较高的分类准确率。如果能依据人类视觉特性来提取纹理特征,并在此基础上进行纹理分类,那将是比较有效的。Tamura纹理特征[4]可以更好利用人类视觉感知方面的信息,弥补GLCM在视觉感知利用上的不足。
本文将给出一种基于GLCM和Tamura纹理特征相结合的算法,实现乳腺组织的纹理特征提取,即利用两种纹理特征相结合的方式提取图像纹理特征,并通过特征选择规则对特征进行筛选,再用支持向量机(support vector machine, SVM)[5]对所提取的多个特征进行分类,以提高分类结果的准确性。
(1) 采用双边滤波[6],降低所采集乳腺图像的噪音,并增强其灰度对比度,以此可实现对图像的平滑滤波,并保护图像的边缘信息。继而进行对比度受限自适应直方图均衡化(contrast limit adaptive histogram equalization,CLAHE)处理[7],把图像分成许多个不相关的部分,对各部分进行处理,由双线性插值获得图像的灰度值,这对于低对比度图像特别适用,且易于实现。还要采用L0范数图像平滑算法[8],对图像做平滑处理,去除图像中无意义细节,保留明显的图像特征,即去除很小的非零梯度,增强图像的显著性边缘。为了更有效地获取DBT图像信息,将图像中的目标区域进行标记,去除掉背景区域,标记目标区域(region of interest, ROI)[9]。手动确定病变部分为ROI,尽可能多地把病变部分都包含进去,同时尽量少地包含非病变区域。
(2) 对于预处理后得到图像,提取其GLCM纹理特征,如能量、熵、对比度、逆差矩和相关性[10-11],这5个特征之间互不相关,可有效描述DBT图像的纹理特征,具有良好的鉴别能力。同时,提取Tamura纹理特征。Tamura纹理特征基于人类对纹理的视觉感知而得出,包括粗糙度、对比度、方向性、线性度、规整度和粗略度[12]。其中,前3个纹理特征互不影响,常用于图像分类。
(3) 在图像识别的建模过程中,过多的图像特征往往存在信息冗余,各特征间会互相干扰,特征维数过大也会增加分类器负担,从而导致分类时间过长,分类过于复杂,因此,要对已经提取的所有特征进行选取,得出最优特征[13]。Relief算法是一种通过计算特征权重来选择特征的方法[14],其基本思想是依据所得到的所有相关的特征和类别赋给特征不同的权重,当权重小于某个阈值将该特征移除。权重值越大则该特征表示某类图像的能力越强,反之权重越小则能力越弱。
(4) SVM算法是一个凸优化问题,其原理是用分离超平面作为分离训练数据的线性函数,解决非线性分类问题。对于线性可分类的问题,求两类模式的最优分类超平面即是求分类间隔最大的超平面[15]。
针对数字乳腺层析图像,结合了GLCM纹理特征和Tamura纹理特征的联合提取与识别算法可描述如下。
步骤1读入原始图像,对所采集的图像进行降噪处理,并增强灰度对比度。
步骤2设置步长,从左上角开始以移动窗口遍历灰度图像。对每个移动窗口提取GLCM的能量、熵、对比度、逆差矩和相关性。同时,对每个移动窗口提取Tamura纹理特征的粗糙度、对比度和方向度。
步骤3每组Tamura纹理特征分量对应一组GLCM纹理特征,构造8维的纹理特征空间。
步骤4将所得到融合的纹理特征进行特征筛选,利用Relief算法计算特征权重和阈值,若权重大于阈值,则保留此纹理特征;反之,则移除此纹理特征。
步骤5将经过特征选择的纹理特征输入支持向量机中进行分类。
从西安交通大学第一附属医院DBT图像库中随机选取60幅病变图像和正常图像,抽取其中30幅作为训练样本,30幅作为测试样本,采用分类正确率评价算法性能。
对60幅图像分别采用GLCM和Tamura纹理特征相结合算法提取DBT图像的纹理特征,得到每幅图像的8种纹理特征值;通过Relief算法进行最优选择;将60幅图像的最优特征组成6×60阶矩阵,作为数据集,输入SVM对图像进行分类。
设置双边滤波算法的窗口大小为4×4,空域与值域的高斯函数方差分别为δθ=2.0和δγ=0.1。设置CLAHE算法的窗口大小为4×4,裁剪值α=6。设置L0范数图像平滑算法中控制平滑度的参数λ和控制迭代次数的参数β,分别令λ=0.02和β=2.0。原始图像及各预处理环节所得结果如图1所示。
图1 原始图像及其预处理结果示例
通过预处理,所得DBT图像被消除掉多余细节部分,并保留了图像的边缘特征,增加了图像的对比度,能更好地描述图像信息。设置ROI的大小为60像素×120像素,如图2所示。
图2 ROI
提取ROI的GLCM纹理特征。设置提取窗口大小为32×32步长d=1,方向θ分别为0°、45°、90°和135°,并计算纹理特征的均值和标准差,结果如表1所示。
表1 ROI的GLCM纹理特征
提取ROI的Tamura纹理特征时。设置窗口大小为32×32,所得结果如表2所示。
表2 ROI的Tamura纹理特征
将5种GLCM纹理特征的各自的均值,以及3种Tamura纹理特征,混合成8维特征向量,并将60幅图像的特征向量组成8×60阶矩阵,作为分类数据集。
考虑到特征维度较大,各特征之间会产生冗余信息,从而增加程序运行时间,降低分类识别精度,故需进行特征选择,以降低特征维度。
在使用Relief算法时,权重值越大说明该特征表示的性能越强,权重越小表示性能越弱。将分类权重与阈值进行比较,当分类权重大于阈值时输出的特征为最优特征。通过Relief算法选择后的最优特征有6个,分别为能量、熵、逆差矩、相关性、粗糙度和对比度。
将经过特征选择的纹理特征输入支持向量机中进行分类。此外,对比四种方法所得结果,并统计其分类正确率和程序运行时间,结果如表3所示。其中,方法SVM1指基于GLCM纹理特征的算法,方法SVM2指基于Tamura纹理特征的算法,方法SVM3指联合GLCM和Tamura纹理特征的算法,FS-SVM指基于特征选择的算法。
表3 不同特征提取方法的分类结果对比
(1) SVM3的平均分类正确率比单一的SVM1和SVM2都有提高,表明联合GLCM与Tamura纹理特征的提取算法,的确可以提高分类正确率,获得较优的DBT图像分类结果。FS-SVM的平均分类正确率略高于SVM3,获得较高正确率的DBT图像分类结果。
(2) 从程序运行时间可以看出,SVM3的运算速率最高,由于结合了两种纹理特征所构建的特征向量维数增大,数据运算量最大,因此,进行分类时消耗时间最多。FS-SVM的运算速率显著高于SVM3,证明所用的特征选择算法的确可以有效地筛减特征向量,减少数据量。
为了提高DBT图像的分类准确率,针对GLCM与Tamura纹理特征给出一种联合提取与识别算法。与单一纹理特征分类算法相比,所给算法运行时间相近,但是获取了较高的分类准确率。实验结果显示,所给算法是有效,是一种分类正确率较高的DBT图像分类方法。