王孝义,邢素霞,申 楠,潘子妍
(北京工商大学计算机与信息工程学院,北京 100048)
乳腺钼靶图像被认为是目前乳腺癌最为常用的诊断手段之一,近年来癌症的发病率不断上升,严重影响患者的身心健康。肿块是乳腺癌诊断的主要依据,一般85-90%例都有致密肿块阴影[1]。肿块分良性、恶性两种,多呈现结节状、团状和不规则形状,肿块特征提取严重影响到肿块良恶性判别,在众多特征提取方法中,大多都受噪声影响较大,急需一种具有较强抗噪能力和鲁棒性的特征提取算法。
SIFT算法在特征点提取方面独具特色,它选择高斯残差在尺度空间上的极值点为特征点,并计算特征点局部邻域内的梯度方向直方图为描述子,对光线变化、尺度变化和视角变化都具有较强的鲁棒性,在计算机视觉领域得到一致认可,在图像识别领域得到了广泛应用[2],陈宇等人[3]将SIFT算法应用在木材花纹特征提取及分类,分类结果可达到100%。卢健[4-5]提出了分块多项式确定性矩阵的SIFT算法,很好的实现差异较大图像之间的特征提取及匹配。孙艳梅等人[6-7]将SIFT算法应用车牌识别技术,SIFT交叉验证精度为88%。Mahamdioua M等人[8-12]将SIFT这种具有个体独立性的特征和传统统一框架相结合的算法应用于人脸性别识别研究中,得出SIFT对于各种表情变化容忍程度、光照变化的性能最优,具有相当鲁棒的泛化能力,在人脸识别问题上表现出了很好的应用性能。
SIFT是一个位置直方图为基础的特征点,是不随图像缩放、旋转、仿射畸变,噪声的变化和光照变化而变化,SIFT已经被证明是优秀的图像匹配算法,同时研究表明它也有利于物体的识别与分类[13],但将其应用于乳腺钼靶图像领域尝试还不多。将SIFT算法应用于乳腺肿块特征提取,得到SIFT特征点集,既包含肿块整体信息又包含了局部细节信息,克服了单一特征不能准确描述肿块的缺点,可以得到较为丰富的特征空间描述肿块,SIFT结合K-means聚类模式进行稀疏化,又降低了特征维度。
乳腺钼靶图像因为发展应用的时间长、易实现、成本低等优势,被广泛应用于乳腺癌检查,但由于成像过程中不可避免的引入一些噪声,导致图像本身不够清晰,病灶组织不够明显,在实际操作中,给研究学者带来很大的困难,所以预处理是必不可少的一步。
图像预处理前后图像如图1所示,图1(a)为乳腺原图,首先采用中值滤波去除图像中孤立的白色亮斑,如图1(b),采用自适应阈值分割算法去除图像中的标签与带状噪声,得到包含乳房区域的最大矩形块,如图1(c)和(d),然后利用灰度直方图均衡化增强肿块所在的高亮度即感兴趣区域,如图1(e),最后采用形态学方法过滤掉小于肿块的腺体区域与增强肿块周围轮廓,尽可能多地保留肿块的边缘信息,如图1(f)。通过预处理增强肿块细节,提高图像的可阅读性,衰减掉不需要的图像信息。
图1 图像预处理
区域生长在人工智能领域的计算机视觉研究中是一种非常重要的图像分割方法,其目的是将事先选中的种子点周围符合某种相似性判断的像素点集合起来以构成域。
采用像素4邻域的平均梯度作为衡量灰度变化的特征量,如式(1)所示:
(1)
式(2)、(3)为区域内像素的平均值M和标准差σ。
(2)
(3)
式(4)为区域的生长规则
|Lp(x,y)-M|≤2σ
(4)
手动选取种子点,然后通过计算将满足条件的检测点归入生长区域中,同时更新平均值和标准差,直到无法生长,完成乳腺肿块区域的分割,得到乳腺肿块二值图像如图2:
图2 区域增长分割后的图像
4.1SIFT特征
特征参数是判别肿块良恶性的量化依据,影响着最终分类判别的精准度。尺度不变特征变换特征检测算法对于尺度缩放、平移旋转、亮度变化、仿射变换和噪声等都有很好的鲁棒性[16]。
4.1.1 SIFT局部特征点的检测
二维图像在不同尺度下的空间表示可以利用图像像素值和高斯核函数的卷积得到,如下式:
L(x,y,γ)=G(x,y,γ)*I(x,y)
(5)
式(5):L(x,y,γ)为图像的尺度空间;γ为尺度空间因子,反映图像被平滑的程度,γ值越小,表示图像被平滑的越少;(x,y)为图像上点的坐标;I(x,y)为图像像素数据;G(x,y,γ)高斯核函数如式(6)所示
(6)
采用差分高斯DoG函数作为特征点的评判标准,函数式如式(7)所示
D(x,y,γ)=[G(x,y,kγ)-G(x,y,γ)]*I(x,y)
(7)
式中:k为阈值,检测局部特征点时,每个点像素需要对其八邻域内和上下尺度域18个点进行比较,寻找DoG的极值点,作为候选关键点,高斯金字塔和DoG金子塔的建立过程如图3。
图3 高斯金字塔与DoG金字塔
4.1.2 SIFT特征描述子的筛除
为了增强特征点的稳健性,需要剔除低对比度的点和不稳定边缘点:
将尺度空间D(x,y,γ)进行泰勒展开,如公式R如式(7)所示
(8)
令其对x的偏导为0,可得特征点x的位置,同理可确定y,γ。
(9)
将式(8)代入式(7)中,得到式(9)
(10)
4.1.3 SIFT特征描述子方向的确定
采用梯度的模和梯度的方向来确定特征描述子的方向,如式(10)、(11)所示
(11)
(12)
式中:m(x,y)为梯度的模数值,θ(x,y)为梯度的方向数值。
4.1.4 SIFT特征描述符
特征描述符由每个关键点的位置、尺度和方向3个信息生成,关键点采用4×4窗口即16个种子点描述,取8个方向梯度信息,进而可以生成128维SIFT特征向量,为进一步去除光照影响,对特征向量进行归一化,如式(12)所示
(13)
乳腺肿块的边缘特征对良恶性的鉴别具有重要作用。图4为良性肿块SIFT特征提取的过程,图5为恶性肿块SIFT特征提取的过程,(a)为局部特征点检测,(b)为局部特征点筛除,(c)生成SIFT局部特征点。光整具有透亮薄膜的边缘一般认定为良性特征,而肿块不规则外形及毛刺样边缘特征倾向于恶性特征[17]。由于良性肿块形状规则且不存在毛刺,提取到的特征通常比恶性肿块特征点少。
图4 良性肿块SIFT局部特征提取
图5 恶性肿块SIFT局部特征提取
SIFT算法分别提取每个样本的特征点,每幅图像生成一个Nx128维(N为图像特征点的数目,每幅图像N值不同)的特征矩阵,将提取到的所有特征点放到一起得到M×128维特征向量,接下来对提取到的所有特征描述符进行K-means聚类。
K-means 是聚类算法中一种典型的基于距离的聚类算法,采用欧式距离作为相似性的评价指标,距离越近,其相似度就越大[18]。将M×128特征分成K个簇,簇内具有较高的相似度,簇间相似度低,K个聚类中心代表“视觉词汇”的长度为K,计算每一幅图像每个SIFT特征到K个视觉词的距离,并将其映射到与“视觉词汇”序列相对应的词频矢量,生成一个1xK维的词条,来表示该图像。
经过聚类得到“视觉词汇”,这一过程也可以说成特征降维或者稀疏化,解决了SIFT提取不同图像得到不同维度的特征,不能直接利用SVM进行分类的问题,同时也降低了特征向量的维度,便于接下来的分类。
支持向量机(Support vector machine,SVM)是一种常用的二分类算法,在图像分类中具有较高的分类精度,且能有效避免“维数灾难”的问题[19]。乳腺钼靶图像样本数量有限,SVM能够解决小样本非线性等实际问题,受到了众多学者青睐,被广泛应用于乳腺钼靶图像识别与分类中。故采用SVM作为分类器对提取到的肿块SIFT特征向量进行分类。
本实验采取DDSM数据库中175个恶性肿块样本和110良性肿块样本进行分类测试,选择其中70%(即200个)做训练,其中良性肿块占77个,恶性肿块占123个,30%(即85个)用做测试,其中良性肿块33个,恶性肿块占52个。
良性肿块成为阴性,恶性肿块分为阳性,那么分类结果就存在四种可能,真阴(True Negative,TN):被正确分类的良性肿瘤的个数;假阴(False Negative,FN): 被错误分类的恶性肿瘤的个数;真阳 (True Positive,TP);被正确分类的恶性肿瘤的个数; 假阳(False Positive,FP);被错误分类的良性肿瘤的个数,采用分类正确率(accuracy)、精度(precision)、召回率(recall)和F1作为评判标准,式如(18)-(21)所示,分类结果如表1和图6。
图6 SIFT分类结果
表1 SIFT分类结果
(14)
(15)
(16)
(17)
由上表1可得,使用SIFT结合SVM算法的分类结果正确率都在90%,视觉词汇的长度K直接影响特征量化准确性,选择适宜的K值在一定程度上可以减少误差、避免存储开销过大等问题。结合图6可看出,随着词条长度K值的增加,分类的正确率也随之增加,K为50时,分类效果最佳,正确率可达到95.29%,精确率和召回率可达到96.15%和96.15%。
在同等条件的图像数据集上,分别提取了Tamura、Hu七个不变矩特征、GMRF、GLDM四种特征提取的方法与SIFT做对比实验,结果如表2。
表2 不同特征提取的方法的分类正确率
Tamura纹理特征是基于人类对纹理的视觉感知的研究,其分类准确率为83.95%;Hu七个不变矩特征是基于形状特征的算法,分类正确率为87.60%,虽然速度快,但是识别率比较低;高斯马尔科夫随机场(GMRF)是基于模型来描述图像纹理特征,其正确率为88.89%;灰度共生矩阵是基于统计的主流算法,其正确率为93.95%;改进后的LVQ算法[20]正确率也低于SIFT算法。
乳腺钼靶图像包含很多人眼无法直接观察的信息,所以提取特征是十分关键的一步。SIFT算法本身具有良好的去冗余能力,同时结合K-means稀疏化后的图像的维数大大减少,SIFT相比其它特征提取的方法可以提取到乳腺钼靶图像中肿块的分叶、毛刺等细节特征,克服了乳腺钼靶图像成像过程中光照影响而产生的伪纹理,抗躁性极强,SIFT特征结合SVM的分类正确率可达到95.29%,分类结果达到预期,所以将SIFT应用于乳腺癌计算机辅助诊断或其它疾病辅助诊断中具有很大的优势。