罗 姗,邵艳华
(贵州民族大学 数据科学与信息工程学院,贵阳 550025)
近些年,国内外研究学者在计算机辅助乳腺肿瘤分类、诊断等方面的研究有很大进步,也取得了许多新成果.相关学者在CAD技术辅助乳腺肿瘤诊断方面做了很多研究,并且在乳腺肿瘤良恶性检测方面提出了很多方法.Peng等[1]使用人工神经网络在MIAS数据集上进行良性肿瘤和恶性肿瘤的分类,获得了96%的二类别分类准确率.在他们的试验中使用中值滤波器和种子区域生长的方法对原图进行去噪,提取了6个纹理相关的特征.Liang等[2]提出了基于GLGLM和形状特征的乳房病变计算机辅助诊断方案:组合视图和多分类器,该文中共提取了23种特征,采用了Student’s t-Test、Fisher-Score、Relief-F三种特征选择方法对特征进行提取,最后使用了RF、SVM、LDA和组合分类器对提取的特征进行分类识别,对于MIAS数据集分类准确率达到了88.6%.Tariq Sadad等[3]提出了基于模糊C均值和区域生长的混合纹理特征肿瘤的分类,该文的混合方法对乳腺图像DDSM和MIAS数据集二类别分类达到了一个很好的准确率.Singh等[4]提出了一种基于卷积神经网络(CNN)的形状描述子,将生成的掩模分为不规则、小叶、椭圆形和圆形四种肿瘤形状.所提出的形状描述子是在DDSM上训练的,因为它提供了形状基础的真实性(而其他两个数据集不提供),从而获得了80%的总体精度.Sun L L等[5]提出了基于多视角卷积神经网络的乳腺图像分类,文中提出了MVMDCNN架构,并修正了损失函数来增加错分样本的贡献权重;提出的新分类方法对乳腺图像DDSM和MIAS数据集的分类精度分别达到了82.02%和63.06%.魏鑫磊[6]采用卷积神经网络(convolutional neural network,CNN)实现乳腺图像的病变分类,在MIAS(mammographic image analysis society)乳腺数据库上进行算法测试,将乳腺钼靶图像做正常(N)、良性(B)和恶性(M)三分类研究,其中分类结果最高达到66.9%,Liang等[2]提出了基于GLGLM和形状特征的乳房病变计算机辅助诊断方案:组合视图和多分类器,使用简单的线性组合方式组合RF、SVM、LDA三种分类器,在MIAS数据集良恶性分类中准确率达到了88.6%.
表1 乳腺图像特性三类别分类的分类标签及分类所属表Tab.1 Classification labels and classification ownership of the three categories of breast image characteristics
(a) (b) (c)图1 预处理乳腺图像过程效果Fig.1 Renderings of breast image preprocessing
上述研究中,大多都是针对乳腺图像的二分类问题提出的,而二分类准确率已经达到了一个较好的分类精度,但是目前乳腺图像分类不只是关注正、异常分类,多类别的细致归类已成为了目前乳腺图像分类研究的热点.比如魏鑫磊使用卷积神经网络研究正常(N)、良性(B)和恶性(M)三类别分类,分类精度才66.9%[6],则分类精度过于低下.Xiaonan G等[7]基于混合特征提取进行乳腺三类别分类虽然有84.17%的准确率,但运行时间达到7.26 s,所用时间过长.目前关于多类别的细致乳腺图像分类研究分类精度还非常低,达不到辅助诊断的要求,就算有些多类别分类有比较好的分类准确率,系统分类时还需要很高的时间复杂度,这样导致新的问题出现.总之上述文献综述体现了乳腺图像分类过程中存在两个主要问题:① 特征维度高,增加运算量,从而存在高的时间复杂度和空间复杂度;② 没有一个合适的分类方法,因此多类别细致分类准确率低下,导致分类性能不好.因此提出PCA-RF方法对乳腺图像特征进行多类别(正常、良性及恶性)分类,通过简单的线性降维方法替代复杂的多特征融合方法[8].
进行乳腺图像特征的多类别分类,是为给放射科医生在乳腺疾病诊断时提供参考,从而做出更准确的诊断,减少乳腺疾病的误诊,提高工作效率.为了找到更具有代表性的乳腺图像特征及实现更准确地诊断分类,本研究首先进行乳腺图像的预处理,然后介绍如何寻找最具有代表性的主成分乳腺特征和怎样实现诊断分类,最后对得出的实验结果进行分析.
医学图像使用的数据集是MIAS(the mammographic image analysis society)[9].数据集中共有322张乳腺X光图像,其中有207张正常乳腺图像、63张良性乳腺图像以及52张恶性乳腺图像组成.多数分类研究算法中为了方便分类,基本都将良性和恶性乳腺图像划分为异常类.就算实现三类别分类也是先进行正异常分类后,再进行良、恶性分类,而一次性实现正常、良性、恶性三分类的准确率相对不高.针对这个问题,需对乳腺图像进行一系列处理,力争提高一次性实现三类别分类的效率.表1显示了三类别分类的情况,标签0表示正常样本,标签1表示良性乳腺图像样本,而标签2表示恶性乳腺图像样本.T表示正确分类,F表示错误分类,F10表示良性样本被错分为正常样本.
在图像预处理时,首先将1 024×1 024的图像裁剪成600×750,去除了大量的背景干扰,其次再对600×750的乳腺图像用中值滤波法进行去噪,之后使用直方图均衡法再对其去噪后的乳腺图像做增强处理,如图1(b)所示;然后利用手动选取感兴趣的ROI图像,ROI图像大小为184×230,如图1(c)所示.
主成分分析(principal component analysis,PCA)是由著名统计学家Karl Pearson于1901年提出的线性降维方法[10].在图像压缩等领域得到广泛的应用,在主成分分析中,信息的重要性是通过方差来表示的.因而它的基本思想是:构造原始特征的一系列线性组合形成低维的特征,以去除数据的相关性,并使降维后的数据最大程度地保持原始高维数据的方差信息.具体算法如表2所示.
表2 PCA降维算法Tab.2 PCA dimensionality reduction algorithm
对MIAS乳腺数据集原始1 024×1 024像素的图像经过预处理过程后,特征数减少了1 024×1 024-184×230=1 006 256个,这样就可以节约了大量存储空间,节约了很多成本.特征提取和选择:采用sift特征提取方法对预处理过的184×230图像进行特征提取,每张图像提取了42 090个特征.由于特征数量太大,采用主成分分析PCA算法对特征进行选择,利用累积贡献率来判别特性选择的程度,如果累积贡献率达到95%以上,则停止特征选择.利用此方法从42 090个特征中选择了104个特征,累积贡献率达到了95.07%.
图2(a)为主成分分析降维贡献率图,该图中的曲线表示所选特征的累积贡献率,各柱形表示选取的主成分的贡献.通过主成分分析从42 090个特征共提取了104个特征,累积贡献率达到95.07%,图中仅仅显示了10个主成分贡献分布,则显示累积贡献率到达74.18%.图2(b)表示从14维降到10维时,10个主成分特征贡献率图,贡献率达到95.06%.主成分特征是通过主成分分析多次迭代而得到的,由第一次降维得到的104个特征,再次进行PCA算法降维得到58个主要成分,再进一步进行多次迭代降维后最终得到6个主特征.
(a) 10个主特征占104个特征的贡献率 (b) 10个主要特征占14个特征的贡献率图2 主成分贡献率Fig.2 Principal component contribution rate
随机森林(random forest,RF)是一种具有代表性的Bagging算法,近年来受到了很大的关注.在实际问题中得到了广泛应用,如股票市场分析、基因组数据分析、疾病预测等.通过随机从图像数据中抽取样本,训练多个不同的决策树形成森林[11].随机森林的分类算法相当于采用多个决策树来完成分类,本文采用的是Bagging集成的随机森林分类算法来实现乳腺图像的特征分类,通过2.1节中PCA降维算法对于处理后的乳腺特征进行了多层[12]次降维后,得到了样本不同特征维度的数据样本.此节应用了随机森林对PCA降维得到特征进行分类预测.具体算法如表3所示.
表3 随机森林分类算法Tab.3 Random forest classification algorithm
图3 基于PCA-RF方法的乳腺图像特征分类流程Fig.3 Flow chart of feature classification of breast images based on PA-RF method
图4 PCA降维前后各基分类器分类准确率对比 图5 PCA降维前后运行时间对比
PCA-RF方法对乳腺图像特征进行正常、良性、恶性三类别分类的应用,为实现一次性完成多类别分类,且有一个相对较好的分类效率,PCA-RF算法流程如图3所示.
为了验证PCA-RF方法在乳腺图像特征分类的可行性与有效性,采用三个评价指标,分别是准确率、敏感度与运行时间(分类系统运行自动捕捉的运行时长).本算法分类的准确率计算公式:
采用KNN、RF、AdaBoost分类器对PCA算法的特征选择进行实验验证,分析此实验过程是可取且有效的,实验结果如下.
图4、图5分别表示出了通过PCA降维前后,各分类器得出的分类准确率及所有时间对比,从图4中可以看出经过降维后,KNN分类器和RF分类器的分类准确率还是有所提升的,而图5则可以看出经过降维后,每一种分类器的运行时间都有减少了,因此分类效率有一定的提高.乳腺图像特征通过PCA降至104维时各分类器对于三类别分类的分类准确率与时间的对比图如图6所示.
图6 分类器对降维选取的特征分类准确率及所用时间对比Fig.6 Comparison of classification accuracy and time of features selected by classifier for dimension reduction
图6中分类结果明显地表示了各分类器得到分类效果,KNN分类器虽然运行时间很短,在0.005 s左右,但是它的分类准确率相对于其他分类器而言要低;而RF分类器运行时间也相对较低,在0.26 s左右,且分类准确率相比于其他分类器是最高的;AdaBoost分类准确率是相对较好的,但是该分类器运行时间为1 s左右,运行时间高出KNN分类器运行时间的180倍,运行时间也比随机森林分类器高3.5倍.综合比较可以得出随机森林的分类效果相对更好.
图7为图像特征通过PCA算法降维成6维时各分类器对于三类别分类的分类准确率与时间的对比图.图7的中结果表明了随机森林分类的稳定性,其他分类器的分类准确率再通过PCA降维后有所下降,而且分类准确率不稳定;然而随机森林RF方法分类准确率没有受影响,反而准确率有所提高,且分类时间大大减少了.通过实验结果(图8)可以看出,选取主要特征对分类准确率的影响不大,而且通过减少特征数量,即为分类减少了计算次数.维度为104时,随机森林分类所用时间平均约为0.3 s;而提取主要特征个数为7时,随机森林分类所用时间平均约为0.026 s,则选取主要特征大概节约了11.5倍的时间成本.
图7 提取的7个特征分类准确率与时间对比图8 RF对维数不同特征分类所用时间对比
图6和图7显示了随机森林分类器进行多类别分类准确的稳定性,同样的分类系统,选取104个特征与选取7个特征的分类准确率相差不大,准确率都在71%~95%之间.但利用PCA选取主要特征7个就可以达到很好分类效果.大大节约了时间成本,从而提高了分类效率.
表4显示了PCA降维得到的主成分特征个数、累积贡献率及实现分类的准确率.从表4中明显可以看出,多次进行PCA算法降维,没有影响到分类的准确率,反而进行三类别分类准确率的最高精度有一定提升.接下来给出了本文算法得到的三类别分类结果与其他文献成果的比较,如表5所示.
由于乳腺图像具有很高的特征维度,较大的交叉性及相似性,分类器对其乳腺图像特征分类达不到一个相对较好的效率.因此提出了PCA-RF应用于乳腺图像多类别分类研究方法,利用主成分分析PCA算法线性降维的优势,将乳腺图像特征进行多层次降维,再使用随机森林分类器对降维特征进行特征分类.实验结果表明,PCA-RF应用于乳腺图像多类别分类研究上得到了93.75%分类准确率及95%的敏感性,相对于其他乳腺图像正常、良性及恶性的三类别分类效果有所提升.
表4 PCA算法得到的特征数量及RF进行三类别分类结果Tab.4 The number of features obtained by PCA algorithm and the results of three categories of RF classification
表5 针对MIAS数据集的分类结果与其他文献结果的比较Tab.5 Comparison of classification results with other literature results for MIAS data set