孙 利 徐伟栋 厉力华* 刘 伟 彭芳青 张 娟
1(杭州电子科技大学生物医学工程与仪器研究所,杭州 310018)
2(浙江省肿瘤医院放射科,杭州 310022)
目前乳腺癌已经成为危害妇女健康的十大癌症之首,早期检测和诊断是治疗乳腺癌的关键。乳腺钼靶摄影是最常用的乳腺癌早期诊断手段[1]。为了提高诊断的准确性和客观性,减轻放射科医师的诊断工作量,计算机辅助诊断(CAD)系统正变得越来越重要[2]。
临床研究显示,综合两个视角的病灶所作出的检测比单看一个视角作出的检测正确率更高。然而,现有的CAD系统大多是基于单个视角的,存在敏感性低或假阳性率高等一系列问题[3-4]。为了克服这一局限性,基于双视角乳腺钼靶图像的肿块检测方法被提出,并得到了国际上众多研究机构的普遍关注。Zheng等先将乳腺钼靶图像两个视角中的可疑区域进行匹配,然后根据匹配区域对相关的4个特征和2个检测分值,利用人工神经网络分类器对肿块进行检测[5]。Gulzar等用人工神经网络算法分别对乳腺钼靶图像两个视角的特征数据进行训练,然后使用 OR逻辑进行双视角信息融合[6]。依靠这些基于双视角的分类方法,CAD系统的敏感性和稳定性得到了提高,但是特异性有所降低。
同时,从大量的实验中发现,由于肿块数据的特异性以及分类器本身的样本依赖性等因素的限制,将多个分类器的决策结果结合在一起,往往可以得到比单个分类器更好的性能,如更高的识别率和更低的错误率[7-8]。将多分类器融合与双视角信息融合两种融合算法同时应用于乳腺钼靶图像的肿块分类问题中,有可能会避免传统的单视角单分类器、仅采用双视角融合或仅采用多分类器融合的分类方法的一些缺点,将两种融合的优势都发挥出来。但是,目前很少有这方面的研究。针对乳腺钼靶图像肿块分类问题,提出基于多分类器融合与双视角信息融合的4种分类模式,并对其在实际分类中的性能进行比较与评估。
所用数据来源于美国南佛罗里达大学与几家合作单位联合创建的DDSM数据库。该数据库中的乳腺钼靶图像的有效灰度值为12位,所有病例均已通过活检且被证实良性或恶性。从DDSM数据库中随机挑选出148对ROI(region of interest)。其中,每一对ROI包含同一肿块的 CC(cranio-caudal)视角 ROI和 MLO(medio-lateral oblique)视角 ROI。临床上,同一肿块两个视角的乳腺钼靶图像肿块的轮廓与背景组织之间的对比度不同,导致良性或恶性的分辨难易程度不同。为了评判所用分类模式对不同情况的肿块的分类效果,本项目组中省肿瘤医院的医师根据同一肿块两个视角良性或恶性辨别的难易程度,将148对ROI分为3组。其中,第1组数据有48对ROI,两个视角的良性或恶性都比较容易辨别。第2组数据有56对ROI,只有一个视角的良性或恶性比较容易辨别。第3组数据有44对ROI,两个视角的良性或恶性都不容易辨别。每组数据中,良性的 ROI对与恶性的 ROI对数量相等。同时,为了比较分类器在不同视角下的分类效果,将每组数据根据视角再划分成视角A子集和视角B子集,其中对于第1组数据和第3组数据,将每对ROI中的CC视角划入视角A子集,MLO视角划入视角B子集;而对于第2组数据,则将每对 ROI中容易辨别良性或恶性的视角划入视角A子集,不易辨别的划入视角B子集。针对每组数据,在每种分类模式的对应实验中,都随机地从本组所有数据中选取一半的良性ROI对和一半的恶性ROI对组成训练集,剩余的数据组成测试集。对于每一次随机挑选,训练集和测试集在4种分类模式中统一使用。这种随机挑选进行200次,最后分别求各个模式中所有性能评估参数的平均值。另外,训练集和测试集中,视角A子集和视角B子集的比例均为1∶1。
由于多分类器融合与双视角融合之间可以采用不同的组合方式与顺序,提出4种基于信息融合的肿块分类模式,每一种模式都用到了多分类器融合,后3种还用到了双视角融合。
在模式1中,首先使用整个训练集对N个单分类器分别进行独立的训练,然后再次使用整个训练集,在N个训练好的单分类器基础上,训练多分类器融合算法的过程参数。最后,使用整个测试集对多分类器融合结果进行性能评估,同时作为对照组,使用整个测试集对N个单分类器的分类结果也进行性能评估。
在模式2中,首先使用训练集的视角 A子集,分别对视角A中的N个单分类器进行独立的训练;使用训练集的视角B子集,分别对视角B中的N个单分类器进行独立的训练;接着使用双视角融合算法对视角A和视角B中的N个单分类器对的输出结果求平均。然后再次使用整个训练集,在N对单分类器组的双视角融合结果的基础上,训练多分类器融合算法的过程参数。最后,使用整个测试集对多分类器融合结果进行性能评估。同时,作为对照组,使用整个测试集分别对N个单分类器组的双视角融合结果进行性能评估。具体步骤如图1所示。
图1 模式2的操作步骤Fig.1 The process of the second model
在模式3中,首先使用训练集的视角A子集分别对视角A的N个单分类器进行独立的训练,然后再次使用训练集的视角A子集,在N个训练好的单分类器的基础上训练视角A的多分类器融合算法的过程参数。同时,使用训练集的视角B子集,在视角B中也做以上操作。接着,使用双视角融合算法对视角A和视角B的多分类器融合结果取平均值。最后,使用整个测试集对双视角融合结果进行性能评估。作为对照组,使用测试集的视角A子集对视角A的多分类器融合结果进行性能评估,使用测试集的视角B子集对视角B的多分类器融合结果进行性能评估。具体步骤如图2所示。
图2 模式3的操作步骤Fig.2 The process of the third model
在模式4中,首先将每个ROI在视角A中的特征数据和视角B中的特征数据求平均值组成新的特征向量,并以此构成新的训练集和测试集(新数据集不再有视角之分,样本总数变成了原来的一半)。接着使用训练集对N个单分类器分别进行独立的训练,然后再使用训练集,在N个训练好的单分类器基础上训练多分类器融合算法的过程参数。最后,使用测试集对多分类器融合结果进行性能评估。同时,作为对照组,使用测试集对 N个单分类器的分类结果进行性能评估。
肿块的分割工作在本课题组已有的研究基础上完成[9]。根据反复实验论证,肿块的特征向量被定义成7维:类圆性、边缘灰度标准方差、半径长度的标准方差、半径斜度、紧凑度、半径二阶导的标准差、半径二阶导的局部标准差的标准差。这里的前5维特征属于经典特征[10-11],而后 2维特征则由笔者提出,它们为
半径二阶导的标准差:
式中,n为所有半径的个数,ri″为第 i个半径二阶导,为半径二阶导的均值。
半径二阶导的局部标准差的标准差
式中,n为局部邻域内包含的半径个数,δi为第i个半径二阶导的局部标准差,为半径二阶导的局部标准差的均值。
使用上面提到的4种模式对3组实验数据分别进行分类。在每种模式下,每组数据均进行200次训练集/测试集的随机挑选,200次分类性能评估结果的平均值即为每种模式最终的分类结果。为了使4种模式的分类结果具有可比性,对于每次随机挑选,4种模式均使用相同的训练集和测试集数据。
实验使用7种比较主流且设计原理差别较大的单 分 类 器:NaiveBayes(NB)、k-nearest-neighbor(IBk)、MultilayerPerceptron(MLP)、RandomForest(RF)、JRip、Logistic(Log)、J48。其中,NB 有着稳定的分类效率,适用于属性相关性较小的情况;IBk是理论上比较成熟且比较简单的机器学习算法;MLP算法可以解决线性不可分问题,但是易陷入局部极小点;RF的学习过程快速,而且对于不平衡的分类资料集可以平衡误差;JRip是一种规则学习算法,通过修剪规则降低误差,但是如果从规则集合中找不到合适的规则,分类的准确性会受到很大的影响[12];Logistic属于广义线性模型的一种,训练时间和分类时间相对较短;J48产生的分类规则易于理解,准确率较高,但是在构造树的过程中需要对数据集进行多次的顺序扫描和排序,导致算法低效。对于单分类器的最优选择问题,将在今后做进一步的研究。实验使用了3种多分类器融合算法:平均值法(Aver)、多数投票法(Vot)和加权平均法(Ap)。其中,投票法以多数单分类器的输出类标记作为分类的依据,4个及其4个以上的单分类器将肿块分类良(恶)性,则投票法将肿块分为良(恶)性。加权平均值算法的权值定义为1-EK,EK定义为分类器在融合训练集上的错误率。并且,用分类正确率(Acc)、特异性(Spe)、敏感性(Sen)、分类正确率的稳定性(Strac)、特异性的稳定性(Strsp)和敏感性的稳定性(Strse)六个标准对分类效果进行评估。稳定性即对200次分类性能评估结果求标准差。
模式1中3组数据的实验结果如表1~表3所示。
表1 模式1中第1组实验数据对照组和多分类器融合的结果Tab.1 The results of comparative group and multi-classifier fusions for the first data group in the first model
表2 模式1中第2组实验数据对照组和多分类器融合的结果Tab.2 The results of comparative group and multi-classifier fusions for the second data group in the first model
表3 模式1中第3组实验数据对照组和多分类器融合的结果Tab.3 The results of comparative group and multi-classifier fusions for the third data group in the first model
从上面3个表格的数据可以看出,多分类器融合算法比几乎所有的单分类器的分类正确率、敏感性和特异性高。且多分类器融合算法的分类正确率、敏感性和特异性的稳定性也比大部分单分类器好,这说明多分类器比单分类器具有更好的稳定性。另外,由于单分类器的样本依赖性,对同一数据的分类效果不同。而且,对于不同的数据,与其他单分类器相比,某一单分类器也不总是能够得到最好的分类效果。
将模式2应用于3组数据中,得到的结果如表4~表6所示。
从单分类器双视角融合的角度来看,第2组数据中的Log和第三组数据中的Log分别表现出了比本组内其他单分类器的双视角融合算法更好的分类性能。另外,模式2的对照组(单分类器的双视角融合)的分类结果比模式1的对照组(单分类器)的分类结果在正确率和敏感性方面得到很大提高,只有少数的特异性有所降低。由此可见,将不同视角的单分类器结果进行双视角融合,单分类器的分类性能得到提高,但是单分类器的样本依赖性问题仍然不能得到很好的解决。
表4 模式2中第1组实验数据对照组和双视角多分类器融合的结果Tab.4 The results of comparative group and multi-classifier fusions in multi-view for the first data group in the second model
表5 模式2中第2组实验数据对照组和双视角多分类器融合的结果Tab.5 The results of comparative group and multi-classifier fusions in multi-view for the second data group in the second model
表6 模式2中第3组实验数据对照组和双视角多分类器融合的结果Tab.6 The results of comparative group and multi-classifier fusions in multi-view for the third data group in the second model
对于3组实验数据,3种双视角多分类器融合算法的分类正确率、敏感性、特异性以及稳定性明显优于对照组中大多数单分类器的双视角融合结果。与模式1的单视角多分类器融合的分类效果相比,模式2中3组数据的多分类器融合的分类正确率分别提高了4.5%、9.5%、2.5%。而且,敏感性和特异性得到了明显的提高,只有第2组数据和第3组数据的稳定性平均降低1.5%。
模式3的3组数据的结果如表7~表9所示。
模式3中,第1组数据和第3组数据的多分类器双视角融合算法的分类结果比对照组中任何一个视角的多分类器融合算法的分类效果好。但是,由于第2组数据的特殊性,一个视角容易辨别良性或恶性,而另外一个视角不容易辨别良性或恶性,所以两个视角的多分类器融合算法的分类结果差异比较大。当对多分类器融合结果进行双视角融合时,不易辨别良性或恶性的视角会对双视角融合结果产生很大的影响,所以,多分类器双视角融合算法的分类性能介于两个视角多分类器融合算法的分类性能之间。
表7 模式3中第1组实验数据对照组和多分类器双视角融合的结果Tab.7 The results of comparative group and multi-view fusions of multi-classifier for the first data group in the third model
表8 模式3中第2组实验数据对照组和多分类器双视角融合的结果Tab.8 The results of comparative group and multi-view fusions of multi-classifier for the second data group in the third model
表9 模式3中第3组实验数据对照组和多分类器双视角融合的结果Tab.9 The results of comparative group and multi-view fusions of multi-classifier for the thrid data group in the third model
与模式1多分类器融合的结果相比,模式3中第1组数据和第2组数据的多分类器双视角融合的分类正确率分别提高了2%和1%,灵敏性和特异性也得到了提高。但是,稳定性稍有降低。对于这两组数据,模式3的效果不是很明显。对第2组数据,模式3的多分类器双视角融合的分类正确率比模式1中多分类器融合的分类正确率高18%,而且灵敏性、特异性以及稳定性都得到了明显的提高。对于第2组数据,双视角融合算法有效的将两个视角的信息综合,得到比较好的分类结果。
与模式2相比,模式3在第2组数据中表现出了较好的分类效果。因为第2组数据两个视角的特征向量差别比较大,模式3是将两个视角多分类器融合的结果进行双视角平均,有效的避免了单分类器的样本依赖性的缺点。但是模式2是将两个视角单分类器的结果进行双视角融合,单分类器的样本依赖性所带来的影响过多的被考虑在双视角融合算法中。但对另外两组实验数据,这种影响就比较小。而且,多分类器融合算法可以解决单分类器样本依赖性的缺点,所以,对第1组数据和第3组数据,在多分类器融合算法使用之前进行双视角融合,可以提高分类性能。
模式4三组数据的实验结果如表10~表12所示。对于前两组数据,只有MLP具有比多分类器融合算法更好的分类性能,但其对第3组数据的分类效果则不佳。对第3组数据,只有NB的分类正确率、敏感性、特异性和稳定性都优于3种多分类器融合算法,但其对前两组数据的分类效果则不佳。因此,总体看来,多分类器融合算法比大部分单分类器分类性能好。
与另外3种模式相比,模式4在第2组数据中比模式1和模式2的分类性能好。对于第1组数据和第3组数据,模式4的分类效果只是优于模式1。
对于第1组数据和第3组数据,模式4的对照组中只有部分单分类器的分类性能比模式1的对照组单分类器的分类性能好。对于第2组数据,模式4的对照组中所有单分类器的性能优于模式1的对照组中对应的单分类器的性能。
表10 模式4中第1组实验数据对照组和多分类器融合的结果Tab.10 The results of comparative group and multi-classifier fusions for the first data gr oup in the forth model
表11 模式4中第2组实验数据对照组和多分类器融合的结果Tab.11 The results of comparative group and multi-classifier fusions for the second data g roup in the forth model
表12 模式4中第3组实验数据对照组和多分类器融合的结果Tab.12 The results of comparative group and multi-classifier fusions for the third data gr oup in the forth model
综合以上4种模式可以看出,模式2和模式3的融合算法的分类正确率、敏感性、特异性以及三者的稳定性比模式1和模式4中的融合算法好,而且优于大部分单分类器的分类性能。模式2先将单分类器的结果进行双视角融合,在多分类器融合算法之前就将两个视角的信息综合考虑,因此可以得到比较好的分类效果。模式3先分别进行了两个视角的多分类器融合,再将其进行双视角融合。这两种模式都使用了多分类器融合算法和双视角信息融合,只是使用顺序不同。双视角信息融合的引入有效地提高了分类性能。模式4在分类算法使用之前就将两个视角的特征数据进行求平均值,过早地考虑了两个视角的信息,使得进行分类训练时,相当于分类器对两个视角的特征信息同时进行了训练。所以,在分类性能上会有所降低。模式1没有考虑肿块两个视角的问题,只从单一的视角对肿块进行分类,所以分类性能在四种模式中表现最差。
本研究所有的实验使用的系统软硬件环境均相同。计算机配置如下:主频为 PentiumTM 2.8GHz,内存为 2GB,操作系 统为 Windows XP Home Edition;实验程序用 Matlab 2010编写。在上述软硬件环境下,4种模式200次循环的平均时间复杂度如表13所示。
表13 4种模式的时间计算复杂度Tab.13 The time computation complexity of four models
模式2和模式3虽然采用了双视角融合算法,但是与模式1相比,时间复杂度并没有高很多。在模式4中,将两个视角的特征求平均值组成新的特征向量,由此构成的训练集和测试集比另外3种模式减少了一半,所以时间复杂度会比较低。
本研究提出了4种乳腺钼靶图像肿块分类模式,并根据临床上肿块的轮廓与背景组织之间的对比度情况,将数据分成3种情况分别进行讨论。模式2和模式3使用了多分类器融合算法和双视角信息融合算法,与模式1和模式4相比,由于有效的利用了乳腺钼靶图像两个视角ROI的信息,在分类正确率、敏感性、特异性方面得到了很好的提高,同时具有比较好的稳定性。而且这两种模式更符合放射科医师读片的习惯,能够更好的改善CAD系统的临床可用性。这两种模式对今后肿块分类算法的研究起到参考和借鉴作用。
[1]Cai Xiaopeng,Chen Xiaowei,Hu Liming,et al.Computeraided detection and classification ofmicroclassificationsin mammograms:a survey [J].Pattern Recognition,2003,36(12):2967-2991.
[2]Sun Xuejun, Qian Wei, Song Dansheng. Ipsilateralmammogram computer- aided detection of breast cancer[J].Computerized Medical Imaging and Graphics,2004,28:151 -158.
[3]姜娈.基于乳腺X线摄片的计算机辅助检测肿块方法研究[D].武汉:华中科技大学,2009.
[4]姜英仙.基于多视图的乳腺癌辅助检测[D].武汉:华中科技大学,2007.
[5]Zheng Bin,Leader JK,Abrams GS,et al.Multiview-based computer-aided detection scheme for breast masses[J].Medical Physics,2006,33(9):3135-3143.
[6]Khuwaja GA, Abu-Rezq AN. Bi-modal breast cancer classification system [J].Pattern Analysis & Applications,2004,7:235-242.
[7]Duin RPW,Tax DMJ.Experiments with classifier combining rules[C]//Proceedings of the 1st International Workshop on Multiple Classifier Systems(MCS2000).Cagliari:Springer,2000:16-29.
[8]谢华,夏顺仁,张赞超.医学图像识别中多分类器融合方法的研究进展[J].国际生物医学工程杂志,2006,29(3):152-157.
[9]徐伟栋,刘伟,厉力华,等.基于特性模型与神经网络的乳腺图像肿块自动检测技术[J].电子与信息学报,2009,31(7):1653-1658.
[10]Zheng Bin,Lu A,Hardesty LA,et al.A method to improve visual similarity of breast masses for an interactive computeraided diagnosis environment[J].Medical Physics,2006,33(1):111-117.
[11]彭芳青,厉力华,徐伟栋,等.基于Multi-Agent的乳腺钼靶图像肿块分类方法[J].传感技术学报,2010,2:153-157.
[12]刘静,尹存燕,陈家骏.一种规则和贝叶斯方法相结合的文本自动分类策略[J].计算机应用研究,2005,7:84-89.