董艳莉, 朱一峰(.朝阳市卫生学校实验中心护理组,辽宁 朝阳 000;.朝阳师范高等专科学校教务处,辽宁 朝阳 000)
乳腺肿瘤分类优化算法研究①
董艳莉1, 朱一峰2
(1.朝阳市卫生学校实验中心护理组,辽宁 朝阳 122000;2.朝阳师范高等专科学校教务处,辽宁 朝阳 122000)
设计实现了乳腺肿瘤分类的优化算法.(1)根据乳腺肿瘤灰度分布情况,设计实现了基于灰度共生矩阵的BP分类算法;(2)针对图像分类信息较大等特点,设计实现了基于主成分分析(PCA)的支持向量机(SVM)分类算法;(3)由于乳腺肿瘤种类繁多,在提取主成分特征的基础上,利用欧式距离分类方法对乳腺肿瘤做进一步细致分类.
乳腺肿瘤;图像分割;特征提取;分类
乳腺癌是女性最常见的恶性肿瘤之一,早期检测是预防乳腺癌的关键.而计算机辅助诊断随着医学影像数字化的发展逐步得到完善.乳腺肿瘤的特征一般可分为形态特征和纹理特征两类.形态特征主要考察肿瘤的形状、边界光滑度等,对良性肿瘤具有较好的检查率.纹理特征则反映了肿瘤区域与邻近组织的关系等,对恶性肿瘤难获得准确边界的特点十分有效.考虑到形态特征虽然直观、受噪声影响相对较小,但在识别恶性肿瘤时存在困难等特点,本文选择主成分特征和灰度共生矩阵为特征参数,设计基于支持向量机和BP神经网络的乳腺肿瘤分类器,实验结果表明该方法可得到有效的乳腺肿瘤分类效果.
1988年,David Rumelhart,Geoffrey Hinton和RonaldWilliams提出了用于前向神经网络学习训练的BP算法[1],解决了多层网络的学习问题,促进了神经网络的发展.
1.1实验设计
乳腺肿瘤形态各异,有的肿瘤边缘模糊,有的伴有长短不一的毛刺向外放射,这种形态特征对肿瘤边界的提取代来巨大困难,从而影响肿瘤的分类识别[2].图1给出了十例乳腺肿瘤影像图,其中各图分别为:(1)长毛刺单纯癌(3)长毛刺实性癌(4)绒毛状毛刺肿块(5)神经纤维瘤(10)圆形囊肿,其他图像均为纤维瘤.本文实验以图1为例根据灰度共生矩阵对图像像素分布的敏感性,从中提取共生矩阵特征作为BP分类器输入参数进行识别.流程如图2所示.
图1 X线影像中肿瘤原始图像
在不设定灰度共生矩阵计算方向时求取的特征参数为水平方向值,为了防止图像方位变化对分类效果的影响,特征值的选取可以在0°方向、45°方向、90°方向(垂直方向)和135°方向进行,在求取样例的灰度共生矩阵并计算特征参数后,将其作为BP分类器的输入参数进行识别.
分类器设计:以输入向量维数为输入层神经元个数,隐含层神经元数目的选取本文采用第二种选择方法进行确定.实验是对乳腺肿瘤的良恶性进行识别,结果中1为恶性肿瘤,0为良性肿瘤,所以输出神经元选用一个节点可以满足要求.本实验在共生矩阵基础上求取对比度、相关性、能量、均匀度和熵五个特征作为BP分类器的输入参数,当取水平方向参数时,分类器输入层、隐含层和输出层神经元数目分别为[5,3,1];当取四个方向19个特征参数作为分类器输入参数时,分类器各层神经元数目为[19,5,1].实验步骤将在下节具体描述.
图2 基于纹理的分类算法流程图
1.2实验结果分析
由于共生矩阵的纹理特征有明确的意义,并且容易计算,则在图像处理和分析过程中常被作为基本的特征[3].纹理特征可以很好的反映肿瘤区域与邻近组织的关系,对恶性肿瘤难获得准确边界的特点十分有效.本文充分考虑良恶性肿瘤的特点,以图1为例对基于灰度共生矩阵的BP分类算法进行分析.由于良恶性肿瘤及其周边组织在X线影像中差异较小,需要综合多个纹理特征才能满足较好分类效果.本实验以对比度、相关性、能量、均匀度和熵五个特征作为灰度共生矩阵参数,如图3所示,横坐标为10幅样例图标号,纵坐标表示五个特征值的大小.
将图3所示灰度共生矩阵参数值进行归一化处理后,根据上节所述方法确定BP分类器.训练结果如图4(a)所示.由于分类结果受参数数量和准确度的影响,为了提高识别率,将上述实验中一个方向的5个特征值进行扩充,分别在0°, 45°,90°和135°四个方向选择特征值,然后对各组值求取均值和方差,得到每幅图像的19个特征值.分类器输入层神经元格式调整为19个,隐含层调整为5个,结果如图4(b)所示[4].
由图4可以看出,针对同一组数据,在相同的训练次数下,误差率跟参数选取数量成反比.为了进一步分析共生矩阵参数对分类器的影响,将两次实验结果进行一下对比,如图5所示.其中红色为五个特征的分类结果,蓝色为19个特征的分类结果,横坐标为样例图序号,纵坐标1为恶性肿瘤标识,0为良性肿瘤标识,误差棒长度为仿真值与原值之差,从误差棒的偏离程度可以明显看出后者准确率大大提高.由此可知,一幅图像中各个方向的纹理特征对整幅图像的确定都起着一定的贡献作用.
SVM是基于统计学理论的学习方法[4],它通过构造最优超平面,使得对未知样本的分类具有最优的推广能力.
PCA(主成分分析)是模式识别中最为有效的一种特征提取方法[5].其目的是用较少数量的特征对采集样本进行描述,并降低特征空间的维数,同时还能保留所需要的识别信息.
SVM(结合支持向量机)在处理小样本、高维数及泛化性能方面的优势,本文设计了一种计算机辅助识别乳腺良恶性肿瘤的新方法.首先对预处理后的ROI图像利用主成分分析(PCA)方法进行降维并提取特征,再将采集到的特征集利用SVM分类器识别,实验结果表明该方法比BP神经网络分类器有较高的识别率,是一种有效的肿瘤病变识别方法.
2.1乳腺病变特征提取及其分类
PCA在模式识别领域(尤其是人脸识别)应用广泛,本文结合肿瘤病变区域不易分割的特点,将PCA应用在乳腺病变性质的识别上,利用ROI图像的主向量建立识别模型,减少人为操作图像的干扰因素,提高识别准确性.
根据PCA方法得到的特征参数创建训练数据特征库,作为SVM分类器的输入参数进行识别.首先对样本特征数据进行训练学习,目的是找到分类超平面的优化参数.然后选择输入向量映射核的类型,并计算核函数K(x,y).根据测试结果对所选择的核和惩罚因子进行调整,将最优结果存入学习模型数据库,供预测数据识别使用.
2.2实验结果分析
本文将120例病变样本随机分为两个相互独立的集合,分别作为训练集和测试集,其中良性肿瘤76例,恶性肿瘤44例.通过PCA方法提取训练集特征,利用BP神经网和SVM分别作为分类器,测试数据交替组合三次,实验结果如表1所示.
图3 10幅样例图的特征值
图4 特征值的BP分类训练结果
表1 BP分类器与SVM分类器性能比较
表1中FN(False Negative)表示假阴性,FP (False Positive)表示假阳性[6];准确率 =(TP+ TN)/(TP+TN+FP+FN),其中TP和TN分别表示恶性和良性被正确分类的数目;敏感性 = TP/(TP+FN);特异性 =TN/(TN+FP).
由表1可见,SVM分类器的识别率(96.12%)较BP神经网络分类器识别率(93.33%)高,在敏感性和特异性上也表现出较大的优势.BP神经网络和SVM均属于非线性分类器,但分类的基本原理有明显的区别.BP网是运用了反向误差算法的多层前向感知器,而SVM是基于结构风险最小化原则,由核空间理论得知,可通过非线性映射把输入向量映射到一个高维特征空间,通过构造最优超平面将未知样本进行分类.两个分类器在算法上都采用了迭代运算,这就意味着以较高的准确率来牺牲时间代价,但时间仍在可接受的范围内,而且SVM较BP分类器耗时少一些.
医学影像图像中,由于人体自身的差异和病变种类的复杂性等原因,使得病变区域识别难度增大.在乳腺病变检测中恶性肿瘤的分割是研究的难点,为此,本文选择PCA作为获取特征参数的主要方法,然后分别以BP神经网络和SVM作为分类器进行识别.
下面取10例72×60样本(以图1为例)对BP神经网络分类器和SVM分类器中的参数设置做进一步说明.表2中列出了BP神经网络和SVM分类器的训练参数.在SVM分类器的训练过程中,当惩罚因子调节到40时,迭代次数27次,识别率达到100%.其中良性肿瘤支持向量数为7,恶性肿瘤支持向量数为3.随着训练样本数量的增加,SVM分类器的优势将进一步显现.
表2 分类器功能参数比较
图5 训练误差比较图
本文采用图像处理中常用的距离法对病变的种类进行细化.具体分类流程如图7所示.
针对测试样本,选择相应的PCA特征模板(即,根据样本集求取的PCA特征空间),计算测试样本的PCA向量,映射到特征空间,利用欧式距离法求取最接近的样本类别.
本实验以炎性疾患、囊性乳腺病、囊肿3种类型为例,分别取每种类型样本20例(由于同种类型的疾病在不同病例中的形态特征有所差别,通过增加同种疾病测试样本的数量来扩大识别范围,提高准确率)共60幅(20×3)创建数据库.选择3种类型中前10例(10×3)样本作为训练集,后10例(10×3)样本作为测试集.对训练样本求取主成分,构成特征模板,然后将测试样本通过主成分计算扩张到样本模板特征空间上,最后用欧式距离法求取最小距离,计算准确率.由于主成分分析法是求取了图像中贡献大的特征向量进行分析,忽略对整幅图像作用较小的因素,从而在不影响识别效果的同时,大大提高了识别速度.与原始图像直接进行距离分类相比,准确率得到改善,结果如表3所示.
图6 乳腺病变细致分类流程图
表3 原始数据与PCA特征识别结果对比
由表3可以看出,特征提取后的图像去掉了冗余信息,使识别率得到较大提高,但是识别效果不是特别理想,分析原因如下:
(1)样本库的建立需要进一步标准化.由于乳腺肿瘤种类繁多,要想准确识别特征需要在专业医生的指导下搜集典型案例,建立包含详细信息量的图片样本库.
(2)PCA方法可以较好的保留图像的特征信息,弱化冗余信息,但在复杂环境下尚有不足. Scholkopf等人提出了KPCA(核主分量分析),它不仅能够抽取非线性特征,而且具有更优的识别结果.在PCA基础上的独立成分分析方法等都在应用领域有不同程度的改进.因此,在乳腺肿瘤细致分类方面,需要根据具体病变的特点选择更优特征方法,在提高识别率方面还有很大空间.
(3)SVM分类器不仅可以作为两类分类器,它还有很强的多分类能力,所以,可以尝试将SVM的多分类功能应用在病例细致分类方面,以提高识别率.
本文主要介绍了几种适合乳腺肿瘤分类的有效方法.其中基于灰度共生矩阵的纹理特征能够将图像灰度分布很好的体现出来,克服了恶性肿瘤边界模糊,放射分布等难以通过几何特征来提取的特点,实验取得较好效果.基于PCA特征的SVM分类,首先利用PCA方法对病变区域进行降维并提取图像主要信息,再将采集到的特征集利用SVM分类器识别,分类效果与BP算法相比识别率较高.由于乳腺肿瘤种类复杂,在确定良恶性疾病性质后,再根据提取出的PCA特征利用距离法做进一步分类,得到更详细病变信息.
[1]杨谊.斑点噪声分布拟合的乳腺超声病灶分割方法[J].中国体视学与图像分析,2014,6(02):35-37.
[2]成鹏飞.Hough变换和区域分离-合并相结合的分割算法[J].西安邮电大学学报,2013,25(03):150-153.
[3]苏燕妮.乳腺肿瘤超声图像中感兴趣区域的自动检测[J].中国生物医学工程学报,2010,18(02):305-307.
[4]曹颖,郝欣.基于自动随机游走的乳腺肿块分割算法[J].浙江大学学报(工学版),2011,20(10):15-18.
[5]林秋兰.彩色多普勒超声在乳腺肿瘤诊断中的应用价值探讨[J].中国医学创新,2012,36(34):102-106.
[6]成楠.48例乳腺癌超声表现与病理分型相关性探讨[J].中外医学研究,2015,24(14):1325-1327.
Research on the Optimal Algorithms of Breast Tumour Classification
DONG Yan-li1, ZHU Yi-feng2
(1.Nursing Group of Experimental Center,Chaoyang Health School,Chaoyang 122000,China;2.Dean's Office,Chaoyang Teachers College,Chaoyang 122000,China)
The optimal algorithms of breast tumor classification was presented as follows.(1)According to the gray distribution of breast tumor imaging,a BP neural network classification method was designed.(2)According to the characteristic of image information,an SVM classification method based on PCA was introduced. (3)For multiformity of breast tumor,an Euclidean distance classifier was used to do a further classification in the PCA feature space.
breast tumor;image segmentation;feature extraction;classification
TP391.41;R737.9
A
1008-1402(2015)06-0929-05
2015-10-30
董艳莉(1985-),女,辽宁朝阳人,讲师,从事护理及临床教学研究.通讯作者:朱一峰(1983-),男,辽宁朝阳人,讲师,硕士,从事计算机教学研究.