马满芳陆惠玲王媛媛吴华锋季明周涛
摘 要:针对BP神经网络在辅助诊断建模过程中因输入特征的多维性而造成模型精度低、建模时间长等问题,提出基于遗传算法—BP神经网络的乳腺肿瘤计算机辅助诊断模型。首先提取乳腺肿瘤感兴趣区域的几何特征、形状特征、灰度特征、纹理特征、频率特征和边缘特征共79维;其次,用遗传算法(GA)对提取的特征进行约简,去掉一些冗余特征,选择最能体现肿瘤良恶性的特征组合17维;最后采用BP神经网络对17维特征进行乳腺肿瘤辅助诊断研究。实验结果表明,基于GA-BP的模型在乳腺肿瘤识别中取得了良好效果。
关键词:遗传算法;BP神经网络;乳腺肿瘤;计算机辅助诊断
DOIDOI:10.11907/rjdk.161973
中图分类号:TP319
文献标识码:A 文章编号文章编号:16727800(2016)011014404
0 引言
乳腺癌作为全球女性中最为频发的恶性肿瘤疾病和癌症死亡的首要原因,严重危害女性身心健康。近年来,我国乳腺癌的发病率和死亡率逐年上升,且呈明显的年轻化趋势。乳腺癌在初期常无明显临床症状,或仅表征为轻微的乳房疼痛[1]。迄今为止,乳腺癌发病的确切原因还未找到,尽管环境、遗传因素和生活方式是造成乳腺癌的主要因素,但60%以上的乳腺癌患者身上并不存在这些明显的危险因素[2]。因此,早发现、早诊断仍是当前提高乳腺癌治愈率和降低死亡率最有效的途径[3]。
肿瘤作为乳腺癌的直接病理征象和主要诊断依据,大约90%的乳腺癌患者在X影像上有清晰的肿瘤征象。由于X线是一种无创、微辐射的检查方法,检查费用低,而且对肿瘤与钙化比较敏感,因此X线乳腺图像已经成为检测乳腺癌的黄金标准,通过它来检测乳腺异常是预防乳腺癌的重要方法之一[4]。随着医学影像学和计算机辅助诊断技术的发展,基于X线乳腺图像的CAD系统得到了广泛应用,但是不同CAD系统的诊断效果也由系统自身决定[5]。2013年,Marc Lobbes比较了两个CAD系统(Second Look 和 AccuDetect Galileo)的病灶检测能力,并分析了326份病例,结果显示,AccuDetect Galileo在检测肿瘤与微钙化(尤其是针对致密性乳腺)时效果更佳[6]。目前,针对X线图像的乳腺肿瘤辅助诊断算法主要分为图像增强、肿瘤分割、特征提取和优化,以及良恶性肿瘤识别4部分。
近年来,随着BP神经网络理论的完善和成熟,在计算机辅助诊断领域得到了广泛应用。由于BP神经网络具有强大的非线性映射能力,在使用乳腺肿瘤病灶组织图像时,建立基于神经网络的乳腺肿瘤辅助诊断方法模型,不仅能够提高乳腺癌的诊断准确率,而且可以为临床医生提供帮助。但是BP神经网络在进行辅助诊断建模时,会因其输入特征的多维性而造成模型精度低、建模时间长等问题。所以,本文提出了基于遗传算法—BP神经网络的乳腺肿瘤CAD方法。首先,提取乳腺肿瘤ROI的几何特征、形状特征、灰度特征、纹理特征、频率特征和边缘特征79维;然后用遗传算法(GA)对提取的特征进行约简,去除冗余特征后选择最能体现肿瘤良恶性的特征组合17维;最后基于GA-BP神经网络模型进行乳腺肿瘤良恶性分类,探讨GA-BP模型在乳腺肿瘤分类识别中的性能。
1 基础知识
1.1 遗传算法
遗传算法(Genetic Algorithm,GA)是模拟达尔文生物进化论的自然淘汰与遗传选择生物进化过程的一种计算模型。其核心思想源于适者生存的自然选择规律,具有“生存+检测”的迭代过程。它将所要解决的问题解空间映射到遗传空间,再对解空间进行编码。一般用一串“1、0”数字串表示每个可能的解,并将该解称为一个染色体,解的每一个分量称为一个基因。在算法开始时,先随机选择一群染色体作为候选解,用预先设定好的评价指标计算每个染色体的适应值,并淘汰适应度较低的染色体,保留适应度高的优良染色体,然后对这些染色体进行选择复制、交叉和变异等操作,如此进行一代一代的“进化”,直到找到算法的最优解。
遗传算法相对于一些传统的优化算法,优点表现在:①遗传算法在搜索过程中不易陷入局部最优,能以很大概率找到整体最优解,具有良好的适应性与鲁棒性,是一种经典的全局最优化算法;②遗传算法具有隐含并行性,运算效率高,适用于大规模的并行计算机。然而,遗传算法的缺点表现在易早熟、局部收敛性差等。
1.2 BP神经网络
BP网络[7]的拓扑结构由输入层、隐含层和输出层组成。图1为一个典型的三层BP神经网络结构图,层与层之间采用全连接方式,同一层之间不存在相互连接,隐含层包括一层或多层。
2 本文算法
本文首先对乳腺肿瘤图像进行分割,提取ROI区域,其次提取几何特征、形状特征、灰度特征、纹理特征、频率特征和边缘特征共79维,然后采用遗传算法进行特征选择,选择17维特征用于BP神经网络的计算机辅助诊断,从而识别乳腺肿瘤的良恶性,最后基于GA-BP神经网络的辅助诊断模型为临床提供参考意见。
2.1 基于遗传算法的特征选择
基于BP神经网络的遗传算法优化辅助诊断,是使用遗传算法选择BP神经网络的最佳输入特征,优化后的BP神经网络能够更好地识别乳腺肿瘤的良恶性并减少建模时间,以提高辅助诊断效果。利用遗传算法选择特征,必须经过输入变量编码、初始种群产生、适应度计算、交叉变异选择、优化结果输出等过程[8]。本文GA优化变量的主要步骤如下:(1)输入变量编码。本文首次提取的特征有79维,经GA选择17维特征作为BP神经网络的输入,即输入变量为17个,个体的每个基因只能取“1”和“0”两种情况,1表示输入变量参与建模,0表示输入变量不参与建模。(2)初始种群产生。随机产生20个初始个体组合作为一个种群,遗传算法以这20个个体作为初始点进行迭代。(3)适应度计算。本文选取测试集数据误差平方和的倒数作为适应度函数,对每个个体进行训练和预测,如式(1)所示。
式(1)中,T′={t′1,t′2,…,t′n}为测试集的预测集,T={t1,t2,…,tn}为测试集的期望集,n为测试集的样本数目。(4)选择交叉变异。选择操作使用比例选择算子,计算出所有个体的适应度和各个个体的相对适应度,作为该个体被选中并遗传到下一代的概率。变异操作一般采用单点变异算子,随机产生一个变异点,改变其基因上的基因值,经过一轮选择交叉变异,又可以产生新的适应度更高的种群。(5)优化结果输出。经过一代代的迭代优化,当满足迭代终止条件时,输出的末代种群对应的便是问题最优解,即经过选择后的特征。
2.2 BP神经网络模型建立
2.2.1 模型拓扑结构设置
BP神经网络的拓扑结构由输入层、隐含层和输出层3部分组成,本文将特征数据作为网络输入,乳腺肿瘤的良恶性类别作为神经网络输出,从而构建基于BP神经网络的乳腺肿瘤辅助诊断模型。
(1)隐含层层数:本文考虑到基于BP神经网络的乳腺肿瘤辅助诊断模型的输入和输出规模较小,选用一层隐含层。
(2)隐含层节点个数:本文采用初始隐含层节点范围公式计算隐含层数目。其中,s表示隐含层节点数目,m表示输入层节点数目,n表示输出层节点数目,a是1~10之间的整数。本文设定隐含层数目为10。
2.2.2 模型重要参数设置
要建立一个BP网络,除了对隐含层层数和节点个数的设置,还需要对BP神经网络训练函数、节点传递函数、误差界值、学习率等参数进行初步设置。本文选择系统默认的Levenberg-Marquardt优化算法作为BP神经网络的训练函数[9];初步设置BP神经网络默认的节点传递函数tansig为隐含层节点传递函数;网络需要输出的值是线性具体值,所以网络输出层的节点传递函数初步选择purelin;误差界值设置为0.01,既足以满足网络的精度要求,又可以保证网络收敛速度;学习率初步设置为0.1,既能避免学习率过大造成的网络不收敛,又避免学习率过小造成的时间复杂度高。具体设置如表1所示。
3 算法仿真实验
实验数据:本研究中的乳腺肿瘤病例样本数据来自于DDSM机器学习数据库。选取555例乳腺瘤数据样本作为实验数据,其中包括344例良性乳腺肿瘤数据,211例恶性乳腺肿瘤数据。
实验环境如下:操作平台为Windows7操作系统,仿真平台为MATLAB 2012图像处理软件,硬件环境为4G内存、750G硬盘、i5-3230M处理器。
3.1 图像分割
首先从555例实验图像中提取ROI,图3为5例良性乳腺肿瘤图像与5例恶性乳腺肿瘤图像以及经过图像分割处理后的ROI。
3.2 特征提取
针对3.1节分割后的555个ROI进行特征提取,提取到的特征有79维,基于不变矩的形状特征为:R1、R2、R3、R4、R5、R6、R7;基于图像内容的几何特征为:周长、面积、圆形度、矩形度、伸长度、紧致度、欧拉数;基于灰度直方图的灰度特征为:平均灰度、一致性(标准差)、灰度波动、倾斜度、峰度、梯度能量;基于灰度共生矩阵的纹理特征为:能量、熵、惯性矩、相关性、逆差距、方差、和的均值、和熵、差熵、和的方差、差分方差、相关信息度量(f12,f13)、最大相关系数;频率特征为空间频率;边缘特征为:边缘锐度、边缘平均梯度,具体特征见表2。
3.3 基于遗传算法的特征选择实验
实验数据使用在3.2节实验中所得的555幅图像的79维特征数据。按照遗传算法特征选择的步骤进行仿真,随着进化代数不断增加,群体适应度越来越高,也即预测值与期望值之间的误差越来越小,群体整体表现越来越好。当迭代次数达到设定的最大迭代次数时,终止进化,并输出该种群中适应度最好的个体对应输入变量的基因编号。它们分别是:1,4,8,9,10,12,14,15,17,18,19,22,23,24,25,26,28,即选择后输入特征是:基于不变矩的1阶、4阶等2个矩特征;基于灰度直方图的平均灰度、一致性、灰度波动、峰度等4个灰度特征;基于图像内容的周长、面积、矩形度、伸长度、紧致度等5个灰度特征;边缘锐度、边缘平均梯度等2个边缘特征;基于灰度共生矩阵(0°方向)的能量、熵、惯性矩、逆差距4个纹理特征,共17维特征,具体见表3。即经过遗传算法的选择,确定该17维特征参与下一步的辅助诊断仿真。
3.4 基于BP的乳腺肿瘤辅助诊断实验
实验数据使用在3.3节实验中所得的555例图像的17维特征数据。BP神经网络的输入是17维特征数据,期望输出是良性乳腺瘤和恶性乳腺瘤两个类别,通过仿真实验来检验只含有选择后的特征输入的BP网络性能。网络的期望输出值只能取1或2作为己标记的良恶性乳腺肿瘤分类。网络的预测输出值大于0.5且小于等于1.5,则视为良性乳腺瘤;如果该值大于1.5且小于等于2.5,则视为恶性乳腺瘤。
将555份样本数据随机排序并编号后,采用5-折交叉法将其分为5组,其中1~111号为第1组、112~222号为第2组、223~333号为第3组、334~444号为第4组、445~555号为第5组。每次实验使用的训练样本数据和测试样本数据如表4所示。5次仿真实验的结果迭代次数、建模时间和识别率如表5所示。
由表5可知,本文模型的平均迭代次数为8.6次,乳腺肿瘤辅助诊断准确率的平均值为96.756 76%,并且每次仿真的迭代次数和准确率非常接近。在仿真过程中发现,建模时间基本在2s左右,建模速度较快。总之,在进行辅助诊断时,输入特征的维数应根据需要筛选核特征,去除无关冗余信息,不仅能提高网络性能,也会降低时间复杂度。
在第5次仿真实验中,良性肿瘤64例,恶性肿瘤47例,训练样本共111例。其中良性肿瘤确诊63例,误诊1例,良性肿瘤检测率为98.44%;恶性肿瘤确诊45例,误诊2例,恶性肿瘤检测率为95.74%。总检测样本111例,确诊108例,误诊3例,检测准确率为97.30%。仿真实验预测结果如图4~图6所示。图4为预测结果图,图5为线性回归曲线图,图6为均方误差收敛图。
4 结语
本文在BP神经网络与乳腺肿瘤辅助诊断方法的基础上,利用遗传算法对BP神经网络所需的特征进行选择,优化了BP神经网络辅助诊断模型,从而提高了模型整体性能。首先使用遗传算法对BP神经网络的输入特征进行提取,然后选择17维有效特征用于BP神经网络模型建模。仿真实验结果表明,基于GA特征选择的BP神经网络模型对乳腺瘤的诊断准确率达到96.76%,在减少输入特征的情况下,建模时间更少,识别率更高。因此,基于遗传算法—BP神经网络的乳腺肿瘤辅助诊断模型取得了良好的诊断效果。
参考文献:
[1] 胡永升.现代乳腺影像诊断学[M].北京:科学出版社,2001.
[2] 刘君,方志沂.乳腺癌的早期诊断[J].中国全科医学,2002,5(6):431432.
[3] 郝欣,曹颖,夏顺仁.基于医学图像内容检索的计算机辅助乳腺x线影像诊断技术[J].中国生物医学工程学报,2009,28(6):922930.
[4] AFSANEH JALALIAN,SYAMSIAH B T MASHOHOR, HAJJAH ROZI MAHMUD,et al.Computeraided detection/diagnosis of breast cancer in mammography and ultrasound:a review[J].Clinical Imaging,2013,37(3):420426.
[5] C DROMAIN,B BOYER,R FERRE,et al.Computedaided diagnosis (CAD) in the detection of breast cancer[J].European Journal of Radiology,2013,82(3):417423.
[6] MARC LOBBES,MARJOLEIN SMIDT,KRISTIEN KEYMEULEN,et al.Malignant lesions on mammography:accuracy of two different computeraided detection systems[J].Clinical Imaging,2013,37(2):283288.
[7] XIA C,YANG Z,LEI B,et al.SCG and LM improved BP neural network loadforecasting and programming network parameter settings and data preprocessing[C].2012 International Conference on Computer Science & Service System (CSSS),IEEE,2012:3842.
[8] 高隽.人工神经网络原理及仿真实例[M].北京:机械工业出版社,2007.
[9] 王徽蓉,李卫军,刘扬阳,等.基于遗传算法与线性鉴别的近红外光谱玉米品种鉴别研究[J].光谱学与光谱分析,2011,31(3):669672.
(责任编辑:黄 健)