徐力平,尚 丹,陈小玉
1)郑州大学信息工程学院 郑州450001 2)郑州大学公共卫生学院卫生毒理学教研室 郑州450001#通讯作者,女,1957年11月生,教授,研究方向:职业与健康,E-mail:chen-xiaoyu@zzu.edu.cn
肺癌是严重威胁人类健康的常见恶性肿瘤,死亡率居恶性肿瘤之首[1]。早期诊断、早期治疗可提高肺癌患者的生存率,改善他们的生活质量。然而,尽管使用了高分辨率的CT,判别肺部孤立小结节是良性还是恶性仍有困难。作为人工神经网络的重要一员,BP 神经网络(BPNN)利用误差信号反向传播、调节权重,具有良好的自适应性、自组织性和很强的自学习能力,是数据分类和模式识别的有力工具。已有利用人工神经网络辨别肺部孤立小结节良恶性的研究[2-4]。模糊神经网络(fuzzy neural network,FNN)是模糊逻辑推理与人工神经网络的结合,弥补了神经网络在模糊数据处理方面的不足和纯模糊逻辑在学习方面的缺陷。作者综合运用模糊数学和人工神经网络知识构建一个FNN 模型,用于肺癌的计算机辅助诊断,以提高肺癌诊断的正确率。
1.1 材料 收集2005年3月至2006年7月郑州大学第一附属医院的117例患者的CT 结果,117例中肺癌59例,肺良性疾病58例,诊断均得到病理证实。肺癌患者中,男44例,女15例,年龄30~81岁;其中小细胞肺癌11例,非小细胞肺癌48例。肺良性疾病患者中,男37例,女21例,年龄13~84岁;其中肺结核24例,炎性病变25例,其他9例。
1.2 FNN 模型的建立 由3 层前向BPNN组成。第1 层为数据预处理层,先提取患者的26 个特征值再对其进行模糊化处理;第2 层为隐含层;第3 层为输出层。
1.2.1 数据预处理 ①特征提取。提取病例的5个临床参数和21 项放射学特征作为第1 层的输入向量。5 个临床参数为患者的性别、年龄、吸烟史、家族恶性肿瘤史和体重减轻情况。21 项放射学特征为:病灶大小、密度、边缘情况、磨玻璃样改变、空洞征、毛刺征、血管切迹、分叶征、棘突征、胸膜凹陷、胸膜浸润、纵隔移位、纵隔受侵、纵隔淋巴结肿大、肺内远处转移、肺气肿、钙化、气管狭窄情况、卫星病灶、肺不张及胸腔积液。放射学特征经3 名有经验的放射科医师进行评分提取。②特征向量的模糊化。在26 个特征值中有13 个为非二值参数,可以用隶属度函数进行模糊化处理。每个输入变量分为3 个模糊子空间,用大(H)、中(M)、小(L)3 个语言变量表示,则输入变量就有3 个模糊化神经元与其在3 个模糊子空间对应的隶属函数值对应,于是13个非二值参数经模糊化输出39 个参数。③隶属度函数选取。该研究中隶属度函数[5]采用三角形分布函数。隶属度函数为:
式中L、H 分别表示参数极小值和极大值,P =(L+H)/2。
例如,由病例数据中的年龄数据,L =13,H =84,根据式(4)、(5)得L' =0,H' =120,代入式(1)、(2)、(3)就可得出年龄参数的隶属度函数为:
1.2.2 其他层的处理 ①隐含层处理。确定最佳隐含节点的一个常用方法为试凑法:首先用确定隐含节点数的经验公式(式中m、n、l 分别为隐含层节点数、输入层节点数、输出层节点数,α 为1~10 间的常数)确定初始值,再用数值实验来确定最佳隐含节点数,即逐渐增加节点数,用同一样本进行训练,从中确定误差最小时对应的节点数。该研究中,输出节点数为1,对应于26 个参数,作为对照的BPNN 输入节点数为26,则初始值取6,选取隐含层节点数为6~11 的6 个数进行数值实验,结果为7 个节点数最佳;FNN 的神经网络输入节点数为52(对应13 个二值参数加上3×13 个模糊化的非二值参数),则初始值取11,选取隐含层节点数为11~16 的6 个数进行数值实验,结果是取11 个隐含层节点最佳。②输出层处理。输出层为一个节点输出,预测值以0.5 作为分界点,≥0.5 为肺癌患者,越接近1 表示敏感性越强;<0.5 为良性疾病患者,越接近0 表示敏感性越强。输入层节点采用线性函数作为激励函数,隐含层和输出层节点均采用对数型Sigmoind 函数作为激励函数。
1.3 网络训练 从全部样本中随机抽取73例(良性疾病35例,肺癌38例)作为训练集,其余44例作为预测集。用MATLAB 7.0 编程,分别对BPNN 和FNN 进行训练,并用完成训练的网络模型预测。
两种方法的输出结果见表1,其中划线处为错误结果。由表1可知,良性病例中BPNN 有3 个诊断错误,即假阳性3例,FNN 有2 个诊断错误,即假阳性2例;肺癌病例中BPNN 有4 个诊断错误,即假阴性4例,FNN 有2 个诊断错误,即假阴性2例。FNN 诊断肺癌的灵敏度、特异度和正确率分别为0.904 8、0.913 0和90.91%,BPNN 分别为0.809 5、0.869 6 和84.09%。ROC 空间图见图1。从ROC 空间图可以看到,FNN 分类对应的F 点比BPNN 的B 点接近左上角(0,1),即FNN 分类的效果优于BPNN。
表1 FNN 与BPNN 输出结果的比较
图1 ROC 空间图
该研究结果显示,在肺癌计算机辅助诊断中,结合模糊理论与神经网络建立的FNN 模型既考虑了诊断数据的模糊性,又考虑了诊断特征与诊断结果的复杂关系,其预测结果与病理诊断结果相当接近,且优于BPNN 的预测结果。
[1]杨玲,李连弟,陈育德,等.中国肺癌死亡趋势分析及发病、死亡的估计与预测[J].中国肺癌杂志,2005,8(4):274
[2]Matsuki Y,Nakamura K,Watanabe H,et al.Usefulness of an artificial neural network for differentiating benign from malignant pulmonary nodules on high-resolution CT:evaluation with receiver operating characteristic analysis[J].Am J Roentgenol,2002,178(3):657
[3]Coppini G,Diciotti S,Falchini M,et al.Neural networks for computer-aided diagnosis:detection of lung nodules in chest radiograms[J].IEEE Trans Inf Technol Biomed,2003,7(4):344
[4]Nakamura K,Yoshida H,Engelmann R,et al.Computerized analysis of the likelihood of malignancy in solitary pulmonary nodules with use of artificial neural networks[J].Radiology,2000,214(3):823
[5]蒋中明,徐卫亚,张新敏.弹性介质模糊有限元控制方程的快速解法[J].工程力学,2006,23(7):25