何霞霞,张红升,李 迪,王 静,吴逸明,吴拥军
1)郑州大学公共卫生学院毒理学教研室 郑州 450001 2)郑州大学第一附属医院呼吸内科 郑州 450052
肺癌是全球范围内癌症死亡的主要原因之一,全世界每年有120万人死于肺癌[1-2]。2015年中国肺癌新发病例约73.33万,死亡病例约61.02万,分别占全部恶性肿瘤的17.09%和21.68%[3]。CT目前是肺癌的主要诊断手段之一,但因各种肺部疾病CT影像的复杂性,临床医生极易误判,尤其是肺结节的良恶性鉴别更是临床上的一大难题。目前分类技术有很多,如线性判别分析、支持向量机、逻辑回归和人工神经网络(artificial neural network,ANN)等。如何选择模型成为辅助诊断模型构建过程中的重要部分,但目前尚没有成熟的理论来指导模型的选择[4]。该研究基于CT影像评分构建了ANN,用于肺部病变的良恶性诊断,并将其与logistic回归模型作比较,评价其用于肺癌辅助诊断的价值。
1.1材料收集郑州大学第一附属医院呼吸内科2005年3月至2006年7月入院的117例患者的资料,其中58例经病理确诊为肺良性疾病,59例确诊为肺癌。均拍摄胸部CT片,使用美国GE HI speedAdvantage RP22螺旋CT机。检查时取仰卧位,一次闭气行胸部平扫,扫描参数为120 kV,160 mAs,准直10 mm,螺距为1,病灶处行1 mm层厚,5 mm间隔高分辨薄层扫描。
1.2CT影像特征提取和量化评分由3名有经验的放射科医师对117例患者的CT影像进行仔细观察,提取出21项影像学特征,并分别进行评分(表1)。评分时,由这3名医师分别对每张CT影像评分,取平均分[5]。
表1 21项CT影像学特征及其量化评分说明
1.3变量的设置及处理以117例患者的性别、年龄、吸烟史、家族史和体重减轻情况(根据病历记录,体重减轻≤1 kg为无减轻,1 kg<体重减轻<5 kg为减轻,≥5 kg为明显减轻)等5个指标和21项CT影像特征为变量。为了使输入变量符合ANN Sigmoid传递函数的基本要求,将26个变量中的非二分类变量进行归一化处理,表达式:Xi′=(Xi-Xmin)/(Xmax-Xmin) ,其中Xi、Xi′分别为转换前后的值,Xmax、Xmin分别为变量Xi的最大值和最小值,使输入参数均分布在[0,1]。
1.4数据集的准备在建立模型之前首先将此117例样本随机分为训练集(73例)和测试集(44例),训练集用来确定网络结构,测试集用来测试ANN模型的性能。
1.5ANN的建立采用前附加动量误差反向传播(BP)网络,其拓扑结构包含输入层、隐含层和输出层共3层。ANN的参数设置如下:输入层神经元(n=26)包括5个临床参数和上述21个CT影像学特征;根据经验确定隐含层神经元(n=6),采用Sigmoid传递函数;输出层神经元用线性传递函数随机初始化。为提高训练速度,根据经验,学习速率=0.7,动量因子mc=0.96,最大迭代次数=1 000,每迭代10次显示1次,预期误差=0.000 01[5]。
1.6Logistic回归模型的建立将117例患者的26个变量的原始资料输入数据库并核实后,先对各个变量进行单因素logistic回归,筛选出有意义的变量[吸烟史(X1)、边缘情况(X2)、血管切迹(X3)、毛刺征(X4)、胸膜凹陷(X5)、肺气肿(X6)、气管狭窄情况(X7)],建立多因素logistic回归模型。
1.7统计学处理和模型评价指标采用SAS 9.13和Matlab 7.0b处理数据。以准确度、ROC曲线下面积(AUC)作为所建模型的评价指标。检验水准α=0.05。
2.1ANN训练与预测结果ANN模型对训练集训练的准确度达100%;根据所建模型对预测集进行验证,结果见表2。由表2知ANN模型预测肺癌的准确度为90.9%。
表2 ANN模型对44例预测集样本的预测结果 例
2.2Logistic回归模型与预测结果Logistic回归结果见表3。根据筛选出的变量建立的回归模型为:
利用logistic回归模型对44例预测集样本预测的结果见表4,其准确度为68.2%。
表3 多因素逐步logistic回归结果
表4 logistic 回归模型对44例预测集样本的预测结果 例
2.3ANN模型与logistic回归模型的比较ANN模型对44例预测集进行预测的AUC(95%CI)为0.986(0.944~0.998),logistic回归模型为0.909(0.842~0.954),ANN模型对预测集样本的判别性能优于logistic回归模型(χ2=5.238,P=0.022)。
ANN技术以人工智能为基础,是模拟人的大脑神经网络结构和功能的计算机模型,比传统的统计学方法能更好地挖掘大数据中所隐含的大量真实有用的信息,从而广泛地应用于医学研究[6-9]。
该研究表明,基于肺CT图像的量化评分后的21项CT影像学特征和5个临床参数,与传统的统计学方法logistic回归所建模型相比,用ANN技术建立的肺癌辅助诊断模型提高了肺癌诊断的准确率,为肺癌辅助诊断系统的建立奠定了基础。但由于某些客观条件的限制,本研究样本量相对较小,未能完全达到ANN学习的最佳效果[10],且肺癌的诊断过程中,还应包括危险因素暴露[11]、临床参数、肿瘤标志物、基因组学等异常事件[12-16],而该研究只包含了其CT影像学特征和部分危险因素暴露。因此,要取得更满意的诊断效果尚需扩大样本,结合其他信息做进一步的研究。此外,参与本研究盲法阅片的医师均为郑州大学第一附属医院放射科资深、有丰富阅片经验的医生,且每张CT片分别由3名医师量化评分,然后以其平均值为最终的评分结果,虽然尽可能地避免了医生主观阅片的误差,但由于该研究借助于医生对CT影像进行量化评分,所得数据仍存在主观性,且给阅片医生增加了工作负担;在今后的研究中将运用深度学习中的深度卷积神经网络技术直接以原始肺CT图像作为输入[17],建立智能型肺癌辅助诊断模型。
综上所述,该方法依据放射科医师评分将肺CT图像特征量化,筛选出21项与诊断建模相关的特征参数,并结合了性别、年龄、吸烟史、家族史和体重减轻情况等5个参数,所建立的ANN模型用于肺良恶性疾病的判别效果优于logistic回归模型,故ANN模型可作为临床医生诊断肺癌的辅助手段,在提高肺癌诊断的准确率方面具有较大的临床价值。
致谢:感谢郑州大学第一附属医院放射科高剑波老师、王声鼎老师、周志刚老师给予的无私指导和帮助!