金文忠 陆 耀 汪 阳
基于卷积神经网络的深度学习技术,已经在物体辨识、人脸识别、语音识别和翻译、自动驾驶等领域显现出非凡的能力[1-3]。人工智能(artificial intelligence, AI)技术在医学领域,特别是医学影像领域的研究和应用也在逐步发展[4-6]。应用AI技术对基于胸部CT影像的肺结节智能检测,是该研究领域中的热点问题[7]。目前已经出现了很多基于标准影像数据集的肺结节检测算法模型。这些模型的目标图像是特定的或取自标准数据集,由于图像标注与数据处理方案相对标准化,虽然报道的检测结果的能效指标很好,但却并不一定适合实际的临床工作,不能够切实地反映临床实际的应用状态。低剂量螺旋CT(low dose computed tomography ,LDCT)在不影响肺部成像的基础上,相较于常规CT辐射剂量更低(降低约75%~90%),同时又具备常规CT的敏感性。自2011年美国国家肺癌筛查试验(national lung screening trial, NLST)的数据显示LDCT可提高早期肺癌的诊断率,有效降低肺癌病死率后,LDCT在肺癌筛查的应用得到了有力推广。近年来,我国众多医疗机构已开展LDCT肺癌筛查,并且中华医学放射学分会心胸学组综合国际大型肺癌筛查项目和我国具体国情,制定了《低剂量CT肺癌筛查专家共识》,为肺结节筛查提供策略和支持[8]。依图医疗人工智能研发团队利用深度学习算法和浙江省人民医院的胸部CT低剂量薄层影像大数据,构建了拥有自主知识产权的“胸部CT智能辅助诊断”系统,能够基于真实的临床场景对肺结节进行智能检测。我院与依图医疗展开深入合作,部署并应用该系统。从2017年11月至2018年2月,利用本院门诊和体检场景下的LDCT肺结节检查和筛查数据,对系统进行应用能效评估,将结果总结分析并报道如下。
选择2017年11月至2018年2月期间在本院接受LDCT检查的受检者,剔除其中因图像不清晰或伪影明显,未出诊断报告的病例,余下共3750例均纳入本研究,受检者的年龄分布范围是36~72岁,平均53.8±10.3岁。因本研究仅使用AI辅助分析受检者CT数据,报告书写和审核仍由有资质的医生完成,本院伦理委员会免除签署知情同意书。
检测采用16排或以上多层螺旋CT扫描仪,包括GE BrightSpeed 16(美国)、Toshiba Aquilion ONE 640(日本)和Siemens Definition AS 128(德国)。头先进,深吸气屏气15秒内完成全肺扫描。LDCT采用低剂量扫描模式,螺距≤1,机架旋转时间0.5s,扫描矩阵设定512×512,重建层厚2.0mm,层间隔2.0mm,120kV、30~50 mAs。
在Dahl等[9]与Setio等[10]深度学习模型基础上,为构建性能更优的模型,作如下优化设计:①在每例LDCT扫描DICOM图像的2D切面上找到候选肺结节区域,将候选区域进行3D影像重构并切割成9幅对称的2D影像,形成2.5D结构;②把2.5D影像传输到神经网络中,判定是否为结节;③将切割后的结果输入3个不同设计的卷积神经网络(CNN)中,3种算法经过预先特定数据集训练、测试;④假阳性筛选采取多种卷积网络融合的方式,每种网络处理不同的二维影像视角;⑤在检测和假阳性筛选环节中,通过扭转切割等方式增加数据量,以避免过拟合现象的出现(图1)。
所有病例依据系统和医生处理结果,在病例的维度下被分为7个场景”(表1)。把系统检测到的所有结节分类,将系统检测出并被医生确认的结节归类为真阳性结节;将系统检测出但被医生删除的结节归类为假阳性结节;将系统未检测出、医生新增的结节归类为假阴性结节。
按照四格表对上述病例的灵敏度、阳性预测值、阴性预测值、错误率等进行统计分析,分析各统计值的变化趋势;利用两样本t检验分析真阳性、假阳性和假阴性结节在长径、短径、长短径比等影像学特征上的统计学差异。
本院2017年11月至2018年2月所有纳入研究的3750例中,按照前述的AI辅助诊断分类规则,其中场景二的病例最多,共1955例(占比52.13%);场景六的病例最少,只有5例(0.13%)。
2017年11月至2018年2月检测3750例的总体灵敏度、正确率、阳性预测值、阴性预测值和错误率,分别为96.63%、80.32%、69.41、72.87%、29.59%(表2);11月至2月各月份灵敏度、正确率、阳性预测值及阴性预测值等均有明显提升,其中阴性预测值提升了21.69%,正确率提升了4.61%;错误率则呈下降趋势,降低了12.17%。
图1 “胸部CT智能辅助诊断”算法模型示意图。
图2 三组结节几何形态变量比较。 A、 B.示真阳性结节组、假阳性结节组短径、长径均有统计学差异(P<0.001); C.示真阳性结节组与假阳性结节组长短径比无统计学差异(P=0.62>0.05),而真阳性结节组、假阴性结节组长短径比有统计学差异(P<0.001),假阳性结节组、假阴性结节组长短径比有统计学差异(P<0.001)。
3750例病例中AI辅助诊断系统共检测到结节30609个,按照前述的分类规则,其中归为真阳性结节的有16615个(54.28%),长径、短径、长短径比分别为4.04±0.89mm、2.96±0.38mm、1.37±0.28;假阳性结节13774个(45.00%),长径、短径、长短 径 比 分 别 为 4.16±0.96mm、2.92±0.37mm、1.43±0.32; 假 阴 性 结 节 2204个(0.72%),长径、短径、长短径比分别为 6.28±4.79mm、4.86±3.38mm、1.32±0.35。真阳性结节与假阳性结节两组长短径比无统计学差异(P=0.62),余各组间结节长径、短径、长短径比均有统计学差异(P<0.01)(图 2)。
表1 AI检测病例场景分类方案
表2 2017年11月至2018年2月辅助诊断系统效能 (单位=%)
van Ginneke等学者认为,评价计算机辅助诊断工具的应用效能并非容易,一旦其承担了第二诊断工具的角色,它的诊断效能必然会发生改变[11]。在对AI智能辅助诊断系统的能效进行评估时,通过对临床实践中遇到的各种结节检测场景进行仔细分析,笔者提出了从“病例场景”和“结节场景”两个不同维度进行合理的逻辑归类。以病例最终是否被诊断为“肺结节”作为评价目标,以医生判断作为金标准。“病例场景二”虽然医生删除了部分结节,但仍保留了AI检测到的结节,不改变病例“有肺结节”的诊断,在本研究中被归类于“真阳性”,而所有医生增加结节的场景均归类于“假阴性”。在“结节场景”维度,由于并不存在真阴性的情况,即AI和医生均未检测到的结节,因此并不能基于“结节场景”进行辅助诊断效能的分析。有文献认为[12],灵敏度高的分类器适用于疾病漏诊可能造成严重后果的情景,或为了排除几个可能诊断中某个疾病,抑或用于筛选发病率低的无症状病人。本组数据显示系统辅助诊断肺结节的敏感性高达96.6%,高于其在公共LIDC数据集上95%的灵敏度。因此,本分类方案适用于大规模健康体检肺结节检测病例场景,有利于减少大规模体检人群LDCT肺结节筛查实验中病例漏诊率。
肺结节在影像学上被定义为类球形阴影,是肺癌的重要形态学指标[13-14]。因此,本研究对肺结节本身的几何形状给予特别关注,将LDCT数据集中相关结节细分为真阳性、假阳性、假阴性的三组,集中统一获取每个结节的长径、短径、长短径等均并两两比较。结果显示真阳性组与假阳性组结节长短径比无统计学差异,提示有医生参与的2个结节场景中的结节长径与短径比值相仿。假阳性结节长径、短径分别小于真阳性结节长径、短径,说明AI检测到的小结节更易被医生肉眼忽略或认为缺少临床意义而被医生予以删除。我们注意到假阴性结节组长径、短径的均值更大,与预想有所不同。分析其原因可能为在序列图像存在的结节中,经过训练的医生的视觉分辨力相对稳定,AI遗漏结节可能与模型和训练数据相关。随着数据量的增加与迭代,深度学习算法对结节的几何特征描述的准确性和精确性亦可以不断提高,为进一步分析结节误诊、漏诊和确诊的原因分析提供大样本依据,也为改进CNN深度学习算法提供大数据支持。
综上所述,本研究基于“胸部CT智能辅助诊断”系统,分析本院从2017年11月至2018年2月共3750例LDCT数据,结果显示出AI在检测肺结节中具有较高的敏感性,并且具有较强的自我进阶能力,基于AI的胸部CT智能辅助诊断系统是在门诊和体检场景下LDCT肺结节检查有力的辅助工具。