李倩 刘颖 张宇威 叶兆祥
在1956年美国汉诺佛镇的达特茅斯会议上,人工智能(artificial intelligence,AI)的概念正式提出。此后,计算机处理医学图像的相关研究逐步开展。直至20 世纪80年代,计算机辅助检测/诊断(computer-aided detection/diagnosis,CADe/CADx)研究更为深入,但当时CADe 准确度有限,仅作为医生的辅助手段。随着2006年深度学习概念的提出,2012年以后深度卷积网络的兴起及图像处理器计算能力的提升,AI 进入快速发展期,在医学影像学领域,尤其是在肿瘤影像中的应用越来越广泛。AI能够自动对图像进行定量分析,在肿瘤的检出、诊断等方面具有重要价值。将AI与临床工作相结合有助于获得更加精确的影像学评估。肺癌是世界范围内发病率和死亡率最高的肿瘤,其早诊早治是改善预后的重要途径。AI能够处理大批量、高维度的信息,有助于提高工作效率,降低漏诊误诊率,并能避免医师间的差异性,降低医师的工作负担,在肺癌诊疗工作中具有广阔的应用前景。本文就AI在肺部肿瘤影像诊断中的应用进行概述。
AI 是一个由数学、计算机科学与神经科学交叉的前沿学科,旨在研究或开发模拟、延伸或扩展人类智能的计算机算法,使其能够帮助或替代人类完成某些任务。机器学习是AI 最为重要的子集,指计算机通过算法和模型识别数据模式或构建推理方式,在非人工引导的条件下完成特定任务的方法。机器学习依据训练方式的不同,可分为监督学习、无监督学习和强化学习。他们分别在医学影像学领域发挥重要的作用。
在2010年,Gillies 等[1]提出了影像组学概念,即将医学影像学数据转化为大量的定量特征,用来刻画肿瘤的形态、大小和纹理等,并将上述特征用于肿瘤的诊断、治疗等方面。在影像组学分析中,图像分割是基础,定量特征提取是关键。影像组学特征是专家通过特征工程定义的显式特征,数学意义明确,但需要根据不同的研究目的,确定其与客观临床指标间的关联。尽管有研究对影像组学特征的定义进行了标准化规范,但由于各研究团队大多具备自主开发的影像组学特征提取程序,其在实现过程中代码、近似计算以及算法细节的处理,仍可能导致输出结果的变异[2]。影像组学的本质实际上是通过人为定义的图像表示对影像数据进行任务驱动的再利用过程,机器学习算法主要参与后半段工作流程,扮演了“特征的学习者”角色。
深度学习(deep learning,DL)是机器学习的一种,也称为深度神经网络学习。其由多层级联的非线性处理单元构成,从而进行多层次特征学习。常见的深度学习模型包括卷积神经网络(convolutional neural network,CNN)、深度置信网络(deep belief network,DBN)和自编码器等。在医学影像领域,CNN最为常用,是一类包含卷积计算且具有深度结构的前馈神经网络,由输入层、卷积层、池化层、全连接层及输出层构成。根据CNN 各层的层数和性质,将其分为不同的网络拓扑结构,如AlexNet、GoogLeNet 和ResNet 等。深度学习应用于影像分析是在给定任务的条件下,由模型自主学习图像、同时完成模式识别或推理计算,特征提取的过程是自动且任务依赖的,算法既扮演“特征的创造者”,又扮演“特征的学习者”。因此,人工参与的步骤极大减少,提高了分析的效率和客观性。但深度学习中有大量的超参数,超参数调优受限于计算资源和时间;若深度学习中隐含层节点数过多,训练时间较长;训练数据量较少或分布不平衡时,深度学习存在过拟合的风险[3]。近年来,迁移学习的出现降低了机器学习对数据量的需求,实现了不同模型间权重参数的转移,使模型的泛化性能有所提升,特别适合医学图像数据这种标签分布不均且较难获得充足的专家标注训练数据的任务。
肺癌筛查是降低肺癌相关死亡率的重要手段。影像医师对肺结节的检出耗时、耗力,而且检出率还与病灶的位置、大小、与周围结构的密度差异等有关。美国肺癌筛查项目研究结果显示,基线筛查CT中有8.9%的肺癌病例漏诊[4]。AI具有自动检出肺结节的潜力,有助于提升影像医师诊断的速度和准确度。
CADe首先要选出所有候选结节,然后对结节进行分类(结节/非结节),去除非结节,降低假阳性率。候选结节的检出要求敏感性较高,尽可能选出所有可疑结节。降低假阳性率是CADe系统的主要挑战。肺部图像数据库联盟(lung image database consortium,LIDC)提供了大量专家标注的胸部CT图像,为肺结节研究创建了重要的基础平台,并能用于不同算法的比较,现已被广泛使用。本文中,CADe 系统的评估均以LIDC为基础。基于影像组学的CADe采用人工定义的特征。尽管不同研究所用特征的个数、名称各不相同,但主要基于结节的形态、密度和纹理等。既往研究[5]显示,肺结节检出的敏感性为82.7%~98.6%,假阳性率为1~38.8 FPs/scan,差异较大。检出效能的提升得益于影像组学特征的不断筛选和改进,而不同研究间出现的差异可能与研究中入组的结节有关。尽管数据均来源于LIDC,但不同研究所用的结节个数、种类差异较大。尤其在包含磨玻璃密度结节时,敏感性相对较低,假阳性率较高[6]。基于深度学习的CADe模型无需自定义特征,而是通过自主学习得到隐含层特征,提高分类器的分类性能,目前已有多项研究应用CNN进行肺结节的检测。Wang等[7]比较了不同的CNN结构在肺结节分类中的差异。结果显示,AlexNet、GoogLeNet 和ResNet 在假阳性率为4 FPs/scan 时,敏感性分别为72.16%、75.25%和89.6%,基于深度残差学习的ResNet更具优势。部分研究在2D CNN 的基础上进行变化,如Setio 的多视角CNN[8],即将结节从不同视角得到的二维渲染图作为原始训练数据,用经典、成熟的2D CNN进行训练,最后将多视角下图像的信息特征进行融合,得到的模型对结节的识别、分类效果较高。在假阳性率为1、4 FPs/scan的情况下,检测灵敏度分别达到85.4%和90.1%。虽然多视角CNN已经涉及空间信息的采集,但信息量有限。Dou等[9]提出3D CNN,并将结节周围不同范围内的背景信息整合,建立的模型假阳性率为4 FPs/scan时,敏感性在87.9%~90.7%之间。3D CNN可以更好的获取图像的空间信息,但其网络更为复杂,计算量更大。临床工作中,医师通常采用最大密度投影(maximum intensity projection,MIP)图像进行肺结节的辅助检出。受此启发,Zheng等[10]将MIP图像作为输入,敏感性进一步提高,在假阳性率为1、2 FPs/scan时,敏感性分别达到92.7%和94.2%。
随着CADe系统的不断发展和完善,AI将在肺结节筛查中发挥重要作用。但CADe 的敏感性和特异性仍是目前限制CADe 在临床广泛应用的主要因素。一方面,CADe 需要提升在特殊类型结节检出中的准确性,如贴胸膜结节、贴血管结节和磨玻璃密度结节等;另一方面,肺结节病理类型多样,在大小、形态和密度等方面存在一定差异。因此,增加训练集样本量,使其包含各种类型的肺结节,有助于提升CADe系统的性能。
AI 可以同时分析大量的图像,提取多层次定量特征,不仅有助于肿瘤良恶性的诊断,还可以对肺癌的组织学分型及侵袭性进行预测,在肿瘤的精确诊断中有广阔的应用前景。
影像组学分析关注于具有鉴别价值的肿瘤特征并建立模型。Wang等[11]对CT图像进行纹理分析,发现惰性、熵、相关性和总熵值等特征有助于鉴别肺结节良恶性;Gao 等[12]则提取了肺结节1 344 个三维纹理特征,用支持向量机建立的分类器鉴别良恶性肺结节的敏感性为98%,明显高于3 位临床医师(敏感性:73%),但特异性稍低(分别为78%和83%)。深度学习的发展使CADx得到进一步提升。Sun等[13]比较了CNN、DBN、自编码、迁移学习和影像组学方法在区分良恶性肺结节中的价值。结果显示,CNN 优于其他分析方法,曲线下面积(area under the curve,AUC)最高为0.899±0.018。Zhang等[14]将SE网络和ResNeXt相结合,即SE-ResNeXt,两者结合使特征的鉴别力得到极大提高,鉴别良恶性肺结节的准确性为91.67%,AUC高达0.960。
肺癌组织病理学分类直接影响其治疗方案的选择,影像标志物具有无创性,探寻可靠的影像指标将为临床工作提供重要依据。多项研究应用影像组学的方法预测肺癌病理分型,其中大部分关注于区分非小细胞肺癌的病理亚型,AUC值在0.69~0.90之间[15-19]。有研究[20]则将小细胞肺癌的病例纳入研究范围,采用静脉期CT增强图像,鉴别腺癌/鳞癌、腺癌/小细胞癌、鳞癌/小细胞癌的AUC值分别为0.864、0.864和0.664。另外,AI还可进一步评估肺腺癌的侵袭性,即鉴别不典型腺瘤样增生、原位腺癌、微浸润腺癌和浸润性腺癌。既往研究显示,具有预测价值的影像组学特征有熵、均匀度、最大强度等,建立的模型鉴别浸润前病变和浸润型腺癌的AUC值在0.85~0.95之间[21-22]。深度学习多采用3D CNN,与临床医师的评估结果比较显示AI准确性高于医师,AUC在0.712~0.880之间[23-25]。
综上所述,AI有助于辅助医师,尤其是低年资医师,提高诊断准确性。但是,不同AI方法在肺癌诊断中差异较大。深度学习在肺癌诊断中具有一定优势,不同方法相结合有助于进一步提升CADx系统的性能。目前,各项研究中的CADx仅局限于某一类鉴别诊断,其泛化和综合能力有待进一步证实和提高。
肿瘤分期是选择治疗方案的基础。影像医师在肿瘤分期中具有较大优势,可以同时分析多个部位、多种模态的图像,能够较好地确定肺癌的局部侵犯和远处转移,而影像组学分析仅局限于勾画的感兴趣区内。深度学习分析具有学习多种数据的潜力,但目前相关研究有限。既往对于AI在肺癌分期中作用的研究,一方面是基于原发肿瘤特征预测淋巴结转移及远处转移。如肺癌原发病灶的灰度共生矩阵-簇阴影、二维高斯拉普拉斯算子滤波后的灰度值偏度、低通高通小波分解-灰度共生矩阵-相关性等特征[26-27]与肺癌的远处转移有关;而Cong等[28]和Yang等[29]利用术前静脉期CT增强图像,将原发肿瘤的影像组学特征与临床特征相结合,预测淋巴结转移的AUC值分别为0.911和0.871;Ferreira-Junior等[16]的研究结果与此类似,其预测M和N分期的AUC值分别为0.92和0.84;Wang等[30]则研究了肿瘤周围1.5 cm以内的区域在预测淋巴结转移中的价值,结果显示,与肿瘤区域无明显差异。另一方面,也有研究尝试直接分析淋巴结等来鉴别良恶性。如Bayanati等[31]对肺癌患者的纵隔淋巴结进行影像组学分析发现,将纹理特征和形态学特征相结合可以进行更为准确的N分期(AUC为0.87)。Moitra等[32]将CNN和循环神经网络相结合用于非小细胞肺癌自动TNM分期,其准确性达92.91%。由此可见,AI在一定程度上可以对肺癌分期做出预测。与影像医师相比,AI敏感性较高,但特异性较低[33]。而且,影像组学和深度学习均受CT参数值(层厚、卷积核和迭代重建等)变化的影响[34]。因此,影像学医师在肿瘤分期中的作用仍无可替代。
肺癌基因突变状态不仅影响患者治疗方案的选择,如靶向治疗、免疫治疗等,还与患者的生存期和预后相关。因此,准确获得肿瘤的基因组学信息尤为重要。AI 对肿瘤内部信息深度挖掘,在挖掘影像信息与分子生物学特征的关联中可以发挥更大的作用,即影像基因组学。有研究[35]采用多中心肺癌数据,发现影像组学特征优于语义学特征(肿瘤的体积或最大径),能够预测EGFR 和KRAS 突变状态。Yoon等[36]提出峰度、逆方差、均匀性和簇阴影等能够鉴别ALK 融合基因阳性和ROS1/RET 融合基因阳性肿瘤。其他研究[17,19,37-38]显示,影像组学特征预测EGFR 突变状态的AUC 值在0.66~0.87 之间,CT 和PET 图像的预测价值差异较小,而CT 增强图像预测效能高于平扫图像。Wang等[39]开发了端到端的深度学习模型,可以较好地预测EGFR 突变状态,AUC 值达0.85。Li等[40]的研究结果显示,CNN模型优于影像组学模型,而且CNN 与两者的混合模型亦差异无统计学意义。部分学者进一步研究了EGFR 突变亚型的预测,如灰度非均一性标准化与Exon19突变有关,而最大2D 径线与Exon21 突变有关[41]。Zhao 等[42]建立的影像组学模型鉴别Exon19 和Exon21 的AUC 值为0.68。由此可见,AI 在预测肺癌基因突变状态中的价值还有待提高,距离临床应用仍有较大距离。
除上述应用领域以外,AI还可利用肺癌治疗前、治疗中或治疗后的图像预测治疗效果、复发及生存期等,在肺癌随访评估中也有重要作用。
随着成像设备和软件的不断发展,影像信息更为丰富、细致和详实,影像学在临床工作中的作用越来越显著,同时也给影像医师带来很大挑战。AI 的发展为影像信息的解读带来了新的希望,在肿瘤检出、诊断等方面显示出较大的优势和前景。目前,已有部分AI 软件试应用于临床,但均需影像医师进行再次解读和分析,某种程度上反而增加了医师的工作量,其根本原因还在于AI 并未超越影像医师。因此,提高AI 的可靠性和准确性亟待解决。数据仍然是限制AI 发展的关键问题,尤其是深度学习需要海量的数据进行训练。数据量的多少,直接决定了模型的可靠性。未来,应该进一步加强数据的标准化,开展数据共享,建立公共数据库,以辅助AI算法的开发、评价、对比和提高;其次,深度学习的中间过程可知性差。除了最后网络的输出结果之外,CNN 中隐藏层的逻辑关系也较难理解。此外,AI 的泛化能力有待证实和提高。与普通的图片不同,影像学图像更为复杂,疾病的影像表现多样,对AI也是极大的挑战。与此同时,AI的伦理问题也应值得思考。
AI 有助于获取隐含在肿瘤影像中的多种信息,并具有整合多种信息的潜力。因此,AI 的发展和成熟有助于肺癌的早期发现、诊断、治疗方案选择和预后判断。