龙洁 王培涵
(口腔疾病防治全国重点实验室·国家口腔医学中心·国家口腔疾病临床医学研究中心·四川大学华西口腔医院口腔颌面外科,四川 成都 610041)
人工智能(Artificial intelligence,AI)是具备模仿及超越人类智慧认知能力的所有机器或技术集成[1-2],目前基于深度学习(Deep learning)的人工智能技术在医学领域有了积极地应用与实践,其智能图像处理能力在多器官的组织结构及相关病变的临床辅助诊疗中表现出优异的性能[3-6]。口腔医学领域中,不同机构及研究团队已成功将AI技术应用于牙体及牙周疾病、颌骨疾病和肿瘤及区域淋巴结转移的诊断,初步建立了不同的自动智能诊疗系统[7-8]。腮腺是唾液腺肿瘤好发的腺体,腮腺肿瘤是口腔颌面外科的常见病和多发病[9],其中良性肿瘤发生率相对较高,临床上针对不同性质的腮腺肿瘤治疗方法各有不同,精确的术前诊断以及合理病灶切除范围对于腮腺肿瘤的治疗及预后存在至关重要的影响。然而,诸多因素造成腮腺区不同肿瘤的临床症状有时并不典型,因此,对腮腺肿瘤的精准诊疗仍存在一定的临床挑战。本文围绕深度学习技术在腮腺肿瘤智能诊疗的应用和前景开展讨论分析,以期进一步推进人工智能技术与口腔临床医学的结合及应用。
深度学习技术近年在各学科引入计算机视觉研究领域,以脑神经元结构为参照,深度学习神经网络按照一定的智能要求进行组合搭建形成了人工神经网络(Artificial neural network,ANN)[1],神经网络通过不断的智能学习进行关键数据更新,形成了具备自适应深度特征提取结构的深度学习神经网络[2]。深度学习神经网络可以弥补人工筛选的不足,使模型训练结果更具科学性,同时可对专业人员肉眼难以识别的图像细节特征进行提取并进行组合学习,实现对数据的深度挖掘,这是其相比传统机器学习技术的优势所在。卷积神经网络技术(Convolutional neural networks,CNNs)目前应用最为广泛,卷积操作可对图像数据进行由低层到高层的关键特征提取,通过加入池化层进一步精炼图像细节,有效减少了模型的训练数据集。CNNs因其高效的智能图像处理及自动提取能力在医学领域得到广泛应用。将各种模态影像图像与深度学习技术相结合所建立的人工智能诊疗系统已经在临床工作中体现了较高的应用价值,减轻了专业人员的工作强度,实现了部分疾病的智能精准诊疗,依靠基于深度学习的数据驱动分析算法有效支持了临床医生的治疗决策。
1.1 腮腺影像图像单一网络分割模型的应用 腮腺组织及其占位性病变影像图像的精确分割对于腮腺疾病的智能诊断和手术切除区域确定等合理诊疗规划的制定非常关键。目前临床上进行腮腺及病变组织的手动图像分割费时费力,需要专业人员具备丰富的颌面外科及影像学专业技术储备。此外,头颈部组织器官相当复杂,其影像图像形态不规则,边界重叠,受口腔义齿或者包括接骨板在内的金属植入物产生的金属伪影严重影响图像清晰度,对头颈部影像图像中的关键组织结构手动分割相当困难。诸多实践已经证实应用深度学习技术对腮腺影像图像的智能分割可有效减少人力的投入并显著提高分割精度。深度学习早期多采用单一网络分割模型,诸多研究者聚焦腮腺的图像分割做了积极地尝试。斯坦福大学研究团队[10]在2016年利用CNNs对头颈部重要器官组织的CT图像进行了模型分割训练,该网络主要由卷积层、最大池化层和全连接层三部分构成,模型提取了CT图像中包含感兴趣组织及其周围背景的切片,通过卷积操作捕获局部图像特征用于网络训练,提取目标器官的光滑体素中最大的连通分量,去除该分量的空腔实现了对感兴趣组织的图像分割,该模型算法的腮腺图像分割任务经五折交叉验证后的平均DSC(Dice coefficient)为(77.3±5.8)%,该早期模型的算法结果对腮腺分割虽不很理想,但该工作显示了深度学习技术在头颈部图像器官分割方面具备应用前景。Tong等[11]提出全卷积神经网络(Fully convolutional neural network,FCNN)与形状先验模型(Shape representation model,SRM))相结合的头颈部器官图像分割方法有效提高了分割精度,该方法首先使用SRM在训练数据集中学习目标组织的潜在形状,然后使用预先训练好的固定参数SRM约束FCNN训练。该模型在患者头颈部CT图像上腮腺分割任务DSC大于83%,显示了图像分割技术的优化会较好的提高深度学习的智能效果。类似的研究和实践国内外近年逐步均有报道,取得了较好的图像分割及疾病智能诊断效果。
1.2 腮腺影像图像集成网络分割模型的应用 腮腺区域是头颈部组织解剖结构较为复杂的区域,因此尽管深度学习网络在腮腺影像图像处理及分割取得了可接受的智能效果[12],但单一学习网络受到的干扰因素较多,有时图像分割效果并不理想。为进一步提高腮腺分割的效率,优化影像图像的智能处理性能,近年来应用集成网络模型进行深度学习逐渐受到重视。集成网络模型可将多个单一模型组合在一起进行深度学习,其对图像的分析处理及对疾病的智能诊断优于单个学习模型。与单一网络相比,集成框架能够更加匹配智能诊断任务,易于发现不规则样本,提高学习分割网络的性能和鲁棒性。Peng等[13]建立了一种改进的U-Net结构用于深度学习训练,其腮腺CT图像分割中的DSC系数达到93.43%,该团队建立的Organ-Net在U-Net基础上进行了改进,整合一系列单一用途的技术形成复合网络模型,减少了无效样本,有效的解决了像素不平衡问题。广岛大学Kawahara等[14]提出将逐步网络(Stepwise-net)用于头颈部的关键图像分割,该模型基于2个U-net模型在腮腺分割任务中实现了81%的平均DSC。南方医科大学Zhong等[15]选择ResNet18作为分类训练模型,将三级ResNet18联合,采用Boosting方法对训练数据进行调整,保留每一级网络输入正负样本均衡,该模型的计算结果显示其对腮腺影像图像的分割优于单一网络。
除CT以外,磁共振(Magnetic resonance imaging,MRI)图像也可作为腮腺及其占位性病变分割的图像数据来源。Tong等[16]开发了一种新方法用于头颈部CT和MRI成像上的全自动组织分割,其技术使用形状约束生成对抗网络进一步提高了SRM方法[11]的分割精度,该模型利用判别网络纠正预测结果与标签间的误差以减少假阳性结果的出现,约束预测形状,该技术建立的SC-GAN模型通过结合GAN和Dense-Net网络结构在CT和MRI图像中均实现了较高的精确度分割。
对腮腺超声图像的处理也有积极的尝试。Zhang等[17]在腮腺肿瘤超声图像上的分割也应用了深度学习集成网络,该团队提出了一种基于收缩金字塔框架和融合注意力转换器CNN块的金字塔卷积变压器用于腮腺肿瘤分割。在该架构中,收缩金字塔框架通过整合图像的多尺度依赖关系,有效地捕获像素密集的腮腺肿瘤图像特征,该模型在腮腺肿瘤图像分割工作中实现了91.51%的Dice相似系数,显示了较好的智能图像处理能力。
1.3 腮腺影像多模态医学图像分割模型的应用 MRI成像时间长且费用较贵,相对于CT图像数据,MRI数据的获取更为困难, 不同团队与机构均积极探索研发更好的算法以尝试解决深度学习中MRI数据不足的瓶颈。Kieselmann等[18]开发的深度学习系统不同于传统的数据增强和迁移学习方法,该研究注释了大量CT图像,通过Cycle-GAN[19]网络合成MRI图像后,将CT图像的标签与合成的MRI图像一起输入2D U-Net进行深度学习网络训练,最后将训练好的网络应用于真实MRI图像,实现了在MRI图像上进行分割腮腺的任务。该模型的创新思想是将足量带注释的CT数据集用以丰富数量有限或没有数据注释的MRI数据集,该模型将图形配准、迁移模型以及跨模态学习等技术相结合,有效解决了训练集数据较少的技术瓶颈。
近年来基于深度学习的腮腺肿瘤AI诊断陆续有实际临床应用和探索,不同机构基于各种模态的影像学资料开展智能诊断系统的研发。在医工合作的大背景下,研究人员均聚焦更好的算法和算力推动深度学习技术在口腔临床智慧医疗的进展。Yuan等[20]成功将ResNet-50应用于腮腺肿瘤CT图像的分类,其建立模型分类准确率达到90%,提示深度学习技术可对CT图像中腮腺肿瘤智能诊断发挥关键作用。新疆大学Zhang等[21]通过对腮腺CT数据进行深度可分离卷积操作并在卷积完成后加入非线性层对经典CNN进行优化用于对腮腺良恶性肿瘤的诊断,其模型对腮腺肿瘤智能诊断准确率高达 97.78%。武汉大学Shen等[22]聚焦于基于深度学习的腮腺肿瘤术前诊断方法的应用,该团队基于3D DenseNet-121研发了用于腮腺肿瘤良恶性鉴别的二元分类器,将模型的腮腺肿瘤智能诊断性能与临床医生进行了比较,并通过测量临床医生在模型辅助下的诊断正确性变化来评估模型的智能功效,证实了该模型的诊断准确性达95.5%,其自动诊断能力相当于执业临床医生水平。上述相关工作成果显示在基于CT图像深度学习的辅助下,AI模型对腮腺良恶性肿瘤自动诊断的能力值得信赖。
基于MRI图像的深度学习与以智能诊断腮腺肿瘤的结果同样非常可靠,Chang等[23]研发出的全自动腮腺肿瘤诊断系统采用迁移学习对U-Net模型进行训练,使用二维卷积神经网络U-Net对腮腺肿瘤MRI图像进行分类,证实该模型可对沃辛瘤和多形性腺瘤进行高精确度诊断。复旦大学Xia等[24]优化设计了ResNet-18模型对不同模态的腮腺肿瘤MRI图像进行分类,该模型将三个不同模态的肿瘤图像和t1加权的无病变腮腺图像共四个通道输入到一张图像中,模型对腮腺肿瘤诊断准确率较高,该工作提示随着通道数的增加,模型的精度也逐渐提高,使用多通道图像输入可提高模型自动识别肿瘤特征的智能性。此外,实际临床的医工合作中,合理融合不同模态可增强网络深度,多模态图像融合有助于更丰富的关键信息获取,进而提升诊断的可靠性[25]。
建立深度学习智能疾病诊断模型需要足够多的带标签数据,临床实践中有时并不容易获取更多的数据,为了减少标签数量有限的影响,Matsuo等[26]建立了加入异常检测和L2约束的损失了softmax的改良VGG-16模型,运用非医学数据进行数据增强预防小数据集的过拟合,计算结果显示该模型优于传统深度学习方法和放射科医生的诊断水平,为数据量小且分布不平衡深度学习模型的建立提供了较好的解决思路。
本研究团队近年来应用深度学习技术在腮腺肿瘤的智能诊疗方向做了积极地探索。收集并分析了多例腮腺肿瘤患者的增强CT图像数据,建立了带有标签的腮腺肿瘤增强CT图像分割和分类标注数据集,在该数据集的基础上,分别建立了基于U-Net的腮腺肿瘤增强CT图像自动分割模型和基于ResNet-18的腮腺肿瘤增强CT图像自动分类模型,完成了包括腮腺增强CT数据集建立、自动分割及分类模型构建在内的腮腺肿瘤增强CT图像分析及智能诊断软件的研发。本研究模型算法通过增加卷积块注意力模块(Convolutional Block Attention Module, CBAM)和Dice系数差异函数(Dice loss)以缓解腮腺肿瘤区域与非肿瘤区域图像面积的不平衡,使网络聚焦于感兴趣区并抑制网络对不重要图像特征的关注,提高模型对肿瘤定位的精准性从而优化网络的智能分割性能。该智能诊断软件可实现快速分割,表现出了较高的自动分割准确性,可有效鉴别常见腮腺肿瘤及其良恶性,在与有5年以上工作经验的口腔颌面外科医师手动分割及人工鉴别诊断水平的对比中展示出了明显的优势,有效的减少了人工图像分割的工作量,提高了腮腺占位性病变智能诊断的准确率。
放射治疗是头颈部肿瘤的重要治疗手段,然而,不合理的放射治疗计划可能对头颈部多个复杂的解剖结构及器官造成不同程度的损伤,从而引发相关病理性变化,对射线敏感性组织或器官进行放射剂量保护非常关键。腮腺位于面侧份,经常居于头颈部肿瘤放疗区域内,其腺体在射线作用后容易发生组织学及功能改变,因此头颈部肿瘤放疗时合理设计放疗计划对尽可能保护腮腺正常腺体的功能至关重要。基于深度学习的图像引导放射治疗可使临床放疗计划的精确性增高[27]。Barateau团队[28]发现锥形束计算机断层扫描图像可用于头颈部肿瘤放疗每日放射剂量的监测,以评估腮腺结构变化并指导放射剂量的调整,该工作通过对比基于生成对抗网络的深度学习方法执行剂量计算的准确性与现有的其他剂量计算方法来评估深度学习方法的放射自适应性能,表明深度学习方法可以在头颈部肿瘤放射治疗过程中监测腮腺的放射剂量并可及时进行治疗计划的调整。杜克大学Li等[29]研发了一种基于深度学习的AI技术,该技术采用cGAN 的AI系统可以生成头颈部放射治疗计划,并可智能控制具有可接受的放射剂量,这种AI系统在放疗预先决策和实时规划中具有较好的临床应用潜力。
对放射后组织器官的并发症预测有助于临床决策及规划个性化治疗。宾西法尼亚大学Men等[30]提出了一种三维剩余卷积神经网络(3D residual CNN,3D rCNN)和放射治疗数据相结合的腮腺功能受损导致口干症的混合预测模型,该工作将CT图像、三维放射剂量分布以及腮腺和颌下腺轮廓同时输入,以口干症的预测作为输出进行模型训练,结果显示模型表现出较好的智能预测性能,提示放射剂量分布是预测口干症的关键因素,与传统的逻辑回归预测模型相比,该智能模型表现出较好的放射后口干症的预测准确率,验证了该AI模型可用于指导放射治疗并降低放射并发症的发生。Fanizzi等[31]将深度学习应用到放射组学中,利用通过预先训练的AlexNet从治疗前腮腺CT图像中提取放射组特征、从辐射剂量图中提取剂量特征并收集放射治疗开始前的临床特征,综合三种数据预测口咽癌患者放射治疗后3个月的口干症风险。支持向量机分类器首先在上述三个子集上进行训练,综合所有特征类型后进行联合训练,结果显示在放射学特征独立试验中模型的智能预测准确性较好,表明利用预先训练的深度学习网络仅用作特征提取器时并不需要训练阶段,可以大大减少计算时间,且深度学习技术结合放射组学所建立起的模型在小样本的数据集可获得较高的泛化性。
基于深度学习的人工智能技术在腮腺肿瘤智能诊治领域中取得的较大进展,包括笔者在内的国内外诸多医疗机构及团队围绕该领域开展了技术攻关,一些已报道的智能腮腺肿瘤自动疾病诊疗系统性能稳定,诊断精确,能够模拟甚至高于经验丰富专业人员的诊断水平,充分显示了智慧医疗的潜力及良好前景。然而,大数据集的建立是形成可靠智能深度学习模型的关键,出于对患者信息的保护和医学数据处理的困难,易导致深度学习所需的数据集较小且缺乏平衡,腮腺及相关肿瘤性病变的深度学习也面临这一瓶颈。因此,尽管深度学习模型性能在不断提高,但想要建立强鲁棒性和泛化能力的系统仍必须获得大规模多模态高质量标注数据集的支持,如何在标注数据集数量不足的情况下建立高性能深度学习模型在未来的智能化系统构建中极为关键。目前聚焦的关注点主要包括提倡更有效的医工结合,构建高质量数据集以及努力提高算法及算力,这将进一步推动人工智能技术的深入研究及临床应用实践。