钟来平,周知航,张志愿
200011上海,上海交通大学医学院附属第九人民医院·口腔医学院,上海市口腔医学重点实验室,国家口腔疾病临床医学研究中心,国家口腔医学中心 口腔颌面头颈肿瘤科
头颈肿瘤在组织学、基因突变和代谢特征等方面均表现出复杂性和异构性,如何依据头颈肿瘤的组织学、放射学和生物学特点,作出准确诊断,对制定个性化治疗方案,预测疗效及预后至关重要[1]。随着肿瘤检测手段的不断丰富,多组学概念应运而生,它包括了基因组学、转录组学、蛋白质组学、代谢组学、放射组学以及病理组学的整合,有利于深入了解肿瘤的发病机制和性质判断,但是多组学包含的海量数据分析,也是一种巨大挑战。
为了解决这一难题,深度学习(deep learning,DL)逐渐成为了研究热点。DL是人工智能(artifical intelligence, AI)的一种,衍生自传统的机器学习(machine learning, ML)。与传统的ML相比,DL免去了手动输入原始数据的过程,通过直接学习原始输入数据分析其与目标输出的相关性,促进对大数据集的利用。基于计算机算法和计算病理学的改进,DL能够用于良恶性肿瘤的识别、恶性肿瘤的分级和预后预测。在头颈肿瘤领域,Lu等[2]首次将DL应用于头颈部病理图像的分析;Ibragimov等[3]将DL应用于头颈部肿瘤的放射组学图像分析。本文旨在概述DL在头颈部肿瘤诊治中的新进展及其临床价值,包括早期诊断、肿瘤分期、辅助外科手术、预后分析等(图1)。
图1 多组学数据协同整合的示意图
头颈肿瘤发病的危险因素括吸烟、酗酒、局部刺激、咀嚼烟草、人乳头瘤病毒(human papilloma virus,HPV)感染等。早期诊断是提高疗效的关键之一。通过DL进行多组学分析,提高早期诊断率,有重要价值。放射组学能提供快速、低成本、无创的组织和器官特征,描述病变的形状、密度和相互关系等。这些特征可以通过不同的成像方式获取,如CT、MRI、PET等。由于医学图像中的某些灰度值或光谱差异,无法通过人类视觉进行评估,而DL则可以通过识别这些差异区分癌组织和正常组织。根据这一原理,DL有望结合头颈部临床检查、影像学资料和病理学诊断进行数据训练,对癌前病变和癌症病变的评估。
在DL技术中,卷积神经网络(convolution neural network, CNN)在图像检测、肿瘤组织划分、肿瘤细胞分类和计算机辅助诊断等方面具有明显的优势。Halicek等[4]通过CNN训练识别头颈鳞状细胞癌(head and neck squamous cell carcinoma,HNSCC)的高光谱图像,包含91个光谱波段,范围为450~900 nm,光谱采样间隔为5 nm;其准确性、敏感性和特异性分别为81%、81%和80%。Ren等[5]使用一种属于回归模型的套索算法(least absolute shrinkage and selection operator,LASSO)从HNSCC的MRI中提取数据,用于HNSCC患者的临床分期。Mukherjee等[6]将CT数据的主成分分析(principal component analysis,PCA)和正则回归分析,用来预测肿瘤分级、淋巴结包膜外侵犯、神经浸润、淋巴血管浸润和HPV感染状态。
基于共聚焦激光内镜检查(confocal laser endomicroscopy,CLE)实时显示体内的上皮细胞特征,其成像也能用于早期诊断和预测预后。Thong等[7]首次报道了CLE在口腔鳞状细胞癌(oral squamous cell carcinoma,OSCC)诊断中的应用。随后,Moore等[8]也应用CLE检测头颈部癌前病变,对诊断口腔上皮发育不良的敏感性为85.7%,特异性为80.0%。Aubreville等[9]设计了一种基于CLE的DL系统,可用于OSCC早期诊断。此外,除了影像组学的DL,蛋白质组学也可应用于OSCC的早期诊断,Ni等[10]从OSCC患者唾液中提取蛋白质,通过CNN筛选出与淋巴结转移相关的生物标志物。
DL适用于数字病理学相关的图像分析。在头颈肿瘤的病理诊断中,由于需要评估细胞核异型性,像素级的识别可以将其归类。在这个过程中,算法识别的特征图片可以进行加权参数处理,将相似特征的聚类映射到同一输出标签下。
Lewis等[11]开发了一套自动量化HNSCC形态学特征的方法,并以此对p16阳性的侵袭性OSCC进行分类。该方法首先生成聚类细胞图,对有丝分裂细胞的空间分布进行评价,使用随机森林(random forest,RF)决策树和支持向量机(support vector machine,SVM)对特征进行分类,准确率为87.5%。Aubreville等[9]设计的DL模型检测可疑OSCC,整体图像识别的曲线下面积达到0.96,准确率为88.3%(敏感性86.6%,特异性90%)。
Halicek等[12]设计的CNN通过高光谱图像可以对手术切缘进行准确识别;作为一个端到端的DL网络,既可用于特征提取,可以作为分类器进行分类,通过训练CNN,能够以81%的准确性(敏感性84%,特异性77%)分辨OSCC的肿瘤和正常组织。Lei等[13]训练CNN来自动提取具备有丝分裂特征的细胞,能确定所有有丝分裂细胞的位置。该方法在国际模式识别会议的有丝分裂检测测试数据集上显示了出乎意料的高准确性。
除有丝分裂外,细胞器的识别在病理组学中也十分重要。检测细胞或细胞核的常用策略是将CNN分类器训练为像素分类器,以检测对象为中心的模块在被监控的条件下对CNN进行训练。训练过的CNN模型通常包含二分类器(Yes或No),应用于全切片数字化图像(whole slide imaging,WSI),检测所有组织成分,并输出概率图,每个像素被转移成一个可能的值。因此,原则上可以通过在生成的概率图中找到一个局部最大值来定位目标对象,完成细胞核或有丝分裂检测任务,计数或提取WSI中的定量指标。该算法建立在将输入图像的软件补丁映射到密度图的基础上,最终通过密度图计算出原始图像中的细胞数量。
DL在肿瘤微环境特征(tumor microenviroment characteristics,TMC)的分析中也扮演着重要的角色。TMC分析中最重要的步骤是在病理图片中对不同类型的组织和细胞进行分类。在这个过程中,肿瘤细胞可以分为实质细胞和间质细胞。有研究[14]发现肿瘤与间质比率可以作为总生存率和预后的组织学预测因子。
分辨任务比有丝分裂检测更困难,因为薄壁组织可以在低放大率下分析,基质(如淋巴细胞、巨噬细胞、成纤维细胞等)需要在高倍镜下分析。在细胞核分辨方面,40倍放大率比20倍放大率表现更好。完全卷积网络(fully convolutional networks,FCN)和UNet[15]可以接受任意尺寸的输入图像,并进行等比输出,针对头颈肿瘤的异质性和复杂性,通过数据增强来分辨各种类型细胞。
DL在协助外科医生制定手术计划方面,可以发挥智慧外科的作用。外科医生可以借助AI对人群和患者特定数据的分析,提高手术的准确性。DL通过收集世界各地外科医生的大量手术视频和电子病历数据,增强知识共享,生成根据结果评估的实践和技术数据库。视频数据库可以利用计算机视觉捕捉罕见病例或解剖,在术前、术中和术后护理阶段收集和整合数据。这样可以在设计和验证为基础的实践中进行创新,提高手术质量[16-18]。外科医生作为DL技术优化外科治疗的受益者,有机会与数据科学家合作,获取新的临床数据或呈现形式,并凭借自己的医学知识对这些数据进行深入的解释。外科医生具有宝贵的临床经验和知识储备,可以引导数据科学家和工程师用正确的数据回答相应的问题。工程师可以为数据分析提供自动化的、计算性的解决方案。以技术为基础的外科实践传播可以使每位外科医生都有机会提高手术质量。AI可以用来创造手术流程共识,提供诸如术中GPS式的指导以及类似的术中辅助决策性技术支持。为此,相关的算法必须具备透明度和可解释性,AI才能对其进行预测和建议。如果开发和实施得当,AI有可能彻底改变外科手术的教学和实践方式,为高质量的外科治疗提供标准化流程。
此外,几家外科公司正与科技巨头联手开发基于DL技术的智能外科机器人。Accuray的射波刀等可编程机器人系统,能够根据一个预定义的治疗计划,用点源摧毁特定位置的肿瘤[19-20]。基于术前CT的三维重建,先后有两款手术机器人分别用于关节置换和口腔种植[21-22],这类机器人确保了手术过程中预先计划好的步骤精确执行,从而避免偏差,提高疗效。尽管如此,基于DL的手术机器人主要应用于骨组织相关的外科手术中,距离全面应用于外科领域尚有距离,其主要是人体组织,特别是软组织的复杂性,阻碍了DL的准确识别,还需要深入研究。
近年来,越来越多的学者认为DL预测预后具有潜力,开发了许多预测模型及软件,用于预测头颈肿瘤的复发转移及预后,例如PCA、RF、LASSO、In-house built Accurate tool、Z-Rad radiomics software、LIFEx等[4-6,11,23-32]。举例来说,Tixier等[26]分析了45例局部晚期头颈癌患者的放射组学和转录组学数据,应用模糊局部自适应贝叶斯算法来评估放射组学特征和信号通路改变之间的关联,发现放射组学特征与细胞周期、DNA修复、细胞外基质组织、免疫系统、代谢和信号转导通路相关。Zhu等[31]将126例HNSCC患者的基因组学数据与CT影像数据进行整合,发现基因组特征与CT特征存在显著相关性。
在DL出现前,多采用逻辑回归分析、Cox分析等评价预后。基于DL的生存预测可以提高预测精度,有助于精准医疗。Tseng等[33]利用临床变量和组织病理学特征构建CNN来预测口腔肿瘤患者的生存,发现CNN模型在训练精度和交叉验证精度上均优于Logistic回归模型。Brennan等[34]使用聚类分析的方法分析HNSCC患者的基因组学和表观遗传学数据,发现了CpG岛甲基群。因此,将基因突变和分子标记物等新型预后因素,与传统预后因素结合,构建非线性DL网络,将有利于提高预测的准确性。
蛋白质组学和转录组学也被用于研究头颈肿瘤局部复发、淋巴转移和远处转移。Onken等[35]使用聚类分析的方法在四个鳞状细胞癌(squamous cell carcinoma,SCC)数据集上提取了预测口腔肿瘤远处转移的转录组特征。肺是鳞癌最常见的远处转移部位,原发性SCC也可发生在肺部。通过ML和蛋白质组学数据分析,Bohnenberger等[36]发现肺转移性HNSCC和原发性肺SCC蛋白特征具有重大差异。Carnielli等[37]利用组织形态学导向的蛋白质组学分析肿瘤岛和间质中的蛋白表达,预测肿瘤复发和淋巴转移。Kaddi等[38]通过6种不同的ML模型(KNN、SVM、naive Bayes、DT、AdaBoost和RF)分析蛋白质组学和转录组数据。结果表明,基于转录组和蛋白质组数据的预测模型比单独使用转录组或蛋白质组具有更好的预测效果。
AI高度依赖可靠的大数据库,但头颈肿瘤的大数据库还不完善,病理切片数据库尚未建立。除了配置数据库所需的硬件外,还需要设置自动处理的图像数据库。当数据库从临床病例中获取图像时,还需要获取图像的属性。随着时间的推移,数据库也会自行增长[39]。除了数据库的大小,数据质量筛选也是DL系统开发面临的巨大问题,目前很少有DL系统投入到临床应用中。其主要原因是开发阶段的DL系统缺乏对外部数据的严格评估,从而导致不符合实际的临床应用预期。
低质量的图像也是DL分析的一个问题。Chen等[40]提出了一个联合框架,包括了一种名为通道融合迁移学习的新型迁移学习策略和一种名为SRFBN+的深度超分辨率框架,致力于生成以低分辨率为输入的高分辨率片图像。另外,病理学家的稀缺,也增加了数据清理和标记的难度,头颈肿瘤的高异质性使得许多罕见肿瘤需要准确标记。所以,需要建立一个统一的标准化多数据集的图像输入网络,减少样本选择和医生诊断误差造成的偏倚,减少DL训练中影像学数据像素不足造成的识别偏倚[41]。
目前AI缺乏统一的创新评价标准。统一评价标准存在很多现实困难,需要在一些相对成熟的领域去完善。还涉及到一些数据管理领域,包括管理标准、患者隐私保护标准、知识产权保护标准等。数据管理标准的建立将允许访问不同的匿名成像数据集。而数据技术标准化有助于克服一些技术障碍,例如使用不同的图像归一化或样式转换方法(如旋转、剪切、缩放和基于图像直方图的修改)进行预处理。
CNN在图像分析和处理方面功能强大。将WSI与DL算法结合用于肿瘤检测、分类和预后预测,有助于病理学家进行临床评估。CNN的主要成分是卷积层和池化层,它在处理目标检测上有优势,也有一些缺点,包括训练和检测过程非常耗时,归一化方法会丢失一些有区别的细节等。FCN适用于像素级的图像分辨,它由卷积层和反卷积层组成,可以接受任意大小的输入图像,保留原始输入信息;但FCN的缺点包括冗余信息,需要大量可靠的样本。为了克服上述问题,人们提出了更多新的基于FCN或CNN的图像分辨架构(如UNet++、SegNet和ENet)。Pan等[42]提出了一种基于FCN架构的DL模型,用于自动识别食管SCC的淋巴结转移。与以往专注于病理和放射学图像分析的孤立任务相比,该研究将独立的DL模型集成到一个通用模型,大大提高了分析的效率和准确性。
随着计算机技术的不断进步以及临床理论的逐步发展,我们相信在未来,DL技术能够基于多组学分析,大大提高HNSCC的早期诊断灵敏度。此外,随着代谢组学以及病理组学等与DL技术的不断结合,未来有望依据大数据分析,对每位患者制定个性化的治疗方案,提高局晚期患者的预后。针对手术治疗,如果能够建立算法透明,数据偏倚较小的手术视频数据库,有望实现全球范围内的手术计划辅助设计,以及术中AI导航的智慧外科手术,提高头颈肿瘤外科医生的手术水平,提高患者的生存质量以及预后。