周燕燕,邓 杨,包 骥,步 宏,2
四川大学华西医院 1临床病理研究所 2病理科,成都 610041
人工智能(artificial intelligence,AI)被认为是推动科学发展的重要驱动力,正在融入社会生活的各个方面[1-2]。在与现实结合应用过程中,由于存在数据隐私泄露、不可解释、决策失误以及责任无法界定等情况,AI面临不被信任的危机,阻碍了其在实践中的进一步发展。为促进AI的实践应用,华东师范大学软件学院院长何积丰院士于2017年 11月首次提出了可信人工智能(trusted artificial intelligence,TAI)的概念。2020年,欧盟发布了《人工智能白皮书》,提出AI“可信生态系统”,旨在落实AI应用的管理框架,促进AI的使用[3]。中国信息通信研究院联合京东探索研究院于2021年7月发布了国内首本《可信人工智能白皮书》,提出TAI是从技术和工程实践的角度,落实伦理治理,实现创新发展和风险治理的有效平衡,其具备如下五要素:数据保护、透明可释、多元包容、可控可靠和明确责任[4]。
随着AI的发展以及全视野数字图像(whole slide image,WSI)的出现,使用计算机辅助病理诊断逐渐成为现实。病理AI经过近几年的发展,已能够有效识别病理切片上的组织生物学特征,在肿瘤区域识别、组织学分级、预测分子分型等任务中均取得了一定成效[5]。但病理AI广泛应用于临床诊断尚未实现,TAI的提出为解决数据安全共享、AI可解释性以及多模态信息融合问题提供了可行技术方案,将进一步促进AI在临床医疗及病理中的推广应用。
目前,AI已展示出在图像识别和大数据处理方面的优势,但AI技术尤其是深度学习技术对数据具有很强的依赖性,需要大量数据用于模型训练以得到高性能的系统。单一医疗机构的病理数据常常无法达到训练模型的数据要求,成立中心数据库、扩大数据量用于模型训练是理想的解决方案[6]。然而,由于隐私数据保护法规的颁布(如欧盟《通用数据保护条例》[7]及中国香港《人类数据隐私条例》[8]等)以及人们数据保护意识的提高,隐私保护逐渐受到重视,将不同机构间数据集合并成立数据中心的难度较大,“数据孤岛”现象不断浮现,导致AI在病理领域的应用受阻[9-10]。
为了在保护数据隐私安全的条件下解决“数据孤岛”问题,技术人员建议引入联邦学习(federated learning,FL)技术。FL是一种多分布式联合学习技术,在数据有限共享的前提下,通过中心数据库传递系统参数,在多个数据库间开展学习,力求获得高精度的系统[11]。FL并非全新的算法,其已广泛应用于放射学图像分析领域,解决影像数据分散的问题,并取得了不俗成效[12]。FL在病理领域起步较放射领域晚,但也在逐步开展应用,Lu等[13]使用FL算法成功训练了一套基于WSI预测生存周期的系统,与单一数据集训练系统相比,该系统具有更高的性能。
然而在实际应用中,由于各数据中心病理切片的试剂和制作工艺不同、数据标准不统一,导致切片质量存在较大差异,直接使用此类数据进行FL训练将会影响整个系统的性能,因此需采用标准化数据集进行训练。为获得标准化数据,在病理制片方面,建议通过医联体及医共体制订标准制片流程,以减小切片受试剂和染色步骤的影响;同时以机器自动化染色代替手工操作,从而减少手工染色误差。在计算机技术方面,可对数据集进行预处理,使数据在FL训练前达到较高的均一化,以进一步提高数据标准化率。总之,FL在病理AI领域的应用仍有较大空间,未来将对病理AI的发展提供极大帮助。
机器学习是常用的AI技术之一,但由于机器学习尤其是深度学习算法内部架构过于复杂,技术人员难以检测到模型内部的偏差,且系统决策难以追溯到输入特征,医生与AI缺乏有效交互,导致医生对AI并不信任,影响了其在医疗领域的应用,因此需增强AI模型的可解释性。深度学习解释的方法种类很多,可简单分为系统自带解释属性的事前解释和在系统决策后加入事后解释模型的事后解释2种方式[14]。
目前病理领域大多采用标注的数据直接训练算法模型,得到数字病理系统,然后置入可解释模型,解释决策的原因,属于事后解释。事后解释能够可视化输入数据特征与决策之间的关系,常用于标记AI决策依据的特征,帮助人类理解AI系统。通用的解释模型有反卷积网络(deconvolution)、积分梯度(integrated gradients)、梯度加权类激活映射(gradient-weighted class activation mapping,Grad-CAM)以及模型无关的局部可解析性算法(local interpretable model agnostic explanation,LIME)等,已在研究中广泛应用[15]。例如,Yu等[16]使用卷积神经网络(convolutional neural network,CNN)训练系统识别肺鳞癌和腺癌,并使用Grad-CAM模型解释决策,根据显示区域重要性的热力图来看,AI的决策特征来源于正确的鳞癌和腺癌组织区域。Sousa等[17]使用LIME解释CNN模型如何从淋巴结图像中判断肿瘤细胞,发现CNN判断依据的图像特征与专家诊断依据的图像特征基本一致。
但事后解释模型多基于输入及输出关系得出类似解析,虽可对AI系统的解释提供参考,但解释结果未必真实[18-19],因此还需从技术上对模型进行完善。Li等[20]设计了一种基于Shapley Value的特征重要性估算解释模型,在脑CT图像中用于确定自闭症分类模型中不同脑区的重要性。由于对于解释结果存疑,该团队继而基于DeepSHAP设计了一种Dist DeepSHAP解释方法,在生成重要性图像的同时生成对应的不确定图像,通过重要性图像确定模型决策的特征,再通过不确定图像排除不确定性高的区域,从而获得模型决策与图像特征的关联性[21]。
由于病理医生关注图像特征与决策之间的关系,根据图像特征构建具有可解释能力的系统亦是可靠的办法。研究者根据病理AI实际情况提出,可通过改善传统训练模式、开发AI与病理结合的新模式以及使用新的算法达到提升可解释性的目标。Sarder[22]在模型数据标注和训练中,从分割特征完整的信息单元提取定量特征以区分信息单元,再对整体进行信息聚合,得到了便于解释的模型。Hegde等[23]开发了一种基于深度学习的组织病理学图像反向图像搜索工具SMILY,对于输入的图像,模型输出相似的图像及信息,从而回答了何种图像特征决定模型决策的问题。
图神经网络(graph neural network,GNN)是一种用于处理图数据的神经网络结构,其特点是可以捕获实例之间的相互依赖关系并进行分析,故模型本身具有可解释性。对于医学图像而言,可将图像拆分成特征进行结构学习,通过面关联特征之间的关系,对模型作出解释。因其学习和建模过程类似于病理医生学习病理图像诊断的过程,是一种有潜力的可解释性算法,GNN的预测过程如图1所示。GNN能关联决策与图像特征之间的关系,与传统神经网络相比,具有更高的可解释性[24-25]。GNN在病理领域的应用目前仍较少,本研究团队正在开展GNN方面的研究,提出以甲状腺细胞病理为基础,采用GNN技术进行特征提取。利用GNN能够可视化地提取局部节点和节点间的空间关系特征,解决当前CNN缺乏空间关系以及可解释性的问题。
图1 图神经网络预测过程
病理诊断需基于临床资料、诊断意见等文本数据,病理、影像、超声等图像数据,分子检测等组学数据多种信息,而目前AI的预测往往仅基于病理图像,AI模型对多模态数据利用不足,导致其预测效能难以进一步提升。结合多种整合信息设计的AI模型,单一特征失误对决策的影响更小,决策结果更加可靠,有利于AI在病理中的应用。
如何整合来自不同维度的信息呢?知识图谱(knowledge graph,KG)的提出成为解决这一难题的突破口。KG本质上是一种语义网络,由节点(实体)和边(实体之间的关系)组成,在KG中,可以很好地处理各种维度的信息如图像、文本、诊断数据、描述信息等,并作出决策。若在病理AI中引入KG,能有效整合病理诊断中不同来源的数据,结合多种信息作出决策,提升病理AI的效能[26]。近年来,研究者利用已有的临床知识(如医学教材、诊疗指南等)进行结构化表示构建KG系统,开发医疗语义搜索引擎、医疗问答系统、医疗决策支持系统等,从而在临床环节有效进行辅助决策,例如国内百度的“灵医”、阿里巴巴的“Doctor You”、腾讯的“觅影”、国外的“沃森医生”等。在病理学领域,KG系统也正在构建中,如对早期乳腺癌进行预后评估的“Adjuvant Online”系统等[27]。但目前此类系统主要基于文本信息构建,还需克服图像数据处理等困难,相信随着病理AI与KG的共同发展,多模态信息融合病理AI的辅助病理诊断将很快能够实现。
随着病理切片全数字化的实现、更多机器学习方法的出现以及计算机算力的提升,使用计算机辅助病理诊断将逐渐成为现实。但目前病理AI仍处于研究阶段,广泛应用于临床诊断尚未实现,未来可通过TAI等新技术手段提升病理AI的系统性能,促进其临床应用。现阶段,建议通过制订病理制片标准和规范以提高切片质量,并通过FL技术解决“数据孤岛”问题;使用各种解释方法以及GNN提升AI模型的可解释性;使用KG研发功能全面的AI系统,从技术上达到TAI,配合诊断过程的可视化与交互性,使病理诊断结果更加可靠可控;使用KG以及机器学习模型搭建知识库,助力缺乏经验的病理医生快速成长。此外,在AI实践应用的过程中,仍需完善相关规范,从国家层面推进AI在病理中的应用。相信在不久的未来,TAI将极大促进AI在病理领域的落地实践和技术推广。
作者贡献:周燕燕负责查阅文献、撰写论文;邓杨负责整理文献和论文修订;包骥、步宏负责论文构思及终稿审校。
利益冲突:所有作者均声明不存在利益冲突