井 杰, 王蓓蕾, 刘善荣
(海军军医大学第一附属医院实验诊断科,上海 200433)
人工智能(artificial intelligence,AI)是利用计算机程序模拟、延伸和扩展人类智能应用的先进科学技术[1]。近年来,“医疗+AI”模式在影像智能判读[2]、手术机器人[3]、新药研发[4]等领域已有广泛研究。然而,多数AI具有“黑箱”特点,其行为高度不透明[5],医生无法了解机器的决策机制、发生错误的原因以及避免错误的方法,限制了其临床应用。近年来,有学者提出可解释人工智能(explainable artificial intelligence,XAI)的概念,即将可解释性作为额外的设计驱动因素来构建AI系统,用可理解的方式向用户解释或呈现其行为[6]。检验医学是临床辅助诊疗的重要组成[7],具有广泛的临床可解释性,长期以来通过提供客观数据来协助临床决策。因此,通过XAI技术对检验数据进行集成和分析,深度挖掘其内在价值,开发可解释的检验AI工具,必将显著提高检验数据的临床应用价值,为智慧医疗的跨越式发展提供重要支撑。本文立足于检验医学的研究现状,结合XAI的基本概念、重要性及实现方法,重点探讨基于检验知识图谱的检验XAI的研究思路,展望其未来应用前景,探讨其面临的挑战和应用局限性。
检验医学是现代医学的重要组成部分,临床决策所需信息的70%来自检验[7]。实验室检查涵盖临床化学、血液学、免疫学、微生物学在内的2 000多项指标,为临床医生提供大量客观数据以辅助临床决策[8]。在急诊室,超过41%的疾病需要通过实验室数据确诊[9]。癌症、内分泌、感染性和遗传性等疾病需要通过实验室数据确诊或协助确诊[10]。检验数据也支持循证医学实践指南的发展,在1 230个针对23种疾病的临床实践指南中,有37%涉及实验室检查[11]。由此可见,检验医学可以为临床实践提供大量显性或隐性的专业知识。
众所周知,实验室仪器自动化的发展产生了大量的结构化或半结构化的检验数据[12-13]。近年来,检验医学在方法和结果的标准化、归一化方面取得了重大进展[10,14],国际临床实验室结果协调联盟组织统一和标准化临床实验室检测过程和参考区间,实现了临床实验室检测结果和实验过程优化的一致性,极大改善了临床实验室的标准化。由此可见,检验医学可以为临床实践提供海量高质量、标准化、归一化的检验数据。
然而,目前临床医生对检验数据的解读能力仍然存在不足。首先,检验项目越来越多,其临床意义持续更新,不同疾病、不同病程对应的检验结果更是复杂多变,很多医生无法及时更新相关知识;其次,临床专科化发展趋势不可避免,多数医生只熟悉自己专科常用的检验项目,对其他专科的检验项目并不熟悉,很容易忽视超出其专科知识范围的关键结果和重要参数;第三,疾病影响着机体的整体状态,当众多检验指标发生异常时,综合分析检验数据的相互关联难度极大,即使是经验丰富的医生也很容易忽视其内在关系[15],从而造成疾病的漏诊或误诊。因此,通过XAI技术对检验数据进行集成和分析,深度挖掘检验数据中的隐藏价值,开发基于实验室数据的检验XAI工具,为提高实验室诊断价值展示了巨大的应用前景。基于此,检验医学与XAI的融合势在必行。
XAI是指基于一些AI原则所创建的有效和能被用户所理解的AI系统,其主要目的是通过提供可解释的细节或理由让用户更容易理解模型运行的复杂行为[16]。不同研究者开发了多种检验AI系统[17-18],但由于缺乏可解释性,尚无检验AI产品被应用于临床。由此可见,加强检验XAI的研究具有重大意义。一方面,当使用可解释模型时,用户可以通过提取数据之间的因果关系获得临床检验相关知识,从而增强对模型的理解和信任;另一方面,XAI所提供的解释可以帮助AI研发人员更好地理解模型存在的数据偏差,及可能失败的原因,解决模型的内部缺陷,提高系统的性能和安全性。
近年来,AI专家从模型内外2个角度对XAI模型的可解释问题提出了两大解决方案,包括“模型自身可解释”和“模型以外可解释”。前者是通过直接设计具有内在可解释性的算法实现模型的可解释功能[15],包括线性回归、逻辑回归在内的广义线性模型,以及梯度增强机、随机森林、极端梯度提升在内的树集成模型;后者将模型预测与解释分开,主要包括可视化解释、影响方法、基于实例的解释、基于知识的解释4种技术类型。
2.2.1 可视化解释 可视化解释是探寻深度神经网络等复杂模型内部工作机制最直接的途径,其技术方法主要包括:代理模型、部分依赖图(partial dependence plot,PDP)和个体条件期望(individual conditional expectation,ICE)。代理模型即用来解释复杂模型的简单模型,虽然计算量小,但其计算结果和高精度模型的计算分析结果相近[19]。PDP是一种图形表示,有助于可视化特定特征对机器学习(machine learning,ML)模型预测结果的平均边际影响[20]。ICE是一种与PDP类似的图形表示,能深入到单个样本,分析某一特征变化对单个样本的影响,并给出每个样本的预测值[21]。
2.2.2 影响方法 影响方法通过更改模型输入或内部参数来评估特征的重要性或相关性,并记录特征更改对模型性能的影响程度,以解释模型决策。影响方法主要有敏感性分析、层级相关性传播和特征重要性3种。敏感性分析通过使每个特征在可能的范围内变动来预测这些特征的变化对模型输出值的影响程度[22]。层级相关性传播[23-24]将模型决策的重要性信号从模型的输出层神经元逐层传播到模型的输入层,使模型的决策结果可在特征上找到解释,得到每个特征参与分类决策的贡献大小。特征重要性则是通过改变特征值,计算模型预测误差的变化,从而量化每个输入变量对模型预测结果的贡献[25]。
2.2.3 基于实例的解释 基于实例的解释技术通过选择数据集的特定实例来解释AI模型的行为,包括原型和批评解释,以及反事实解释。原型是指从数据集中选择的具有代表性的实例,数据集中的实例关系是由与原型的相似性决定的[26]。为了避免过度泛化,数据集也需要展示批评点,即不能被一组原型有效代表的实例。模型可预测原型和批评的结果,以解释模型决策,并发现模型算法的弱点。反事实解释描述了一种因果关系,即“如果没有输入特征X,则预测结果Y不会发生”,通过对原始实例的输入特征进行最小条件的更改,以获得不同预定输出结果的新实例,从而解释模型的决策行为[27]。
2.2.4 知识提取的解释 基于知识的解释主要包括提取内部知识和引入外部知识的解释方法。前者指提取原数据集中已有的知识建立解释模型;后者指利用外部输入的知识,如常识、概念、语料库等固有概念,建立解释模型。目前,基于知识提取的方法主要包括知识蒸馏和知识图谱。知识蒸馏是一种降低模型复杂度的模型压缩方法,可将信息从深层网络传递到浅层网络[28]。知识图谱是由多个三元组组成的语义网络,主要用于描述现实世界中的实体、概念及事件间的客观关系。知识图谱可以将数据集或者知识库中的任一元素看作是一个实体,通过描述相邻实体之间的不同关系,以及实体与实体之间存在的路径,共同构成以实体、关系和路径为支撑的知识网络。
目前,与其他可解释方法相比,知识图谱具有的海量规模、语义丰富、结构友好、质量精良的知识是其关键优点,为机器理解语言提供了重要的背景知识。由于目前XAI的可解释方法大都面向各领域专家,专业术语难以被普通用户理解,因此基于容易理解的检验知识图谱的XAI技术来构建检验XAI,具有更广阔的应用前景。
检验知识图谱的构建主要包括概念层设计、实例层学习和知识图谱应用3个方面[29]。首先,将医学检验相关文献和实验室信息系统(laboratory information system,LIS)中存储的有效数据作为知识库,并对知识库进行概念层设计。检验知识图谱的概念层设计包含4级实体概念,第1级是医学检验实体,第2级是患者基本信息实体、检验实体和诊断实体,第3级是检验项目实体,第4级是具体的检验指标实体。同时,定义不同实体之间的相互关系,即实验室检查中不同实体之间所发生的医疗事实联系,如检验指标实体和检验项目实体共同构成检验实体。然后,根据规定的知识提取规则,从大量的医学检验相关文献和LIS存储的数据中提取与概念层相匹配的医学检验事实,构造出实例层。最后,将医学检验实体、医学检验实体关系和医学检验事实以三元组的形式存储,得到医学检验知识图谱。知识图谱的应用是根据输入的实体,通过图数据库的搜索机制,实现对知识图谱三元组中任一要素及相关信息的搜索。
迄今为止,AI共经历了2代发展[30-31]。第1代AI是基于知识驱动AI模型,其推理过程是完全基于人类专家定义的规则;第2代AI是以深度学习算法为代表的数据驱动AI模型,该模型利用统计方法将模型的输入数据转换为输出结果。因此,近几年相关学者提出了全新的“第3代AI”的概念[30]。大体说来,是通过结合知识驱动和数据驱动方法,构建一个更强大、兼具可解释性和鲁棒性的AI系统,推动AI的创新应用。基于此,基于知识图谱的检验XAI的研究思路为:(1)单纯知识驱动检验XAI。检验金标准即可诊断。如根据乙型肝炎血清学标志物检测结果诊断乙型肝炎。疾病预测是完全基于已有检验知识的推理,其显著优势是输出结果具有可解释性和容易理解,缺陷是只限于确定性推理方法来解决特定问题。(2)“知识+数据”双驱动的检验XAI。疾病的预测既有知识的推理也有模型算法的统计分析,其工作流程见图1。首先,检验XAI自动提取患者所有实验室检测数据,输入检验知识图谱,构建异常指标与疾病的关系网;如图1中“某患者”有35项指标异常,经检验知识图谱过滤,发现与包括胰腺癌、感染及阻塞性黄疸等在内的157种疾病有关,然后自动调取所对应的单病种ML算法模型,自动计算患病风险概率值[32]。值得注意的是,上述单病种ML算法模型,即基于大量历史患者检验数据所构建而成的数据驱动模型,优点是具有大数据处理优势,可自动搜索和处理大量变量,从而可靠地对结果进行分类和预测[32],但输出结果缺乏可解释性是其面临的主要问题。然后,检验XAI按照患病概率、严重程度对预测疾病进行排序;如检验XAI对图1中“某患者”预测的胰腺癌、感染及阻塞性黄疸等疾病,按照患病概率进行降序排序。同时,检验XAI以一种可视化方式展示模型算法的“可解释性”,即不同异常检测指标在所预测疾病中的权重分析。此外,检验XAI还可依据检验知识图谱提供异常指标的临床意义。最后,检验XAI以高风险疾病(如胰腺癌)、中风险疾病(如感染)及低风险疾病(如阻塞性黄疸)的方式输出相应的实验室诊断。
图1 检验XAI的工作流程图
检验知识图谱和ML算法在“知识+数据”双驱动检验XAI疾病预测过程中的作用是相辅相成的。一方面,检验知识图谱的作用在于检验医学常识的推理,不仅为检验XAI初步确定了ML的疾病诊断范围,还提供了疾病诊断过程所需的临床证据;另一方面,ML使检验XAI具有更好的疾病预测能力,可发现疾病新的风险因 素,并驱动检验知识图谱的更新迭代。
目前,临床上大多数辅助检查(包括影像和病理)都是以诊断报告的形式提供给临床医生。长期以来,检验医学仅有检验数据,却不能为临床提供客观的诊断报告,主要是由于个体化检验数据变化大,每位患者不同疾病、不同病程、不同治疗情况的检验数据复杂多变;不同异常检验指标对应的临床意义不同,联合意义更多、更广,难以分析。因此,通过检验XAI对检验大数据进行集成和分析,挖掘检验数据隐藏的诊断价值,成为辅助临床医生解读复杂检验数据的突破口[33-34]。检验XAI的主要功能是根据异常检验数据及时生成基于算法的疾病诊断预测或推荐。智能化的检验报告侧重于检验AI预测结果的可解释性。未来,检验XAI可为临床医生提供与辅助诊疗相关的智能化检验报告,包括疾病预测、异常检验指标分析、异常指标与预测疾病的对应关系分析等[35]。除此之外,智能化的检验报告可提示临床医生该患者需进一步完善的检验项目,及患者检验指标变化趋势等。
检验XAI在疾病诊疗领域具有广阔的应用前景,但其产品研发仍面临挑战,临床应用存在一定局限性。首先,数据质量问题是检验XAI研发面临的主要挑战。一方面,医院内不同医疗数据库之间缺少有效的协同机制,数据采集和存储标准不一,结构化程度低,质量不统一,影响了检验大数据的应用;另一方面,不同医院之间缺乏统一的标准和规范,不同企业承建的医院信息系统,受限于企业之间的技术壁垒,数据共享和互通程度较低,存在“数据孤岛”现象[36]。使得检验XAI研发所用的数据只能来自有限的公开数据集或自备数据库,存在着数据量过小、质量欠佳以及标注不规范等问题,势必影响其疾病预测的准确性和应用的普适性。此外,仅依靠检验科,无法独立完成检验XAI的建立,需要病理、影像、手术及用药等相关数据的佐证和支撑,因此临床科室的参与度是很重要的因素[37]。在临床实际运用过程中,检验XAI仅依据检验数据提供相应的诊断结果相对片面,临床医生可基于检验XAI的疾病推荐,也可综合患者的病史、影像和病理等结果,以及自身临床经验进行综合判断,最终给出相应诊断和临床决策指导(如预约其他辅助检查、手术、随访等)。
检验医学是临床辅助诊疗的重要支撑。随着AI与医学领域的深度融合,检验医学与AI的结合作为一种新的医疗模式正在快速发展。为了避免AI模型的“黑箱”预测,基于知识图谱的检验XAI通过对检验大数据的集成和分析,可为临床医生提供及时、准确的辅诊信息,改变传统检验医学的运用模式,从而推动检验医学由被动性医学向主动性医学转化。