机器学习模型可解释性方法、应用与安全研究综述

2019-10-21 05:44纪守领李进锋杜天宇

计算机研究与发展 2019年10期

纪守领李进锋杜天宇李博

1(浙江大学计算机科学与技术学院网络空间安全研究中心杭州 310027) 2(伊利诺伊大学香槟分校计算机科学学院美国伊利诸伊州厄巴纳香槟 61822)

近年来，机器学习相关技术在计算机视觉、自然语言处理、语音识别等多个领域取得了巨大的成功，机器学习模型也被广泛地应用到一些重要的现实任务中，如人脸识别[1-3]、自动驾驶[4]、恶意软件检测[5]和智慧医疗分析[6]等.在某些场景中，机器学习模型的表现甚至超过了人类.

尽管机器学习在许多有意义的任务中胜过人类，但由于缺乏可解释性，其表现和应用也饱受质疑[7].对于普通用户而言机器学习模型尤其是深度神经网络(deep neural networks, DNN)模型如同黑盒一般，给它一个输入，其反馈一个决策结果，没人能确切地知道它背后的决策依据以及它做出的决策是否可靠.而缺乏可解释性将有可能给实际任务中尤其是安全敏感任务中的许多基于DNN的现实应用带来严重的威胁.比如说，缺乏可解释性的自动医疗诊断模型可能给患者带来错误的治疗方案，甚至严重威胁患者的生命安全.此外，最近的研究表明，DNN本身也面临着多种安全威胁——恶意构造的对抗性样本可以轻易让DNN模型分类出错[8-10]，而他们针对对抗样本的脆弱性同样也缺乏可解释性.因此，缺乏可解释性已经成为机器学习在现实任务中的进一步发展和应用的主要障碍之一.

为了提高机器学习模型的可解释性和透明性，建立用户与决策模型之间的信任关系，消除模型在实际部署应用中的潜在威胁，近年来学术界和工业界进行了广泛和深入的研究并且提出了一系列的机器学习模型可解释性方法.然而，由于不同的研究者解决问题的角度不同，因而给“可解释性”赋予的含义也不同，所提出的可解释性方法也各有侧重.因此，亟需对现有工作进行系统的整理和科学的总结、归类，以促进该领域的研究.

在本文中，我们首先详细地阐述可解释性的定义和所解决的问题.然后，我们对现有的可解释性方法进行系统的总结和归类，并讨论相关方法的局限性.接着，我们简单地介绍模型可解释性相关技术的实际应用场景，同时详细地分析可解释性中的安全问题.最后，我们讨论模型可解释性相关研究所面临的挑战以及未来可行的研究方向.

1 机器学习可解释性问题

在介绍具体的可解释问题与相应的解决方法之前，我们先简单地介绍什么是可解释性以及为什么需要可解释性.在数据挖掘和机器学习场景中，可解释性被定义为向人类解释或以呈现可理解的术语的能力[11].从本质上讲，可解释性是人类与决策模型之间的接口，它既是决策模型的准确代理，又是人类所可以理解的[12].在自上而下的机器学习任务中，模型通常建立在一组统计规则和假设之上，因而可解释性至关重要，因为它是所定义的规则和假设的基石.此外，模型可解释性是验证假设是否稳健，以及所定义的规则是否完全适合任务的重要手段.与自上而下的任务不同，自下而上的机器学习通常对应于手动和繁重任务的自动化，即给定一批训练数据，通过最小化学习误差，让模型自动地学习输入数据与输出类别之间的映射关系.在自下而上的学习任务中，由于模型是自动构建的，我们不清楚其学习过程，也不清楚其工作机制，因此，可解释性旨在帮助人们理解机器学习模型是如何学习的，它从数据中学到了什么，针对每一个输入它为什么会做出如此决策以及它所做的决策是否可靠.

在机器学习任务中，除了可解释性，常常会提到另外2个概念：模型准确性(accuracy)和模型复杂度(model complexity).准确性反映了模型的拟合能力以及在某种程度上准确预测未知样本的能力.模型复杂度反映了模型结构上的复杂性，只与模型本身有关，与模型训练数据无关.在线性模型中，模型的复杂度由非零权重的个数来体现；在决策树模型中，模型的复杂度由树的深度体现；在神经网络模型中，模型复杂度则由神经网络的深度、宽度、模型的参数量以及模型的计算量来体现[13].模型的复杂度与模型准确性相关联，又与模型的可解释性相对立.通常情况下，结构简单的模型可解释性好，但拟合能力差，往往准确率不高.结构复杂的模型，拟合能力强，准确性高，但由于模型参数量大、工作机制复杂、透明性低，因而可解释性又相对较差.

那么，在实际的学习任务中，我们是选择结构简单易于解释的模型然后训练它，还是训练复杂的最优模型然后开发可解释性技术解释它呢？基于这2种不同的选择，机器学习模型可解释性总体上可分为2类：事前(ante -hoc)可解释性和事后(post-hoc)可解释性.其中，ante -hoc可解释性指通过训练结构简单、可解释性好的模型或将可解释性结合到具体的模型结构中的自解释模型使模型本身具备可解释能力.post-hoc可解释性指通过开发可解释性技术解释已训练好的机器学习模型.根据解释目标和解释对象的不同，post-hoc可解释性又可分为全局可解释性(global interpretability)和局部可解释性(local interpreta-bility).全局可解释性旨在帮助人们理解复杂模型背后的整体逻辑以及内部的工作机制[12]，局部可解释性旨在帮助人们理解机器学习模型针对每一个输入样本的决策过程和决策依据[14].

2 ante -hoc可解释性

ante -hoc可解释性指模型本身内置可解释性，即对于一个已训练好的学习模型，无需额外的信息就可以理解模型的决策过程或决策依据.模型的ante -hoc可解释性发生在模型训练之前，因而也称为事前可解释性.在学习任务中，我们通常采用结构简单、易于理解的自解释模型来实现ante -hoc可解释性，如朴素贝叶斯、线性回归、决策树、基于规则的模型.此外，我们也可以通过构建将可解释性直接结合到具体的模型结构中的学习模型来实现模型的内置可解释性[15].

2.1 自解释模型

对于自解释模型，我们从2个角度考虑模型的可解释性和透明性，即模型整体的可模拟性(simulatabi-lity)和模型单个组件的可分解性(decomposability).

严格意义上来讲，如果我们认为某个模型是透明的，那么我们一定能从整体上完全理解一个模型，也应该能够将输入数据连同模型的参数一起，在合理的时间步骤内完成产生预测所需的每一个计算(即整体上的可模拟性).比如在朴素贝叶斯模型中，由于条件独立性的假设，我们可以将模型的决策过程转化为概率运算[16-17].在线性模型中，我们可以基于模型权重，通过矩阵运算线性组合样本的特征值，复现线性模型的决策过程,其中模型权重体现了特征之间的相关关系[13,17-18].而在决策树模型中，每一棵决策树都由表示特征或者属性的内部节点和表示类别的叶子节点组成，树的每一个分支代表一种可能的决策结果[19-20].决策树中每一条从根节点到不同叶子节点的路径都代表着一条不同的决策规则，因而每一棵决策树都可以被线性化为一系列由if-then形式组成的决策规则[20-23].因此，对于新的观测样本，我们可以通过从上到下遍历决策树，结合内部节点中的条件测试，基于if-then决策规则判定样本是否必须遵循左或右分支来模拟决策树的决策过程.

自解释模型的可分解性要求模型的每个部分，包括模型结构、模型参数，模型的每一个输入以及每一维特征都允许直观的解释[24].在朴素贝叶斯模型中，由于条件独立性的假设，模型的预测可以很容易地转化为单个特征值的贡献——特征向量，特征向量的每一维表示每个特征值对最终分类结果的贡献程度[17].在线性模型中，模型的权重直接反映了样本特征重要性，既包括重要性大小也包括相关性方向[25].权重绝对值越大，则该特征对最终预测结果的贡献越大，反之则越小.如果权重值为正，则该特征与最终的预测类别正相关，反之则负相关.在决策树模型中，每个节点包含了特征值的条件测试，判定样本属于哪一分支以及使用哪一条规则，同时，每一条规则也为最终的分类结果提供了解释.此外，决策树模型自带的基于信息理论的筛选变量标准也有助于理解在模型决策过程中哪些变量起到了显著的作用.

然而，由于人类认知的局限性，自解释模型的内置可解释性受模型的复杂度制约，这要求自解释模型结构一定不能过于复杂.因此，上述模型只有具有合理的规模才能具有有效的可解释性.例如对于高维的线性模型，其内置可解释性未必优于DNN.此外，对于决策树模型和基于规则的模型，如果树深度太深或者模型的规则太复杂，人类也未必能理解[12,20].但如果模型结构太简单，模型的拟合能力必然受限，因此模型可能会学习错误的特征来最小化在训练集上的经验误差，而这些特征可能与人类认知相违背，对于人类而言同样也很难解释.因此，自解释模型的内置可解释性与模型准确性之间始终存在一个平衡[13].

2.2 广义加性模型

在实际学习任务中，简单模型(如线性模型)因为准确率低而无法满足需要，而复杂模型的高准确率又通常是牺牲自身可解释性为代价的.作为一种折中，广义加性模型既能提高简单线性模型的准确率，又能保留线性模型良好的内置可解释性[24,26-27].广义加性模型一般形式为

g(y)=f1(x1)+f2(x2)+…+fn(xn),

其中，fi(·)为单特征(single-feature)模型，也称为特征xi对应的形函数(shape function).广义加性模型通过线性函数组合每一单特征模型得到最终的决策形式.在广义加性模型中，形函数本身可能是非线性的，每一个单特征模型可能采用一个非常复杂的形函数fi(xi)来量化每一个特征xi与最终决策目标之间的关系，因而可以捕获到每一个特征与最终决策目标之间的非线性关系，因此广义加性模型准确率高于简单线性模型.又因为广义加性模型通过简单的线性函数组合每一个单特征模型得到最终的决策形式，消除了特征之间的相互作用，因此可以保留简单线性模型良好的可解释性，从而解决了复杂模型因为特征之间复杂的相关关系而削弱自身可解释性的问题.

Lou等人[24]提出了一种基于有限大小的梯度提升树加性模型方法，该方法在回归和分类问题上精度显著优于传统方法，同时还保持了GAM模型的可解释性.Ravikumar等人[28]结合稀疏线性建模和加性非参数回归的思想，提出了一种称之为稀疏加性模型的高维非参数回归分类方法，解决了高维空间中加性模型的拟合问题，同时基于1正则的稀疏性，可实现特征的有效选择. Poulin等人[16]开发了一个图形化解释框架，提供了对加性模型的图形化解释，包括对模型整体的理解以及决策特征的可视化，以帮助建立用户与决策系统之间的信任关系.

2.3 注意力机制

神经网络模型由于模型结构复杂，算法透明性低，因而模型本身的可解释性差.因此，神经网络模型的自身可解释性只能通过额外引入可解释性模块来实现，一种有效的方法就是引入注意力机制(atten-tion mechanism)[29-31].

注意力机制源于对人类认知神经学的研究.在认知科学中，由于信息处理的瓶颈，人脑可以有意或无意地从大量输入信息中选择小部分有用信息来重点处理，同时忽略其他可见的信息，这就是人脑的注意力机制[32].在计算能力有限的情况下，注意力机制是解决信息超载问题的一种有效手段，通过决定需要关注的输入部分，将有限的信息处理资源分配给更重要的任务.此外，注意力机制具有良好的可解释性，注意力权重矩阵直接体现了模型在决策过程中感兴趣的区域.

近年来，基于注意力机制的神经网络已成为神经网络研究的一大热点，并在自然语言处理、计算机视觉、推荐系统等领域有着大量的应用[33].在自然语言处理领域，Bahdanau等人[29]将注意力机制引入到基于编码器-解码器架构的机器翻译中，有效地提高了“英语-法语”翻译的性能.在编码阶段，机器翻译模型采用双向循环神经网络(Bi-RNN)将源语言编码到向量空间中；在解码阶段，注意力机制为解码器的隐藏状态分配不同的权重，从而允许解码器在生成法语翻译的每个步骤选择性地处理输入句子的不同部分.最后通过可视化注意力权重(如图1(a)所示)，用户可以清楚地理解一种语言中的单词是如何依赖另一种语言中的单词进行正确翻译的.Yang等人[34]将分层注意力机制引入到文本分类任务中，显著提高了情感分析任务的性能，同时注意力权重量化了每一个词的重要性，可帮助人们清晰地理解每一个词对最终情感分类结果的贡献(如图1(b)所示).在计算机视觉领域，Xu等人[32]将注意力机制应用于看图说话(image caption)任务中以产生对图片的描述.首先利用卷积神经网络(CNN)提取图片特征，然后基于提取的特征，利用带注意力机制的循环神经网络(RNN)生成描述.在这个过程中，注意力实现了单词与图片之间的对齐，因此，通过可视化注意力权重矩阵，人们可以清楚地了解到模型在生成每一个单词时所对应的感兴趣的图片区域(如图2所示).此外，注意力机制还被广泛地应用于推荐系统中，以研究可解释的推荐系统[35-39].具体地，这些方法首先基于历史记录，利用注意力机制计算针对每一条记录的注意力分值，从而给不同的偏好设置不同的权重，或者通过注意力机制对用户行为、用户表征进行建模来学习用户的长期偏好，以推荐用户可能感兴趣的下一个项目；最后，通过可视化用户历史记录列表中每一条记录的注意力分值来提供对推荐结果的解释，以增强推荐系统自身的可解释性.

Fig. 1 Visualization of attention weight in natural language processing applications图1 自然语言处理应用中的注意力权重可视化

Fig. 2 Alignment of words and images by attention in image caption task图2 看图说话任务中注意力实现单词与图片的对齐[32]

3 post-hoc可解释性

post-hoc可解释性也称事后可解释性，发生在模型训练之后.对于一个给定的训练好的学习模型，post-hoc可解释性旨在利用解释方法或构建解释模型，解释学习模型的工作机制、决策行为和决策依据.因此，post-hoc可解释性的重点在于设计高保真的解释方法或构建高精度的解释模型.

根据解释目的和解释对象的不同，post-hoc可解释性又分为全局可解释性和局部可解释性，所对应的方法分别称为全局解释方法和局部解释方法.经典的post-hoc解释方法及其满足的属性如表1所示:

Table 1 Summary of Classic post-hoc Interpretation Methods

Continued (Table 1)

Note： G=global, L=local, MA=model-agnostic, MS=model-specific, TML=traditional machine learning, √=secure, ×=not secure,○=low,=middle, ●=high, CV=computer vision, NLP=natural language processing.

3.1 全局解释

机器学习模型的全局可解释性旨在帮助人们从整体上理解模型背后的复杂逻辑以及内部的工作机制，例如模型是如何学习的、模型从训练数据中学到了什么、模型是如何进行决策的等，这要求我们能以人类可理解的方式来表示一个训练好的复杂学习模型.典型的全局解释方法包括解释模型规则提取、模型蒸馏、激活最大化解释等.

3.1.1 规则提取

早期针对模型可解释性的研究主要集中于解释规则或解释模型提取，即通过从受训模型中提取解释规则的方式，提供对复杂模型尤其是黑盒模型整体决策逻辑的理解[64-67].规则提取技术以难以理解的复杂模型或黑盒模型作为入手点，利用可理解的规则集合生成可解释的符号描述，或从中提取可解释模型(如决策树、基于规则的模型等)[68-70]，使之具有与原模型相当的决策能力.解释模型或规则提取是一种有效的开箱技术，有效地提供了对复杂模型或黑盒模型内部工作机制的深入理解.根据解释对象不同，规则提取方法可分为针对树融合(tree ensemble)模型的规则提取[23,40,71-73]和针对神经网络的规则提取.

针对复杂的树融合模型(例如随机森林、提升树等)的规则提取方法通常包含4个部分：1)从树融合模型中提取规则，一个集成的树模型通常由多个决策树构成，每棵树的根节点到叶子节点的每一条路径都表示一条决策规则，将从每一棵决策树中提取的规则进行组合即可得到从树融合模型中提取的规则；2)基于规则长度、规则频率、误差等指标对提取的规则进行排序，其中规则长度反映了规则的复杂度，规则频率反映满足规则的数据实例的比例，误差则反映了规则的决策能力；3)基于排序结果，对规则中的无关项和冗余项进行剪枝并选择一组相关的非冗余规则；4)基于挑选的规则构建一个可解释的规则学习器，用于决策和解释.

针对神经网络的规则提取方法可以分为2类：分解法(decompositional method)[41,74-75]和教学法(pedagogical method)[76-78].分解法的显著特点是注重从受训神经网络中提取单个单元(如隐含单元、输出单元)层次上规则，这要求神经网络是“透明”的，即我们可以接触到模型的具体架构和参数.分解法要求受训神经网络中的每一个隐含单元和输出单元的计算结果都能映射成一个对应于一条规则的二进制结果.因此，每一个隐含单元或输出单元都可以被解释为一个阶跃函数或一条布尔规则.分解法通过聚合在单个单元级别提取的规则，形成整个受训神经网络的复合规则库，最后基于复合规则库提供对神经网络的整体解释.与分解法不同，教学法将受训神经网络模型当作是一个黑盒，即神经网络是“不透明”的，我们无法利用其结构和参数信息，只能操纵模型的输入和输出[42,79].因此，教学法旨在提取将输入直接映射到输出的规则，基本思想是结合符号学习算法，利用受训神经网络来为学习算法生成样本，最后从生成的样例中提取规则[77].

然而，规则提取方法提取的规则往往不够精确，因而只能提供近似解释，不一定能反映待解释模型的真实行为.此外，规则提取方法提供的可解释性的质量受规则本身复杂度的制约，如果从待解释模型中提取的规则很复杂或者提取的决策树模型深度很深，那么提取的规则本身就不具备良好的可解释性，因而无法为待解释模型提供有效的解释.

3.1.2 模型蒸馏

当模型的结构过于复杂时，要想从整体上理解受训模型的决策逻辑通常是很困难的.解决该问题的一个有效途径是降低待解释模型的复杂度，而模型蒸馏(model distillation)则是降低模型复杂度的一个最典型的方法[80].

模型蒸馏，也称知识蒸馏或模型模拟学习，是一种经典的模型压缩方法，其目的在于将复杂模型学习的函数压缩为具有可比性能更小、更快的模型[81].模型蒸馏的核心思想是利用结构紧凑的学生模型(student model)来模拟结构复杂的教师模型(teacher model)，从而完成从教师模型到学生模型的知识迁移过程，实现对复杂教师模型的知识“蒸馏”.蒸馏的难点在于压缩模型结构的同时如何保留教师模型从海量数据中学习到的知识和模型的泛化能力.一种有效的解决办法是利用软目标来辅助硬目标一起训练学生模型，其中硬目标为原始数据的类别信息，软目标为教师模型的分类概率值，包含的信息量大，体现了不同类别之间相关关系的信息[82].给定一个复杂的教师模型和一批训练数据，模型蒸馏方法首先利用教师模型生成软目标，然后通过最小化软目标和硬目标的联合损失函数来训练学生模型，损失函数定义为

Lstdudent=αL(soft)+(1-α)L(hard),

其中，L(soft)为软目标损失，要求学生模型生成的软目标与教师模型生成的软目标要尽可能的接近，保证学生模型能有效地学习教师模型中的暗知识(dark knowledge)；L(hard)为硬目标损失，要求学生模型能够保留教师模型良好的决策性能.

由于模型蒸馏可以完成从教师模型到学生模型的知识迁移，因而学生模型可以看作是教师模型的全局近似，在一定程度上反映了教师模型的整体逻辑，因此我们可以基于学生模型，提供对教师模型的全局解释.在利用模型蒸馏作为全局解释方法时，学生模型通常采用可解释性好的模型来实现，如线性模型、决策树、广义加性模型以及浅层神经网络等[83-85].Hinton等人[82]提出了一种知识蒸馏方法，通过训练单一的相对较小的网络来模拟原始复杂网络或集成网络模型的预测概率来提炼复杂网络的知识，以模拟原始复杂网络的决策过程，并且证明单一网络能达到复杂网络几乎同样的性能.为了进一步提升蒸馏知识的可解释性，Frosst等人[84]扩展了Hinton提出的知识蒸馏方法，提出利用决策树来模拟复杂深度神经网络模型的决策.Tan等人[85]基于广义加性模型的良好可解释性，提出利用模型蒸馏的方法来学习描述输入特征与复杂模型的预测之间关系的全局加性模型，并基于加性模型对复杂模型进行全局解释.Che等人[86]将基于模型蒸馏的可解释方法应用于医疗诊断模型的可解释性研究中，提出利用梯度提升树进行知识蒸馏的方式来学习可解释模型，不仅在急性肺损伤病人无呼吸机天数预测任务中取得了优异的性能，而且还可以为临床医生提供良好的可解释性.Ding等人[87]利用知识蒸馏解释基于社交媒体的物质使用预测模型，通过运用知识蒸馏框架来构建解释模型，取得了与最先进的预测模型相当的性能，而且还可以提供对用户的社交媒体行为与物质使用之间的关系深入理解.Xu等人[88]开发了DarkSight可解释方法，通过利用模型蒸馏的方式从黑盒模型中提取暗知识，并以可视化的形式对提取的暗知识进行呈现，以帮助分析师直观地了解模型决策逻辑.

此外，基于模型蒸馏的解释方法还被广泛地应用于模型诊断与验证[43,89-90].Tan等人[89]提出了一种针对黑盒风险评分模型的2阶段模型审计方法，对于一个给定的黑盒风险评分模型和一批审计数据，该方法首先利用模型蒸馏的方法得到一个解释模型，同时基于审计数据和其真实标签训练一个透明的结果预测模型，并通过比较解释模型和结果预测模型来理解特征与风险评分之间的相关关系；最后，通过使用统计测试的方式来确定黑盒模型是否使用了审计数据中不存在的其他特征.同时，通过评估受保护特征对风险评分的贡献与其对实际结果的贡献的差异，可以检测黑盒风险评分模型中是否存在偏差[90].

模型蒸馏解释方法实现简单，易于理解，且不依赖待解释模型的具体结构信息，因而作为一种模型无关的解释方法，常被用于解释黑盒机器学习模型.然而，蒸馏模型只是对原始复杂模型的一种全局近似，它们之间始终存在差距.因此，基于蒸馏模型所做出的解释不一定能反映待解释模型的真实行为.此外，知识蒸馏过程通常不可控，无法保障待解释模型从海量数据中学到的知识有效地迁移到蒸馏模型中，因而导致解释结果质量较低无法满足精确解释的需要.

3.1.3 激活最大化

在自下而上的深度学习任务中，给定一批训练数据，DNN不仅可以自动地学习输入数据与输出类别之间的映射关系，同时也可以从数据中学到特定的特征表示(feature representation).然而，考虑到数据集中存在偏差，我们无法通过模型精度来保证模型表征的可靠性，也无法确定DNN用于预测的内部工作模式[91].因此，深入理解并呈现DNN中每一个隐含层的神经元所捕获的表征，有助于从语义上、视觉上帮助人们理解DNN内部的工作逻辑[92].为此，许多研究者探索如何在输入空间实现对DNN任意层神经单元计算内容的可视化，并使其尽可能通用，以便能够深入了解神经网络不同单元代表的特定含义.其中，最有效和使用最广泛的一种方法是通过在特定的层上找到神经元的首选输入最大化神经元激活，因此该方法也称为激活最大化(activation maximization, AM)方法[52].

激活最大化方法思想较为简单，即通过寻找有界范数的输入模式，最大限度地激活给定的隐藏单元，而一个单元最大限度地响应的输入模式可能是一个单元正在做什么的良好的一阶表示[44,93-94].给定一个DNN模型，寻找最大化神经元激活的原型样本x*的问题可以被定义成一个优化问题，其形式化定义为

其中，优化目标第一项fl(x)为DNN第l层某一个神经元在当前输入x下的激活值；第2项为2正则，用于保证优化得到的原型样本(prototype)与原样本尽可能地接近.整个优化过程可以通过梯度上升来求解.最后，通过可视化生成的原型样本x*，可以帮助我们理解该神经元在其感受野中所捕获到的内容.当然，我们可以分析任意层的神经元，以理解DNN不同层所编码的不同表示内容.当我们分析输出层神经元的最大激活时，可以找到某一类别所对应的最具代表性的原型样本.

激活最大化方法虽然原理简单，但如何使其正常工作同样面临着一些挑战.由于样本搜索空间很大，优化过程可能产生含有噪声和高频模式的不现实图像，导致原型样本虽能最大化神经元激活却难以理解.为了获取更有意义、更自然的原型样本，优化过程必须采用自然图像先验约束，为此，一些研究者创造性地提出了人工构造先验，包括α范数、高斯模糊等[95-96].此外，一些研究者将激活最大化框架与生成模型相结合，利用生成模型产生的更强的自然图像先验正则化优化过程.Nguyen等人[45]提出利用生成对抗网络与激活最大化优化相结合的方法来生成原型样本，优化问题被重定义为

其中，第1项为解码器与原神经元激活值的结合，第2项为代码空间中的2正则.该方法不直接优化图像，转而优化代码空间以找到可以最大化神经元激活的解z*，一旦最优解z*找到，则可以通过解码得到原型样本z*，即x*=g(z*).实验结果表明(如图3所示)，将激活最大化与生成模型相结合的方法可以产生更真实、更具有可解释性的原型样本.从图3可以看出:模型成功捕获了与类别相对应的特征表示.

对不同层生成的原型样本的可视化结果表明，DNN在若干抽象层次上进行表示学习，从模型的第一层到最后一层，模型学习到的特征表征由局部过渡到整体，由一般任务过渡到特定任务.以图像分类任务中的CNN为例，低层神经元通常可以捕获到图片中的颜色、边缘等信息；中间层神经元有更复杂的不变性，可以捕获相似的纹理；中高层神经元可以捕获图片中的显著变化，并可以聚焦到特定类别对应的局部特征，如狗的脸部、鸟的脚部等；最后，高层神经元则通过组合局部特征表征，从而学习到整个分类目标的整体表征[53].此外，神经元具有多面性，可以对与同一语义概念相关的不同图像做出反应，例如，人脸检测神经元可以同时对人脸和动物面孔做出反应[97].

Fig. 3 Class-discriminative prototypes generated by combining generative model with activation maximization图3 利用生成模型与激活最大化相结合生成的类别对应原型样本[45]

激活最大化解释方法是一种模型相关的解释方法，相比规则提取解释和模型蒸馏解释，其解释结果更准确，更能反映待解释模型的真实行为.同时，利用激活最大化解释方法，可从语义上、视觉上帮助人们理解模型是如何从数据中进行学习的以及模型从数据中学到了什么.然而，激活最大化本身是一个优化问题，在通过激活最大化寻找原型样本的过程中，优化过程中的噪音和不确定性可能导致产生的原型样本难以解释.尽管可以通过构造自然图像先验约束优化过程来解决这一问题，但如何构造更好的自然图像先验本身就是一大难题.此外，激活最大化方法只能用于优化连续性数据，无法直接应用于诸如文本、图数据等离散型数据[46]，因而该方法难以直接用于解释自然语言处理模型和图神经网络模型.

3.2 局部解释

机器学习模型的局部可解释性旨在帮助人们理解学习模型针对每一个特定输入样本的决策过程和决策依据.与全局可解释性不同，模型的局部可解释性以输入样本为导向，通常可以通过分析输入样本的每一维特征对模型最终决策结果的贡献来实现.在实际应用中，由于模型算法的不透明性、模型结构的复杂性以及应用场景的多元性，提供对机器学习模型的全局解释通常比提供局部解释更困难，因而针对模型局部可解释性的研究更加广泛，局部解释方法相对于全局解释方法也更常见.经典的局部解释方法包括敏感性分析解释、局部近似解释、梯度反向传播解释、特征反演解释以及类激活映射解释等.

3.2.1 敏感性分析

敏感性分析(sensitivity analysis)是指在给定的一组假设下，从定量分析的角度研究相关自变量发生某种变化对某一特定的因变量影响程度的一种不确定分析技术[98]，其核心思想是通过逐一改变自变量的值来解释因变量受自变量变化影响大小的规律.敏感性分析被广泛地应用于机器学习及其应用中，如机器学习模型分析[99-101]、生态建模[102]等.近年来，敏感性分析作为一种模型局部解释方法，被用于分析待解释样本的每一维特征对模型最终分类结果的影响[103-105]，以提供对某一个特定决策结果的解释.根据是否需要利用模型的梯度信息，敏感性分析方法可分为模型相关方法和模型无关方法.

模型相关方法利用模型的局部梯度信息评估特征与决策结果的相关性，常见的相关性定义为

其中，f(x)为模型的决策函数，xi为待解释样本x的第i维特征.直观地，相关性分数Ri(x)可以看作是模型梯度的2范数的分解，即在模型相关方法中，相关性分数Ri(x)可通过梯度反向传播来求解.最后，通过以热力图的形式可视化相关性分数可以直观地理解输入的每一维特征对决策结果的影响程度.

在模型无关敏感性分析方法中，待解释模型可以看作是黑盒，我们无需利用模型的梯度信息，只关注待解释样本特征值变化对模型最终决策结果的影响.Robnik-ikonja等人[106]提出通过对输入样本单个属性值的预测进行分解的方式来观察属性值对该样本预测结果的影响.具体地，该方法通过观察去掉某一特定属性前后模型预测结果的变化来确定该属性对预测结果的重要性，即：

Ri(x)=f(x)-f(xxi).

类似地，Liu等人[48]提出了“限制支持域集”的概念，它被定义为一组受大小限制且不重叠的区域，并且满足如下属性：删除任何一个区域将会导致模型分类出错.其本质思想是，如果某个特定区域的缺失导致模型分类结果发生反转，则该区域必定为模型正确决策提供支持.因此，最终可通过分析特定图像区域是否存在与模型决策结果之间的依赖关系来可视化模型决策规则.Fong等人[47]提出了一种基于有意义扰动的敏感性分析方法，通过添加扰动或删除待解释图片的不同区域来最小化模型目标类别分类概率的方式学习一个显著性掩码，以识别对模型决策结果影响最大的图像部分，并可视化显著性掩码作为对该决策结果的解释,如图4所示.Li等人[107]则提出通过观察修改或删除特征子集前后模型决策结果的相应变化的方式来推断待解释样本的决策特征.

Fig. 4 Learn a saliency mask by blurring an image to minimize the probability of its target class图4 通过图像模糊的方式最小化分类概率来学习显著性掩码[47]

然而，敏感性分析方法解释的是决策函数f(x)局部变化对决策结果的影响，而不是解释决策函数本身，只能捕获到单个特征对最终决策结果的影响程度，而不一定关注实际的决策相关特征，因而相关性分值Ri(x)对应的热力图在空间上是分散而不连续的.因此，敏感性分析方法提供的解释结果通常相对粗糙且难以理解.此外，敏感性分析方法无法解释特征之间的相关关系对最终决策结果的影响.

3.2.2 局部近似

局部近似解释方法的核心思想是利用结构简单的可解释模型拟合待解释模型针对某一输入实例的决策结果，然后基于解释模型对该决策结果进行解释.该方法通常基于如下假设：给定一个输入实例，模型针对该实例以及该实例邻域内样本的决策边界可以通过可解释的白盒模型来近似.在整个数据空间中，待解释模型的决策边界可以任意的复杂，但模型针对某一特定实例的决策边界通常是简单的，甚至是近线性的[13].我们通常很难也不需要对待解释模型的整体决策边界进行全局近似，但可在给定的实例及其邻域内利用可解释模型对待解释模型的局部决策边界进行近似，然后基于可解释模型提供对待解释模型的决策依据的解释.

Ribeiro等人[13]基于神经网络的局部线性假设，提出了一种模型无关局部可解释方法(LIME).具体地，对于每一个输入实例，LIME首先利用该实例以及该实例的一组近邻训练一个易于解释的线性回归模型来拟合待解释模型的局部边界，然后基于该线性模型解释待解释模型针对该实例的决策依据，其中，线性模型的权重系数直接体现了当前决策中该实例的每一维特征重要性.Guidotti等人[49]提出了一种适用于关系表数据的基于局部规则的黑盒模型决策结果解释方法(LORE).给定一个二分类模型f及一个由f标记的特定实例x,LORE首先利用ad-hoc遗传算法生成给定实例x的一组平衡邻居实例来构建一个简单的、可解释的预测模型，以逼近二分类模型f针对实例x的决策边界；然后，基于该解释模型，从生成的实例集合中提取一个决策树模型；最后，从决策树模型中提取决策规则作为对实例x的分类结果的局部解释.Ribeiro等人[50,108]提出了一种称之为锚点解释(anchor)的局部解释方法，针对每一个输入实例，该方法利用被称之为“锚点”的if-then规则来逼近待解释模型的局部边界.Anchor方法充分地结合了模型无关局部解释方法的优点和规则的良好可解释性，在Anchor方法中用于解释的“锚点”通常是直观、易于理解的，而且解释覆盖范围非常清晰.通过构造，“锚点”不仅可以与待解释模型保持一致，而且还可以以确保正确理解和高保真的方式将待解释模型的决策行为传达给用户.

然而，LIME,LORE以及Anchor等解释方法均假设输入样本的特征相互独立，因而无法准确地解释诸如RNN等专门对序列数据中的依赖关系进行建模的模型.为此，Guo等人[51]提出了LEMNA，一种专用于安全应用场景中的RNN模型的高保真解释方法，其核心思想与LIME等方法相似，即利用可解释模型来近似RNN的局部决策边界，并针对每一个输入实例，产生一组可解释的特征以解释针对该实例的决策依据.与LIME不同的是，LEMNA假设待解释模型的局部边界是非线性的，为了保证解释的保真度，LEMNA通过训练混合回归模型来近似RNN针对每个输入实例的局部决策边界.此外，LEMNA引入了融合Lasso正则来处理RNN模型中的特征依赖问题，有效地弥补了LIME等方法的不足.

基于局部近似的解释方法实现简单，易于理解且不依赖待解释模型的具体结构，适于解释黑盒机器学习模型.但解释模型只是待解释模型的局部近似，因而只能捕获模型的局部特征，无法解释模型的整体决策行为.针对每一个输入实例，局部近似解释方法均需要重新训练一个解释模型来拟合待解释模型针对该实例的决策结果，因而此类方法的解释效率通常不高.此外，大多数的局部近似解释方法假设待解释实例的特征相互独立，因此无法解释特征之间的相关关系对决策结果的影响.

3.2.3 反向传播

基于反向传播(back propagation)的解释方法的核心思想是利用DNN的反向传播机制将模型的决策重要性信号从模型的输出层神经元逐层传播到模型的输入以推导输入样本的特征重要性.

Simonyan等人[52]最先提出了利用反向传播推断特征重要性的解释方法(Grad)，通过利用反向传播算法计算模型的输出相对于输入图片的梯度来求解该输入图片所对应的分类显著图(Saliency Map).与Grad方法类似，Zeiler等人[53]提出了反卷积网络(DeconvNet),通过将DNN的高层激活反向传播到模型的输入以识别输入图片中负责激活的重要部分.不同的是，在处理线性整流单元(ReLU)过程中，当使用Grad方法反向传播重要性时，如果正向传播过程中ReLU的输入为负，则反向传播过程中传入ReLU的梯度值为零.而在反卷积网络中反向传播一个重要信号时，当且仅当信号值为负，进入ReLU的重要信号被置零，而不考虑前向传播过程中输入到ReLU的信号的符号.Springenberg等人[54]将Grad方法与反卷积网络相结合提出了导向反向传播方法(GuidedBP)，通过在反向传播过程中丢弃负值来修改ReLU函数的梯度.与只计算输出针对当前输入的梯度不同，Sundararajan等人[55]提出了一种集成梯度方法(Integrated)，该方法通过计算输入从某些起始值按比例放大到当前值的梯度的积分代替单一梯度，有效地解决了DNN中神经元饱和问题导致无法利用梯度信息反映特征重要性的问题.

然而，Grad,GuidedBP以及Integrated等方法通过反向传播所得到的显著图通常包含很多视觉可见的噪音,如图5所示，而我们无法确定这种噪音是否真实地反映了模型在分类过程中的决策依据.为此，Smilkov等人[56]提出了一种平滑梯度的反向传播解释方法(SmoothGrad)，该方法通过向输入样本中引入噪声解决了Grad等方法中存在的视觉噪音问题.SmoothGrad方法的核心思想是通过向待解释样本中添加噪声对相似的样本进行采样，然后利用反向传播方法求解每个采样样本的决策显著图，最后将所有求解得到的显著图进行平均并将其作为对模型针对该样本的决策结果的解释.

Fig.5 Comparison of interpretation quality of four gradient back-propagation based interpretation methods图5 4种梯度反向传播解释方法解释效果对比[59]

尽管上述基于梯度反向传播的方法可以定位输入样本中决策特征，但却无法量化每个特征对模型决策结果的贡献程度.因此，Landecker等人[109]提出一种贡献传播方法，该方法首先利用加性模型计算DNN高层特征对模型分类结果的贡献，然后通过反向传播将高层特征的贡献逐层传递到模型的输入，以确定每一层的每一个神经元节点对其下一层神经元节点的相对贡献.给定一个待解释样本，该方法不仅可以定位样本中的重要特征，而且还能量化每一个特征对于分类结果的重要性.Bach等人[57]则提出了一种分层相关性传播方法(LRP)，用于计算单个像素对图像分类器预测结果的贡献.一般形式的LRP方法假设分类器可以被分解为多个计算层，每一层都可以被建模为一个多维向量并且该多维向量的每一维都对应一个相关性分值，LRP的核心则是利用反向传播将高层的相关性分值递归地传播到低层直至传播到输入层.Shrikumar等人[58]对LRP方法进行了改进(DeepLIFT)，通过在输入空间中定义参考点并参考神经元激活的变化按比例传播相关分数.其研究结果表明，在不进行数值稳定性修正的情况下，原始LRP方法的输出结果等价于Grad方法所求显著图与输入之间的乘积.与梯度反向传播方法不同的是，LRP方法不要求DNN神经元的激活是可微的或平滑的.基于此优点，Ding等人[110]首次将LRP方法应用于基于注意力机制的编码器-解码器框架，以度量神经网络中任意2个神经元之间关联程度的相关性.在汉英翻译案例中的研究表明，该方法有助于解释神经机器翻译系统的内部工作机制并分析翻译错误.类似地，Arras等人[111]将LRP方法引入到自然语言处理任务中，并且从定性和定量的角度证明LRP方法既可以用于文档级别的细粒度分析，也可以作为跨文档的数据集级别的分析，以识别对分类器决策很重要的单词.

基于反向传播的解释方法通常实现简单、计算效率高且充分利用了模型的结构特性.然而，从理论上易知，如果预测函数在输入附近变得平坦，那么预测函数相对于输入的梯度在该输入附近将变得很小，进而导致无法利用梯度信息定位样本的决策特征.尽管Integrated方法在一定程度上解决了该问题，但同时也增加了计算开销，并且Integrated方法的解释结果中依然存在许多人类无法理解的噪音.此外，梯度信息只能用于定位重要特征，而无法量化特征对决策结果的重要程度，利用基于重要性或相关性反向传播的解释方法则可以解决该问题.

3.2.4 特征反演

尽管敏感性分析、局部近似以及梯度反向传播等方法在一定程度上可以提供对待解释模型决策结果的局部解释，但它们通常忽略了待解释模型的中间层，因而遗漏了大量的中间信息.而利用模型的中间层信息，我们能更容易地表征模型在正常工作条件下的决策行为，进而可提供更准确的解释结果.特征反演(feature inversion)作为一种可视化和理解DNN中间特征表征的技术，可以充分利用模型的中间层信息，以提供对模型整体行为及模型决策结果的解释.

特征反演解释方法可分为模型级(model-level)解释方法和实例级(instance-level)解释方法.模型级解释方法旨在从输入空间中寻找可以表示DNN神经元所学到的抽象概念的解释原型(如激活最大化方法)，并通过可视化和理解DNN每一层特征表示的方式，提供对DNN每一层所提取信息的理解[52,95,112-113].然而，模型级解释方法的反演结果通常相对粗糙且难以理解，此外，如何从输入样本中自动化提取用于模型决策的重要特征仍然面临着巨大的挑战.针对模型级方法的不足，实例级特征反演方法试图回答输入样本的哪些特征被用于激活DNN的神经元以做出特定的决策.其中，最具代表性的是Du等人[59]提出的一个实例级特征反演解释框架，该框架通过在执行导向特征反演过程中加入类别依赖约束，不仅可以准确地定位待输入实例中的用于模型决策的重要特征(如图6所示)，还可以提供对DNN模型决策过程的深入理解.

Fig. 6 Interpretation example of guided feature inversion method图6 导向特征反演方法解释示例[59]

3.2.5 类激活映射

最新研究表明:CNN不同层次的卷积单元包含大量的位置信息，使其具有良好的定位能力[114].基于卷积单元的定位能力，我们可以定位出输入样本中用于CNN决策的核心区域，如分类任务中的决策特征、目标检测任务中的物体位置等.然而，传统CNN模型通常在卷积和池化之后采用全连接层对卷积层提取的特征图进行组合用于最终决策，因而导致网络的定位能力丧失.

Fig. 7 Visualization of interpretation results of Grad-CAM and Guided Grad-CAM methods图7 Grad-CAM与Guided Grad-CAM方法解释结果可视化[61]

为解决这一问题，Zhou等人[60]提出了类激活映射(class activation mapping, CAM)解释方法，该方法利用全局平均池化(global average pooling)层来替代传统CNN模型中除softmax层以外的所有全连接层，并通过将输出层的权重投影到卷积特征图来识别图像中的重要区域.具体地，CAM首先利用全局平均池化操作输出CNN最后一个卷积层每个单元的特征图的空间平均值，并通过对空间平均值进行加权求和得到CNN的最终决策结果.同时，CAM通过计算最后一个卷积层的特征图的加权和，得到CNN模型的类激活图，而一个特定类别所对应的类激活图则反映了CNN用来识别该类别的核心图像区域.最后，通过以热力图的形式可视化类激活图得到最终的解释结果.研究结果表明，全局平均池化层的优势远不止于作为一个正则器来防止网络过拟合，事实上，通过稍加调整，全局平均池化还可以将CNN良好的定位能力保留到网络的最后一层[60].

然而，CAM方法需要修改网络结构并重训练模型，因而在实际应用中并不实用.因此，Selvaraju等人[61]对CAM方法进行了改进，提出了一种将梯度信息与特征映射相结合的梯度加权类激活映射方法(Grad-CAM).给定一个输入样本，Grad-CAM首先计算目标类别相对于最后一个卷积层中每一个特征图的梯度并对梯度进行全局平均池化，以获得每个特征图的重要性权重；然后，基于重要性权重计算特征图的加权激活，以获得一个粗粒度的梯度加权类激活图，用于定位输入样本中具有类判别性的重要区域,如图7(c)所示.与CAM相比，Grad-CAM无需修改网络架构或重训练模型，避免了模型的可解释性与准确性之间的权衡，因而可适用于多种任务以及任何基于CNN结构的模型，对于全卷积神经网络，Grad-CAM退化为CAM方法.尽管Grad-CAM具有良好的类别判别能力并能很好地定位相关图像区域，但缺乏诸如DeconvNet[53]和GuidedBP[54]等像素级别梯度可视化解释方法显示细粒度特征重要性的能力[61].为获得更细粒度的特征重要性，作者将Grad-CAM与GuidedBP方法相结合提出了导向梯度加权类激活映射方法(Guided Grad-CAM)，该方法首先利用双线性插值将梯度加权类激活图上采样到输入图片分辨率大小，然后点乘GuidedBP方法的输出结果，得到细粒度的类判别性特征定位图,如图7(d)所示.研究结果表明，Guided Grad-CAM方法解释效果优于GuidedBP和Grad-CAM.

类激活映射解释方法实现简单、计算效率高，解释结果视觉效果好且易于理解，但这类方法只适用于解释CNN模型，很难扩展到全连接神经网络(FCN)以及RNN等模型.此外，CAM方法需要修改网络结构并重训练模型，模型的准确性与可解释性之间始终存在一个权衡，且针对重训练模型做出的解释结果与原待解释模型的真实行为之间存在一定的不一致性，因而在真实应用场景中很难适用.Grad-CAM虽然解决了CAM需要进行网络修改和模型重训练的问题，但仍然与CAM方法一样只能提供粗粒度的解释结果，无法满足安全敏感应用场景(如自动驾驶、医疗诊断等)中对精细化解释的需要.Guided Grad-CAM方法作为CAM和Grad-CAM的加强版，既不需要修改网络结构或重训练模型，又能提供更细粒度的解释结果，但由于引入了导向反向传播方法，因而该方法同样存在由于负梯度归零导致无法定位与模型决策结果呈负相关的样本特征的局限性[115].

3.2.6 其他方法

除了上述5种典型的局部可解释方法外，其他研究者从不同的角度对模型可解释性进行了深入研究，并提出了一些新的局部解释方法，包括抽象解释[62]和准确一致解释[63]等.

针对DNN系统的可靠分析技术所面临的主要挑战是如何在解释神经网络某些特性的同时将其扩展到大规模的DNN分类器，因此，分析方法必须考虑到任何经过大量中间神经元处理的大规模输入集上所有可能的模型输出结果.由于模型的输入空间通常是巨大的，因而通过在所有可能的输入样本上运行模型来检查它们是否满足某一特性是不可行的.为解决这一挑战，避免状态空间爆炸，Gehr等人[62]将程序分析中的经典抽象解释框架应用于DNN分析，首次提出了可扩展的、可用于验证和分析DNN安全性和鲁棒性的抽象解释系统(AI2).具体地，AI2首先构造一个包含一系列逻辑约束和抽象元素的数值抽象域；由于DNN的每一层处理的是具体的数值，因而抽象元素无法在网络中传播.为解决此问题，AI2通过定义一个被称之为抽象转换器(abstract transformer)的函数将DNN的每一层转换为对应的抽象层，并基于抽象元素过近似(over-approximation)原神经网络每一层的处理函数以捕获其真实行为；最后，AI2基于抽象转换器返回的抽象结果，分析并验证神经网络的鲁棒性和安全性.AI2不用真正运行DNN模型即可验证DNN的某些特定属性，因而计算效率高，可扩展到大规模、更复杂的DNN网络.但由于采用了过近似处理，尽管AI2能提供可靠的解释但无法保证解释的准确性.

现有局部解释方法包括抽象解释都很难保证解释结果的准确性和一致性，为此，许多学者开始研究针对DNN模型的精确解释方法.Chu等人[63]提出了一种准确一致的解释方法(OpenBox)，可为分段线性神经网络(PLNN)家族模型提供精确一致的解释.作者研究证明，PLNN在数学上等价于一系列的局部线性分类器，其中每一个线性分类器负责分类输入空间中的一组样本.因此，给定一个待解释PLNN模型，OpenBox首先利用神经网络的前向传播机制和矩阵运算将给定的PLNN模型表示成数学上与之等价的、由一系列数据依赖的局部线性分类器组成的线性解释模型；然后，针对每一个待解释样本，OpenBox基于该样本所对应的局部线性分类器提供对PLNN分类结果的解释.研究结果表明，由于线性解释模型数学上与待解释PLNN等价，因此基于线性解释模型给出的解释结果能精确地反映PLNN的真实决策行为，并且线性解释模型针对每一个输入的决策结果与待解释PLNN的决策结果完全一致，从而解决了模型的可解释性与准确性之间的权衡难题.此外，针对近似的样本，OpenBox可以给出一致的解释，保证了解释结果的一致性.然而，OpenBox作为针对PLNN家族的特定解释方法，只能解释线性神经网络模型，无法用于解释非线性神经网络模型.此外，如何将其扩展到CNN,RNN等更复杂的神经网络模型同样面临着巨大的挑战.

4 可解释性应用

机器学习模型可解释性相关技术潜在应用非常广泛，具体包括模型验证、模型诊断、辅助分析以及知识发现等.

4.1 模型验证

传统的模型验证方法通常是通过构造一个与训练集不相交的验证集，然后基于模型在验证集上的误差来评估模型的泛化性能，从而提供对模型好坏的一个粗粒度的验证.然而，由于数据集中可能存在偏差，并且验证集也可能与训练集同分布，我们很难简单地通过评估模型在验证集上的泛化能力来验证模型的可靠性，也很难验证模型是否从训练数据中学到了真正的决策知识.以冰原狼与哈士奇的分类为例，由于训练集中所有冰原狼样本图片的背景均为雪地，导致分类模型可能从训练集中学到数据偏差从而将雪作为冰原狼的分类特征，又由于验证集与训练集同分布，模型在验证集上的分类性能与在训练集上的性能同样优异，因而导致传统的模型验证方法将该模型识别为一个好的分类模型[13].很显然，这样的模型通常是不可靠的，一旦模型在推理阶段遇到背景为雪地的哈士奇样本图片，分类模型会做出错误的决策，而模型的这种行为将会给实际场景尤其是风险敏感场景中的真实应用带来潜在的威胁.

针对传统模型验证方法的不足，我们可以利用模型的可解释性及相关解释方法对模型可靠性进行更细粒度的评估和验证，从而消除模型在实际部署应用中的潜在风险.基于可解释性的模型验证方法一般思路如下：首先构造一个可信验证集，消除验证集中可能存在的数据偏差，保证验证数据的可靠性；然后，基于可信验证集，利用相关解释方法提供对模型整体决策行为(全局解释)或模型决策结果(局部解释)的解释；最后，基于解释方法给出的解释结果并结合人类认知，对模型决策行为和决策结果的可靠性进行验证，以检查模型是否在以符合人类认知的形式正常工作.

在冰原狼与哈士奇分类的例子中，Ribeiro等人[13]利用局部解释方法LIME解释分类模型针对一个背景为雪的哈士奇图片的分类结果，发现分类模型将该图片错误地分类为冰原狼，而解释方法给出的解释结果表明模型做出决策的依据是图片背景中的雪,如图8(a)所示.很显然，该解释结果与人类的认知相违背，表明模型在学习的过程中错误地将雪作为冰原狼的决策特征，从而证明该模型是不可靠的.类似地，Lapuschkin等人[116]利用LRP解释方法定性地分析一个从ImageNet中迁移训练得到的CNN模型和一个在PASCAL VOC 2007数据集上训练得到的Fisher向量(FV)分类器的决策结果，以检测训练数据中的潜在缺陷和偏差.研究结果表明，尽管2个模型具有相似的分类精度，但在对输入样本进行分类时却采用了完全不同的分类策略.从LRP解释方法给出的解释结果可以看出,如图8(b)所示，在对轮船图片进行分类时，FV分类器依据的是海水特征，而CNN模型则能正确地捕获到轮船的轮廓信息.与此同时，如果将位于水外的轮船作为测试样本，FV分类器的分类性能将大幅下降，而CNN模型则几乎不受影响.这一验证结果表明，FV分类器的决策行为存在偏差而CNN模型表现正常.因此，我们认为CNN模型比FV分类器更可靠，在进行模型选择时，我们将会选择CNN模型作为最终的分类模型.

Fig. 8 Examples of interpretation-based model validation图8 基于可解释性的模型验证示例

而对于可解释方法所识别出的不可靠的模型，我们可以采取相应的对策来进行改进.比如说，我们可以通过在训练模型时引入归纳偏置，提高模型在预测阶段的泛化能力，从而使其能对未知样本做出正确的决策.我们也可以通过修正训练集分布，消除数据中存在的偏差，并利用修正后的数据集重训练模型达到消除模型决策偏差的目的.

4.2 模型诊断

由于机器学习模型内部工作机制复杂、透明性低，模型开发人员往往缺乏可靠的推理或依据来辅助他们进行模型开发和调试，因而使得模型开发迭代过程变得更加耗时且容易出错.而模型可解释性相关技术作为一种细粒度分析和解释模型的有效手段，可用于分析和调试模型的错误决策行为，以“诊断”模型中存在的缺陷，并为修复模型中的缺陷提供有力的支撑.近年来，随着模型可解释性研究不断取得新的突破，基于可解释性的机器学习模型诊断相关研究也吸引了越来越多的关注[117-120].

研究表明:基于模型特征表示可视化以及中间层分析的解释方法(如激活最大化、特征反演等)可以有效地用于解释和诊断复杂模型.典型的解决方案包括可视化模型的中间激活状态或内部特征表示以及可视化模型中的数据流图[121-123]，以增强对复杂模型的解释和理解，同时分析和评估模型或算法的性能，为在模型开发的不同阶段(如前期特征工程、中期超参调整以及后期模型微调等)交互式改进模型提供有效的指导[124].此外，一些其他的研究方法则通过识别与模型“漏洞”相关的重要特征或实例来进行模型诊断和调试.Krause等人[125]基于敏感性分析解释方法的思想，设计了一个名为Prospector的系统，通过修改特征值并检查预测结果的相应变化来确定敏感性特征.Cadamuro等人[117]提出了一种概念分析和诊断循环的模型诊断方法，允许终端用户迭代地检测模型“漏洞”，以找到对模型“漏洞”贡献最大的训练实例，从而确定模型出错的根本原因.Krause等人[126]提出了一个可视化模型诊断工作流，通过利用局部解释方法度量输入实例中的局部特征相关性，以帮助数据科学家和领域专家理解和诊断模型所做出的决策.具体地，该工作流首先利用聚合统计查看数据在正确决策和错误决策之间的分布；然后，基于解释方法理解用于做出这些决策的特征；最后基于原始数据，对影响模型决策的潜在根本原因进行深入分析.

针对已发现的模型“漏洞”，我们可以基于模型诊断方法给出的推理结果，采取相应的措施对模型进行“治疗”，如提高训练数据的质量、选择可靠特征以及调整模型超参等.Paiva等人[127]提出了一种可视化数据分类方法，该方法通过点布局策略实现数据集的可视化，允许用户选择并指定用于模型学习过程的训练数据，从而提高训练集的整体质量.Brooks等人[128]提出了一个用于改进特征工程的交互式可视化分析系统，该系统支持错误驱动的特征构思过程并为误分类样本提供交互式可视化摘要，允许在误分类样本和正确分类样本之间进行特征级别的比较，以选择能减小模型预测错误率的特征，从而提高模型性能并修复模型中的“漏洞”.

4.3 辅助分析

除了用于模型验证与模型诊断之外，可解释性相关技术还可用于辅助分析与决策，以提高人工分析和决策的效率.相关研究表明，基于可解释性的辅助分析技术在医疗数据分析、分子模拟以及基因分析等多个领域取得了巨大的成功，有效地解决了人工分析耗时费力的难题.

在智慧医疗领域，许多学者尝试将深度学习及可解释性技术应用于构建自动化智能诊断系统，以辅助医护人员分析病人的医疗诊断数据，从而提高人工诊断的效率[6,129].Rajpurkar等人[6]基于大规模病人胸片数据开发了基于深度学习的肺炎检测系统(CheXNet)，其检测性能甚至超过了放射科医师的诊断水平，该系统通过将可解释方法CAM应用于解释检测系统的决策依据并可视化对应的解释结果(如图9所示)，可以为医师分析病人医疗影像数据以快速定位病人的病灶提供大量的辅助信息.Arvaniti等人[129]研究结果表明，在给定一个良好标注的数据集的前提下，可以利用CNN模型成功地实现对前列腺癌组织微阵列的自动格里森分级.同时，利用解释方法给出自动分级系统的分级依据，可实现病理专家级的分级效果，从而为简化相对繁琐的分级任务提供了支撑.

Fig. 9 Application of interpretation in medical diagnosis图9 可解释方法在医疗诊断中的应用[6]

在量子化学领域，分子动力学模拟是理解化学反应机理、速率和产率的关键，然而由于分子的完整波函数相对复杂，且难以计算和近似，导致人们通常难以理解，因而如何创建人类可解释的分子表示成为21世纪物质模拟的一大挑战[130].为解决这一难题，许多学者将机器学习及可解释性技术引入到分子模拟任务中，用于辅助分析分子结构与分子性质之间的关系[131-133].其中，Schütt等人[133]提出一种通过结合强大的结构和表示能力以实现较高预测性能和良好可解释性的深度张量神经网络(DTNN)，用于预测分子结构与电子性质之间的关系.同时，作者利用基于测试电荷扰动的敏感性分析方法测量在给定的位置插入电荷对DTNN输出结果的影响，从而找到与解释分子结构与性质关系最相关的每个单独的分子空间结构.Häse等人[132]提出一种利用机器学习来辅助分子动力学模拟的方法，该方法利用模拟产生的大量数据训练贝叶斯神经网络(BNN)来预测1,2-二氧杂环丁烷从初始核位置的离解时间.为了构建一个可解释的BNN模型，作者将模型的权重和偏置分布参数化为拉普拉斯分布，以确定与准确预测离解时间以及实际的物理过程相关的输入特征.研究结果表明，该方法不仅可以准确地再现化合物的离解过程，而且能自动地从模拟数据中提取相关信息，而不需要预先了解相关化学反应.同时，通过解释BNN所捕获的特征与实际物理过程之间的相关关系，可以在不了解电子结构的情况下，确定核坐标与离解时间之间的物理相关性，从而为人们在化学领域取得概念性的突破提供灵感.

在基因组分析领域，由基因组学研究不断进步而产生的数据爆炸，给传统的基因组分析方法带来了巨大的挑战，同时也给数据驱动的深度学习技术在基因组分析研究中的发展和应用带来了机遇[134].相关研究表明，深度学习在基因组分析中的应用已突显出了其强大的优势[135-138].然而，人们期望深度学习模型不仅能成功地预测结果，还能识别有意义的基因序列，并对所研究的科学问题(如基因与疾病、药物之间的关系)提供进一步的见解，因而模型的可解释性在应用中显得至关重要.Lanchantin等人[137]将3种DNN模型(即CNN,RNN以及CNN-RNN)应用于预测给定的DNA序列中某一特定的转录因子是否有结合位点，并且提出了一套基于解释方法的可视化策略，用于解释对应的预测模型并从中提取隐含的序列模式.其中，作者基于反向传播解释方法，通过计算预测概率相对于输入DNA序列的梯度来构建显著图[52]，用于度量并显示核苷酸的重要性.同时，作者利用时间域输出分值来识别DNN序列中与特定转录因子结合位点相关的关键序列位置，并利用类激活最大化方法生成与特定预测结果相关的Motif模式.实验结果证明，这一系列的可视化策略可为研究人员分析DNA序列结构、组成成分与特定转录因子结合位点之间的关系提供大量的辅助信息.类似地，Alipanahi等人[138]构建了一个名为DeepBind的系统，通过训练一个CNN模型将DNA和RNA序列映射到蛋白质结合位点上，以了解DNA和RNA结合蛋白的序列特异性.为了进一步探索遗传变异对蛋白质结合位点的影响，作者采用了基于扰动的敏感性分析方法，通过计算突变对DeepBind预测结果的影响生成“突变图”，以解释序列中每个可能的点突破对结合亲和力的影响.作者表明，DeepBind可用于揭示RNA结合蛋白质在选择性剪接中的调节作用，并辅助研究人员分析、识别、分组及可视化可影响转录因子结合和基因表达的疾病相关遗传变异，从而有望实现精准医学.

4.4 知识发现

近年来，随着人工智能相关技术的发展，基于机器学习的自动决策系统被广泛地应用到各个领域，如恶意程序分析、自动化医疗诊断以及量化交易等.然而，由于实际任务的复杂性以及人类认知和领域知识的局限性，人们可能无法理解决策系统给出的结果，因而缺乏对相关领域问题更深入的理解，进而导致许多科学问题难以得到有效的解决.最新研究成果表明，通过将可解释性相关技术与基于机器学习的自动决策系统相结合，可有效地挖掘出自动决策系统从数据中学到的新知识，以提供对所研究科学问题的深入理解，从而弥补人类认知与领域知识的局限性.

在二进制分析领域，许多潜在的启发式方法都是针对某一个特定的函数的，而挖掘这些潜在的方法通常需要丰富的领域知识，因而很难通过人工的方式对所有的启发式方法进行汇总.Guo等人[51]将可解释方法LEMNA应用于一个基于LSTM的二进制函数入口检测器，以提供对LSTM检测结果的解释.通过分析解释结果，作者发现检测模型确实从训练数据中学到了用于识别函数入口的潜在特征，这表明利用LEMNA解释方法可以挖掘出检测模型从数据中学到的新知识，从而对总结针对某个特殊函数的所有潜在的启发式方法提供帮助.

在医疗保健领域，由于病人病理错综复杂且因人而异，医护人员往往无法通过有限的医疗诊断知识挖掘潜在的致病因素及其之间的相互作用，而对潜在因素的忽视极其可能带来致命的威胁.Yang等人[41]基于重症监护室(ICU)治疗记录数据构建了一个带注意力机制的RNN模型，用于分析医疗条件与ICU死亡率之间的关系，而这些关系在以往的医疗实践中往往没有得到很好的研究.作者研究结果表明，利用可解释性技术有助于发现与医疗保健中某些结果相关的潜在影响因素或相互作用，从而使得从自动化医疗诊断模型中学习新的诊断知识成为可能.

此外，作为知识发现的重要手段，模型可解释性及其相关解释方法还被广泛地应用到了数据挖掘领域，以从海量数据中自动地挖掘隐含的新知识[139-142].这类研究核心思想是基于所研究的领域及科学目标构建海量数据集，然后对构建的数据集进行清洗并利用机器学习模型从清洗后的数据中提取数据映射模式，最后利用解释方法从挖掘到的数据模式识别代表新知识的模式并利用可视化技术将新知识呈现给用户.

5 可解释性与安全性分析

模型可解释性研究的初衷是通过构建可解释的模型或设计解释方法提高模型的透明性，同时验证和评估模型决策行为和决策结果的可靠性和安全性，消除模型在实际部署应用中的安全隐患.然而，模型可解释性相关技术同样可以被攻击者利用以探测机器学习模型中的“漏洞”，因而会给机器学习模型以及真实应用场景中尤其是风险敏感场景中的机器学习应用带来威胁.此外，由于解释方法与待解释模型之间可能存在不一致性，因而可解释系统或可解释方法本身就存在一定的安全风险.

5.1 安全隐患消除

如第4节中所述，模型可解释性及相关解释方法不仅可以用于评估和验证机器学习模型，以弥补传统模型验证方法的不足，保证模型决策行为和决策结果的可靠性和安全性，还可用于辅助模型开发人员和安全分析师诊断和调试模型以检测模型中的缺陷，并为安全分析师修复模型“漏洞”提供指导，从而消除模型在实际部署应用中的安全隐患.并且，通过同时向终端用户提供模型的预测结果及对应的解释结果，可提高模型决策的透明性，进而有助于建立终端用户与决策系统之间的信任关系.

除了用于消除上述内在安全隐患之外，模型可解释性相关技术还可以帮助抵御外在安全风险.人工智能安全领域相关研究表明即使决策“可靠”的机器学习模型也同样容易受到对抗样本攻击，只需要在输入样本中添加精心构造的、人眼不可察觉的扰动就可以轻松地让模型决策出错[8,143-144].这种攻击危害性大、隐蔽性强、变种多且难以防御，严重地威胁着人工智能系统的安全.而现存防御方法大多数是针对某一个特定的对抗样本攻击设计的静态的经验性防御，因而防御能力极其有限.然而，不管是哪种攻击方法，其本质思想都是通过向输入中添加扰动以转移模型的决策注意力，最终使模型决策出错.由于这种攻击使得模型决策依据发生变化，因而解释方法针对对抗样本的解释结果必然与其针对对应的正常样本的解释结果不同.因此，我们可以通过对比并利用这种解释结果的反差来检测对抗样本，而这种方法并不特定于某一种对抗攻击，因而可以弥补传统经验性防御的不足.

除上述防御方法外，很多学者从不同的角度提出了一些新的基于可解释性技术的对抗防御方法.其中，Tao等人[145]认为对抗攻击与模型的可解释性密切相关，即对于正常样本的决策结果，可以基于人类可感知的特征或属性来进行推理，而对于对抗样本的决策结果我们则通常无法解释.基于这一认知，作者提出一种针对人脸识别模型的对抗样本检测方法，该方法首先利用敏感性分析解释方法识别与人类可感知属性相对应的神经元，称之为“属性见证”神经元；然后，通过加强见证神经元同时削弱其他神经元将原始模型转换为属性导向模型，对于正常样本，属性导向模型的预测结果与原始模型一致，对于对抗样本二者预测结果则不一致；最后，利用2个模型预测结果的不一致性来检测对抗样本，实现对对抗攻击的防御.Liu等人[146]则基于对分类模型的解释，提出了一种新的对抗样本检测框架.给定一个恶意样本检测器，该框架首先选择一个以确定为恶意样本的样本子集作为种子样本，然后构建一个局部解释器解释种子样本被分类器视为恶意样本的原因，并通过朝着解释器确定的规避方向来扰动每一个种子样本的方式产生对抗样本.最后，通过利用原始数据和生成的对抗样本对检测器进行对抗训练，以提高检测器对对抗样本的鲁棒性，从而降低模型的外在安全风险.

5.2 安全威胁

尽管可解释性技术是为保证模型可靠性和安全性而设计的，但其同样可以被恶意用户滥用而给实际部署应用的机器学习系统带来安全威胁.比如说，攻击者可以利用解释方法探测能触发模型崩溃的模型漏洞，在对抗攻击中，攻击者还可以利用可解释方法探测模型的决策弱点或决策逻辑，从而为设计更强大的攻击提供详细的信息.在本文中，我们将以对抗攻击为例，阐述可解释性技术可能带来的安全风险.

在白盒对抗攻击中，攻击者可以获取目标模型的结构、参数信息，因而可以利用反向传播解释方法的思想来探测模型的弱点[147].其中，Goodfellow等人[143]提出了快速梯度符号攻击方法(FGSM)，通过计算模型输出相对于输入样本的梯度信息来探测模型的敏感性，并通过朝着敏感方向添加一个固定规模的噪音来生成对抗样本.Papernot等人[148]基于Grad[52]解释方法提出了雅可比显著图攻击(JSMA)，该攻击方法首先利用Grad解释方法生成显著图，然后基于选择图来选择最重要的特征进行攻击.利用Grad方法提供的特征重要性信息，JMSA攻击只需要扰动少量的特征就能达到很高的攻击成功率，因而攻击的隐蔽性更强.对于黑盒对抗攻击，由于无法获取模型的结构信息，只能操纵模型的输入和输出[149]，因而攻击者可以利用模型无关解释方法的思想来设计攻击方法.其中，Papernot等人[150]提出了一种针对黑盒机器学习模型的替代模型攻击方法.该方法首先利用模型蒸馏解释方法的思想训练一个替代模型来拟合目标黑盒模型的决策结果，以完成从黑盒模型到替代模型的知识迁移过程；然后，利用已有的攻击方法针对替代模型生成对抗样本；最后，利用生成的对抗样本对黑盒模型进行迁移攻击.Li等人[9]提出了一种基于敏感性分析解释方法的文本对抗攻击方法(TextBugger)，用于攻击真实场景中的情感分析模型和垃圾文本检测器.该方法首先通过观察去掉某个词前后模型决策结果的变化来定位文本中的重要单词，然后通过利用符合人类感知的噪音逐个扰动重要的单词直到达到攻击目标.该研究表明，利用TextBugger攻击方法可以轻松的攻破Google Cloud,Microsoft Azure,Amazon AWS,IBM Watson,Facebook fastText等平台提供的商业自然语言处理机器学习服务，并且攻击成功率高、隐蔽性强.

5.3 自身安全问题

由于采用了近似处理或是基于优化手段，大多数解释方法只能提供近似的解释，因而解释结果与模型的真实行为之间存在一定的不一致性.而最新研究表明，攻击者可以利用解释方法与待解释模型之间的这种不一致性设计针对可解释系统的新型对抗样本攻击，因而严重的威胁着可解释系统的自身安全.

根据攻击目的不同，现存针对可解释系统的新型对抗样本攻击可以分为2类:1)在不改变模型的决策结果的前提下，使解释方法解释出错[151]；2)使模型决策出错而不改变解释方法的解释结果[152].其中，Ghorbani等人[151]首次将对抗攻击的概念引入到了神经网络的可解释性中并且提出了模型解释脆弱性的概念.具体地，他们将针对解释方法的对抗攻击定义为优化问题：

其中，I(xt;N)为解释系统对神经网络N针对样本xt决策结果f(xt)的解释，δ为样本中所需添加的扰动，D(·)用于度量扰动前后解释结果的变化.通过优化上述目标函数，可以在不改变模型决策结果的前提下，生成能让解释方法产生截然不同的解释结果的对抗样本.针对Grad[52],Integrated[55]以及DeepLIFT[58]等反向传播解释方法的对抗攻击实验证明，上述解释方法均容易受到对抗样本攻击，因而只能提供脆弱的模型解释.与Ghorbani等人研究相反，Zhang等人[152]提出了Acid攻击，旨在生成能让模型分类出错而不改变解释方法解释结果的对抗样本.通过对表示导向的(如激活最大化、特征反演等)、模型导向的(如基于掩码模型的显著性检测等[153])以及扰动导向的(如敏感性分析等)三大类解释方法进行Acid攻击和经验性评估，作者发现生成欺骗分类器及其解释方法的对抗样本实际上并不比生成仅能欺骗分类器的对抗样本更困难.因此，这几类解释方法同样是脆弱的，在对抗的环境下，其提供的解释结果未必可靠.此外，这种攻击还会使基于对比攻击前后解释结果的防御方法失效，导致对抗攻击更难防御.

上述研究表明：现存解释方法大多数是脆弱的，因此只能提供有限的安全保证.但由于可解释性技术潜在应用广泛，因而其自身安全问题不容忽视.以医疗诊断中的可解释系统为例，在临床治疗中，医生会根据可解释系统提供的解释结果对病人进行相应的诊断和治疗，一旦解释系统被新型对抗攻击方法攻击，那么提供的解释结果必然会影响医生的诊断过程，甚至是误导医生的诊断而给病人带来致命的威胁.因此，仅有解释是不够的，为保证机器学习及可解释性技术在实际部署应用中的安全，解释方法本身必须是安全的，而设计更精确的解释方法以消除解释方法与决策系统之间的不一致性则是提高解释方法鲁棒性进而消除其外在安全隐患的重要途径.

6 当前挑战与未来方向

尽管模型可解释性研究已取得一系列瞩目的研究成果，但其研究还处于初级阶段，依然面临着许多的挑战且存在许多的关键问题尚待解决.其中，可解释性研究当前面临的一个挑战是如何设计更精确、更友好的解释方法，消除解释结果与模型真实行为之间的不一致；第2个挑战是如何设计更科学、更统一的可解释性评估指标，以评估可解释方法解释性能和安全性.

6.1 解释方法设计

精确地理解机器学习的工作原理，研究透明的、可解释且可证明机器学习技术，有助于推动机器学习研究的进一步发展，同时有助于促进人工智能相关技术的落地应用.这要求机器学习可解释性研究必须具备能精确地揭示模型内部工作逻辑同时向人类提供可以足够准确理解模型决策的信息的能力.因此，无论是ante -hoc可解释性还是post-hoc可解释性，我们所设计的解释方法都必须是精确的，我们的解释方法提供的解释结果都必须忠实于模型的真实决策行为.

由于模型的决策准确性与模型自身可解释性之间存在一个权衡，现有关于ante -hoc可解释性的研究多局限于诸如线性回归、决策树等算法透明、结构简单的模型，对于复杂的DNN模型则只能依赖于注意力机制提供一个粗粒度的解释.因此，如何设计可解释的机器学习模型以消除模型准确性与可解释性之间的制约是ante -hoc可解释性研究所面临的一大挑战，也是未来可解释性研究发展的一个重要趋势.其中，一种直观的方法是将机器学习与因果模型相结合，让机器学习系统具备从观察数据中发现事物间的因果结构和定量推断的能力.同时，我们还可以将机器学习与常识推理和类比计算等技术相结合，形成可解释的、能自动推理的学习系统.未来我们还可以考虑利用仿生学知识并结合更先进的认知理论对人类认知建模，以设计具备人类自我解释能力的机器学习模型，实现具有一定思维能力并且能自我推理自我解释的强人工智能系统.

对于post-hoc可解释性而言，大多数的研究都在尝试采用近似的方法来模拟模型的决策行为，以从全局的角度解释模型的整体决策逻辑或者从局部的角度解释模型的单个决策结果.然而，由于近似过程往往不够精确，解释方法给出的解释结果无法正确地反映待解释模型的实际运行状态和真实决策行为，而解释方法与决策模型之间的这种不一致性甚至严重地威胁着可解释系统自身的安全.因此，当前post-hoc可解释性相关研究面临的巨大挑战是如何设计忠实于决策模型的安全可保障的精确解释方法，以消除解释结果与模型真实行为之间的不一致性，从而保证解释结果的可靠性和安全性.未来一个有前景的潜在研究方向是设计数学上与待解释模型等价的解释方法或解释模型.对于全连接神经网络，Chu等人[63]已经给出了相应的研究方法并取得了一定的研究成果，我们则可以基于具体模型的内部机理和神经网络的前向传播机制，将Chu等人提出的研究方法扩展到CNN,RNN等更复杂神经网络模型，从而实现对复杂模型的精确解释.

6.2 解释方法评估

目前，可解释性研究领域缺乏一个用于评估解释方法的科学评估体系，尤其是在计算机视觉领域，许多解释方法的评估还依赖于人类的认知，因而只能定性评估，无法对解释方法的性能进行量化，也无法对同类型的研究工作进行精确地比较.并且，由于人类认知的局限性，人们只能理解解释结果中揭示的显性知识，而通常无法理解其隐性知识，因而无法保证基于认知的评估方法的可靠性.

对于ante -hoc可解释性而言，其评估挑战在于如何量化模型的内在解释能力.对于同一应用场景，我们可能会采用不同的模型，同一模型也可能会应用到不同的场景中，而对于如何衡量和比较这些模型的可解释性目前仍没有达成共识.由于模型自身可解释性受实际应用场景、模型算法本身以及人类理解能力的制约，未来我们可以从应用场景、算法功能、人类认知这3个角度来设计评估指标.这些指标虽各有利弊但相互补充，可以实现多层次、细粒度的可解释性评估，以弥补单一评估指标的不足.

对于post-hoc可解释性而言，其评估挑战在于如何量化解释结果的保真度和一致性.如前所述，由于人类认知的局限性，解释方法针对机器学习模型给出的解释结果并不总是“合理”的，而我们很难判断这种与人类认知相违背的解释结果到底是由于模型自身的错误行为还是解释方法的局限性，抑或是人类认知的局限性造成的.因此，我们需要设计可靠的评估指标对解释方法进行定量的评估.Guo等人[51]提出利用解释方法给出的预测结果与待解释模型预测结果之间的均方根误差(RMSE)来评估解释方法的保真度，然而这种评估指标无法用于评估激活最大化、敏感性分析、反向传播以及特征反演等不提供预测结果的解释方法.Chu等人[63]提出利用输入样本及其邻近样本的解释结果的余弦相似性来评估解释方法，然而这种方法无法用于评估解释结果的保真度.此外，目前还缺乏用于评估针对同一模型的不同解释方法的评估指标.因此，未来我们需要从解释结果的保真度、一致性以及不同解释方法的差异性等角度设计评价指标，对解释方法进行综合评估.

7 结束语

机器学习可解释性是一个非常有前景的研究领域，该领域已经成为了国内外学者的研究热点，并且取得了许多瞩目的研究成果.但到目前为止，机器学习可解释性研究还处于初级阶段，依然存在许多关键问题尚待解决.为了总结现有研究成果的优势与不足，探讨未来研究方向，本文从可解释性相关技术、潜在应用、安全性分析等方面对现有研究成果进行了归类、总结和分析，同时讨论了当前研究面临的挑战和未来潜在的研究方向，旨在为推动模型可解释性研究的进一步发展和应用提供一定帮助.