深度学习可解释性内涵和分类

2023-01-20 22:06:18于芝枝

现代计算机 2022年20期

于芝枝

（国家知识产权局专利局专利审查协作广东中心，广州 510535）

0 引言

深度学习作为人工智能任务的引领技术，在自然语言处理、智能问答、计算机视觉等领域取得了显著成果。虽然深度学习具有数学统计原理推导，但是对于任务知识表征学习尚缺乏明确解释。相关研究者［1］认为神经网络模型和神经元权重不能直接理解为知识，不能解释模型为什么这么做、为何有效等问题。在医疗诊断、司法仲裁、军事决策等任务场景中，都要求模型系统必须被人类理解和信任，以实现模型系统满足安全性、非歧视性等辅助指标要求。因此深度学习的可解释性势必成为人工智能进一步推广的催化剂。

1 深度学习可解释性内涵

自2006年诞生以来，深度学习以不依赖人工设计的特征和专家知识特征逐渐成为特征提取常用方法，其可解释性的研究逐渐受到更多关注。

1.1 可解释性含义

通常认为，模型的可解释性表示模型使用者可以对模型输出进行理解和推理。Lipton［2］认为深度学习模型中与人类思维过程相呼应的内容称为可解释性，缺乏明确解释的模型或者存在不同解读的研究是非严谨的准科学。Lou等［3］认为可解释性体现在人类对模型工作方式的充分理解和清晰认识程度，揭示数据因果关系的结构关系。从不同视角、领域，对深度学习可解释性的阐述不尽相同，但都试图将黑盒深度学习决策转化为可解释性的决策推断，让使用者能够理解和相信决策。

1.2 可解释性的必要性

根据深度学习在现实生活中应用场景，大致可分为两种：①模型用来辅助人类产生影响生活的重大决策，如医疗诊断、商业贷款、自动驾驶等；②模型用来辅助人类产生非重要、低后果的决策，如商品推荐、目标识别、信息搜索等。对于第一种应用场景，深度学习更需要一个决策的解释，对其运行原理优缺点进行分析，理解系统机理。

对可解释性需求的利益相关者大致可分为四类：学术研究者、开发工程师、社会管理者和终端用户［4］。学术研究者包括医学专家、生物专家、人工智能研究者等，提出可解释性方法，促进人工智能技术发展，扩展人类知识边界。开发工程师需要利用可解释性方法辅助深度学习系统的调试、改进、安全审查等，对接终端用户。社会管理者包括公共安全、法律道德等与人类生活息息相关的不同领域管理者，主要从道德法律、规章制度等视角，审核深度学习技术是否存在不公平、歧视偏见等社会问题。终端用户包括医生、银行、法官等各行业使用者实体，可解释性需要使终端用户可以理解信任系统进行有效使用。

不同利益相关者对可解释性的需求不同，从7个不同视角对深度学习可解释性多样性需求进行总结：①安全、可信任：从终端用户视角，需要确认深度学习模型可能做出合理决策，能够建立对深度学习技术的信任；②可靠、鲁棒性：从研究者视角，需要可解释性辅助寻找在对抗攻击条件下鲁棒的算法，增强模型的鲁棒性；③调试：从开发者、部署者视角，理解系统工作机理，以便调试、改进系统；④道德法律：深度学习可解释性辅助人类防范某些种族歧视、隐私泄露等问题，解决系统中存在的先验偏见、保护个人信息；⑤科学：深度学习可解释性，帮助人类去寻求对事物的解释并将其转化为知识。

2 可解释性方法分类

深度学习可解释性方法从不同视角，可分为不同类别，方法之间存在重叠、非排他性。

2.1 全局方法和局部方法

全局方法试图从宏观角度解释模型机理，利用模型结构、训练过程、相关数据集的整体知识去阐述模型本身，解释模型行为。局部可解释性方法聚焦解释特定的单个预测结果或输出。

2.2 模型训练前方法和模型训练后方法

模型训练前方法是一种不依赖深度学习模型的独立可解释性方法，如主成分分析法、流形学习算法等。模型训练后方法则是聚焦探索模型训练过程中学到的知识。

2.3 替代法和可视化方法

替代法用于分析其他深度学习模型，来解释其决策原由，从而辅助理解深度学习模型。可视化方法通过可视化模型特征、特征间关系、神经元间关系以及神经网络结构、训练信息，有助理解模型内在工作机制和输出知识。

3 结语

深度学习模型的可解释性是模型优化的有效途径、模型实际应用推广的催化剂。深度学习可解释性研究的进步不仅可以辅助人们理解现有系统，更为揭开深度学习黑盒奠定了基础。本文阐述了深度学习可解释性研究的意义，同时对深度学习可解释性方法分类进行了总结，以期为其他研究者提供借鉴。