基于强化学习的知识图谱推理研究综述

2024-11-04 00:00:00刘世侠李卫军刘雪洋丁建平苏易礌李浩南
计算机应用研究 2024年9期

摘 要:

知识推理作为知识图谱补全中的一项重要任务,受到了学术界的广泛关注。为了提高模型的推理效果和可解释性,将强化学习与知识推理的结合是一种可行的解决方法。基于强化学习的知识推理方法将知识图谱研究的问题建模成路径或序列决策问题,能够更好地利用实体、关系等语义信息来提高推理效果和可解释性。首先,对知识图谱和知识推理的基本概念进行了叙述,阐述了近年来的研究进展。随后,从单层强化学习知识推理和双层强化学习知识推理两个角度,对基于强化学习的知识推理相关研究进行了分析与对比。最后,对知识推理如何应用于知识问答、智能推荐、医疗和交通等领域进行了探讨,并对基于强化学习的知识推理的未来研究方向进行了展望。

关键词:知识图谱;强化学习;知识推理

中图分类号:TP18 文献标志码:A 文章编号:1001-3695(2024)09-001-2561-12

doi:10.19734/j.issn.1001-3695.2023.11.0583

Review of reinforcement learning based knowledge graph reasoning research

Liu Shixiaa, Li Weijuna, b, Liu Xueyanga, Ding Jianpinga, Su Yileia, Li Haonana

(a.College of Computer Science & Technology, b.Key Laboratory of lmages & Graphics Intelligent Processing of State Ethnic Affairs Commission, North Minzu University, Yinchuan 750021, China)

Abstract:

Knowledge reasoning is a fundamental task in knowledge graph completion. It is a popular topic in the academic community. Integrating reinforcement learning and knowledge reasoning is a viable solution to improve the inference effectiveness and interpretability of models. Taking the problem of knowledge graph research as a path or sequence decision problem in the knowledge reasoning method based on reinforcement learning can make better use of semantic information, such as entities and relationships, to improve reasoning effect and interpretability. This paper provided a descriptive overview of the basic concepts of knowledge graph and knowledge reasoning, and described the research progress in recent years. The paper analysed and compared the related research on knowledge reasoning based on reinforcement learning from two perspectives: single-layer and double-layer reinforcement learning knowledge reasoning. Furthermore, the paper explored the application of knowledge reasoning in various domains, including knowledge question answering, intelligent recommendation systems, healthcare, and transportation. Lastly, the paper discussed future research tendencies for reinforcement learning-based knowledge reasoning and offered insights into potential avenues for exploration and development.

Key words:knowledge graph; reinforcement learning; knowledge reasoning

0 引言

随着云计算、物联网等技术的快速发展,知识图谱(know-ledge graph,KG)因其优异的可解释性和强大的表达能力,已经成为推动人工智能技术发展的核心驱动力之一。知识图谱的相关概念由Google公司于2012年率先提出[1],常用事实三元组(头实体、关系、尾实体)对其进行形式化的表示。知识图谱将信息表达为更贴近人类认知的形式,提供了一种组织、管理和认知理解海量信息的能力[2]。

由于知识图谱技术的快速发展,知识图谱被大量应用于推荐系统、智能问答等领域。Freebase[3]、DBpedia[4]、YAGO[5]、NELL[6]等许多国内外大型知识图谱也被相继构建出来。然而,无论是自动化构建还是人工构建的领域知识图谱都存在着一定程度的不完备问题。知识图谱的不完整性对其实际的应用带来了很大的阻碍,需要不断地对其进行补充和扩展。因此需要利用已有的知识图谱事实和推理技术,进一步从语义网和其他相应的知识库中挖掘出缺失的和更深层次的实体与关系之间的联系,实现知识图谱补全和知识图谱去噪等问题,进而使知识图谱更加丰富和完善。对于知识推理的基本概念,学术界给出了不同的定义。Seel等人[7]认为逻辑推理是以严密的方式运用前提和前提之间的关系,推断出由前提和关系所蕴涵的结论的一种形式。马昂等人[8]认为知识推理是从已有的知识中推理实体间可能存在的关系或属性值。

近年来,更多的学者对知识推理的相关技术和领域进行了深入的研究,并根据推理的不同角度进行了详细的划分。Chen等人[9]根据知识推理的概念和定义,将知识推理方法分为基于规则的推理、基于分布式表示的推理和基于神经网络的推理,但没有对时态、多模态知识图谱的推理进行总结。马瑞新等人[10]根据样本数据存在的各种缺陷将知识图谱推理分为多样本和少样本知识图谱推理,但仅仅总结了部分推理方法,其角度和内容并不全面。Tian等人[11]对知识图谱推理进行了全面回顾,将知识推理分为基于逻辑规则、基于表示和基于神经网络的方法。但是这些推理方法都存在着推理结果可解释性较差、效率较低的问题,而强化学习由于其在可解释性和性能等方面的优势,迅速成为了研究知识推理领域的热门技术。文献[12]从封闭域和开放域推理两个方面对当下基于深度强化学习的知识推理方法进行了分析和对比,但没有从强化学习分层的角度进行介绍。目前尽管已有许多知识推理、强化学习综述文献,但仍缺乏对强化学习和知识推理相结合的研究进行深入地梳理和总结工作。

本文对面向知识图谱的强化学习知识推理的最新研究进展进行了分析与总结,同时对知识推理的应用前景、未来研究方向进行了展望,如图1所示。本文工作的主要贡献如下:

a)首次从单、双层强化学习的知识推理两个角度,对基于强化学习的知识推理模型的基本思路和方法进行对比与分析;

b)详细介绍了知识推理如何应用于知识问答、智能推荐、医疗和交通等领域;

c)对知识推理研究领域未来的研究方向进行了展望,例如引入迁移学习、对抗学习等进行推理。

1 基于强化学习的知识推理

基于强化学习的知识推理旨在通过有限步的探索来寻找与当前查询相关的可靠推理路径[13]。在强化学习中作出决策的一方被称为智能体,首先从源实体出发,根据问题选择一个关系从而跳转到下一个实体,重复此步骤直到到达最大步数或到达目标实体[14]。在智能体探索的过程中,不断根据当前状态选择最有希望到达目标实体的关系,如果正确则通过奖励函数更新策略网络,强化学习框架如图2所示。在强化学习中主要关注状态空间S、动作空间A、转换函数P、奖励函数R四个指标。在介绍基于强化学习的知识推理模型之前,本文简要介绍了使用的主要符号以便参考,符号定义如表1所示。

1.1 单层强化学习的知识推理

传统的知识推理方法通常缺乏学习机制,它们依赖于预定义的规则和规则库,无法从经验中学习并改进推理过程。单层强化学习的知识推理是在智能体与环境的交互中学习语义信息,可以根据收到的反馈更新推理策略和机制,具有可扩展性、自适应性强等特点。

1.1.1 DeepPath模型

DeepPath知识推理模型[15]首次将强化学习应用于学习知识图谱中的关系路径。该模型将寻径问题表述为一个可以用RL智能体解决的顺序问题,智能体通过对关系的采样来扩展其路径,从而采取增量方式进行推理。DeepPath模型为了捕获实体和关系的语义信息利用了知识表示模型TransE[16],将所有符号映射到一个低维向量空间来获得实体和关系的连续表示。

DeepPath模型由两部分组成。第一部分是外部环境,外部环境是智能体和KG之间交互的环境,被建模为Markov决策过程(Markov decision process,MDP)。定义了一个元组〈S,A,P,R〉来表示MDP。第二部分为RL系统,主要由〈S,A,γ〉 三部分组成。其中S为状态空间,状态s(s∈S)的表示如下:

st=(et,etarget-et)(1)

其中:et表示当前实体节点的嵌入;etarget表示目标实体的嵌入。在初始状态下,et=eresource。

动作空间A中的动作a(a∈A)为RL智能体根据当前所在的位置(即当前实体节点的嵌入et)所选择的下一个动作。该动作a由全连接神经网络参数化策略函数πθ(s,a)的输出决定。其表示如下:

A={(et,a,en)∈E:S={st};a∈R;et,en∈E}(2)

其中:en表示RL智能体下一个可能的位置;a表示RL智能体采取的动作。

由于全局精度、路径效率、路径多样性会影响RL智能体找到的路径质量,为了鼓励智能体找到预测路径,对奖励函数γ分别作出如下表示:

1.3 小结

为了更直观地了解基于强化学习的知识推理模型,本文从模型所使用的技术、优缺点等方面对单层与双层两个角度的强化学习知识推理方法进行对比分析,如表2所示。

在单层强化学习的知识推理介绍中可以看出,DeepPath模型结构比较简单,可以有效地进行短路径任务的推理,但在多跳推理任务上效果较差。而MINERVA、M-Walk和Multi-Hop模型在改进后推理效果比DeepPath模型更好,并且MINERVA与Multi-Hop模型可以更有效地完成多跳推理任务。RLAT与MMKGR模型应用注意力机制可以更好地关注知识图谱中的关键信息,从而提高多跳推理的性能。

双层强化学习的知识推理结合了单层强化学习的特点,可以将复杂的推理任务进行分解。CURL与SBS模型将实体与关系进行分层来缓解稀疏奖励,可以有效解决长路径推理问题。而RLH和HMR模型是对抽象概念进行分层,模拟人类认知的处理结构,能够更好地处理每个关系和实体的多语义问题,提高推理效果。

2 强化学习知识推理的应用

强化学习知识推理因其具有良好的性能和可解释性已在多个领域展现出卓越的应用潜力。在知识图谱完善和扩展中,它通过自动推断缺失关系,提高了知识图谱的完整性。并且在医疗决策、交通管理、材料研发以及在线教育等领域,它为决策提供了更智能、个性化和高效的解决方案。

2.1 知识问答

问答(question answering,QA)系统是自然语言处理领域的一个重要发展方向,其目标是通过自然语言交互来获取知识和信息[42]。知识问答能够将用户以自然语言提出的问题转换为与客观世界相关的实体,而不是抽象的字符串,即将自然语言问题通过多种方法转换为结构化的查询,然后利用知识图谱从中获取答案。然而,计算机必须具备广泛的背景知识和强大的决策能力才能与人类进行顺畅的沟通交流。在问答过程中,计算机结合背景知识来理解对话内容,并从外部知识库中检索相关的知识并进行推理,从而生成恰当的回答。知识图谱为对话系统提供了丰富的背景知识,而强化学习则能够从相关的知识集合中选择适当的知识,并利用用户的隐式负反馈信息,以确保对话效果不断提升。这种结合知识图谱和强化学习的方法使得计算机能够更好地理解和回应用户的需求,从而实现更高质量、持续稳步提升的对话体验。

随着互联网的快速发展,人们之间的对话内容也在迅速增长。为了理解这些对话以及获得利用对话中共享信息进行推理的能力,Ghosal等人[43]提出了一个CICERO二元数据集,包含五种类型的基于语句级推理的对话:原因、后续时间、先决条件、动机和情绪反映,提高基于常识的对话推理能力。Asai等人[44]提出了跨语言开放检索答案生成的多对多回答CORA模型,检索与问题相关的跨语言文档,结合多语言自回归生成模型,从而直接以目标语言回答问题。Hung等人[45]提出COQA跨语言开放检索的MIA共享任务系统,该系统从多语言池中收集证据文档并生成问题语言的答案。为了最大限度地减少英语和非英语语言在常识性问答任务中的性能差距,Su等人[46]提出了基于注意力的跨语言常识知识转换(cross-lingual commonsense knowledge transfer, CLICKER)框架。Kacupaj等人[47]通过多任务学习范式设计了一种答案表达框架VOGUE,可以同时基于问题和查询以混合方法生成口语化的答案。由于现有的问题生成模型无法在非结构化文本中生成大量高质量的问题-答案对,Liu等人[48]提出了一种基于线索感知问题的生成方法ACS-QG,通过模仿人类提问的方式,从未标记的文本语料库中大规模自动生成高质量和多样化的问题-答案对。

2.2 智能推荐

推荐系统是一种利用互联网丰富的信息来主动理解用户需求并向其推荐信息的技术。随着互联网的迅速发展,推荐系统面临着数据稀疏、可解释性和个性化定制等诸多挑战和新需求。为了应对这些问题,知识图谱被引入到推荐系统中,对用户之间的关系进行建模,通过购买同件商品、评论同一条信息、点赞观看的视频等行为来构建知识图谱,向推荐系统中引入辅助信息。与传统的推荐方法不同,基于强化学习的知识图谱推荐通过在知识图谱中探索有意义的路径(路径查找),找到从用户到商品的关联路径。在这个过程中,强化学习智能体通过决策来进行探索,克服了数据稀疏性的问题,并提高了推荐系统的可解释性,使得推荐结果更加符合用户的需求。通过利用知识图谱中的关系和信息,强化学习智能体能够更好地理解用户的偏好和行为,从而进行更准确、个性化的推荐。

电子商务网站的爆炸性流行已经重塑了用户的购物习惯,越来越多的用户倾向于在网上花费更多时间购物。这种发展使得电子商务网站能够收集到关于用户的丰富数据。大多数传统的推荐系统都集中于用户和商品之间的宏观交互,特别是顾客的购买历史。对于购买频率较低的产品或具有较少历史数据的新用户来说,这尤其具有挑战性。为了解决这个问题,Wang等人[49]提出了一种基于知识图谱的意图网络(knowledge graph-based intent network,KGIN)新模型。模型利用GNN递归了整个长距离连接的关系序列,提取有关用户意图的有用信息并将其编码到用户和物品的表示中,KGIN通过识别具有影响力的意图和关系路径为预测提供了可解释性的解释。Xu等人[50]结合知识图谱和强化学习,提出了KGDQN模型,通过TransE来嵌入目标用户和项目,帮助管理用户和项目的信息。模型确定合适的推荐项目,并找到从目标用户到推荐项目的推理路径,对冗余边进行修剪,DQN模型呈现一个奖励函数,该函数给出了推荐项目的结果和推荐的解释路径。与KGDQN模型类似,Liu等人[51]应用图神经网络模型来实现更加个性化的推荐,提出了基于知识推理优化的知识图谱图卷积网络推荐算法(knowledge graph convolutional network, KGCN),应用KGCN捕获更多高阶特征,增强个性化推荐,在嵌入和聚合已完成时提高个性化推荐的性能。Lyu等人[52]提出了一种用于可解释性推荐的知识增强图神经网络(knowledge enhanced graph neural network,KEGNN),将语义知识应用于用户、物品和用户-物品交互三个方面的表示学习,对用户行为图进行语义和关系的知识推理。模型将复制机制融入门控循环神经网络,设计了一种生成模式和复制模式相结合的生成器,实现了人类化的语义解释生成。

2.3 医疗领域

智能医疗领域广泛应用知识图谱和知识推理技术,以提取有效的医学知识并辅助医疗决策。知识图谱通过整合临床医学数据,建立医疗知识图谱,将核心医学概念以及临床医学知识进行全方位的覆盖和规范化表达[53]。它提供了从海量的医学文本和图像信息中抽取结构化知识的手段,可以应用于医疗知识问答、智能辅助诊疗、医疗质量控制和疾病风险评估等领域。在生物医药领域,知识图谱和推理技术被广泛应用于药物图谱、疾病图谱、蛋白质图谱、基因图谱和药物分子信息图谱等[54,55]。

近年来,伴随人工智能快步发展以及智能医疗、精准医疗和医学辅助决策的提出,知识图谱在医学领域逐渐引起重视,受到国内外研究人员广泛的关注[56]。随着人工智能的发展,智能医疗系统发挥着越来越重要的作用。传统的医学问答系统只能回答预设的问题。Shuai等人[57]使用Neo4j来构建知识图谱,并利用卷积神经网络对用户问题进行语义解析。最后,使用Cypher查询作为问题和答案搜索SQL来完成问答。与Shuai等人的方法类似,Kulkarni等人[58]将医患之间的对话包含一些基本信息(过去的疾病、病史、过去的治疗等)构建成医学知识图谱,该方法将对话中提取的信息以元组的形式存储。并且利用所创建的知识图谱,根据句子的症状和过去的治疗情况进行疾病预测。Kwon等人[59]提出了中风医学本体问答系统,该系统能够以自然语言形式对用户医学知识进行分析,用于医学知识检索服务,并自动将其转换为结构化查询语言SPARQL。

2.4 交通领域

随着城市规模的迅速增长,交通领域面临着越来越多的挑战,包括交通拥堵、交通事故和管理等问题。为了应对这些挑战,知识图谱在交通领域的应用变得更加重要。交通知识图谱可以用于构建交通网络模型和车流分析,从而帮助交通部门更好地了解交通系统的结构和运行情况。通过将交通数据、道路网络和车辆信息等整合到知识图谱中,可以进行交通流量预测、拥堵热点分析以及交通优化规划等工作,为城市交通提供决策支持和智能化管理。此外,知识推理在交通领域也发挥着重要作用。通过利用知识推理技术,可以从交通数据中发现隐藏的模式和关联性,从而帮助交通部门作出更准确的决策。例如,基于知识图谱的推理可以帮助交通管理者预测交通事故风险、优化交通信号灯配时和规划交通路线等,提高交通系统的效率和安全性。

为了整合知识图谱和交通网络中的信息,在考虑交通时空特征的同时,还需捕捉各种外部因素对出行的影响,Zhu等人[60]提出了一种基于时空图卷积网络的知识表示驱动交通预测方法KST-GCN。首先,为交通预测构建了一个知识图谱,并通过一种名为KR-EAR的知识表示学习方法推导出知识表示。然后,使用知识融合单元,将知识和交通特征结合起来,作为时空图卷积骨干网络的输入。为了解决时空相关性和外部条件因素与交通数据紧密交织导致预测偏差的问题,Hua等人[61]提出了一种时空网络数据驱动的多层交通知识图重构(ST-KG)交通预测方法,基于GCN-GRU模型构建时空图,捕捉局部时空图中的时空相关性、天气等外部因素,然后引入多层交通知识图重构技术对模型进行重构,三层交通知识图相互递进、相辅相成,最终实现交通系统的建模。Cunha等人[62]利用强化学习环境中包含的因果结构知识来缩短智能体对状态空间的探索需求,设计了Q-Cogni框架,改进了推理的学习过程,并将Q-Cogni应用于车辆路线问题,用来作出最佳路线决策。

2.5 在线教育领域

在在线课程教育领域中,强化学习知识推理扮演着关键角色。通过深度分析学生学习行为、教育资源和课程知识,该技术可以为学生提供个性化学习路径,根据其学习习惯和优势领域进行精准调整。教育机构则能通过强化学习的知识推理更好地理解学生学习需求,优化教学决策,实现实时反馈与调整,并预测学生未来学习趋势,从而提升在线课程的教学效果和学生满意度。此技术的应用还有助于动态调整课程内容,使其更符合学生的学习效果和兴趣,推动在线教育向更高质量和更高效率的方向发展。

随着大规模在线开放课程的兴起,个性化课程推荐成为其中一项关键的需求。先前基于注意力机制的推荐模型在推荐不同目标课程时能够有效区分用户的历史课程,但是当用户对不同课程产生兴趣时,传统的注意力机制表现不佳,因为其效果会在各个历史课程之间稀释。为解决这一问题,Zhang等人[63]提出了一种分层强化学习算法HRL来修改用户的配置文件,并在修改后的配置文件上调整课程推荐模型,保证了课程推荐的有效性和提高准确性。然而,在现实中,除了准确性之外,用户还关心推荐过程中的合理性即推荐的可解释性[64,65]。为了提高推荐的可解释性,Lin等人[66]提出了一种新的可解释性推荐模型,即知识感知推理与自监督强化学习模型(knowledge-aware reasoning with self-supervised reinforcement learning,KRRL),模型将智能体对KG进行的语义感知和路径推理相结合,提高课程推荐的准确性和可解释性。KRRL不仅构建了学习过程中的显性信息和隐性反馈,并且利用自监督策略推荐符合学习者知识结构和课程前提要求的目标课程。同样地,Li等人[67]提出了一种集成强化学习的联合多关系GCN知识推理方法RLURGCN。该方法将知识表示学习、图神经网络和强化学习相结合,为知识推理的研究开辟了新的思路。

2.6 材料领域

随着互联网时代引发的第四次工业革命的到来,新材料的研究速度大大落后于对新性能材料的需求。材料领域知识与机器学习相结合已然成为新材料研发、材料缺陷检测的必然趋势。研发方面,在材料成分和性能之间的相互关系未知的情况下,科学家只能根据自己的知识和技能,通过反复的实验和错误来改进材料性能,从而实现新材料的设计和开发。材料科学积累了大量的领域知识,这些知识以结构化文本的形式存在于数据库、论文和其他多源异质结构数据中。然而,由于缺乏统一的表达和有效的组织公式,使得它们难以直接用于机器学习。如何收集、组织和管理这些离散的领域知识,充分利用它们来支持材料研究是一个迫切需要解决的问题。在检测方面,现有的研究主要集中在表面缺陷分类上,利用深度学习算法的特征提取优势来提高分类精度。但存在以下不足:算法没有充分利用多源、异构的缺陷相关数据,如工艺参数、化学成分、缺陷图像、操作日志和经验知识;此外,分类结果不能解释缺陷的可能原因,这使得很难为生产过程改进提供决策支持。

知识图谱是人工智能领域的一项新兴技术,在整合多源数据方面已经显示出良好的效果,并且在产品开发、工艺规划、资源分配、故障诊断等多个领域已经取得了显著的成果。知识图谱推理通过构造图数据结构化和链接,为挖掘潜在的材料信息提供了有效的支持。然而,由于材料数据的性质导致图结构不同于基准数据集中常遇到的图结构。Liu等人[68]构建了一个铝合金知识图谱来了解这种区别对知识图谱推理算法性能的影响,并提出了一种基于强化学习的知识图谱推理算法来克服现有稀疏知识图谱算法的局限性,减少了多智能体的空间探索,并通过一种新的奖励形成机制来解决知识图谱稀疏的问题。同样地,在材料缺陷检测方面知识图谱也得到了应用。钢材表面缺陷是影响产品质量的重要因素,但目前的研究主要集中在缺陷识别和分类算法上,对潜在原因跟踪和经验知识的重用缺乏应用。Zhang等人[69]通过融合多源异构工业数据,构建了钢铁表面缺陷的知识图谱,并针对缺陷检测诊断中工业知识图谱的路径推理问题,提出了一种基于策略的强化学习方法,综合考虑了路径方向、长度和实体距离。

3 未来工作

近年来,现代的基于强化学习的知识推理技术已经有了显著的进步和发展,但仍存在诸多亟待解决的问题,还需要进一步深入研究和优化现有方法。下面探讨基于强化学习的知识推理未来的研究方向:

a)将生成对抗学习框架应用于强化学习框架中。目前,大多数生成对抗学习研究主要集中在图像处理领域,在强化学习知识推理领域也已经取得了一些令人瞩目的进展。虽然已有的研究在知识推理应用方面表现出色,但是加入生成对抗学习增加了模型的复杂度,需要大量的数据去训练生成器和判别器,从而影响了模型的性能。未来的研究方向可以考虑在双层强化学习中加入生成对抗学习框架,以此来降低训练难度。

b)在强化学习的知识推理中引入迁移学习。在特定实体的情况下,动作空间中存在许多无效的选项,这导致强化学习智能体在路径挖掘过程中常常选择了无效的动作,从而导致推理的中断和成功率的降低。为了解决这个问题,可以引入迁移学习的方法。通过将先前学习到的知识和经验迁移到新的推理任务中,智能体可以更好地指导其动作选择,避免选择无效动作,从而提高模型在新领域或任务上的学习速度和性能。

c)动态知识图谱推理技术。目前已有的知识图谱推理方法基本上都应用在静态的知识图谱中。然而,现实中的知识是随着时间不断发展的,包含大量的时序信息。因此动态知识图谱推理技术应运而生,在推理过程中通过动态建模对时序信息进行处理。例如,可以根据时间戳对事实进行排序,从而捕捉知识图谱中的时序关系,可以用于解决时间相关的推理任务,如预测未来事件、分析历史事件等。动态知识图谱推理技术具有很大的现实价值,需要进一步深入探索和研究。

d)对多模态知识图谱进行推理。目前,大多数知识图谱都存在不连通性和稀疏性的问题,可以通过多模态描述信息(如图片、视频、音频等)对知识图谱进行补充。传统的知识图谱主要以文本形式呈现,而多模态知识图谱推理则通过将多种数据模态进行结合,能够更全面地描述现实世界中的知识和关系。探索如何将不同数据模态进行有效的融合,为知识推理提供更丰富的信息源,成为了重要的研究方向。

e)在大规模知识图谱上引入强化学习知识推理。大规模知识图谱通常更为复杂,涉及多个领域、多模态数据和丰富的语义信息。关系可能更加多样化,而且实体之间的关系可能更加复杂,可能包含数百万到数十亿的节点和边。如果引入强化学习知识推理,可能会导致智能体状态空间过大的问题。可以对大规模知识图谱进行分层或者对实体和关系进行分层,从而缩小状态空间。并考虑引入多头注意力机制来聚焦于知识图谱中关键部分,从而降低计算的复杂性,所以在大规模知识图谱上引入强化学习知识推理还需要进一步的深入研究。

4 结束语

伴随着知识图谱的快速发展,如何对知识图谱中缺失的三元组进行补全,成为了当下热门的研究课题。由于强化学习在知识图谱推理上具有良好的性能和可解释性,受到了研究者们的广泛关注。本文从知识推理的基本概念出发,对基于强化学习的知识推理相关研究进行了系统的梳理。根据强化学习推理层次的不同,分为单层强化学习和多层强化学习,从这两个角度对基于强化学习的推理方法进行了分析和总结。最后,本文介绍了基于强化学习的知识推理在知识问答、智能推荐、医疗和交通等领域的应用,并在此基础上对未来的发展方向进行了展望。

参考文献:

[1]Amit S. Introducing the knowledge graph [R]. America: Official Blog of Google,2012.

[2]肖仰华. 知识图谱概念与技术 [M]. 北京: 电子工业出版社,2020: 2-3.( Xiao Yanghua. Concept and technology of knowledge graph [M]. Beijing: Publishing House of Electronics Industry,2020: 2-3.)

[3]Bollacker K,Evans C,Paritosh P,et al. Freebase: a collaboratively created graph database for structuring human knowledge [C]// Proc of ACM SIGMOD International Conference on Management of Data.New York:ACM Press,2008: 1247-1250.

[4]Lehmann J,Isele R,Jakob M,et al. Dbpedia-a large-scale,multilingual knowledge base extracted from Wikipedia [J]. Semantic Web, 2015,6(2): 167-195.

[5]Fabian M,Gjergji K,Gerhard W. Yago: a core of semantic knowledge unifying wordnet and Wikipedia [C]// Proc of the 16th International World Wide Web Conference.New York:ACM Press, 2007: 697-706.

[6]Carlson A,Betteridge J,Kisiel B,et al. Toward an architecture for never-ending language learning [C]// Proc of the 24th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press,2010: 1306-1313.

[7]Seel N M.Encyclopedia of the sciences of learning [M]. Berlin:Springer Science & Business Media,2011: 12-15.

[8]马昂,于艳华,杨胜利. 基于强化学习的知识图谱研究综述 [J]. 计算机研究与发展,2022,59(8): 1694-1722. (Ma Ang,Yu Yanhua,Yang Shengli. Survey of knowledge graph based on reinforcement learning [J]. Journal of Computer Research and Development, 2022,59(8): 1694-1722.)

[9]Chen Xiaojun,Jia Shengbin,Xiang Yang. A review: knowledge reasoning over knowledge graph[J]. Expert Systems with Applications,2020,141: 112948.

[10]马瑞新,李泽阳,陈志奎,等. 知识图谱推理研究综述[J]. 计算机科学,2022,49(6A): 74-85. ( Ma Ruixin,Li Zeyang,Chen Zhikui,et al. Review of reasoning on knowledge graph[J]. Compu-ter Science,2022,49(6A): 74-85.)

[11]Tian Ling,Zhou Xue,Wu Yanping,et al. Knowledge graph and knowledge reasoning: a systematic review[J]. Journal of Electronic Science and Technology,2022,20(2): 100159.

[12]宋浩楠,赵刚,孙若莹.基于深度强化学习的知识推理研究进展综述[J].计算机工程与应用,2022,58(1):12-25.( Song Haonan,Zhao Gang,Sun Ruoying. Developments of knowledge reasoning based on deep reinforcement learning[J]. Computer Engineering and Applications,2022,58(1): 12-25.)

[13]侯中妮,靳小龙,陈剑赟,等. 知识图谱可解释推理研究综述[J]. 软件学报,2022,33(12): 4644-4667.( Hou Zhongni,Jin Xiaolong,Chen Jianyun,et al. Review of Knowledge graph interpretable reasoning research [J]. Journal of Software,2022,33(12): 4644-4667.)

[14]唐蕾,牛园园,王瑞杰,等.强化学习的可解释方法分类研究[J].计算机应用研究,2024,41(6): 1601-1609.( Tang Lei,Niu Yuanyuan,Wang Ruijie,et al. Classification research on interpretable methods of reinforcement learning [J]. Application Research of Computers,2023,41(6): 1601-1609.)

[15]Xiong Wenhan,Hoang T,Wang W Y. Deeppath: a reinforcement learning method for knowledge graph reasoning[EB/OL]. (2018-07-07).https://arxiv.org/abs/1707.06690.

[16]Bordes A,Usunier N,Garcia-Duran A,et al. Translating embeddings for modeling multi-relational data[C]//Advances in Neural Information Processing Systems. Combridge, MA: MIT Press,2013: 2787-2795.

[17]Williams R J. Simple statistical gradient-following algorithms for connectionist renforcement learning[J]. Reinforcement Learning,1992,8(3-4): 5-32.

[18]Kingma D P,Ba J. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30).https://arxiv.org/abs/1412.6980.

[19]Das R,Dhuliawala S,Zaheer M,et al. Go for a walk and arrive at the answer: reasoning over paths in knowledge bases using reinforcement learning[EB/OL]. (2018-12-30).https://arxiv.org/abs/1711.05851.

[20]Hochreiter S,Schmidhuber J. Long short-term memory[J]. Neural Computation,1997,9(8): 1735-1780.

[21]Shen Yelong,Chen Jianshu,Huang Posen,et al. M-walk: learning to walk over graphs using monte carlo tree search[C]//Advances in Neural Information Processing Systems. Combridge, MA: MIT Press,2018: 6786-6797.

[22]Sutton R S,Barto A G. Reinforcement learning: an introduction[M]. Combridge, MA: MIT Press,2018.

[23]Sherstinsky A. Fundamentals of recurrent neural network (RNN) and long short-term memory (LSTM) network[J]. Physica D: Nonlinear Phenomena,2020,404: 132306.

[24]Rosin C D. Multi-armed bandits with episode context[J]. Annals of Mathematics and Artificial Intelligence,2011,61(3): 203-230.

[25]Silver D,Schrittwieser J,Simonyan K,et al. Mastering the game of go without human knowledge[J]. Nature,2017,550(7676): 354-359.

[26]Lin X V,Socher R,Xiong Caiming. Multi-hop knowledge graph reasoning with reward shaping[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: ACL Press,2018: 3243-3253.

[27]Dettmers T,Minervini P,Stenetorrp P,et al. Convolutional 2D know-ledge graph embeddings[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018:1811-1818.

[28]Trouillon T,Welbl J,Riedel S,et al. Complex embeddings for simple link prediction[C]//Proc of the 33rd International Corference on Mathine Learning,[S.l.]: PMLR Press,2018: 2071-2080.

[29]Bai Luyi,Chai Die,Zhu Lin. RLAT: multi-hop temporal knowledge graph reasoning based on reinforcement learning and attention mechanism[J]. Knowledge-Based Systems,2023,269: 110514.

[30]Liu Ye,Li Hui,Garcia-Duran A,et al. MMKG: multi-modal know-ledge graphs[C]//Proc of the 16th International Conference on Semantic Web. Berlin:Springer International Publishing,2019: 459-474.

[31]Tang Xing,Chen Ling,Cui Jun,et al. Knowledge representation lear-ning with entity descriptions,hierarchical types,and textual relations[J]. Information Processing & Management,2019,56(3): 809-822.

[32]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[C]// Advances in Neural Information Processing Systems. Combridge, MA: MIT Press,2017:5998-6008.

[33]Wang Xiaolong,Girshick R,Gupta A,et al. Non-local neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition. Piscataway,NJ:IEEE Press,2018: 7794-7803.

[34]Zheng Shangfei,Wang Weiqing,Qu Jianfeng,et al. MMKGR: multi-hop multi-modal knowledge graph reasoning[C]//Proc of the 39th IEEE International Conference on Data Engineering. Piscataway,NJ:IEEE Press,2023: 96-109.

[35]Wan Guojia,Pan Shirui,Gong Chen,et al. Reasoning like human: Hierarchical reinforcement learning for knowledge graph reasoning[C]//Proc of the 29th International Conference on International Joint Conferences on Artificial Intelligence. San Francisco,CA: Morgan Kaufmann,2021: 1926-1932.

[36]MacQueen J. Classification and analysis of multivariate observations[C]//Proc of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967: 281-297.

[37]Sutton R S,McAllester D,Singh S,et al. Policy gradient methods for reinforcement learning with function approximation[C]//Advances in Neural Information Processing Systems. Combridge, MA: MIT Press,1999: 1057-1063.

[38]Xiao Han,Huang Minlie,Hao Yu,et al. TransG: a generative mixture model for knowledge graph embedding[EB/OL]. (2017-09-08). https://arxiv.org/abs/1509.05488.

[39]Zhang Denghui,Yuan Zixuan,Liu Hao,et al. Learning to walk with dual agents for knowledge graph reasoning[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2022: 5932-5941.

[40]Zhu Anjie,Ouyang Deqiang,Liang Shuang,et al. Step by step: a hierarchical framework for multi-hop knowledge graph reasoning with reinforcement learning[J]. Knowledge-Based Systems,2022,248: 108843.

[41]Wang Zikang,Li Linjing,Zeng D. Hierarchical multi-hop reasoning on knowledge graphs[J]. IEEE Intelligent Systems,2021,37(1): 71-78.

[42]王文广.知识图谱推理:现代的方法与应用[J].大数据,2021,7(3): 42-59.( Wang Wenguang. Knowledge graph reasoning: mo-dern methods and applications[J]. Big Data Research,2021,7(3): 42-59.)

[43]Ghosal D,Shen Siqi,Majumder N,et al. CICERO: a dataset for contextualized commonsense inference in dialogues[EB/OL]. (2022-04-07). https://arxiv.org/abs/2203.13926.

[44]Asai A,Yu X,Kasai J,et al. One question answering model for many languages with cross-lingual dense passage retrieval[C]// Advances in Neural Information Processing Systems. Combridge, MA: MIT Press,2021: 7547-7560.

[45]Hung C C,Green T,Litschko R,et al. ZusammenQA: data augmentation with specialized models for cross-lingual open-retrieval question answering system[EB/OL]. (2022-05-30).https://arxiv.org/abs/2205.14981.

[46]Su Ruolin,Sun Zhongkai,Lu Sixing,et al. CLICKER: attention-based cross-lingual commonsense knowledge transfer[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2023: 1-5.

[47]Kacupaj E,Premnadh S,Singh K,et al. Vogue: answer verbalization through multi-task learning[C]//Proc of Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Cham: Springer International Publishing,2021: 563-579.

[48]Liu Bang,Wei Haojie,Niu Di,et al. Asking questions the human way: scalable question-answer generation from text corpus[C]//Proc of Web Conference. 2020: 2032-2043.

[49]Wang Xiang,Huang Tinglin,Wang Dingxian,et al. Learning intents behind interactions with knowledge graph for recommendation[C]//Proc of Web Conference. New York: ACM Press,2021: 878-887.

[50]Xu Wenyi,Gao Xiaofeng,Sheng Yin,et al. Recommendation system with reasoning path based on DQN and knowledge graph[C]//Proc of the 15th International Conference on Ubiquitous Information Ma-nagement and Communication. Piscataway,NJ:IEEE Press,2021: 1-8.

[51]Liu Tiyong,Cheng Shiwei. A recommender algorithm based on know-ledge graph convolutional network and knowledge reasoning optimization[C]//Proc of the 26th International Conference on Computer Supported Cooperative Work in Design. Piscataway,NJ:IEEE Press,2023: 1287-1292.

[52]Lyu Ziyu,Wu Yue,Lai Junjie,et al. Knowledge enhanced graph neural networks for explainable recommendation[J]. IEEE Trans on Knowledge and Data Engineering,2022,35(5):4954-4968.

[53]Tian Ling,Zhang Jinchuan,Zhang Jinhao,et al. Knowledge graph survey:representation, construction, reasoning and knowledge hypergraph theory[J]. Journal of Computer Applications,2021,41(8): 2161-2186.

[54]Zheng Shuangjia,Rao Jiahua,Song Ying,et al. PharmKG: a dedicated knowledge graph benchmark for bomedical data mining[J]. Briefings in Bioinformatics,2021,22(4): bbaa344.

[55]Wishart D S,Feunang Y D,Guo A C,et al. DrugBank 5.0: a major update to the DrugBank database for 2018[J]. Nucleic Acids Research,2018,46(D1): 1074-1082.

[56]董文波,孙仕亮,殷敏智. 医学知识推理研究现状与发展[J]. 计算机科学与探索,2022,16(6): 1193-1213.( Dong Wenbo,Sun Shiliang,Yin Minzhi. Research and development of medical know-ledge graph reasoning[J]. Journal of Frontiers of Computer Science and Technology,2022,16(6): 1193-1213.)

[57]Shuai Qianjun,Wei Mingjie,Miao Fang,et al. Research on intelligent question answering system based on medical knowledge graph[C]//Proc of the 4th IEEE Advanced Information Technology,Electronic and Automation Control Conference. Piscataway,NJ:IEEE Press,2019,1: 240-243.

[58]Kulkarni R,Haribhakta Y. Building the knowledge graph from medical conversational text data and its applications[C]//Proc of the 4th International Conference on Advances in Computing,Communication Control and Networking. Piscataway,NJ:IEEE Press,2022: 1508-1513.

[59]Kwon S,Yu J,Park S,et al. Stroke medical ontology QA system for processing medical queries in natural language form[C]//Proc of International Conference on Information and Communication Technology Convergence. Piscataway,NJ:IEEE Press,2021: 1649-1654.

[60]Zhu Jiawei,Han Xing,Deng Hanhan,et al. KST-GCN: a knowledge-driven spatial-temporal graph convolutional network for traffic forecasting[J]. IEEE Trans on Intelligent Transportation Systems,2022,23(9): 15055-15065.

[61]Hua Xin,Liu Wei. Spatial-temporal network data-driven multi-layer traffic knowledge graph reconstruction for dynamic prediction[C]//Proc of the 4th International Conference on Robotics and Computer Vision. Piscataway,NJ:IEEE Press,2022: 20-24.

[62]Cunha C,Liu W,French T,et al. Q-Cogni: an integrated causal reinforcement learning framework[EB/OL]. (2023-02-26). https://arxiv.org/abs/2302.13240.

[63]Zhang Jing,Hao Bowen,Chen Bo,et al. Hierarchical reinforcement learning for course recommendation in MOOCs[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press,2019: 435-442.

[64]Lin Yuanguo,Feng Shibo,Zeng Wenhua,et al.Adaptive course re-commendation in MOOCs[J].Knowledge-Based Systems,2021,224(7):107085.

[65]Chen Zhongxia,Wang Xiting,Xie Xing,et al.Towards Explainable Conversational Recommendation[C]//Proc of the 29th International Joint Conference on Artificial Intelligence. San Francisco,CA: Morgan Kaufmann,2021: 2994-3000.

[66]Lin Yuanguo,Zhang Wei,Lin Fan,et al. Knowledge-aware reasoning with self-supervised reinforcement learning for explainable recommendation in MOOCs[J]. Neural Computing and Applications,2023,36(8): 4115-4132.

[67]Li Gang,Han Ruixin. A hybrid reasoning method of knowledge graph for on-line arts education based on reinforcement learning[C]//Proc of the 7th International Conference on Computer and Communication Systems. Piscataway,NJ:IEEE Press,2022: 909-914.

[68]Liu Jian,Qian Quan. Reinforcement learning-based knowledge graph reasoning for aluminum alloy applications[J]. Computational Materials Science, 2023, 221: 112075.

[69]Zhang Yufei,Wang Hongwei,Shen Weiming,et al. DuAK: reinforcement learning-based knowledge graph reasoning for steel surface defect detection[J]. IEEE Trans on Automation Science and Engineering,2023(Early Access):1-13.

收稿日期:2023-11-03;修回日期:2024-02-01 基金项目:国家自然科学基金资助项目(62066038,61962001);宁夏自然科学基金资助项目(2021AAC03215);中央高校科研业务费资助项目(2019KYQD04,2022PT_S04,2021JCYJ12)

作者简介:刘世侠(2000—),男(壮族),广西贵港人,硕士研究生,CCF会员,主要研究方向为强化学习、知识推理;李卫军(1979—),男(通信作者),陕西渭南人,讲师,硕导,博士,主要研究方向为本体的构建与重用、知识图谱的构建(lwj@nmu.edu.cn);刘雪洋(1999—),女,河南南阳人,硕士研究生,CCF会员,主要研究方向为知识图谱推理;丁建平(1999—),男,四川资阳人,硕士研究生,CCF会员,主要研究方向为命名实体识别;苏易礌(2000—),男(土家族),湖南常德人,硕士研究生,主要研究方向为图卷积神经网络文本分类;李浩南(1997—),男,宁夏银川人,硕士研究生,主要研究方向为知识图谱推理.