基于知识图谱的多目标可解释性推荐

2024-04-29 02:41陈步前
计算机与现代化 2024年3期
关键词:解释性新颖性列表

杨 孟,杨 进,陈步前

(上海理工大学理学院,上海 200093)

0 引 言

推荐系统是一种能够挖掘用户对商品偏好的技术,广泛应用于社交网络、搜索引擎和其他平台,为用户推荐准确多样的商品从而提高用户的满意度[1]。一个好的推荐系统不仅需要准确把握用户的需求,还需要了解用户的心理,以用户容易接受的方式给出合适的推荐。可解释推荐系统是一种有效的技术,可以提高透明度、说服力、有效性、可信度以及用户对推荐结果的满意度[2]。

知识图谱作为一种图形化的数据库,在基于模型的可解释推荐系统中经常被使用,它包含了大量实体之间的关系信息,可以方便地丰富物品和用户信息[3]。知识图谱作为辅助信息,有效缓解了用户与物品之间的稀疏数据交互问题。用户的历史记录和推荐结果通过知识图谱进行关联,提高了目标用户选择推荐商品的概率。目前将知识图谱应用于推荐系统的主要方法有2 种类型:基于嵌入的方法和基于路径的方法。在可解释推荐系统领域中,基于嵌入的方法已经有很多研究。Wang 等人[4]构建了一个包含用户、属性和情感的异构信息网络,根据用户的情感网络、社交网络和信息网络将用户映射到低维特征空间中,最后使用特殊的融合方法得到异构嵌入式表示,以预测用户的情绪倾向并产生推荐结果。石乐昊等人[5]提出了一种基于多视角嵌入融合的推荐模型,分别从同质关联视角和异质关联视角来挖掘异构信息网络的深层潜在特征并加以融合,有效地保证了推荐结果的准确性。虽然基于嵌入的推荐模型保留了关于构造知识图谱的原始结构和语义等价性,但它们忽略了项目之间的信息连通性,导致结果缺少可解释性。许多学者也将基于路径的方法引入到可解释推荐系统中,Shi等人[6]融合了用于推荐的多个元路径的信息,通过各种路径获得不同类型的类比用户,从而产生推荐项目。姜征和等人[7]提出了一种融合注意力机制和异质信息网络元路径的三元交互模型,通过全连接神经网络生成推荐结果。这些基于路径的推荐模型虽然可以为推荐的结果提供可解释性,但严重依赖于手动提取的特征来表达路径的语义,而手工设计的特征通常不能覆盖整个可能的实体和关系,这也在一定程度上影响了推荐性能的提升。

将知识图谱中语义表示与路径连通信息相结合的统一方法可以充分挖掘2 个方面的信息,并具有解释推荐过程的能力。Wang 等人[8]基于构造的知识图谱提出了偏好自动传播的思想构建了Ripple Net 模型,通过引入偏好传播,克服了现有基于嵌入和路径的知识图谱感知推荐方法的局限性,它自动传播用户的潜在偏好,并探索他们在知识图谱中的层次兴趣,再通过语义关系和实体节点特征刻画用户偏好,将偏好传播与知识图谱嵌入算法的正则化统一在贝叶斯框架中,用于点击率预测。

多目标优化在不同领域都有应用。在推荐系统领域,多个推荐评价指标相互冲突,但需要同时优化。因此,将多目标优化算法与推荐系统相结合进行个性化推荐是目前研究趋势。何炜俊等人[9]提出了一种基于多臂赌博机的多目标互动式推荐系统,能够及时适应用户兴趣和物品属性的变化,提供兼顾准确性、多样性和新颖性的推荐服务。胡晓敏等人[10]提出了一种基于物品评价次数的用户分层多目标推荐算法,将用户分为评价次数高、中、低3 种层次,对应3 种不同的算法初始化方式,为不同用户提供更合适的推荐结果。Jain 等人[11]提出了一个包括准确性和多样性的推荐框架,并在此框架内提出了一种多父代交叉机制,可以获得包含多样性和新颖性的项目。李松等人[12]提出了一种基于范围的障碍空间连续Skyline查询算法,可以提升多目标决策技术的查询效率。上述推荐模型都将目标函数视为冲突函数,利用多目标优化算法对目标进行同步优化得到最优推荐列表。然而,这些推荐方法大多关注的是推荐的准确性和多样性,而忽略了推荐的可解释性。

综上,考虑基于嵌入的方法和基于路径的方法的约束,尽管采用统一方法可以进行优势互补,而一个好的可解释推荐系统旨在不影响其它指标的前提下提高可解释性。因此,本文提出一种基于知识图谱的多目标可解释性推荐模型,该模型能够用统一方法来最大限度地利用知识图谱的路径连通和语义表示信息,并同时优化准确性、多样性、新颖性和可解释性4个冲突指标。在模型中,先通过Ripple Net 模型从构建的知识图谱中获得目标用户的可解释候选推荐列表,再利用NSGA-III 对候选列表进行优化,得到兼顾准确性、多样性、新颖性和可解释性的推荐结果。然后对推荐结果进行解释的方法是:通过基于嵌入的方法得到知识图谱中不同关系和节点的嵌入向量,利用关系和节点对应向量的乘积来反应关系对节点的重要性;在知识图谱中获取目标用户喜欢的项目到达推荐项目的所有路径,再根据路径中节点和关系的重要性量化对应推荐项目的可解释性。本文主要工作包括:

1)提出一种同时优化准确性、多样性、新颖性和可解释性4个冲突目标的推荐模型。

2)利用Ripple Net 模型从构造的知识图谱中按照实体之间的关联得到目标用户的可解释的候选推荐列表。

3)利用实体和关系对应嵌入向量的乘积来量化推荐项目的可解释性。

1 可解释推荐模型

1.1 可解释推荐的框架

本节介绍基于知识图谱的多目标可解释推荐框架。整个推荐过程为:先将不同实体作为节点通过关系连接成三元组来构建知识图谱,利用Ripple Net 模型得到目标用户的可解释候选列表。将量化的可解释性作为优化目标之一,再使用多目标优化算法获取最终推荐列表。其中,各种多目标优化算法的流程是相似的,较为经典的NSGA-Ⅲ已被成功用于各个工程领域,具体流程可参考文献[13]。本文对多目标优化算法进行适当的修改,使其能够在推荐的场景中同时优化4 个评估指标。算法流程如图1 所示,其中红色的框为本文提出的工作。

图1 基于知识图谱的多目标可解释推荐流程图

1.2 知识图谱的构建

知识图谱由许多个三元组组成,用于关联不同实体,以探索实体和实体之间更深层次的关系。通过对这些复杂的联系进行分析,可以得出用户深层或潜在偏好。为了从知识图谱中提取用户和实体的联系,更好地从用户层面挖掘用户的潜在偏好,本文采用Ripple Net 模型,以用户的历史记录为兴趣中心,模拟用户的兴趣在知识图谱上逐层向外扩散,且不断衰减的过程,类似于水中的波纹,当路径长度在二跳时,效果最好[8]。因此,使用3 个节点和2 个关系来构建知识图谱的推荐路径。目标用户喜欢的电影是最内层的节点,最外层的节点是给用户推荐的电影,为目标用户形成可解释的候选推荐列表。例如用户A 喜欢的电影有Titanic 和Inception,那么关于用户A 的最终知识图谱的一部分如图2 所示,向A 推荐The Revenant的原因是和A喜欢的电影Titanic的主演相同。

图2 用户A的最终知识图谱的一部分

1.3 可解释性

可解释推荐是为目标用户产生推荐,同时给出理由,揭示推荐的原因。推荐的高解释性可以提高推荐的透明度和用户选择推荐项目的概率。本文利用Trans H 将知识图谱中的节点和关系转化为嵌入向量[14],节点和关系的对应嵌入向量乘积的大小反映关系对节点的重要程度,值越高表示关系对节点更重要。通过Ripple Net 模型从知识图谱中得到由第三层节点组成的候选推荐列表,得到第一层节点到第三层节点的所有路径后,求与各路径上节点嵌入向量和关系嵌入向量的乘积,以量化各路径对应推荐结果的可解释性。更高的可解释性表明推荐项目更容易被目标用户接受。可解释性的定义是:

其中,Ru表示用户u的推荐列表,代表用户u对应的推荐列表长度,W表示来自目标用户u喜欢的项到推荐项目i的所有路径,表示实体的嵌入eu,即目标用户u喜欢的项目到推荐项目i的路径中实体的嵌入向量,表示关系的嵌入ru,即目标用户u喜欢的项目到推荐项目i的路径中关系的嵌入向量,嵌入向量维数为40。

1.4 目标函数

准确性是衡量用户是否喜欢推荐结果中的项目的最直观的指标。准确性越高表示所提模型的推荐性能越好。评分大于3 的项被视为用户喜欢[15]。准确性计算过程为:

式中,Ru表示用户u的推荐列表,Tu表示用户u喜欢的项目代表用户u对应的推荐列表长度表示用户u对应的推荐列表中用户u喜欢的项目数。

推荐的小众项目越多,推荐算法获得的新颖性就越高。评分数的倒数可以用于衡量项目的新颖性。如果一个物品被更多的用户评价,新鲜感就会越小。因此,如果推荐结果中的项目越受欢迎,那么新颖性就越低。高新颖性意味着向目标用户推荐更多长尾项目[16]。它可以定义为:

式中,ri表示所有用户对项目i打分的次数,num_u 是用户的数量。

多样性是指最终推荐列表之间的差异,通过计算推荐列表中的项目之间的相似度来评估[17]。多样性的计算方法为:

式中,s(i,j)表示推荐结果中不同项目的相似性(i≠j),采用修正余弦相似度法计算项目i和j的相似度,计算方法如下:

式中,对i和j都打分的用户集合用U表示,Ru,i表示用户u对项目i的评分,表示用户u的平均评分。

综上,本文多目标优化问题的适应度评价函数为:

1.5 个体表示

实数编码适用于推荐场景,个体由候选推荐列表中的项目编号对应的整数进行编码。推荐列表中不能有重复项,即个体中每个维度的值是不同的。图3显示了单个编码的解释。

图3 个体组成

1.6 遗传算子

遗传算子是用来寻找最佳个体的,它们决定了算法的收敛速度和解的质量。

1)交叉:本文实现的交叉算子是一个均匀2 点交叉,如图4 所示。采用2 点均匀交叉是因为它在遗传的顺序方面是无偏见的,也可以从父母个体中产生任何等位遗传组合。过程如下:

图4 交叉算子

步骤1随机选择2个父推荐列表P1和P2,将2个随机选择的点i和j之间的所有内容都在列表P1和P2 之间交换,得到C1 和C2。实施交换程序后,子列表中可能存在一些重复项,如图4中C1的第5项和第8项相同,需要额外的步骤来消除重复项。

步骤2将交叉部分之外的冲突项目与父染色体中相同位置的项目替换,直到没有重复的项目。

2)变异:采用单点突变产生新个体,单点突变操作简单,计算复杂低,可以有效保证推荐列表的多样性。其步骤如图5 所示,通过随机选择确定突变点,再使用没有出现在父个体中的一个候选项替换该突变点的项。

图5 变异算子

2 实 验

2.1 数据集

本文选择MovieLens 1M 和Epinions 这2 个公开的基准数据集上进行实验来证明所提方法的推荐性能。其中MovieLens 1M 包含来自6040 名MovieLens用户的3952 部电影的1000209 个评分,Epinions 提供Epinions 网站上892 名用户对许多不同类型项目(软件、音乐、电视)的评论。2 个数据集都包含5 分制的评级,根据二元评分系统(“喜欢”或“不喜欢”),将用户对项目超过3 的评分作为判断用户喜欢该项目的标准。

在这个实验中,本文初步随机选择80%的数据来训练参数,其余20%的数据来测试训练好的模型。

2.2 数据集预处理

由于MovieLens 1M 训练集中的数据量较大,对模型的运行时间影响也较大,因此使用K-means算法对MovieLens 用户进行聚类,以加快模型的运行时间[18]。根据本文实验中使用的数据集,用户通过3个属性进行聚类:年龄、性别和职业。约简后训练集中用户评分数据的比例由每个用户集群中的用户数量占用户总数的比例决定[19]。每个用户集群的属性如表1所示。测试集也被随机简化为MovieLens1、MovieLens2、MovieLens3 和MovieLens4,并在这4 个大小相同的测试集上测试模型。

表1 每个用户集群的属性

2.3 评价指标

一个推荐模型的有效性,可直接体现在评价指标上,因此推荐结果的评价指标是非常重要的。准确性是指在用户交互的基础上生成用户偏好的推荐结果的能力。新颖性指的是向用户推荐非流行产品的能力。推荐结果多样化,满足用户广泛的兴趣,可以覆盖用户不同的兴趣领域。可解释性增加了用户接受推荐商品的可能性,增加了推荐的透明度和说服力。因此,本文以1.4节中提到的目标函数作为评价指标。

2.4 参数设置

通过构建的知识图谱得到候选推荐列表,再由多目标优化算法优化得到前n名推荐列表。算法中的主要参数如表2所示。

表2 主要参数的设置

2.5 实验结果

实验分析包括2 个部分:1)是算法之间的比较,找到一种多目标优化算法,使所提出的模型具有最显著的推荐性能;2)与其他现有的先进模型进行对比,以验证所提出模型的有效性。

2.5.1 算法比较结果

通过在不同的目标函数之间寻找一组折中解来解决多目标优化问题这是一种有效的方法。把NSGA-III[13]、GrEA[21]和RVEA[22]应用与本文提出的模型并进行比较。用这3 种多目标优化算法分别得到一组非支配解,各代表一组推荐结果列表。因此,本文得到解集上各评价指标的最大值、最小值和平均值。各指标的实验结果如图6所示。由图6可以清楚地看出,虽然准确性的最大值相同,但NSGA-III 得到的最小值和平均值最好。在新颖性方面,虽然NSGA-III 的最小值小于GrEA,但NSGA-III 的最大值和平均值在3 种算法中最好。从图6(c)可以看出,GrEA 和NSGA-III 得到的多样性最大值相同,且高于RVEA 获得的最大值。同时NSGA-III 得到的最小值和平均值最好。在可解释性方面,与其他算法相比,NSGA-III 除了最小值外,其它值都是最大的,说明其可解释性最好。

图6 3种算法在不同评价指标上的推荐性能

表3 显示了3 种算法对随机抽取的5 个用户的评价指标。各项评价指标由最大值、最小值、平均值按3:3:4的比例加权求得。从表3中可以看出,3种算法的性能差异不明显,但是NSGA-Ⅲ有13 个评价指标是最好的,在4 个用户中具有最好的可解释性。因此,NSGA-Ⅲ客观指标达到最优的是最多的,应用在本文提出的模型上具有最好的推荐性能。

表3 3种多目标优化算法的性能比较

2.5.2 模型比较结果

在模型比较时,选取7 种基线方法进行比较,验证本文模型的有效性。将这些只注重准确性和多样性的推荐方法与本文模型KG-NS 进行比较,验证所提模型的推荐结果在不降低准确性、新颖性和多样性的情况下提高推荐的可解释能力。7种基线模型如下:

1)Item-based CF(IC)[23]:该算法推荐的商品与用户过去喜欢的商品相似。

2)User-Based CF(UC)[24]:该算法查找目标用户的邻居,并向目标用户推荐邻居过去喜欢的商品。

3)Content-Based(CB)[25]:它会根据用户的历史偏好来推荐商品。

4)ITNRM[26]:一种新颖的基于成员之间信任和相似性的群体影响的推荐系统。

5)NNIA[27]:一种优化推荐多样性和准确性的多目标优化算法,用于为用户提供更广泛的项目。

6)MORS[16]:在多目标场景中的单次运行中提供多个权衡解决方案(推荐列表)。

7)IMF[28]:一种改进的基于矩阵分解的多目标优化双层推荐模型。

通过NSGA-III 得到的是一组折中解对应的推荐列表,本文将这些解决方案的最大值、最小值以及平均值与其他模型进行比较。Movielens1 中比较模型的推荐性能如表4所示。

表4 在Movielens1中比较模型的性能

从表4 可以看出,在新颖性方面,虽然本文模型得到的最大值和最小值不是最好的,但所提模型的新颖性的平均值仍然优于其它所有模型;KG-NS 的多样性仅最小值不是最优;本文模型的各项的值在准确性和可解释性方面都是最好的。总体来说,在Movielens1 数据集上,KG-NS 除新颖性外,其它3 个评价指标的表现较好。

表5展示了不同模型在Movielens2、Movielens3和Movielens4 数据集上的特性,表6 展示了不同模型在Epinions 数据集中比较模型的性能,其中KG-NS、NNIA 和MORS 的各项评价指标由最大值、最小值、平均值按3:3:4 的比例加权求得。在Movielens2 和Epinions 中,KG-NS 模型的各项指标均较高于其他模型。除在Movielens3中的多样性低于NNIA 和在Movielens4 中新颖性的值低于MORS 以外,KG-NS 模型获得的评价指标均优于其他比较模型。这4 个数据集当中,KG-NS 的多样性和新颖性的值大多是最优或者次优的,并且在不同数据集的试验结果也比较稳定,而在准确性和可解释性方面,总是优于其它7 种基线模型。

表5 Movielens其他数据集中比较模型的性能

表6 Epinions数据集中比较模型的性能

从以上结果的分析可以清楚地看出,在不同的数据集中,IC、UC、CB 和ITNRM 只在1个或2个指标上能取得较好的表现,这是因为这4 个模型没有采用多目标优化算法同时优化几个评价指标,大多只关注推荐的准确性或多样性,且忽略了推荐的可解释性。MORS 在新颖性上的值总是较优或者最好的,这是因为它重新定义了遗传表征和遗传算子,设计了一种新颖的多目标优化算法以推荐流行和不受欢迎的项目之间找到权衡,可以更有效地为用户提供新颖的推荐,但其通过协同过滤获得预测的评分的过程中不可避免地会出现错误,从而影响推荐结果。NNIA 在多样性上的值总是较优或者最好,因为它通过协同过滤生成候选解,然后使用多目标算法同时最大化匹配函数和多样性函数,为用户提供更准确和多样的推荐。但MORS 和NNIA 其他的评价指标均低于KG-NS,是因为MORS 和NNIA 都是先优化准确性,再优化多样性或新颖性,2 层目标的不一致会放大误差。IMF 在新颖性和多样性上表现较好,因为它提出了一种新的双层推荐模型:底层设计了一种改进的矩阵分解算法来预测未知项目的评级,算法包含多样性和新颖性的正则化约束;顶层采用多目标进化算法对推荐列表进行优化。但IMF 的准确性和可解释性都低于KGNS,是因为IMF 虽然改进了矩阵分解算法,在预测评级时误差较小,但是顶层的损失函数侧重于多样性和新颖性的平衡,且有着过多的超参数需要调整,使得推荐结果的准确性表现不佳。与这些基线模型相比,KG-NS 不仅优化了推荐的准确性、新颖性和多样性,还利用知识图谱作为边缘信息产生推荐,使得候选推荐结果具有可解释性。KG-NS 在优化推荐过程中的2 层目标一致,利用统一的方法将可解释性作为目标函数之一,再使用NSGA-Ⅲ优化候选列表得到一组均衡的解集,在不同数据集上的各项性能相对稳定。在保证推荐的准确、多样和新颖的基础上,KG-NS提供了高可解释性的推荐结果。

3 案例展示

本章将展示一个推荐部分示例图,以直观地了解本文模型的可解释性。图7 左边是与一个用户交互的7 部电影。图中展示了推荐路径模式中的2 种:{用户交互的电影←主演→电影},{用户交互的电影←导演→电影}。在右边展示了推荐的4 部电影,该用户交互的3 部电影由Joel Schumacher 导演,所以向他推荐了电影Batman Forever 和Batman and Robin,对应路径的可解释性大小分别为1.365 和1.155。同样,也通过导演和主演2 个关系为用户推荐了导演Cameron Crowe 执导的电影Say Anything和James Dean 与Natalie Wood 共同主演的Rebel Without a Cause。候选推荐列表中电影的可解释性通过计算每部推荐的电影的所有推荐路径的可解释性大小并求和得到。

图7 来自MovieLens 1M的实例

4 结束语

本文提出了一种基于知识图谱的多目标可解释性推荐模型,利用Ripple Net 模型从构建的知识图谱中获得目标用户的候选推荐列表。通过基于嵌入的方法得到关系和实体的嵌入向量,再结合基于路径的方法用来量化每条路径对应的推荐项的可解释性,采用NSGA-III 同时优化准确性、多样性、新颖性和可解释性。通过大量的各种实验,验证了KG-NS 的整体性能要远优于其它基线模型,验证了KG-NS 的有效性和可解释性。

虽然本文提出的模型在4 个评价指标上都有良好的表现,但实际上完整的知识图谱很难完成,构建的知识图谱缺少事实、关系和实体是常见的情况,可能会导致次优性能,影响模型的性能。因此,本文认为,在将知识图谱纳入推荐系统时,考虑它的不完整性是至关重要的。在未来的研究中,应综合考虑知识图谱的补全,以提高模型解释能力。

猜你喜欢
解释性新颖性列表
学习运用列表法
论行政自由裁量的“解释性控权”
外观新颖性对消费者购买意愿的影响:自我建构与产品类型的调节效应
扩列吧
日本计划将新颖性宽限期延长至12个月
英汉互译中的认知隐喻翻译探究
融媒体时代解释性报道的发展之路
非解释性宪法适用论
列表画树状图各有所长
不含3-圈的1-平面图的列表边染色与列表全染色