非对称异构信息网络的模糊推荐算法

2020-12-07 08:20王永贵梅轩玮
计算机工程与应用 2020年23期
关键词:非对称异构信息网络

王永贵,梅轩玮

辽宁工程技术大学 软件学院,辽宁 葫芦岛 125105

1 引言

互联网规模和覆盖面的迅速增长带来了信息超载的问题,过量信息同时呈现使得用户无法从中获取对自己有用的部分,导致信息的使用效率反而降低[1]。个性化推荐系统作为解决信息超载的一个有力工具[2],目前已经有了非常广泛的应用,如拼多多、淘宝、快手等都拥有自己完善的推荐系统,其原理主要是通过信息筛选过滤无用信息,然后对有效的用户数据和用户行为进行分析处理,获取用户行为偏好,进而对不同用户进行个性化推荐,更好地满足了用户需求,深受用户喜爱[3]。随着推荐系统研究的不断深入,人们发现传统的同质网络建模方法抽取的信息通常只包含实际交互系统中的部分信息,这在一定程度上造成了数据损失。而异构信息网络作为一种考虑多元对象关系的信息建模方法[4]有效地解决了这个问题,因此受到了推荐算法研究领域的广泛关注。当前异构信息网络模型在推荐系统领域应用的主要方向是基于元路径的相似性度量。例如,Bu等人[5]通过整合元路径选择获取用户相似度,提出了改进PathSim 算法;Shi 等人[6]提出了可以计算任意元路径间相似度的随机游走策略算法;黄立威等人[7]通过对象间在各种元路径上构成链接的机率来计算对象相似度并进行预测,提出了链路预测模型。

传统基于元路径进行相似度计算的算法对用户关系的认定通常是对象之间满足相似度对称性,然而在实际问题的处理中这种方法有时会存在局限性。例如在评分预测系统中计算用户相似度时,选取用户m和用户n,其对目标对象的评分分别为(2,3,1,1,4)和(2,/,/,/,4)(“/”表示该物品未被用户评分),根据传统使用的相似度度量方法计算的用户相似度会得出两用户高度相似的结论并会依照用户m的喜好对用户n进行评分预测和推荐,这样的结果可能是由于两个用户对物品一和物品五这种类型的物品喜好相同,但并不能完全说明在其他物品的兴趣上也相同。这种情况在一定程度上造成了推荐精度的下降,因此在计算过程中就需要考虑用户之间相似度的非对称性[8]。此外,用户对具有模糊性质物品的认识是有主观性的,也就是说对模糊物品的界限定义是不完全相同的[9]。例如在电影评分上,因为对喜欢这个定义的模糊性,用户们表达相同程度的喜欢时有些用户会给3 分,而有些用户会用4 分来表达。这种主观认识上的差异造成相同程度的喜欢在精确评分上出现了差别,这就导致离散的评分有时不能获取用户行为所表达的真实信息,加大了准确度量用户之间相似性的难度。

针对上文描述的问题,本文分析异构信息网络和模糊理论在推荐系统应用领域的特点,提出了一种非对称异构信息网络的模糊推荐算法(FHIN)。其主要贡献包括3个方面:

(1)通过模糊集理论[10]对评分进行隶属函数[11]权重计算,得到用户决策的模糊权重,以解决用户主观认识的模糊性问题。

(2)在相似度的计算上设置非对称系数,考虑不同元路径的权重影响,根据元路径的非对称特征及元路径权重计算用户间的相似度;最后使用矩阵分解[12]预测目标评分。

(3)在不同数据集上进行多次实验比较,结果证明了本文算法的可靠性和有效性,充分提高了推荐精度,为解决推荐系统中数据稀疏性问题提供了有效思路。

2 相关知识

2.1 模糊集理论

互联网络开发者在开发过程中存在的定义模糊性,导致了用户行为的模糊性,因此如何从模糊信息中更好地获取用户的真实偏好显得极其重要。模糊集正是这样一种用于解决信息模糊性的理论,该理论根据实际需求定义界限并形成多个集合,通过阈值判定将各个元素依次归于不同集合,并计算各个集合权重,以降低定义模糊性带来的影响。相关定义[13-14]如下:

定义1模糊集合C可由论域U到[0,1]区间的任意映射确定。映射规则记为C的隶属函数,μC(u)记为u对模糊集C的隶属度:

定义2存在多种隶属函数表示法,对于评分领域的隶属函数通常使用Zadeh表示法:

定义3在隶属函数类型中,表达喜爱程度通常使用三角模糊数f,其表达式为:

f的计算公式为:

其中,a、b表示上下边界,h表示间隔步长,ω表示模糊权重。

此外要确定隶属函数还要求模糊集合必须是凸模糊集合。即设C为实线性空间Y上的模糊集,对于∀λ∈[0,1],都有λC+(1-λ)C⊂C。

2.2 异构信息网络

信息网络通常用有向图G=(V,E,W)表示,包含对象集V、链接集E和权重映射集W。G中每个对象v∈V都是一个特定的对象类型;每个连接边e∈E都是一个特定的关系类型;每个权重值w∈W都是一个特定的权重类型。若对象类型数量或关系类型数量大于1 个,则称该信息网络为异构信息网络,若同时权重类型数量大于等于1,则为加权异构信息网络[15]。图1为一个关于电影评分的加权异构信息网络。该网络包含四种类型的对象:用户User、电影Movie、电影类型Type 和导演Director。在路径User→Movie 上以用户对电影的评分作为该路径权重。

图1 加权异构信息网络

网络模式是信息网络的元描述[16],包含对象类型映射和关系类型映射。图1 信息网络的网络模式如图2所示。

图2 网络模式

异构信息网络中最重要的概念是元路径,其定义为任意两节点之间不同类型连接边连接构成的路径,用于表示两节点间的复合关系。可以形式化表示为,其中A1,A2,…,An代表节点类型,R1,R2,…,Rn表示关系类型。对于两条不同的元路径,若第一条元路径的尾节点与第二条元路径的首节点为相同节点,则两条元路径可以进行合并。例如图1的实例中,元路径User→Movie 和元路径Movie→Director可以合并为元路径User→Movie→Director。不同元路径之间包含的对象语义关系是不同的[17]。元路径不但刻画了对象间的语义关联,而且可以从元路径中抽取对象间的特征信息。将异构信息网络应用于推荐系统可以通过元路径获得丰富的语义和结构信息,很大程度地增加了用户相似性度量时可使用的数据量,从而提高推荐精度。

目前,基于异构信息网络进行的相似性度量通常使用PathSim 算法,该算法根据元路径的语义及其对应的邻接矩阵计算用户相似度。

定义4给定元路径H,对象x和y之间的相似度为:

式中Hx→y表示x和y之间的路径实例,即路径对应邻接矩阵M中M(x,y)位置的取值。

3 本文算法

利用三角模糊模型构造模糊化评分,计算模糊评分模型的隶属函数,更加准确地获取用户偏好。在相似度度量中考虑对象对称性,对用户进行对称性判定,加入非对称系数。同时加入元路径的权重影响因素,对不同元路径分别带权计算相似度,融合评分矩阵和物品属性矩阵,构造用户相似特征矩阵。最后根据物品和用户的特征表示,预测未知评分。本文算法流程如图3所示。

图3 算法流程图

3.1 构造模糊评分模型

选取常用数据集评分属性进行模糊化处理,通过构建三角评分模型,将标准化的1到5范围评分模糊为VD(非常不喜欢)、D(不喜欢)、N(无感)、L(喜欢)、VL(非常喜欢)五个等级,以此来表示用户喜好程度。评分模糊数与喜好程度的对应关系如表1所示。

表1 喜好程度对应关系

模糊处理后,根据定义1 首先将[1,5]评分缩放到[0,1]区间,之后由定义2和定义3对该评分模型的隶属函数进行计算,得到对应隶属函数:

隶属函数的确定的模糊集隶属度可以得到用户间第k个公共项的模糊权重ωk为:

其中,gm,k表示用户m对物品k的评分,gn,k表示用户n对物品k的评分;dis(gm,k,gn,k)表示评分信息的欧氏距离,i为评分向量维数,为向量gm,k中的第j个分量。

根据模糊权重,可以得到用户m对n的模糊相似度:

其中,lmn表示用户m和用户n的共同评分项;表示用户n对所有项目评分的均值,表示用户m对所有项目评分的均值。

3.2 非对称系数

由于用户评分行为的不对称性,计算用户间相似度时会出现因个别用户评分较少且仅有的评分行为恰好与其他用户相同而造成的偶然高相似现象,这种情况下的相似性并不能反映用户真实喜好,一定程度降低了预测结果的准确度。本文算法在考虑这种非对称性的基础上,提出非对称系数。首先在数据选择上对用户数据进行处理,通过阈值设定去除评分行为过少的用户数据;然后对评分行为比值过大的两用户进行标记,在后期预测中降低标记项结果的影响权重;最后把用户共同评分项在已评分总项中占据的比例作为非对称系数加入相似度计算。用户m对n的非对称系数为:

其中,lm代表用户m的评分项。

结合模糊相似度的计算公式和非对称系数,得到用户m对用户n的非对称模糊相似度:

3.3 元路径权重

通常在一个异构信息网络中都会存在多条元路径,不同的元路径反映着不同角度的用户联系,而根据不同元路径计算的用户相似度也并不相同。为了充分利用不同元路径中包含的丰富语义信息,有必要对各条元路径进行赋权以提高信息的利用率,达到保证用户相似度计算结果更为精确的目的,从而准确地预测用户评分。本文算法的权重设置主要考虑路径长度和路径数量两个因素。

路径长度方面。元路径长度是指一条元路径中边的数量。在异构信息网络中元路径包含着用户间的语义信息,元路径的每一条连接边都体现着两个节点的关联,元路径的总长度决定了路径两端对象的关联程度。简单来讲,较短的元路径两端对象的关联更加直接,所以短的元路径应该具有更高的权重。路径长度权重可以表示为目标路径长度和路径总长度的反比例关系,公式化为:

其中,len(P)表示元路径P中的边数,L表示所有元路径的集合,表示遍历所有元路径求得路径总长度。

路径数量方面。这里的路径数量指的是满足核心元路径要求的所有路径的数量。满足要求的路径越多表示路径数量越多,代表对象之间的关联程度越高。因此路径数量越多,元路径的权重就应当越高。路径数量的权重影响的具体公式为:

其中,cou(P)表示元路径P的路径数量。

在本文算法中认定路径长度和路径数量两种影响因素对元路径权重的影响比重分别为α和β,且满足α+β=1,得到如下元路径权重wp的计算公式:

根据元路径权重和非对称模糊相似度得到本文算法的用户间相似度计算公式:

最后根据这种相似度计算方法预测用户评分,得到用户m对物品a的评分预测结果为:

其中U为用户-用户的相似信息矩阵,U(mn)表示用户m和用户n的共同评分项集合。

3.4 算法流程

根据以上介绍,非对称异构信息网络的模糊推荐算法步骤描述如下:

输入:用户评分矩阵U,特征向量维度i,路径P,路径长度和路径数量影响因子α和β。

输出:评分预测值。

步骤1根据式(6)~(9)构造模糊评分模型,计算隶属函数,得到模糊权重。

步骤2利用式(10)~(11)计算非对称系数,求得非对称相似度。

步骤3根据式(12)~(14)计算元路径权重。

步骤4由式(15)计算用户间非对称模糊相似度。

步骤5利用式(16)预测评分。

4 实验设计

4.1 实验环境

本实验采用的硬件环境为:Intel i5-9400 CPU 四核,主频2.9 GHz,内存16 GB,硬盘1 TB;操作系统为:Windows10操作系统;编程环境为:MATLAB R2018b。

4.2 数据集

MovieLens 数据集是由美国明尼苏达大学计算机科学与工程学院的GroupLens研究小组发布,其中包含用户信息、电影信息和评分信息,有MovieLens100K,MovieLens1M 和MovieLens10M 三个不同规模的数据集,广泛应用于推荐算法研究领域。DoubanMovie数据集是豆瓣网用户对电影评分的数据集合,其中包含豆瓣用户详细信息、电影信息、评分信息以及用户评论。DoubanMovie数据集的最大优点是用户评分数据较新,更符合当下用户的真实喜好,因此越来越多的推荐算法开始使用该数据集进行实验。本文选择在Movie-Lens100K、MovieLens1M 和 DoubanMovie 三个数据集上分别实验,观察算法效率。

MovieLens100K数据集中包含943名用户对1 682部电影的100 000条评分数据;MovieLens1M包含6 040名用户对3 900 部电影的1 000 209 条评分数据;Douban-Movie数据集由13 367名用户对12 677部电影的1 068 178个评分数据组成。实验数据集描述如表2 所示。

表2 实验数据描述

4.3 评价指标

为了能够更准确地衡量本文算法的性能,选择均方根误差(RMSE)和平均绝对误差(MAE)两个推荐系统常用评价指标作为评定指标。当预测评分越接近实际评分时,RMSE和MAE的值越小,算法性能越好。

RMSE的定义为:

其中,|T|为测试集中评分数量。

MAE的定义为:

4.4 实验设置

为了能够更加直观地验证算法效果,本文选择了以下三个算法与FHIN 算法在不同数据集上进行实验,通过观察RMSE 和MAE 两个评价指标结果判断算法效率。

UCF 算法:基于传统协同过滤方法进行推荐,使用余弦法计算用户相似度确定相似用户,根据相似用户的评分信息预测评分。

FCF 算法:在个性化推荐中加入模糊模型,构造隶属函数并引入模糊相似度度量方法,通过协同过滤预测评分。

PathSim算法:将异构信息网络运用于推荐算法,提出根据异构信息网络中对称元路径计算用户相似度的方法并以此进行推荐。

4.5 实验结果与分析

为保证实验结果准确性,算法采用五折交叉方法将实验数据集等分为五份,选取一份作为测试集,其余四份为训练集,每做完一次实验记录结果并重新五等分再进行实验,共进行五次将结果平均值作为最终实验结果。

在实验中,用户评分的向量维数i设为4,相似度结果对预测结果的影响因素设为1,路径长度权重影响因素α为0.6,路径数量权重影响因素β为0.4。在数据集MovieLens100K、MovieLens1M 和 DoubanMovie 上的实验结果分别如表3~表5所示。

表3 MovieLens100K实验结果

表4 MovieLens1M实验结果

表5 DoubanMovie实验结果

观察表中数据可以发现本文算法在不同的数据集上的效果均优于其他算法。同时可以看出FCF 算法、PathSim算法和本文算法的效果均优于UCF算法,说明在传统推荐算法中加入有利于信息数据处理的理论或者方法可以提高推荐精度。另外对比同样基于元路径的PathSim 算法,在计算用户相似度时应用了用户非对称关系的FHIN 算法在RMSE 和MAE 指标上结果均小于PathSim算法。而观察同一算法在不同数据集上的表现可以发现随着数据集稀疏程度的增加,各个算法的效果皆有所减弱,其中FHIN算法效果减弱趋势较为缓慢,说明本文算法在处理数据稀疏性问题方面效果显著。

为验证参数变化对实验结果的影响,本文将邻居个数λ设置为10 增到50,增长间隔为5,观察本文算法在各个数据集下受参数影响情况。结果如图4 和图5所示。

图4 λ 取值对RMSE的影响

图5 λ 取值对MAE的影响

从两图中可以观察到随着近邻个数的增加指标MAE 和RMSE 均先减小,并在邻居个数为20 时达到最小值,随后逐渐增大,说明适当地引入参数对提高推荐算法效率有一定作用。但是两指标的增长变化趋势并不相同,其中MAE指标的增大幅度较大且趋势较急;而RMSE指标则幅度较小且趋势较缓。说明MAE指标相较于RMSE 指标受邻居个数影响更大。由于MAE 和RMSE指标均在λ取值为20时最小,因此本文算法选取20作为邻居个数的取值。

5 结束语

本文提出了一种非对称异构信息网络的模糊推荐算法,该算法通过构造模糊模型对用户评分进行模糊处理,综合异构信息网络中对象的非对称性和元路经权重,提出了一种新的相似性计算方法,一定程度上缓解了数据稀疏性带来的问题。在未来的工作中,侧重研究图像和文本等非结构化数据的异构信息网络构建,以提高信息抽取的能力,从数据来源方面解决推荐系统中的数据稀疏性问题。

猜你喜欢
非对称异构信息网络
试论同课异构之“同”与“异”
阀控非对称缸电液伺服系统线性自抗扰控制
非对称干涉仪技术及工程实现
吴健:多元异构的数字敦煌
帮助信息网络犯罪活动罪的教义学展开
河南省交通运输厅信息网络监测预警系统
异构醇醚在超浓缩洗衣液中的应用探索
网络共享背景下信息网络传播权的保护
帮助信息网络犯罪活动罪若干问题探究
LTE异构网技术与组网研究