杨柳青,王 冲
1.玉林师范学院 教育技术中心,广西 玉林 537000
2.桂林电子科技大学 商学院,广西 桂林 541004
网络中的海量信息存在异质以及复杂特征,异质信息提升了信息推荐难度[1-2],高效的信息推荐算法可有效解决用户的信息处理问题。在实际的应用过程中,存在无法良好交互导致推荐准确性低且容易出现冷启动情况[3]。网络中丰富的商品类别信息所包含的异质信息可提升信息推荐效果,对存在的问题能够有效解决。以往的信息推荐算法设置用户偏好信息为用户评分矩阵,用户打分标准存在较高差异[4],主观和客观性均存在原因,所获取推荐结果无法满足网络众多用户需求。
采用异质信息网络实现数据处理、分类以及推荐等应用已受到研究学者的重视[5],已有众多研究学者将创新的数据挖掘技术应用于异质信息网络处理中,提升信息搜索推荐性能。赵传等人[6]利用非对称方法获取异质信息网络推荐结果,在均方差相似度公式的基础上,引入非对称系数刻画相似度的非对称性,再根据元路径的特征赋予权值,对不同元路径的相似性进行加权;最后通过在矩阵分解模型中融合相似信息和评分信息,实现异质信息网络的评分预测推荐。Lyu等人[7]考虑的加权多信息约束矩阵分解,提出基于地理标记照片的个性化出行位置推荐算法,利用照片(视觉信息)、用户访问序列(顺序信息)和文本标记(文本信息)全面分析用户和旅行地点。视觉、顺序和文本相似性以及基于地理距离的共同访问概率被赋予不同的权重,以约束原始用户旅行位置矩阵进行因子分解。郁怀波等人[8]提出基于多特征融合与树形结构代价聚合的立体匹配算法,通过对图像进行色彩、梯度和Census 转换的融合,得到了相应的匹配代价聚合,再利用基于初始图象的最小生成树进行了相应的调整,并利用多边形扫描法对其进行了改进。陈嘉颖等人[9]提出一种融合语义分析特征提取的推荐算法,基于无结构性评价的文本信息,在知识图谱中运用本体辨识与链接技术从知识库中抽取出与工程特性有关的实体,构造出子知识库;再运用知识图谱表达法来进行表示学习,以实现低维表达。虽然上述研究取得一定进展,但仅可应用于少量信息推荐,对于网络中海量信息推荐性能较差。为此提出基于多特征融合的异质信息搜索推荐算法,选取多视图机模型,融合异质信息中所包含的多特征,实验结果表明,所提出的算法具有很高的推荐效率,可以在实际的推荐算法中得到应用。本研究算法的创新性是提出多特征融合,当视图数据的异质信息非相同空间内时,选取多视图机模型实现多特征融合,该模型可有效捕捉高阶交互,异质信息搜索推荐算法具有较强的推荐性能,可应用解决实际的信息过载问题。
网络中的实体是表示特征的语言单位,可有效体现用户的个人偏好以及使用态度,实体是分析用户偏好的重要方式。利用知识图谱技术提取异质信息特征,该异质信息特征是具有高阶相似度的节点。选取命名实体识别技术提取网络中信息特征,该技术利用中心为命名实体的结构化语义表示非结构化文本[10],将知识库内相应实体与识别的实体利用实体链接技术链接,与知识图谱相结合提取网络中实体与相关实体间链接信息。
当多视图数据的异质信息非相同空间内时,采用传统方法无法实现特征良好融合。选取多视图机模型实现多特征融合,该模型可有效捕捉高阶交互,利用多视图机整合不同表示向量,多视图机可获取m个视图的数据表示向量间多阶交互,实现多特征良好融合。
式中,p与m分别表示不同视图数据的表示向量以及视图数量,wiv,…,im表示多视图机模型服务组合数据量。多视图机将全部输入向量多阶交互,令所获取交互信息实现推荐作用[12]。通过该方法可获取多视图机在不同向量中内容的交互情况,实现各视图不同向量特征融合,为异质信息搜索推荐作准备。
在各视图不同向量特征融合实现后,需要针对协同注意力机制的局部信息推荐、多标签分类的全局信息推荐以及异质信息搜索推荐进行深入研究。
1.2.1 协同注意力机制的局部信息推荐
采用协作注意机制进行异质信息局部学习,收集异质信息中目标商品b与商品c的直接邻居构建邻域,利用矩阵分解模型排序信息中直接相连的邻居[13],设置用户的前K1个以及商品的前K2个节点为邻居。
异质信息网络可体现众多的组成对象以及相应关系,可精确体现众多组成对象间相应关系。为验证所研究多特征融合的异质信息搜索推荐算法对异质信息搜索推荐有效性,选取常应用于推荐任务中的异质信息数据集作为测试对象,数据集中共包含用户数量5 487个。数据集中异质信息为电影推荐系统中关联数据,其中包含导演、演员、用户、电影以及电影类型5种异质信息,不同类型的异质信息之间存在较高关联。选取广泛应用于推荐算法中的本文算法电影推荐结果、用户guan123 电影推荐结果、复杂度对比结果以及归一化折扣累计增益对比结果作为影响算法性能的因素,可体现推荐用户感兴趣信息的能力,并且可体现用户所喜欢项目位于最终获取的推荐信息推荐列表中位置。
综合前面的描述,基于多特征融合的异质信息搜索推荐算法研究实现过程如图1所示。
图1 异质信息搜索推荐算法实现流程图Fig.1 Implementation flow chart of heterogeneous information search recommendation algorithm
输入:异质信息数据集合、待推荐数据集合。
输出:异质信息推荐数据结果。
将本文基于多特征融合的异质信息搜索推荐算法应用于电影推荐系统中,采用本文算法获取其中10 名用户电影推荐结果如表1所示。
由表1实验结果可以看出,采用本文方法可依据用户偏好为用户推荐适合用户的不同类型的电影,依据用户以往观看记录选取用户喜欢的电影类型,从该类型中选取适合用户的电影。
为验证本文算法对于异质信息的搜索推荐性能的可行性,统计采用本文方法同时结合图1异质信息搜索推荐算法实现流程,为用户guan123 推荐电影,结果如表2所示。
采用本文算法可知,用户guan123偏好悬疑类电影,该用户对悬疑类电影兴趣深厚,本文算法为guan123所推荐电影多为悬疑类电影。本文方法从用户以往观看历史中发现用户对动画类型同样存在偏好,因此为该用户推荐动画类电影。通过表1 和表2 可知,采用本文算法可有效依据用户偏好为用户推荐适合用户的电影,具有较高的异质信息搜索推荐有效性。
表1 本文算法电影推荐结果Table 1 Movie recommendation results of proposed algorithm
表2 用户guan123电影推荐结果Table 2 Movie recommendation results of user guan123
复杂度数值越低,表示算法具有越强的兴趣点生成能力,推荐性能越高。复杂度计算公式如下:
式中,GH表示用户喜欢的项目兴趣点数量,| |Ru表示用户喜欢的全部项目兴趣点数量。采用文献[6]、文献[7]、文献[8]算法以及文献[9]算法搜索推荐异质信息的复杂度,对比结果如表3所示。
由表3对比结果可以看出,不同算法搜索推荐异质信息的复杂度均随着迭代次数的提升而逐渐降低。采用本文算法搜索推荐异质信息,迭代次数达到300次左右时,复杂度趋于稳定。采用本文算法搜索推荐异质信息的复杂度明显低于另4种算法,说明本文算法可获取较高的搜索推荐效果。
表3 复杂度对比结果Table 3 Complexity comparison results
选取广泛应用于推荐算法中归一化折扣累计增益作为评价指标评价本文算法的推荐性能,推荐归一化折扣累计增益可体现用户所喜欢项目位于最终获取的推荐信息推荐列表中位置,具体公式为:
式中,K表示所获取全部推荐结果,rk与zk分别表示项目是否为用户所喜欢项目以及归一化常数,rk等于1以及等于0分别表示项目为用户喜欢的项目以及用户不喜欢的项目。归一化折扣累计增益数值越大,算法的搜索推荐性能越好。采用上述内容,分别用本文算法、文献[6]、文献[7]、文献[8]算法以及文献[9]算法计算搜索推荐异质信息的归一化折扣累计增益,对比结果如图2所示。
图2 归一化折扣累计增益对比结果Fig.2 Comparison results of normalized discount cumulative gain
由图2实验结果可以看出,采用本文算法搜索推荐异质信息的归一化折扣累计增益明显高于文献[6]、文献[7]、文献[8]以及文献[9]算法,采用本文算法搜索推荐异质信息的归一化折扣累计增益均高于0.35。本文算法不同评价指标结果均优于文献[6]、文献[7]、文献[8]以及文献[9],说明本文算法搜索推荐性能较优越,可有效利用全局异质信息以及局部邻域信息提升搜索推荐性能。本文算法将协同注意力机制与全局信息应用于推荐算法中,提高了推荐算法的有效推荐性能,改善了爆炸式增长的数据量造成信息过载情况。
信息搜索推荐算法可依据用户历史行为获取用户偏好,将用户所需信息个性化推荐至用户,已经成为解决网络“信息超载”的一个重要途径。本文所研究异质信息搜索推荐算法具有较高的搜索推荐性能,可有效应用于不同领域的搜索推荐中。本文所研究算法结合知识图谱技术分析文本信息语义,提取异质信息中所包含的众多特征,采用多视图机融合所提取多特征,利用融合后的多特征实现异质信息搜索推荐。实验结果表明,该算法具有很高的推荐效率,可有效改善推荐精度较差的缺陷。
但是随着用户数量的增加,该异质信息搜索推荐算法的运算量也呈现增长,搜索推荐效率将下降,因此需要改进,未来的工作可进一步改进多特征融合的应用,提高算法的推荐效率。