基于异质信息网络表示学习的引文推荐方法

2021-08-24 06:53张燕平
小型微型计算机系统 2021年8期
关键词:异质信息网络节点

段 震,余 豪,赵 姝,陈 洁,张燕平

(安徽大学 计算智能与信号处理教育部重点实验室,合肥 230601)

(安徽大学 计算机科学与技术学院,合肥 230601)

1 引 言

引文推荐是指根据查询者提供的信息,推荐与之相关的文献,如论文、专利等.引文推荐在领域调研、论文撰写、专利分析等科研学术活动中具有重要的应用价值.例如,当研究人员进入一个新的研究领域时,需要阅读大量与之相关的文献 资料,从中了解该领域的主要研究方法和最新进展.专利审查人员可以借助引文推荐的手段鉴定专利的新颖性和创造性.但通过人工从浩如烟海的文献资料中快速找到相关的文献,是一个艰巨的任务.如何使用机器学习方法,自动高效准确的查询相关领域的出版物并智能化地推荐一组文献集合,节约查找时间,是一个值得研究的课题.

近年来,引文推荐的研究主要可分为两类方法,即基于内容的引文推荐[1-3]和基于图的引文推荐[4-7].在基于内容的引文推荐方法中,主要依据文献的文本属性进行推荐,如标题、关键字、摘要、主题等.但是在学术研究领域,一种普遍的现象是新的名词被不断创造出来,从而会面临一些语义混淆的问题[6],使得仅依赖内容进行引文推荐的方法准确率相对较低.

很多研究学者认为,可以将引文推荐任务视作链路预测的问题来解决.引文网络包含了多种类型的节点,如论文、作者、关键字、期刊等.不同类型的节点构成一个异质信息网络,使用异质信息网络表示学习方法可以更好地获得引文网络中的节点信息.对于异质信息网络中节点特征的获取,目前主要采用元路径(metapath)和随机游走(random walk)两类方法.元路径可以捕获特定的网络结构特征,但是会忽略节点周围的部分邻居信息;随机游走可以对网络中的节点进行采样,但是不能有效地反应节点之间存在的关系.如果能有效地将文献节点的属性内容和网络结构相结合,对节点进行采样时可以更好的获取节点的特征.

为了解决上述问题,本文提出一种基于异质信息网络表示学习的引文推荐算法(A Citation Recommendation Method based on Heterogeneous Information Network Representation Learn,CRM-HIN),通过利用网络中的结构信息以及文本信息,构建一个包含语义链接的异质信息网络.为了获得每个节点之间的网络结构特征,使用混合元路径的方式对每个节点进行采样.如图1所示,定义元路径PAP(Paper-Author-Paper),在对节点进行采样游走的时候,首先按照元路径PAP进行游走,当元路径采样结束之后再使用随机游走,通过两种不同的游走方式相结合,获得每个节点的游走序列.对游走序列使用skip-gram模型进行训练,获得每个节点的向量表示,通过计算网络中每个节点的相似性,获得推荐的论文列表.本文提出的算法可以更好地学习节点的特征表示,有效地捕获论文之间的语义关系.在两个真实的数据集上的实验结果表明,本文提出的算法与其它引文推荐方法在效果上有显著提升.

图1 混合随机游走采样

本文的主要贡献如下:

1)提出一种新的引文推荐框架,通过构建一个包含语义链接的异质信息网络,更好地融合节点属性信息及网络结构信息.

2)给出一种新的混合元路径采样算法,该算法所生成的节点序列,能更好的表示网络中的节点特征.

3)将算法应用于两个真实引文网络数据集,与其他方法相比,获得了更好的准确率.

2 相关工作

本节首先介绍基于内容的引文推荐算法研究现状,然后介绍基于图的引文推荐算法研究现状.

2.1 基于内容的引文推荐算法

基于内容的引文推荐方法通常结合文本语义[8,9]和潜在的主题来比较论文之间的相似性.此类方法可以使用单词或者主题特征,利用数据挖掘技术对其进行建模.作为文本的高维度表示,可以将主题分布作为论文之间相似度的一个衡量标准,很多研究工作通过集成文本信息来扩展主题模型.例如,Tang等人提出了一种基于主题的方法[2],该方法可以基于引文关系和论文文本内容的相关性,通过训练两层受限的玻尔兹曼机来学习主题分布.Dai等人不仅利用文本内容的相似性,还利用作者之间的社交关系来进行有效的引文推荐[10].近期一些基于内容的引文推荐方法,通过利用引文中的局部或者全局上下文信息对论文进行推荐排名[11,12].但是基于内容的引文推荐方法还是存在传统信息检索的一些缺陷,如语义歧义等问题.

2.2 基于图的引文推荐方法

基于图的引文推荐算法主要分为两种,一种是基于同构图的引文推荐算法,另一种是基于异构信息网络[13]的引文推荐算法.

在基于同构图的引文推荐算法中,Ren等人提出一种基于聚类的引文推荐框架[4],按照将同一种类型的论文聚成一个兴趣群的原则,获得多个聚类,根据相关的兴趣组预测每篇待查询的引文.

为了更加有效的进行引文推荐,很多基于图的方法都考虑将多种关系建模为异构图,然后将该任务看作为链路预测问题[12,14],使用图的方法生成相应的引文推荐列表.为了更好的利用网络的结构特征以及节点的属性信息,很多学者提出了如何将网络中的结构特征和文本信息融合在一起的方法[1,3,15-18].Chen等人提出一种包含语义链接的加权异质信息网络,通过多模式相似性之间的线性组合来推荐相关论文[19].Deng等人构建一种新的基于异构图的推荐方法[20],其中既包括引文又包括内容,使用图的相似性学习算法进行引文推荐.

3 算法描述

3.1 相关定义

本小节首先给引文推荐设计的符号进行了定义,然后给出了问题的形式化描述.

3.1.1 符号定义

表1给出本文所涉及的符号及其含义.

表1 符号含义

3.1.2 问题定义

引文推荐问题:给定一个论文的集合P,P=CP∩TP,CP是候选论文的集合,CP=(cp1,cp2,…,cpm);TP是目标论文的集合,TP=(tp1,tp2,…,tpn)引文推荐问题可以被描述为:输入带有属性信息的目标论文集合TP,从候选论文集合CP中返回一个论文的推荐列表Pr.

异质信息网络:给定一个有向网络G=(V,E),其中V代表所有实体节点的集合,E代表所有关系边的集合.存在一个节点类型的映射函数φ:V→A和一个边类型的映射函数ψ:E→R,每个对象v∈V都属于一个特定的对象类型,每个链接e∈E都属于一种特定的关系类型,这种网络称为信息网络.当对象类型数量|A|>1或关系类型数量|R|>1时,这样的信息网络被称为异质信息网络,反之为同质信息网络[18].图1给出的是一个异质信息引文网络,其中包含论文、作者、期刊、关键字等4种类型的节点.

在一个异质信息引文网络中,两个对象之间会存在多种不同路径的连接.例如,引文网络中的两篇论文可以通过“论文—作者—论文”进行连接,也可以通过“论文—作者—作者—论文”进行连接.不同路径下的语义意味着不同的相似性,这些路径在形式上被称为元路径.

本文定义元路径PAP(Paper-Author-Paper),在引文网络中论文和作者的关系比较大,同一个作者,所发表的论文,研究方向较为接近,对于同类型的论文,引用的可能性也更高,因此将元路径设置为PAP.对节点进行采样游走时,首先按照元路径PAP进行游走,元路径采样结束之后再使用随机游走,通过两个不同的游走方式相结合,获得每个节点的游走序列.此时,混合随机游走的一条路径P可以表示为p=p+,其中p为元路径,为随机游走产生的路径.具体的混合随机游走的实例如图1所示,元路径p=PAP,随机游走的路径为=KPVPAP,所以混合随机游走的路径为P=PAPKPVPAP.

3.2 基于异质信息网络表示学习的引文推荐算法

算法框架如图2所示,整体算法框架分为3个模块.第1个模块主要是通过BERT和Word2vec获得关键词和摘要的向量,从而重新建立包含语义链接的异质信息网络;第2个模块使用元路径和随机游走获得节点的游走序列;第3个模块对模型进行训练,从而获得推荐的结果.

图2 基于异质信息网络表示学习的引文推荐算法框架

3.2.1 包含语义链接的异质信息网络的构建

(1)

最终选择top-ka个最相似的论文构建语义链接.

(2)

最后选择最相似的top-kk个最相似的关键词构建语义链接.

将论文中的一些语义信息(摘要,关键词等)融合到网络结构中,对原始的异质信息网络G进行重构,获得一个新的异质信息网络G′,重构之后的网络包含了节点的语义信息.

3.2.2 混合随机游走

节点采样序列的好坏,决定了表示学习之后节点的特征好坏,本文使用混合随机游走对网络中的节点进行采样,具体的采样过程如下.

对于网络G′中的每一个节点vi,需要对其进行采样,捕获每个节点的网络结构特征.定义游走长度l,设定元路径P的长度为lp,其中l>lp,以根节点vi进行随机游走的一个游走序列为Wvi,混合随机游走的过程可以描述为:从节点vi开始,按照元路径P进行元路径游走,从节点vi的邻居节点开始,选择一条元路径进行游走,当游走的长度等于lp时,从当前停止的节点开始进行随机游走,直到游走序列的长度为l时,停止节点vi的随机游走;依次遍历网络G′中的所有节点.

3.2.3 模型训练

网络表示学习可以从网络中学习节点的特征,并且可以获得节点的低维向量表示,在分类、链路预测、聚类等下游任务中用于特征表示.给定一个低维空间Rd,d≪|N|,网络表示学习的目的就是学习一个映射函数f:N→Rd,Θ=(θ1,θ2,…,θ|N|)表示学习得到的低维空间向量,Θ应该尽可能的保留原始网络的拓扑信息.

(3)

算法的详细描述如下:

算法1.基于异质信息网络表示学习的引文推荐算法

输入:Heterogeneous citation network

G=(V,E),metapath:Ppath,walk lengthl,walk numberr.

1.Pre-processing:Use word2vec to get a vector of abstracts ϑp;Use BERT to get a vector of keywords ϑk

2.Use ϑp、ϑkto Reconstructing heterogeneous information citation networkG′=(V,E)

3.Initializewalksto Empty

4.fori=0 to r do:

5.O=shuffle(v)

6.foreachvi∈Odo:

7.walk=mixRandomWalk(G′,vi,l)

《意见》明确要求,各级财政部门要始终把解决好“三农”问题作为工作重中之重,坚持优先发展、压实责任,坚持综合施策、系统推进,坚持改革创新、激发活力,把农业农村作为财政支出的优先保障领域,公共财政更大力度向“三农”倾斜,确保投入力度不断增强、总量持续增加,确保财政投入与乡村振兴目标任务相适应,坚持绩效导向、加强管理,将财政资金的分配和使用管理与支持乡村振兴工作的实际成效紧密结合起来,加快推进乡村治理体系和治理能力现代化,加快推进农业农村现代化,坚持走中国特色乡村振兴之路。

8. Appendwalktowalks

9.endfor

10.endfor

11.fv=skipgram(walks)

12.forvi∈Gpdo

13.forvj∈Gcdo

14. calculate CosSim(fvi,fvj)by Equation(3)

15.endfor

16.Ktop-k most similar paper forvi

17.endfor

1.mixRandomWalkG′=(V,E)start nodevi,walk lengthl

2.walk=[u]

3.forwalk_iter=1 toldo

4. curr=walk[-1]

5.iflength(curr)

6.lmetapath=metpath(curr)

7. else

8.lrandom=randomwalk(curr)

9.walk=lmetapath+lrandom

10.endfor

11.returnwalk

4 实验与结果分析

4.1 数据集

为了评估算法性能,选取了两个常用于验证引文推荐方法性能的数据集:DBLP(1)https://www.aminer.cn/citation和PubMed(2)https://pubmed.ncbi.nlm.nih.gov/.数据集描述如表2所示.

表2 实验所用的数据集

DBLP是一个著名的在线数字图书馆,包含了计算机科学和相关学科领域的文章和书籍的书目条目.本文从中DBLP v9版本中抽取了一个子集,里面有50227篇文章,26593名作者,11个期刊,按照年份划分数据集,其中2010年以前的论文作为训练集,2010年-2013年的论文作为测试集,平均每篇论文的引文数量为4个.

PubMed 数据集包含了47347篇医学领域的科学文献,共有42441名作者,11个期刊,平均每篇文献有17个引用关系,数据集中包含了标题、摘要、地点(文献发布的期刊或者会议)、作者、引文(文献中引用其他的文献)和关键词.2010年以前的论文作为训练集,2010年-2013年的论文作为测试集.

4.2 评估方法

本文使用Precision、Recall和MRR来评估算法效果,k表示给目标论文推荐k个候选文章:

(4)

(5)

Q是目标论文的数量,k是推荐的论文数量,Rp是基于目标论文p推荐的前k个引文论文列表,Tp是论文p真实引用的集合.

MRR(Mean Reciprocal Rank):对于信息检索系统(如问答系统或推荐系统),只关心第一个标准答案返回的位置(Rank),越靠前越好,这个位置的倒数称为RR,对问题集合求平均,则得到MRR.

(6)

F1分数(F1-score)是分类问题的一个衡量指标.一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的指标.它是精确率和召回率的调和平均数,最大为1,最小为0.

(7)

4.3 对比算法

ClusCite[4]:ClusCite将异构图中的论文、作者、期刊的相似节点聚集在一起,用来查找应该被引用的论文.

BM25[25]:BM25是一种基于文本的方法,可以计算仅使用文字信息的相似度得分.

NNSelect[16]:是一种基于内容推荐引文的方法.将给定的查询文档嵌入到向量空间中,然后使用其最近的邻居作为候选对象,使用判别模型对候选论文进行排序.

Doc2vec[21]:是一种非监督式算法,可以获得句子/段落/文档的向量表达,是 word2vec算法的拓展.

DeepWalk[23]:DeepWalk是一种学习网络中节点表示的方法,将语言模型中的方法应用在社会网络分析中,从而可以应用深度学习的方法,不仅能表示节点特征,还能表示出节点之间的拓扑关系.

Metapath2vec[26]:是对异构信息网络进行特征表示学习的一种方法,具体的做法是基于元路径的随机游走来获得节点游走序列,之后使用异构的skip-gram模型来获得节点的向量表示.

4.4 实验结果及分析

在本节中,首先将本文提出的CRM-HIN算法与其他6种基于内容的引文推荐算法以及基于图的引文推荐算法相比较;然后分析不同参数对实验结果的影响.

实验环境操作系统为Windows10 64位,语言为python3.6;本文算法设置的元路径为PAP,每个节点的隐维数(representation_size)为256,游走次数为80;ClusCite算法中参数的设置为:K=200,cp=10-6,cw=10-7;NNSelect、BM25参数和算法原文保持一致,Doc2vec的实现方法参考gensim(3)https://radimrehurek.com/gensim/库,deepwalk算法的实现采用了清华大学OpenNE(4)https://github.com/thunlp/OpenNE的工具包;metapaht2vec算法中,元路径参数设置为PAP.

表3、表4分别显示了本文算法和其他对比算法在DBLP和PubMed数据集上的推荐结果.通过分析实验数据可知,CRM-HIN算法在recall、precision、NDCG上面有很好的推荐结果.对于只使用文本相似度进行推荐的算法(BM25、Doc2vec),效果没有基于图的推荐算法效果好,主要是因为对于引文网络,由于引文中不仅存在文本信息,更重要的是还存在作者、出版社、文献之间的引用等关系,而BM25和Doc2vec只使用文本信息,没有将网络中的结构信息考虑进去.本文提出的基于异质信息网络表示学习的引文推荐算法,使用了网络中的结构以及文本信息,通过节点序列,获得不同类型节点之间的关系,从而可以获得更好的推荐效果.

表3 DBLP上的实验结果对比

表4 PubMed上的实验结果对比

DeepWalk使用随机游走获取节点序列;Metapath2vec使用元路径获取节点序列,图3和图4分别对比了在两个数据集上使用混合游走、元路径和随机游走3种方式对节点进行采样时的效果.可以发现,基于元路径获得节点序列,只对路径上的各种节点进行了游走,忽略了节点周围的其他类型节点.CRM-HIN对于节点序列的采样,首先按照元路径获得节点序列,从而获得与该节点最相关的结构信息;随后使用随机游走,获得高阶邻居节点的信息;为了使文本信息可以融合到网络结构中,在获取节点序列的时候,考虑了节点本身的文本相似性.从实验结果可以发现,CRM-HIN要比其他算法推荐效果好.因此,结合网络中的文本信息和异构网络的结构信息可以获得更好的结果.

图3 使用不同节点采样方法在DBLP上的实验效果

图4 使用不同节点采样方法在PubMed上的实验效果

本节分析超参数采样长度的敏感性对实验结果的影响.对节点进行采样时,选择不同的采样长度,结果如图5所示,我们使其游走长度依次递增,观察实验结果的变化,从实验结果中我们可以分析出,当游走长度为6的时候,效果最好.由于本文设置的元路径为PAP,获取节点序列的时候,里面包含了元路径,两篇论文有共同的作者,这两篇论文很可能是同一个作者研究的内容,两篇论文有一定的相关性.元路径之后的随机游走,可以获得与论文相关的一些信息,比如论文和出版社之间的关系,论文之间的引用关系.适当长度的游走,可以有效的提升推荐的效果,但是当游走长度过长的时候,游走序列后半部分的节点序列,与前半部分的节点序列,相关性减轻,对这些节点序列进行训练,会对实验结果产生一定的影响.因此,选择合适的游走长度,可以有效地提升推荐的效果.

图5 不同游走长度对实验结果的影响

5 总 结

本文提出一种基于异质信息网络的引文推荐算法,通过将论文的文本内容融合到网络的结构中,使用元路径和随机游走相结合的方式来提取节点的特征,从而训练获取更好的推荐效果.获取真实论文推荐列表的实验结果表明,和基准方法相比,本文提出的引文推荐算法可以有效地结合网络中的结构信息和文本信息,从而获得更好的推荐结果.

猜你喜欢
异质信息网络节点
基于RSSI测距的最大似然估计的节点定位算法
分区域的树型多链的无线传感器网络路由算法
基于异质分组的信息技术差异化教学
一种基于能量和区域密度的LEACH算法的改进
晋能科技半导体尖端技术喜获突破
碳排放对绿色全要素生产率的影响与地区异质效应
基于点权的混合K-shell关键节点识别方法
基于CuO/ZnO异质结纳米花的薄膜型丙酮传感器研究
信息网络条件下党员教育工作问题与策略研究
国内教育微课发展与建设的初步探索