融合加权异质网络与网络表示学习的学术信息推荐研究

2023-04-25 23:13熊回香唐明月叶佳鑫等

现代情报 2023年5期

熊回香　唐明月　叶佳鑫等

关键词：异质信息网络；学术信息推荐；Ｎｏｄｅ２ｖｅｃ；语义相似度

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２３．０５．００３

〔中图分类号〕Ｇ２５２.６〔文献标识码〕Ａ〔文章编号〕１００８－０８２１（２０２３）０５－００２３－１２

随着计算机的发展，以及Ｗｅｂ２０时代的到来，互联网络用户逐渐从信息接受者转变为信息制造者和传播者。据ＣＮＮＩＣ发布的第５０次《中国互联网络发展状况统计报告》显示，截至２０２２年６月，中国网民数量已达１０５１亿，互联网普及率已达７４.４％［１］。在Ｗｅｂ２.０模式下，用户可以自由、便捷地分享自己的各种观点，用户信息产出的门槛变低，网络信息量因此大幅增长，导致用户在面对大量信息时无法从中快速准确地获取自身所需信息，对信息的使用效率反而降低［２］。学术信息亦是如此，随着学术研究者以及研究成果的不断增多，学术资源的爆炸式增长给学术研究者帶来了更大的压力，面对庞大的学术信息资源，学术研究者难以从中找到与其相关的学术资源。个性化推荐是能够有效处理信息超载问题的方法之一，学术信息的个性化推荐也逐渐得到了学者的广泛关注。

若要实现准确的学术信息个性化推荐，首先就需要能够准确地描述学者兴趣特征。目前，国内外关于学者兴趣特征表示主要包括基于向量［３－５］、基于主题模型［６－７］和基于网络结构［８－１０］３种兴趣特征表示方法。其中，基于网络结构的兴趣特征表示主要是通过网络中的节点来描述用户的兴趣特征，如用户—电影网络、学者—关键词网络等，该类网络包含了非常丰富的结构和语义关系，而学术信息包含了作者、单位、文献、期刊等多种实体，基于学术网络结构的学者兴趣表征方法在一定程度上有助于解决信息推荐过程中论文低产量学者的数据“稀疏性” 问题。鉴于此，本文基于现有的网络表示学习方法，将文献时间因子与文献语义关系融入学者—文献异质信息网络中进行学术信息推荐研究。

１相关研究

目前，国内外关于学者兴趣特征挖掘研究主要从基于向量、基于主题模型和基于网络结构３个方面进行学术用户建模，从而挖掘学术用户的兴趣特征。基于向量模型的学者兴趣特征表示是用一系列特征词向量来代表学者的兴趣，ＧｕａｎＰ等［１１］使用标题、关键词、摘要和引用等数据，利用ＴＦ－ＩＤＦ对文献进行建模，最后利用不同权值的主题词向量进行用户兴趣表示；耿立校等［１２］使用ＴＦ－ＩＤＦ技术和Ｗｏｒｄ２ｖｅｃ技术提取文献特征和用户兴趣中权重较大的前Ｎ个特征词向量，根据特征词向量和权重来计算文献和用户的匹配度，从而实现文献推荐。在以主题建模为基础的兴趣挖掘方面，Ｍａｌｈｏ?ｔｒａＲ等［１３］基于ＬＤＡ主题模型，依据相似作者的兴趣以及作者自身的长期和短期兴趣，并利用ＬＳＡ方法计算兴趣的语义相似度，从而将高相似度的主题推荐给作者，该研究表明此种类型的融合提高了主题预测的准确性；尹丽玲等［１４］从资源类型、学科分布、关键词分布和ＬＤＡ主题分布４个特征，整合学术资源兴趣值和质量值作为推荐值，以实现优质推荐。基于网络结构的兴趣特征表示是通过网络中的节点来描述用户兴趣特征，网络特征学习已成为网络分析中的重要任务。网络表示学习［１５］旨在从网络中学习一系列低维向量，如网络节点、边、子图等，从而在分类、链路预测、信息推荐等下游任务中用于特征表示。ＰｅｒｏｚｚｉＢ等［１６］首次将深度学习与网络分析相结合并提出了ＤｅｅｐＷａｌｋ算法，该算法利用随机游走的方式来对网络进行序列化，以及将Ｗｏｒｄ２ｖｅｃ引入算法中实现节点特征表示；Ｎｏｄｅ２ｖｅｃ［１７］则是在ＤｅｅｐＷａｌｋ算法的基础上对序列采集策略进行优化，引入有偏参数来引导漫步的下一个节点，该过程包含广度优先与深度优先两种采样策略，提高了游走生成路径的质量；Ｍｅｔａ?ｐａｔｈ２Ｖｅｃ［１８］算法是基于元路径来控制随机游走的过程，在此过程中保留了异质网络中的结构和节点语义关系。在现有研究中，不少学者利用网络表示学习进行学术信息推荐研究，如朱祥等［１９］将学科异构知识网络应用于作者—文献的相关性研究中，利用元路径理论和ＤＰＲｅｌ相关性算法构建作者—文献相关性矩阵，最终依据该相关性得到文献推荐列表；ＬｉＹ等［２０］综合考虑论文、地点、作者、术语和用户以及这些实体之间的关系，在这些元路径上应用随机游动来测量候选论文对目标用户的推荐分数，提出基于异构网络的论文推荐方法，依据用户的历史偏好实现有效的论文推荐；张金柱等［２１］则以学者合著网络为基础，利用ＬＩＮＥ方法进行网络表示学习，最终通过计算向量相似度来进行科研合作预测。

综上所述，虽然目前学术界对于学术信息推荐的研究已有较大进展，但仍存在以下问题亟待解决：首先，现有学术信息推荐大多只针对学者静态兴趣，以学者动态兴趣为基础的学术信息推荐研究较少，但在现实情况中，学者的研究兴趣往往具有阶段性的特点，因为随着时代不断发展，科学研究需求也会相应发生变化，学者往往会根据时代背景与研究需求进行一系列研究，所以捕捉学者动态兴趣特征更有利于提高学术信息的推荐质量，从而为学者提供更好的信息服务；其次，从方法的选择来看，现有针对学者的学术信息推荐研究主要利用单一的节点类型来构建网络，无法推荐多粒度的学术信息。基于异质网络的网络表示学习不仅能极大程度地保留图结构数据节点的结构和语义信息，还能在一定程度上解决数据稀疏问题，从而提升对少产量作者的推荐效果。然而，现有应用于学术信息推荐的网络表示学习主要依赖于网络结构信息，而未考虑节点的外部语义信息。基于此，本文提出了融合加权异质网络与网络表示学习的学术信息推荐模型，以实现有效的学术信息推荐。

２基于加权异质信息网络的学术信息推荐模型构建

该模型综合考虑了文献节点的时间特征与语义特征来构建加权异质网络，其中时间特征体现了学者兴趣的动态性，而语义特征则利用了文献节点的摘要语义信息帮助建立文献节点关系，从而可以更好地挖掘潜在的推荐项目。通过该异质网络节点表示学习，最终完成了包括学者和文献在内的学术信息资源推荐。本文构建的学术信息推荐模型如图１所示，该模型包含了数据采集与数据预处理、异质网络构建、网络关系加权、节点向量生成以及推荐模块五大模块。首先，构建了包含学者以及文献的异质信息网络；其次，根据文献发表时间计算时间因子加权来反映用户动态兴趣，同时利用文献摘要文本的相似度来进行文献之间的语义加权；第三，在该加权异质信息网络上进行节点学习，得到每个节点的向量表示；最后，进行余弦相似度计算得到节点间的相似度，并以此作为最终推荐值，从而得到推荐结果。

２.１异质网络构建

本研究定义的异质社交网络包含两种类型的节点：學者Ｓ（Ｓｃｈｏｌａｒ）和文献Ｌ（Ｌｉｔｅｒａｔｕｒｅ），实体之间包含两种类型的关系，即边：ＳＬ（学者与文献的关系）、ＬＬ（文献与文献之间的关系）。若文献Ｌ由学者Ｓ参与撰写，则学者Ｓ与文献Ｌ存在ＳＬ关系；若文献Ｌ与文献Ｌ具有较高的相似度，则文献Ｌ与文献Ｌ之间存在ＬＬ关系，得到如图２所示的异质网络图。

２.２网络关系加权

近期发表的内容比早期发表的内容更能体现学者目前的研究兴趣，其对于推荐任务起到了更为重要的作用。所以本文将用户发表时间引入推荐算法中，通过给近期文献赋予更高的时间权重，以得到不同时间段的时间权重，从而更好地表示用户兴趣主题。设共有Ｍ位学者，学者ｉ（０＜ｉ≤Ｍ）发表文献数量为Ｎ_ｉ，时间权重函数［２２］如式（１）所示：

其中，Ａ、Ｂ代表文本的ＴＦ－ＩＤＦ向量，设向量长度为ｎ，ａ_ｉ（０＜ｉ≤ｎ）与ｂ_ｉ（０＜ｉ≤ｎ）代表向量Ａ与Ｂ中的元素。

将构建的异质信息网络进行边加权后，得到了一个包含时间特征与语义特征的加权异质信息网络，如图３所示。其中Ｓ代表学者节点，Ｌ代表文献节点，二者的节点集合表示为Ｇ，ｗ_ｉｊ代表节点ｉ（ｉ∈Ｇ）与节点ｊ（ｊ∈Ｇ）之间的边权值。

２.３节点向量生成

节点表示学习的特征质量由采样序列的质量决定，本文采用文献［１７］中的有偏随机游走对异质网络中的节点进行采样，具体采样过程如下：

τ_ｉｊ＝ｅ^γ（ｔ_０－ｔ_ｎ）（１）

其中， τ_ｉｊ（０＜ｉ≤Ｍ，０＜ｊ≤Ｎ_ｉ）是从文献发表时间的角度用来衡量文献ｊ对学者ｉ兴趣偏好的影响程度参数， γ 为时间衰减因子，ｔ_０为学者ｉ的文献ｊ的发表时间，ｔ_ｎ为学者ｉ最近的研究发表时间。由公式可以看出，当文献发表时间与最近一次发表时间越近，时间权重系数越大，反之越小。

为了将语义信息融入异质图中，本文将学术文献与学术文献之间的相似性作为异质图中文献节点与文献节点之间的权重值，主要过程为计算数据集内所有文献摘要的相似度，为了避免摘要中的通用词汇对语义加权造成影响，将ＴＦ－ＩＤＦ的阈值设置为０.１，若文献与文献之间的ＴＦ－ＩＤＦ相似度小于０.１，则表明文献节点之间语义相似度低，文献和文献之间不存在ＬＬ关系。在文本相似度的度量中，本文使用ＴＦ－ＩＤＦ进行文本向量表示，ＴＦ－ＩＤＦ是一种统计方法，用于评价一个单词在一个语料库中的重要性。单词的重要程度与其出现在文本中的频次成正比，但也与其在语料文档中出现的次数是反比的关系，计算方法如式（２）所示。在得到文本ＴＦ－ＩＤＦ向量后，利用余弦值代表文本之间的相似度，如式（３）所示。

对网络Ｇ中的每一个节点进行采样，捕捉每个节点的网络结构特征。给定最初始的节点ｃ_０（ｃ_０∈Ｇ），其中Ｇ的数量为ｍ＋ｚ，设置游走的步长为ｌ，让ｃ_ｉ表示随机游走中的第ｉ（０≤ｉ≤ｍ＋ｚ）个节点，则在给定的节点ｃ_ｉ－１中，下一节点ｃ_ｉ被访问的可能性如式（４）所示。

对于如何针对所得的节点序列进行学习，在本研究中，将概率随机游走得到的序列类比作语料库中的句子，序列中的节点类比作句子中的单词，游走序列中节点共现的情况类似于词汇的共现情况。使用基于Ｓｋｉｐ－ｇｒａｍ模型学习节点的嵌入表示，Ｓｋｉｐ－ｇｒａｍ是一种嵌入词语的方法，通过学习到的节点表示，可以计算每个节点之间的相似性。Ｓｋｉｐｇｒａｍ的原理为序列中的中心节点与周围的节点共同出现的概率更大。设中心节点ｗ_ｃ在词典中的索引为ｃ，上下文词ｗ_ｏ索引为ｏ，Ｓｋｉｐ－ｇｒａｍ训练过程中存在两个大小为Ｖ ×ｎ的矩阵，分别为上下文矩阵与中心词矩阵，其中Ｖ表示词库大小，ｎ表示训练出来词向量的维度，每个词都被表示成作为序列中的中心节点时的向量ｖ存放在中心词矩阵中与作为上下节点的向量ｃ存放在上下文矩阵中，给定中心节点得到上下节点的条件概率，如式（６）所示，其中ｉ为节点在词典中的索引，ｖ_ｉ是它为中心节点时的表示向量，ｕ_ｉ为它是上下节点时的表示向量。

最终获得所有节点嵌入表示，即节点向量表示，如图５所示。

２.４学术信息推荐

在进行网络表示学习的过程中，本文将序列中的节点类比作句子中的单词，在进行推荐值计算的过程中，同样利用空间向量模型的思想来进行节点相似度计算。向量空间模型（ＶＳＭ）是ＳａｌｔｏｎＧ［２３］在１９７０年提出的一种文本代数模型，在向量空间中以空间相似性来表达语义相似，最常用的是余弦相似性。在获得所有节点嵌入表示后，通过计算节点向量之间的余弦相似性来获取学术信息的推荐值，节点ｐ_ｉ和ｐ_ｊ的相似度计算如式（７）所示。

３实证及结果分析

３.１数据采集与预处理

３.１.１数据采集

本文主要使用Ｐｙｔｈｏｎ的工具包Ｓｅｌｅｎｉｕｍ，并结合ＣＮＫＩ的导出文献功能来进行数据采集，ＣＮＫＩ自定义的导出文献字段有文献标题、作者、单位、关键词、摘要、发表时间。以华中师范大学的研究学者“熊回香” 为初始学者，获得该学者在ＣＮＫＩ收录的所有文献信息，再以其合作学者为查找条件，获得其合作学者在ＣＮＫＩ上被收录的文献信息，以此反复３轮，最终得到学者１０７７位，学术文献１８３１篇。去除初始数据中重复的文献６３２篇后，得到保留文献１１９９篇，如表１所示。

３.１.２数据预处理

首先对学位论文、教学相关论文和会议纪要，如“情报学与情报工作发展论坛（２０１７）隆重召开并凝聚形成《南京共识》” “在‘第七届科学计量学与大学评价国际研讨会上的致辞”“２０２１ ‘数据分析与应急情报系列学术活动纪要” 等文献进行删除，只保留与学者研究有关的文献，最终得到实证文献１１９９篇，并对其进行编号。然后，将学者—文献—合作学者的关系统一处理为学者—文献关系，并将日期保留至年份。同时，为了方便下一步文献摘要的向量空间模型计算，在数据预处理阶段也对文献摘要进行分词、去除停用词等操作，本文主要使用Ｐｙｔｈｏｎ工具包Ｊｉｅｂａ的精确分词模式进行分词，最终得到的数据结果如表２所示。

３.２异质网络构建与加权

３.２.１异质网络构建

将表２中的学者节点Ｓ与文献节点Ｌ进行整理，得到如表３所示的边列表，该表可作为后续关系加权的初始表格。

３.２.２时间因子加权

式（１）中的时间衰减因子γ 是计算时间权重时的重要参数，它是衡量时间差对时间权重的影响程度，在式中有着重要的作用。根据经验将γ 值设定为｛０.１，０.２，０.３，０.４，０.５，０.６，０.７，０.８，０.９，１｝，本文采用数据离散度的指标———方差，来进行时间因子γ 的分析。以文献发表年份｛２０１１，２０１２，２０１３……２０２１，２０２２｝为例，得到不同γ 值下的该组数据离散程度，如图６所示。当离散程度越大，随机游走概率越大，即偏向性越强，也就代表着游走的节点更能表征学者当前兴趣，所以最终选择γ ＝０. ４进行后续实证研究。

利用式（１）中的时间加权函数，结合表２中的学者、文献与发表时间可计算出每位学者—文献的时间权重，如表４所示。

３.２.３文献语义关系加权

语义加权主要关注文献摘要与文献摘要之间的语义相似度，该相似度即代表文献—文献之间的权重。将上一节中进行分词后的摘要作为语料库，得到每个词的ＴＦ－ＩＤＦ值，然后抽取出每个文本的ＴＦＩＤＦ向量，再利用式（３）计算得到每一篇文献与语料库中文献的余弦相似度，得到最终的文献—文献相似度结果，如表５所示。

将学者—文献的时间权重与文献—文献的语义加权添加在异质信息网络中，得到如下包含边权值的边列表，如表６所示，该表数据作为随机游走的基础数据。

３.３节点向量生成

由于在数据采集阶段，主要收集了以“熊回香”学者为初始节点的数据，从学者—文献—学者，进行了３輪采集，最长的节点数为９，所以本文将随机游走的游走长度设置为１０，即ｗａｌｋ_ｌｅｎｇｔｈ＝１０。在进行游走的过程中采用偏深度优先的游走来生成序列，即ｑ＜１、ｐ＞ｍａｘ（ｑ，１），经过参数测试，令ｑ＝０.５、ｐ＝１.１。最终，进行概率随机游走所得到的元路径节点序列如表７所示。

以第一次游走生成的节点序列为例，［‘李阳，‘１０２５，‘７２１， ‘１０１４， ‘徐健， ‘７２２，‘１０２１，‘１１３９， ‘王贤文，‘１１４０］，节点序列为学者节点“李阳”，学术文献节点１０２５，再游走到其高相似度文献“应急专家发现路径融合模型探究”，到“应急知识库系统构建的关键问题与模块划分研究”， …，概率游走到学者王贤文，最终到达文献节点“全文引文分析视角下的造假论文学术影响研究”。通过对游走路径１进行分析可以发现，第５个节点是从文献１０１４游走到学者徐健，文献１０１４与７２１主题上虽然都是应急决策，但是１０１４的主题包含知识库系统构建，从１０１４到学者节点“徐建” 产生了一定的偏差。从上述可以发现，路径长度大于３之后，其所反映的关联关系较弱，所以本文在后续进行节点采样的过程中将这一特点纳入考虑范围。

序列生成之后，将生成的序列当作句子输入Ｓｋｉｐ－ｇｒａｍ进行训练集采集与模型训练。为了简化损失函数的计算过程，本文将采用负采样的方式进行训练集采集。根据上述对游走路径的分析示例，在进行训练采样时将采样窗口确定为３。经过Ｓｋｉｐｇｒａｍ训练后，可得到每一个节点的向量表示，如表８所示。

３.４学术信息推荐

在本节中，以“熊回香” 学者为推荐目标进行学术信息推荐，将推荐目标节点向量作为输入值，经过式（７）的向量相似度计算，可得到目标节点与所有节点之间的相似度，然后将相似度高的节点根据文献、学者两种类别进行分类，并从中剔除与目标学者直接相关联的文献以及已合作的学者。在推荐结果展示的过程中，本文将推荐学者的发表文献关键词与ＣＮＫＩ中的关注领域作为该名学者的关键词，即表８中的关键词字段，同时以发表文献的关键词作为表９中的关键词字段，以便进行后续的结果分析。由于学者与文献之间数量的差异，推荐了学者相似度前８名，如表９所示；学术文献相似度前１０名，如表１０所示。

３.５推荐结果分析

根据表９的推荐学者与表１０推荐的相关论文，可以发现本模型取得了良好的推荐结果。通过检索目标学者单位的官方网站介绍与其所发表文章可知，目标学者熊回香近期研究主要围绕其课题项目“融合知识图谱和深度学习的在线学术资源挖据与推荐研究” 开展。而从表９中可以发现，本模型所推荐的学者许鑫、范涛、王贤文、张宝隆、邓三鸿的关注领域有知识图谱、自然语言处理以及数据挖掘与深度学习领域，而推荐学者许鑫、王贤文、邓卫华、杨建林、刘友华均在个性化推荐、用户兴趣与用户画像领域有所涉及。从整体上看，推荐模型所推荐的学者与本文目标学者熊回香的现研究方向相同或相似。从表１０可知，为目标学者推荐的文献有较强的针对性，时间维度上价值较高，目标学者的现研究方向大多与“个性化推荐” 有关，而推荐文献均与信息推荐有着较大的关联。

为了评价模型的有效性，本文选取准确率（Ｐ）、召回率（Ｒ）與Ｆ值（Ｆ）来评估推荐模型效果，评价指标公式如式（８）～式（１０）所示。

其中，Ｋ表示推荐列表长度，将推荐成功的资源数量记作Ｎ_ｒｌ，推荐资源中符合推荐兴趣的资源数量记作Ｎ_ｌ。由于本文是基于网络表示学习的推荐改进模型，故选取基于网络表示学习［２１］的推荐模型进行对比。以ＣＮＫＩ的作者关注领域代表作者的兴趣特征词，若目标学者与推荐学者之间的特征词向量相似度大于０.２５，则说明推荐成功。以目标学者近两年发表文献关键词作为作者最新兴趣特征，若目标学者最新研究与推荐文献之间的相似度大于０.２５，则说明推荐成功。本文从资源列表中随机选取３０条推荐资源，以３０条推荐资源中推荐值排名前１５条作为推荐列表，以此来判断推荐效果，结果如表１１所示。由表１１可知，本文模型推荐效果优于基于未加权的网络表示学习推荐模型。

综上所述，本研究提出的推荐方法中推荐学者与目标学者的研究方向高度匹配，推荐模型推荐的学术文献与目标学者近期研究兴趣相近，目标学者可以从推荐文献中得到启发，迅速找到与自己研究方向相近的研究主题。本研究提出的推荐模型输出的结果符合目标学者的科研兴趣需求，通过推荐潜在的同方向的研究学者和研究文献，可以为研究者提供更加广阔的视野来开展研究。

４结语

本文提出了一种结合时间与语义加权的异质网络推荐方法，该方法既考虑了学者的动态兴趣，又考虑了文献之间的语义关系，很大程度上缓解了推荐过程中的数据稀疏问题。在构建异质网络的过程中，针对文献节点，利用文本向量空间模型与余弦相似度计算得到文献之间的语义相似度，将该相似度作为异质网络中的边权重，最终构建了包含语义的异质网络，从而在此异质网络上进行学术信息推荐。通过采集在线学术平台信息的相关数据，对本文提出的推荐方法进行实证研究，验证结果表明了该推荐方法的有效性。该推荐方法的意义在于，在对学者进行信息推荐的过程中，首先，考虑了学者的动态兴趣，为学者推荐其当前最感兴趣的内容；其次，利用到文献节点的文本语义信息，加强了学术—文献异质网络中节点表示的强度和效果，提高了信息推荐的精准度；最后，由于异质网络存在多种节点类型，在推荐过程中可为学者推荐学者以及文献两类学术信息。但本文仍存在一定的局限性，由于实证研究部分只使用了学者所发表的中文文献，并未涉及学者所发表的外文文献，一定程度上降低了推荐的准确度，未来研究可考虑加入学者已发表的外文文献，增加异质网络的丰富性，从而提供更为丰富的推荐内容。

现代情报2023年5期

现代情报的其它文章: 电子病历数据势能模型研究; 社会支持理论及其在信息系统研究领域的应用与展望; 自我决定理论及其在信息系统研究领域的应用与展望; 详尽可能性模型及其在信息系统研究领域的应用与展望; 沟通隐私管理理论及其在信息系统研究领域的应用与展望; 基于深度学习和哈希方法的敦煌壁画移动视觉搜索研究