基于学术水平聚类的科研合作者推荐模型

2022-11-16 02:25秦红武马秀琴赵德志闫文英
计算机工程与应用 2022年21期
关键词:合作者相似性聚类

秦红武,赵 猛,马秀琴,赵德志,闫文英

西北师范大学 计算机科学与工程学院,兰州 730070

合作是现代科研工作取得快速进展的一大助力因素,有研究证实,合作和生产力之间有很强的关联:多产的研究者往往有更多的合作[1]。在科研领域,典型的合作关系是共同完成一篇论文。如今,一篇论文的共同作者往往来自不同学校、机构、地区。就合作的影响力来说,个人署名的论文也很难比团体署名的论文具有更大的影响力。传统的科研合作通常都局限在一个小范围内,合作者之间都彼此认识,随着互联网的出现,知识的获取变得前所未有的便利。学者们在网络上互相交流,学术社交网络随之扩大,选择哪些学者作为未来研究的合作者有了更多的选择。很多研究人员开始去寻找原本并不认识、全新的或远距离的合作者,以寻求更多创新,扩大自己的学术交往范围。但是,学术信息的不断增长,社交网络的不断扩大,信息过载使得如何选择合作者成为了摆在研究人员面前的问题。学术合作者推荐的众多算法和模型有效地解决了这个问题,它根据用户的历史合作关系、兴趣,以及自身的偏好,过滤掉冗余的信息,为用户推荐可能产生合作关系的候选学者。因此,基于学术大数据的合作者推荐系统应运而生。

目前,已有不少基于学术大数据自动为科研人员推荐合作者的研究。文献[2]中利用主题聚类模型提取学者学术领域,并采用重启随机游走模型建立并计算研究人员的特征向量进行合作者推荐。文献[3]中从学者间是否有相似的研究兴趣和社会可及性推荐潜在的合作者。文献[4]中提取目标学者的网络结构特征,从而对候选学者进行聚类,选取每簇中影响力最高的学者进行推荐。文献[5]中利用影响力大的学者作为社区的核心的节点,在此基础上使用复杂网络拓扑关系分析进行学术社区检测,计算学者的影响力,识别其中的权威学者进行推荐。文献[6]通过化简合作网络的结构,构造出一个具有多种节点和链路的异构网络,然后利用采用两种重要度的度量,对网络中的边进行加权,使得随机游走模型能够偏向具有一定特征的阶段。除了以上的研究之外,还有从各个角度对学者进行衡量的推荐工作[7-8]。

但是这些已存在的工作默认为研究者推荐最好或者最有价值的合作者,并且大多侧重于模型的建立和为研究者推荐最好的合作者,却忽视了一个重要问题:最好的一定是最合适的合作者吗?在现实世界中,最好的合作者往往是某领域内学术水平较高的研究人员,试想如果一个高水平的研究者被大量的推荐给同领域或者跨领域的其他研究人员,他能否有精力去接受如此多的合作呢?或者高水平的学者是否愿意和与自己水平差距过大的学者展开合作呢?显然,学者之间学术水平的不一致将直接影响合作关系的建立和研究工作的开展。因此,进一步对学者在学术水平上进行划分,研究学术水平的差异对学者合作过程中所产生的影响,以及如何在推荐时缩小学者之间的水平差距是十分有必要的。同时,需要思考一个新的问题:如何使推荐的合作切实可行?合作者推荐问题,并非仅仅考虑学者间是否有相同的研究兴趣,还要考虑目标学者与推荐学者在社会网络关系中是否具有一定的可达性。因此,可以知道,传统的基于协同过滤的推荐模式由于仅仅计算他们某种属性的相似度,不考虑是否具有一定联系的推荐模式在合作者推荐中并不适用。

为了解决上述问题,本文提出了一种考虑学者间学术水平差距的合作者推荐模型(FCR)。该模型首先利用K-means 算法依据学术水平将学者划分为三个不同的水平层次。然后在同水平层内构建合作者网络,并在该合作者网络中使用链路预测算法中的Katz指标筛选出可能与目标学者产生合作关系的节点,并计算他们研究方向的相似性,综合考虑后按照计算的得分进行Top-N推荐。

1 合作者网络与链路预测

根据实体之间的关系,可以建立多种多样的学术网络(图1),例如,学者和论文的关系形成了合作者网络;被引用文献与引用文献之间形成了引文网络;两篇文章共同引用同一篇文献或者多篇相同的文献,由共引关系构成了共引网络;两篇文章共同被一篇文章引用的关系构成了文献耦合网络;两篇论文的关键词以及其共现关系构成了共词网络。其中合作者网络的实质是一种社会网络,用来表示人与人之间的某种联系。一个合作者网络G=(V,E) 由学者实体节点集合V=(v1,v2,…,vn)与合作关系集合E=(e1,e2,…,em)构成,如果多个学者共同属于一篇文章的作者,那么他们之间将有一条边,表示他们具有合作关系。本文的科研合作者网络均不考虑合作关系的方向性,即认为合作的形成是无方向,相互的。

在科研合作者网络中进行合作者推荐本质是发掘学者间的潜在的合作关系,它可以看作是一种链路预测问题,即通过已知的网络节点和网络结构预测可能出现的边。链路预测问题定义为:给定t时刻的社交网络,如何准确地预测t′时刻将加入到该网络中的边。链路预测作为数据挖掘领域中较为成熟的挖掘方法,在基于社交网络的推荐中有十分广泛的应用[9-10]。Guns等人[11]将链路预测算法与机器学习技术相结合,通过构建加权合作网络,根据不同度量计算方法计算每个节点所对应的分数,该分数用于度量两个节点是否有可能产生连接。Wahid 等人[12]提出了一种新的社会网络链接预测方法,该方法利用三种不同的顶点中心度来描述社交网络中节点的受欢迎程度和相似性,由此计算两个节点产生连接的可能性。Qian 等人[13]提出了一种好友推荐模型,该模型在加权网络上利用链路预测算法和构建的节点相似性指标给目标用户推荐潜在的好友。Zeng 等人[14]在基于公共邻居节点上附加优先连接索引,以基于最近邻居的本地信息来估计两个节点间存在连接的可能性。

当前,基于网络结构相似的链路预测由于其方法简单且实际操作性强而引起大量研究。基于网络结构相似的链路预测算法主要依赖于网络结构信息,如节点的度、聚集系数[15]、节点间的路径[16]、社团结构[17]等。按照所用网络结构信息的不同,可以分为三类相似性指标:(1)基于局部信息的相似性指标,它利用节点的度等局部信息,计算节点间的相似性,由于复杂度低,适用于大规模的网络。这类指标主要包括:Jaccard指标、Sorenso指标、大度节点有利指标、大度节点不利指标、LHN-I指标。(2)基于路径的相似性指标,通过节点间路径的信息,如节点间路径数量,路径中间节点的信息计算得到的相似性。这类指标有三个:局部路径(local path)指标、Katz指标、LHN-II。(3)基于随机游走的相似性指标,该类指标基于随机游走模型,通过模拟随机粒子的转移,计算节点间的步长,访问概率等信息计算得到相似性。主要包括平均通勤时间、重启随机游走、SimRank、Cos+、局部随机游走的指标[18]等。

云计算的出现,系统可将复杂的链路预测算法在大规模的网络上以并行的方式分布执行。在并行方式下的算法的迭代效率要比普通的数据并行系统下的执行效率有数量级的提高[19]。

2 基于学术水平聚类的合作者推荐

2.1 FCR科研合作者推荐模型

本文提出的FCR 模型是为了推荐最合适的合作者给目标学者,即学术水平相近,研究兴趣一致的合作者。该模型使用K-means 聚类算法将学者划分为若干簇,每一簇中的学者学术水平相似,然后在同簇学者间构建合作者网络,利用Katz相似性指标寻找和目标学者有可能产生合作关系的候选学者,同时,结合LDA主题提取模型从学者发表论文的摘要中提取出其研究兴趣向量,并计算两个学者间研究方向的接近程度,最后,将Katz 路径指标和研究兴趣的相似度综合考虑进行推荐。FCR模型主要流程如图2所示。详细步骤如下:

(1)从微软学术数据集中获取学者发表的论文信息,包括共同作者、摘要、被引量、期刊影响因子等,并根据学者间的合作关系生成合作者网络。

(2)将合作网络中的学者根据其学术水平的大小和从事研究工作的长短,利用K-means聚类算法将学者分为三个簇。

(3)步骤(2)中聚类后,计算目标学者与其所在簇中学者的Katz相似性指标。

(4)从论文摘要中提取学者的研究主题信息,计算目标学者与同簇学者间的研究主题相似性。

(5)综合考虑学者的Katz路径相似性指标与研究主题相似度,按照Rankscore评分大小排序后,对学者进行Top-N推荐。

模型中用到的关键参数如表1。

表1 FCR模型的关键参数符号Table 1 Key notations in FCR model

2.2 学术水平建模

对学者的学术水平进行度量是一件很有挑战的工作,目前虽然有着许多个人学术水平的评价方法,例如成果总数(P)、引文总数(C)、篇均引文数(CPP)、相对指标、相对引文率(RCR)、皇冠指数(CI)、期刊影响因子(IF)等、但是尚并没有一个公认的统一标准。

考虑常用的几种学术水平的评价指标,主要包括以下三个方面:发表论文量、总引文数,以及发表期刊的影响因子。综合上述指标,本文将学术水平的计量方式,定义为学者每篇论文所在期刊的影响因子与论文被引次数乘积的均值,计算公式如下:其中,EP是学者发表的论文集合,IF(p)表示发表论文p所在期刊的影响因子,c为论文p的被引次数。

在对学者的水平进行定义之后,本文考虑同水平学者从事研究工作的时间的长短也应该具有一定相似性,所以FCR模型将在AL的基础上,同时考虑学者研究工作时间的长短,即学者首次发表论文和最近一次发表论文的年份区间,本文利用这两个指标对学者进行聚类。

2.3 K-means聚类

本文提出的模型利用K-means 均值聚类算法(Kmeans clustering algorithm)依据学术水平对学者们进行聚类,该算法是无监督学习的聚类算法,它采用距离作为样本间相似性的评价指标,即认为两个样本的距离越近,那么它们的相似度就越大。该聚类算法通过给定算法聚类的个数K,找出K个聚类的中心c1,c2,…,cK,经过多次迭代计算,使得每个簇内样本xi到所在簇的簇心cv的平方距离的和Wn最小,假设数据集为X={x1,x2,…,xn},分为K个簇S={s1,s2,…,sK},则Wn表达式如下:

K-means算法的思想主要分为以下几个步骤:

(1)随机选择K个样本点作为各个簇的初始质心C={c1,c2,…,cK}。

(2)计算每个点分别到K个质心的距离的欧式距离d,然后将该点分配到最近的聚类中心,由此生成K个簇,公式如下:

其中,Nt为第i个簇中样本的个数。

(4)不断迭代(2)~(4),直至质心C={c1,c2,…,ck}收敛,或者达到迭代设定的次数。

可以知道,在划分完毕时,每一簇内的学者,其学术水平是相似的。对于目标学者,本文只考虑他所在簇内的学者是否有可能与他合作。

K-means算法的初始阶段,要选取K个点作为初始的聚类中心,然后再此基础上进行反复迭代。选取的点不同,聚类的结果就可能不同,所以这个算法的聚类结果对初始值依赖性很强,此外,如果碰到最极端的初始值选取情况,将使得算法的运行时间加长,聚类过程难以收敛,因而聚类结果更加难以预测。为了缓解上述问题,在选择K-means 聚类的初始质心时,可以采用以下几种初值的选取方法:

(1)将样本直观地分成K类,计算各类的均值作为初始聚类的中心。

(2)通过“密度法”选择代表点作为初始聚类中心。

(3)通过不断扩大聚类个数,直至解出K类问题的代表点,即先将全部样本看成一个类,样本总均值的点就是第一类的初始聚类中心,之后选择和第一类初始聚类中心最远的一个样本作为2 类聚类的第二个聚类中心。以此类推,直至找到第K个聚类中心点。

(4)进行多次初值选择、聚类,找出一组最优的聚类结果。

(5)采用遗传算法或者免疫规划方法进行混合聚类。

2.4 Katz相似性指标

在合作关系的拓展过程中,一对合作者,他们的一阶朋友比二阶朋友更有可能加入到他们的合作关系中去,同理,二阶朋友相比于三阶朋友,有更大的概率加入与目标学者的合作关系中去。由此,可以发现合作关系的传递是一个衰减的过程,在挖掘潜在的合作学者时需要对这种衰减情况进行模拟,Katz指标是链路预测算法中基于路径的相似性指标,其主要思想是考虑网络中所有节点的路径数,对长路径赋予较小的权重,短段路径赋予较大的权重,该相似性指标被定义为:

通过该指标,可以发现随着连接路径长度的增加,长路径的占比逐渐减少,使得短路径的作用增大。即距离目标学者近,且可以有多条路径相连的节点学者间的相似度更大。由此,可以筛选出潜在的与目标学者产生连接的候选学者,在此基础上考虑他们的研究兴趣是否相似。

2.5 研究主题提取与相似度计算

本文为目标学者推荐具有相同研究兴趣的合作者,需要对学者的研究主题进行提取并且计算相似度。FCR 模型使用LDA(latent dirichlet allocation)主题提取模型,也称为三层贝叶斯概率模型(词-主题-文档),从学者所发表论文的摘要中提取研究兴趣。LDA模型假设文本中的词是由某个主题生成,这些词在不同的主题上服从Dirichlet 分布,同样,这些主题被分布在所得到的文本中,并且服从Dirichlet分布,Dirichlet概率密度计算函数计算公式如下:

LDA主题提取模型流程如图3。

其中θ是“文档-主题”概率分布,α是θ的超参数,是一个K维向量。φ是“主题-词”概率分布,β是φ的超参数。W为词,z是词的主题分布,N是一篇文档中词的数目,M是总的文档数,K为主题个数。

由于一个学者往往有许多处于不断变化的研究主题,因此本文选取学者近4年的前T个主题作为学者的研究兴趣向量,如表2。

表2 学者研究主题概率分布Table 2 Probability distribution of research topics

本文通过计算学者研究兴趣向量夹角的余弦值评估学者间研究兴趣分布的相似程度,即余弦相似度,计算公式如下,其中T是研究主题向量的维数:

研究者大多与学术水平相差较小的研究者展开较多的合作是一个普遍的现实情况,其次,合作的研究者们研究方向一般具有一定程度的相似性。最终,本文在学术水平相似的基础上,认为兴趣相似度高的学者将会有合作的可能,并以研究主题的相似度和路径相似性指标Katz为依据,综合考虑进行排序推荐,排序得分的计算公式如下:

其中,SKatz为Katz 路径相似度,TopicSim为兴趣相似度。对目标学者与每个节点学者的Rankscore进行排序得到Top-N推荐列表。

3 实验与分析

3.1 数据集

微软学术知识图谱(microsoft academic graph,MAG)是微软公司提供的一个公开的学术知识库,由包括Bing Web 检索以及Bing 学术检索引擎在内的动态的的知识库构成。通过项目学术知识服务(project academic knowledge)对接收到的查询请求进行响应,可查询的实体数据包括:论文、作者、作者单位、期刊、会议、机构、研究领域等(如图4)。

在接下来的实验中,本文将计算机领域中的学者数据进行提取,共计获取75 877 个学者信息,其中包括学者ID、学者论文被引总数、总论文数,论文摘要、发表日期、刊物等。按照研究方向的不同分为四类,分别是数据挖掘方向(18 940 人),数据库方向(23 468 人),图像处理方向(19 144人),深度学习方向(14 325人)。为了避免学者重名对推荐的影响,实验采用学者的唯一ID作为标识。

实验时,将他们在2016—2019 年的数据作为训练集,用于生成合作者网络以及计算学者的学术水平,2019—2021年的数据作为测试集,从而验证模型的推荐表现。通过构造合适的查询语句,获取到的数据如表3和表4。

表3 学者的学术水平数据Table 3 Academic data of scholars

表4 论文的数据Table 4 Data of paper

3.2 评价指标

实验时采用推荐系统中常用的评价指标:准确率、召回率、F1指数。此外,还使用平均绝对误差(MAE)来衡量模型的推荐学者与目标学者在学术水平上的匹配程度。

令R(u)是模型在测试集上给出的用户u的预测推荐列表,而T(u)是用户u在训练集上的推荐列表,则准确率和召回率以及F1指数的定义如下:

准确率:

本文用平均绝对误差(MAE)来衡量推荐的学者与目标学者学术水平的匹配程度:

其中,ru是目标学者u的学术水平,ri为推荐学者的学术水平。该误差值将用于反映模型的推荐学者与目标学者之间学术水平的平均差距。

3.3 时间复杂度分析

FCR模型依据步骤先后的不同,可以分为离线阶段和在线阶段(图5),离线阶段模型主要对数据集中的用户特征进行提取并保存,例如学者的研究兴趣,学术水平,以及对学者聚类的结果,这些数据可以在推荐之前作为中间结果存储到数据库中。在线阶段主要对学者间的Katz路径相似度进行计算,并按照计算的结果生成推荐列表并进行TOP-N推荐。由于离线阶段相当于数据预处理的过程,因此,本文模型的离线阶段的时间复杂度将不被算入到总的时间复杂度中。

假设学者合作网络中节点的数量为v,m是网络包含的所有节点中最大的度,则计算Katz路径相似度指标(公式(5))的时间复杂度为:矩阵乘法的时间复杂度O(mv),加上矩阵逆运算的时间复杂度为O(v3)以及矩阵减法的复杂度为O(v) ,因此FCR 模型的复杂度为O(v3)。相比而言,基于共同邻居的推荐方法的时间复杂度为O(v2) ,基于随机游走的推荐模型复杂度为O(v3)。由于FCR 模型只在同簇水平学者间进行推荐,同簇水平学者的划分在离线阶段就已完成,因此推荐时的节点数v一般要小于其他推荐模型。所以,本文模型时间复杂度要低于常用的基于随机游走的推荐模型,FCR 模型时间复杂度虽然高于基于共同邻居的推荐模型,但是共同邻居的方法没有考虑全部的路径,其推荐效果受到限制。

3.4 聚类个数的选取

K-means 算法需要在运行前设置聚类的个数,虽然在对学者进行划分时,可以划分多个簇,每个簇中学者的水平相近,但是划分的簇数不是越多越好,过于细致的划分可能会影响推荐时的表现。为了探讨聚类个数对模型推荐表现的影响,本组实验在4个不同研究领域的学者数据集中随机挑选共7 500名目标学者进行推荐(如表5),聚类结果如图6。

表5 不同领域的目标学者数量分布表Table 5 Distribution of target scholars in different domain单位:人

对聚类后的目标学者在同簇中利用本文提出的模型进行推荐,对比不同聚类个数对模型推荐表现的影响。实验结果如图7,可以发现,随着聚类个数的增加,模型对于四个研究领域的目标学者的推荐的正确率不断增加,当聚类个数K=3 时,推荐的平均正确率最高,达到了21.3%。相比于不对学者进行水平划分(K=1),推荐的平均正确率仅有6.5%。当划分个数过多时(K≥4),推荐的正确率却在不断降低,这是由于划分的簇过多,会丢失大量潜在合作学者节点。因此,设置一个合适的划分簇数能提高模型的推荐表现。在本文模型中聚类的个数K值为3。

3.5 主题向量维数的选取

学者往往有多个研究兴趣,因此,选取合适的主题向量维度才能够准确衡量两个学者研究兴趣的相似程度。本组实验在包含四个领域的数据集上进行,通过改变FCR模型中的主题数的方法进行分析。

图8显示了FCR模型在四个数据集上,设置不同主题数的推荐表现,可以发现,当主题数小于80(T<80)时,随着主题数的增加,推荐的平均准确率不断提高,在约等于100个主题数时,推荐的准确率趋于稳定,此外,当主题数为0(T=0)时,模型等同于移除研究主题,仅考虑学者的路径的可达性以及学术水平是否相似,这时推荐的正确率则最低。通过本组实验,可以发现在选取一个合适的主题数变量时,FCR模型能够拥有较好且稳定的推荐表现。

3.6 不同学术水平的推荐

第一组实验将学者聚成三簇,按照学术水平的不同可以将他们分为初级学者、中级学者和高级学者。本组实验将分别对他们利用FCR模型进行推荐,观察模型对于三种学术水平特征的学者的推荐效果,结果如图9。

可以看出,FCR 模型对三种不同水平的学者,推荐的表现各不相同。其中对中级学者的推荐准确率最高,达到了24.3%,而高级学者准确率则为20.8%,初级学者的正确率仅为17%。此外,模型中对于中级学者的推荐无论是在召回率,还是F1指数,也好于高级学者和初级学者,这可能是由于中级学者的合作关系网络比较成熟,研究方向也比较稳定,而初级学者合作关系稀疏且研究方向比较多变。高级学者往往多从事于教学工作,合作关系中也会出现较多的新手学者,从而难以预测这些学者的合作走向。

3.7 模型对比

为验证本文提出的模型与其他现有模型的推荐表现,第三组实验将本文提出的基于学术水平聚类的FCR推荐模型与其他几种推荐模型在不同数据规模(目标学者人数=50,150,500,1 000,2 000)上进行对比,对比模型介绍如表6。

表6 对比模型介绍Table 6 Comparative model introduction

实验结果如图10,可以发现,相比于其他模型,本文提出的模型无论在准确率、召回率还是F1 指数方面都有着最好的表现。在图10(a)中,平均准确率比其他模型高约5.3%,图10(b)中,平均召回率高2.5%,图10(c)中平均F1指数高4%。经分析可以知道,CNRec推荐模型对学者间的共同邻居进行统计,不考虑合作关系的传递衰减情况,并且也只对有限的连接路径长度进行讨论,因而推荐效果不如本模型使用考虑更多路径的Katz 路径相似度的方法。BCR 推荐模型为目标学者推荐能够带来最大学术收益的学者,该模型考虑了学者在网络中的影响力,但并不考虑他们之间的学术水平差距所带来的负面影响,也不考虑他们是否能够真正建立合作关系。ACNE 模型利用协作网络嵌入的模式对学术关系进行挖掘,虽然该模型对学者之间的学术关系能够很好的分析,对某些合作关系密集的学者表现不错,但是对于那些合作关系比较稀疏的初级学者,模型的推荐表现不佳。该实验说明了本文所提出的模型的有效性。

最后,本文使用MAE 指标计算了各个模型中目标学者与推荐学者间学术水平差距的均值,结果如表7。

表7 学术水平差距的MAETable 7 MAE for academic gaps

可以发现,FCR推荐模型的学术水平的平均绝对误差与其他模型相比最小,仅为20.51。由于BCR 模型推荐的学者都是高水平的学者,所以在这四个模型中的MAE 值最大,而CNRec 模型推荐的是共同邻居最多的学者,因为共同邻居越多,有时也暗含着目标学者与推荐学者水平具有一定的相似性,但是这种相似十分模糊。ACNE模型只是对基于合作关系分析后进行推荐,学术水平差距并非该模型的推荐考虑因素。上述实验说明了本文提出的基于学术水平相似的合作者推荐模型在推荐时更偏向于学术水平差距不大学者或者学术水平相似的学者。结合前面的几组实验可知,在一定程度上缩小学者间的水平差距,能够增加合作的成功率,提升推荐模型的表现。

4 结语

在这篇论文中,考虑学者间学术水平对合作产生的影响,提出了一种在推荐前先对学者按照学术水平进行划分,在同一学术水平类别中进行推荐的模型,帮助研究者找到学术水平相近,兴趣相投,更有可能形成合作关系的合作者。通过实验,本文的推荐模型在精确度、召回率以及F1指数评分方面有着更好的表现,同时,推荐的学者在学术水平的匹配度上也优于其他模型。尽管如此,这一方面仍然有着进一步提升的空间,特别是对学者合作关系的组成分析和研究主题的动态变化的追踪,以及为合作关系较为稀疏,并且学术特征不明显的学者进行推荐,这也将是今后的研究方向。本文提出了一种新的推荐思想,即目标学者与推荐学者之间应具有一定的学术水平相似性,并验证了将学术水平相似性作为影响因素进行推荐的可能性。

至于未来的工作,跨领域(跨学科)学术合作者推荐是一个相当有意义的方向。它可以帮助知识从一个领域传播到另外一个领域,与一般的单领域推荐不同,跨领域推荐呈现出非常不同的模式:(1)稀疏连接:跨领域的合作很少;(2)专长互补:跨领域合作者往往拥有不同的专长和兴趣;(3)主题偏倚:跨领域合作主题集中在一个主题的子集上。这些都违反了传统推荐系统的基本假设[23],由于这些原因,使得跨领域推荐比较困难,如何解决这些问题还需要更多的研究。不过,已有一些跨领域的推荐工作,Guo等人[24]将显式的共同作者关系和隐式的共同引用关系结合在一起,即提出了一个混合图跨领域模型,有效解决了主题偏斜问题。近年来,出现了将迁移学习与跨领域推荐结合的研究,Wang[25]提出了一种基于潜在特征聚类的跨领域推荐方法,利用对用户或者物品的描述标签,对两个领域进行连接和数据迁移,不仅学习到两个领域间的“共享知识”,而且还学习不同领域间的“特殊知识”。Wang等人[26]提出了一种新的三元桥迁移学习模型,用以预测用户端和项目端的缺失评分,从而进行跨领域推荐。迁移学习允许域之间、人物之间,以及训练集和测试集之间的分布情况可以不相同,通过学习不同域之间共有的知识或者潜在特征,能够缓解跨领域内数据稀疏性的问题。需要思考的是,以上这些工作或许同样需要考虑学者水平之间的差距问题,因此,如何衡量两个不同领域间学者的学术水平仍然需要更加深入地进行研究。

猜你喜欢
合作者相似性聚类
一种傅里叶域海量数据高速谱聚类方法
有“德”的人
有“德”的人
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
基于元数据的流程模型相似性度量方法
怎样是最好的合作者
12个毫无违和感的奇妙动物组合
基于隐喻相似性研究[血]的惯用句
基于Spark平台的K-means聚类算法改进及并行化实现