基于Web of Science的PageRank人才挖掘算法

2021-07-02 00:35王宇宸杜伟静何晓涛刘学敏张士波李树仁

计算机应用 2021年5期

李翀，王宇宸，2*，杜伟静，2，何晓涛，刘学敏，张士波，李树仁

（1.中国科学院计算机网络信息中心，北京 100190；2.中国科学院大学，北京 100049）

（*通信作者电子邮箱wangyuchen@cnic.cn）

0 引言

科研论文是科研人员重要成果之一，高水平科研论文既可以反映作者的科研水平，一定程度也能反映出研究热点变化及国家科研投入变化情况。因此，基于时间序列对科研论文进行热点学科、科研社区、合著网络、人才发现研究非常有意义。人才作为重大科技成果、科技发展和社会进步的主体和源动力，挖掘优秀人才、培养和发现潜在人才尤为重要。

目前有较多对优秀科研人才挖掘的研究，并取得了一定的成效，不论是整体数据挖掘范围、挖掘精度方面，还是对科研人员学术能力评价方面，都取得了不错的效果。如冯岭等［1］从专利数据中抽取发明人的各个特征构建多层感知机模型，从而发现技术创新人才。江艳萍等［2］基于文献计量方法对全球潜力华人青年学者进行发现与评价，通过制定相应的检索策略获取数据集，从数据集中提炼出学者信息，利用筛选指标体系和综合评价指标体系确定潜力候选人，最后与同学科领域的标杆人物进行比较分析，明确潜力候选人的科研水平和学术定位。王孟頔等［3］利用Hadoop 计算平台，通过网页数据提取分析关键词，根据关联规则算法挖掘出关联关键词，采用基于相似项的策略推荐人才。

上述人才挖掘分析算法，在人才发现和学者评价角度都取得了较好的进展，但也存在一定的不足之处。首先在科研成果数据的选取上缺乏权威性，同时数据较为杂乱；其次在人才学术评价上需要与标杆学者进行对比，具有评价的片面性；最后在人才挖掘上多数算法都属于广泛挖掘，缺乏针对性，并且在计算上过于复杂，对计算能力要求较高。除此以外还存在学术评价上不具有时间序列特性、不能根据学者自身特点进行公平化评价等。

本文聚焦全球最大、覆盖学科最多的综合性学术资源WOS（Web Of Science）中收录的中国科学院学术论文，在前期工作中，完成对热点学科的学术论文语义图谱构建，并采用Louvain 社区发现算法（Community Detection）［4］对研究热点背后相近研究领域的活跃学术圈进行挖掘，使人才挖掘研究更具有针对性。本文主要工作基于前期研究成果，深入研究了相关人才挖掘算法，结合学术论文语义网络属性和优化后的PageRank 人才发现算法进行了设计和实现。实验表明，基于科研社区使得人才发现更有针对性，能够快速定位不同学科方向代表性人才，改进后算法使得在对优秀人才挖掘、潜在人才发现更加精准。

1 相关工作

本章首先介绍关于人才挖掘领域的一些研究成果，然后介绍基于科研社区的人才挖掘算法研究并分析比较。

1.1 人才挖掘算法相关研究

在目前的人才发现算法研究中，大致可以分为两类：一类为利用学者相关特征进行模型训练的监督学习方法，另一类为通过合著网络形式进行预测的无监督学习方法。以冯岭等［1］研究成果为例，其工作主要是抽取了反映各个发明人技术创新实力的专利特征。抽取的发明人特征包括专利申请量、专利总被引用量、合作发明人数量、合作发明人的平均专利申请量、申请人维持的专利数量以及所申请专利的文本特征等；然后再通过神经网络模型进行训练与预测，并且在其实验中将神经网络模型与传统机器学习模型进行了对比，结果表明该实验取得了不错的效果。除此之外，随着近几年图神经网络与知识图谱领域的发展，也出现了一些新的思路。比如Park 等［5-6］提出的基于图神经网络分析知识图谱中节点重要性的方法，利用网络拓扑结构信息与节点间谓词关系，结合每个节点的自身特征，通过图神经网络模型进行节点重要性的预测。这个思路可以应用到人才挖掘研究当中，但需要合适且权威的数据集用于模型训练。

通过合著网络方法进行人才发现的研究也有很多，比如谢瑞霞等［7］的研究是基于合著网络构建学者影响力评价指标。在其评价指标中，不仅考虑了学者自身论文的影响力，还通过合著网络中节点的介数中心度计算了学者的网络影响力，也就是该学者在网络中的重要性体现。在实验中，通过将两种影响力结合计算，也取得了不错的效果。

本文充分吸取前面提到的相关研究的成功经验，在合著网络的基础上，首先通过学者论文相关特征计算学者的初始评分，再结合PageRank 在合著网络上的传递性计算最终的评分，从而综合考虑学者个人特征与合著网络特征的影响，达到人才挖掘的目的。

1.2 人才挖掘算法比较

在已挖掘的科研社区基础上，后续工作将利用社区网络中心性对科研社区中的优秀科研人才进行挖掘推荐。本节将对与此相关的Degree Centrality、Closeness Centrality、PageRank三个图算法进行深入研究，其关系及区别如图1所示。

图1 基于中心性的人才挖掘算法之间的比较Fig.1 Comparison between centrality-based talent mining algorithms

1.2.1 Degree Centrality算法

Degree Centrality 算法可用于在没有方向的图谱中，利用度中心性去测量网络中节点间的相互关联关系程度，类似于关联关系矩阵，即表示当前节点与其他所有节点的直接联系总数［8］。但该种计算方式存在一定的弊端，如果社区中节点规模增大，则测量值均会增大，各节点的度中心性也会逐步增高。1994年，Stanley Wasserman 和Katherine Faust针对该问题提出一个新的标准化测量公式，如式（1）所示：

在对节点的度中心性进行衡量过程中，首先以本身节点i为初始阶段，测量出自身度中心性；其次测量出除本身节点外，其他g-1 个节点相连接的可能连接数，从而计算出与本身节点i相关联的其他节点的占比。最终比例范围为0～1，0表示节点i不与任何节点相关联，1 表示与所有节点都有关系。

Degree Centrality 用于计算来自节点的传入和传出关系的数量，并用于在图中查找流行节点［9］。基于以上分析，在适用性方面，如果试图通过查看传入和传出关系的数量来分析影响力，或者找到各个节点的“流行度”，可以使用Degree Centrality算法。

1.2.2 Closeness Centrality 算法

Closeness Centrality 依靠节点之间的距离判断节点间的近邻程度。首先计算本身节点i与网络中其他所有节点之间的距离，并进行相加求和，总值越小说明节点间可达且路径越短，即在空间上与其他各节点越接近，最终发现处于有利位置的节点，从而控制和获取组织内的重要信息和资源，具体应用如文献［10］。

为更明晰地表达该距离程度，Bavelas于1950年将计算的近邻程度进行归一化定义，定义为近邻距离计算的倒数，最终的计算值取值范围限定在（0，1），越接近于1 则节点的中心度越大，每个节点的具体计算公式如式（2）所示：

其中：u代表当前节点；n代表图中节点的数量；d(u，v)代表节点u到节点v之间的最短距离。

Closeness Centrality 适用于筛选以最快速度传播信息的节点，其中使用加权关系对评估交流和行为分析中的交互速度效果展示较为明显。该算法适用于连接图中的节点中心性计算，但当图中两个节点间没有路径时，计算该节点的所有距离之和会出现偏差，紧密度趋向于无限，最终影响整个图的中心性计算。

1.2.3 PageRank算法

PageRank 算法初始用途是对网站网页重要性进行排序，以此来评判网页产生的影响力，具体计算如式（3）所示：

其中：u为待评估页面。Bu为页面u的链入集合。对于页面u来说，每个入链页面自身影响力PR(V)与V页面的所有出链页面数量之比，作为页面V给页面u带来的影响力。这样可以将页面自身影响力平均分配至其每个出链上，再计算所有带给u页面的影响之和，便是网页u的影响力。

但式（3）存在一些问题，如一个节点没有出链或者入链，会出现等级泄漏或等级沉没现象，故提出了一种新的优化方式，加入阻尼系数d，如式（4）所示，这个阻尼系数代表用户通过跳转链接进入的概率，通常取值0.85。

PageRank 算法通过关联关系间的紧密程度来量化彼此间的影响力，通过出链入链的影响程度，最终确定最优影响能力的节点。PageRank 算法更加适用于关系较多，且彼此影响力不均匀的关联状况。这与论文之间引用等关联关系相似，适用于挖掘关系复杂的图信息。PageRank 算法还存在一些缺点，PageRank 算法在使用过程中，过于注重当前数据特征，周围关联的节点会直接影响当前节点的影响力；除此以外，PageRank 算法考量维度单一，对于出现较早的页面会因链接度较高而提升影响力，没有时间序列性。

综上几种对人才挖掘算法的分析，可以看出Degree Centrality 主要是度量节点的出度与入度，说明当前节点的权威只受周围关联节点影响，应用于优秀科研人才挖掘上会具有单一性；另外，出入度计算上也存在大量重复计算，会导致计算效率较低。Closeness Centrality 算法主要利用节点间的距离来计算中心性，如果存在没有相互关联的节点，会导致计算结果偏离正常值，应用于优秀人才挖掘上会导致挖掘结果不准确。PageRank 算法是计算网页重要性排名的算法，主要利用链接关联性进行分析，在计算上将节点影响力进行均分，后进行统计分析来确定节点的重要性，这在一定程度上突出了重要节点的影响力，达到了较为公平的计算效果，应用于优秀人才挖掘上能对优秀人才赋予较大的影响力，从而突出其贡献度。综合比较分析，本文人才挖掘算法最终选择为PageRank算法。

2 PageRank算法优化与实现

PageRank 算法的使用前提是需要有每位学者学术能力的初始评分，这能在一定程度上突出优秀人才的贡献度，但应用在学术论文的人才挖掘上也会存在一定的不足。首先不能根据时间连续性对人才进行筛选，随着时间的变化，优秀人才的科研方向和成果会发生变化，但PageRank 算法不能动态地对科研能力进行调整；其次，PageRank 算法评价维度单一，只是单一地考虑了关联节点的影响力，没有多维度评价因素，如论文被引用量、作者发文量等维度可以在一定程度上体现作者学术能力的强弱，提升优秀人才挖掘的准确性。为了解决该问题，达到更加准确的人才挖掘效果，有必要对PageRank算法进行了多维度优化。

经过调研，本文在实验中采用了Prathap于2010年提出的一种综合性评价学术成果指标，对学者的学术能力从学术论文数量以及引用次数进行评价。并通过结合常雨萧［11］的研究成果，为学术指标的计算加入时间因素、作者署名排序因素；在PageRank 算法中加入了作者间余弦相似度作为影响系数。将优化后的算法应用在科研社区中，进行人才发现。

时间因素，作者署名排序因素以及学术指标P(i)的计算如式（5）～（7）所示。其中作者署名排序是采用了贡献度等级分配法［12］，并参考了科研成果评价研究成果［13］。论文发表的时间越早，在学术成果指标中的影响就越小；作者署名次序越靠后，该论文对于作者的影响力也越小。通过计算策略调整，使得近期活跃的学者可以得到更高的学术指标值，更有利于活跃人才的挖掘。

其中：α为尺度系数；Tc为当前时间，Tk为论文发表时间；ak为论文k的作者总数，ik为作者i在论文k中的位次，ck为论文k的引用次数；C(i)为作者i的论文引用得分，N(i)为作者i的论文数目得分。

学者自身学术指标值的计算，见算法1。

算法1 Calculate Initial Score。

输入待消歧作者的全部相关论文数据。其中：i表示作者；n表示论文篇数；ak为论文k的作者总数；ck为论文k的引用次数；ik为作者i在论文k中的位次；Tc为当前时间；Tk为论文发表时间。

输出学者i的自身学术指标值。

对于PageRank 影响力传递过程，通过余弦相似度的方式计算作者节点间的关系。具体计算如式（8）、（9）所示，分别为作者间贡献影响程度和作者影响力得分。

其中d为PageRank 中的阻尼系数，一般取值为0.85。最终的学者影响力评分由多轮迭代后的Imp(i)得出。

PageRank算法的Imp值计算，见算法2。

算法2 Modified PageRank Algorithm。

输入所有作者的自身学术指标值为Imp，所有作者间的贡献影响度为Attr，每个作者的邻居节点为neighbors，迭代轮次为n。

输出所有作者的最终评分列表。

3 实验验证与分析

3.1 基础环境

操作系统为CentOS 7 64 位，Kernel Linux 3.10.0。开发环境为python3.7.3+Neo4j 3.5.13；CPU 为Intel Xeon Silver 4114@2.20 GHz 40核心；内存为128 GB。

3.2 实验数据

实验数据为1949—2019年的WOS核心合集数据库中国科学院发表的4 199 篇计算机科学学术论文数据，通过Neo4j创建论文语义网络图［14］，其中有作者19 200 位，机构26 232个，生成Workwith 关系数15 799 个，其中实体类型为Author（作者）、Paper（论文）、Org（作者所属机构）；实体间关系为Belong to、Write、Workwith（Workwith 中包含属性Weight）。如图2所示。

图2 论文语义实体关系示意图Fig.2 Paper entity relationship diagram

在学术语义网络图基础上，应用Louvain社区发现算法对活跃科研社区进行挖掘［15］。通过使用模块度和模块度收益进行评价［16］，成功挖掘出模块度收益较高的前10个活跃科研社区，其分布如表1所示。

3.3 验证过程

本实验是在计算机科学领域挖掘出活跃度前10 个科研社区基础上（见表1）对活跃科研人才进行挖掘。

表1 社区人数及社区中论文数量表Tab.1 Number of communities and the number of papers in communities

实验分为两个部分：一是根据式（4）采用优化前的PageRank 算法对社区人才进行挖掘。在优化前的算法中，得分值计算只利用了语义图谱中作者节点间关系，而没有考虑作者节点自身特征。二是根据式（9）采用优化后的PageRank算法进行计算，综合考虑了作者自身节点的多个特征因素，并且作者间的关系也使用作者间贡献影响程度值进行了改进，使得不同邻居节点对中心节点的影响程度具有独特性。

本文以活跃度排名第一的141 号社区进行的人才挖掘为例，优化前后的挖掘结果对比如表2和表3所示。

表2 活跃人才排名表（优化前）Tab.2 Excellent talent ranking table（before optimization）

表3 活跃人才排名表（优化后）Tab.3 Excellent talent ranking table（after optimization）

3.4 结果分析

对于优化前后的两张表中的优秀人才挖掘结果，本文利用自然科学基金委项目数据以及人才个人信息对挖掘结果进行了验证分析，同时也对优化的效果进行了分析。

首先对挖掘结果的准确性进行分析，使用了较为权威的国家自然科学基金委员会项目数据对结果进行佐证。八位学者在自然科学基金委中的项目数据如图3 所示。八位学者中有七位都在国家自然科学基金委中都承担有项目，其中有一位学者博士刚毕业尚无基金项目。另外，经查证八位均为领域内国家级或地方优秀人才，说明了优化改进后的学术成果指标和PageRank算法可以在人才挖掘方面较为准确。

图3 国家自然科学基金委员会项目数据统计Fig.3 Statistics of projects ofthe National Natural Science Foundation of China

其次对算法优化有效性进行分析，通过表3 中的分数变化，可以看到受多个特征因素以及周边关联作者的得分变化的影响，八位学者的得分变化幅度不均。其中署名位次越靠前，论文发表时间越晚的学者得分增加幅度越大。以第四位与第五位学者为例，因为加入了署名顺序因素，在优化后排序发生了变化。这说明多个特征因素的加入会对学者的得分有着不同幅度的影响，进而能使学者的最终得分更客观、科学。

4 结语

本文基于WOS 中收录的中国科学院学术论文数据，在构建学术论文语义网络图和Louvain 科研社区发现结果的基础上，将人才挖掘范围聚焦于活跃科研学术圈，对PageRank 人才挖掘算法加入论文发表时间因子、作者署名排序递减模型、周围作者节点对当前节点的影响因素、论文被引用量等指标进行算法优化，使得人才挖掘更加客观有效。实验结果表明，该算法具有一定的准确性和有效性，对优秀人才和潜在人才发现有一定的参考意义；同时也在一定程度证明了从高水平学术论文成果发现人才的可能性。