PageRank算法在引文网络中的应用研究

2021-11-08 13:43张东红张冬芳马一凡
电脑知识与技术 2021年27期

张东红 张冬芳 马一凡

摘要:随着学术网络平台的文献数量不断增长,快速高效的在众多质量参差不齐的文献中找到适合自己研究领域的高质量文献,对学术研究具有重要的意义。文中首先对传统的PageRank算法的原理、基本思想以及其发展历程进行分析;然后在对比了链接网路与引文网络的相似性和差异性后提出将链接网络中的PageRank算法应用到引文网络中;最后对PageRank算法在引文网络中的应用进行研究分析。研究发现,传统的PageRank算法存在一些缺陷,引文网络中需将文献发表时间和PageRank算法结合,进而衡量文献的重要性。

关键词:学术网络平台;PageRank算法;引文网络;文献排名

中图分类号:TP311    文献标识码:A

文章编号:1009-3044(2021)27-0044-03

Abstract: With the continuous growth of the amount of literature on academic network platforms, it is of great significance for academic research to quickly and efficiently find high-quality literature suitable for one's own research field among numerous literatures with uneven quality. Firstly, the principle, basic idea and development process of the traditional PageRank algorithm are analyzed. Then, after comparing the similarity and difference between link network and citation network, the PageRank algorithm in link network is proposed to apply to citation network. Finally, the application of PageRank algorithm in citation network is studied and analyzed. It is found that the traditional PageRank algorithm has some defects. In the citation network, the publication time of literature and PageRank algorithm should be combined to measure the importance of literature.

Key words: academic network platform; PageRank algorithm; citation network; literature ranking

1 引言

當今时代是知识经济时代,网络学术平台成为人们获取参考文献的有效途径。但随着科学技术的进步,文献数量激增,对于开展学术研究产生了一定的不良影响。由于学术网络平台的文献数量之庞大,文献质量参差不齐,想要在大量的数据中找到适合自己研究领域的高质量文献变得越来越困难,因此对文献进行有效的排序变得越来越重要。

通常对于文献的重要性的研究是建立在文献被引次数上的,但这存在着明显的缺陷,比如,一般我们认为,最新发表的文章是最具有参考价值的,但由于新发表的文献被引用的次数较少,就会导致其排名靠后。文中结合文献被引次数和文献的发表时间对文献排名进行研究。

PageRank算法是用来度量网页重要性的算法,在Google搜索引擎的网页排名中取得了成功[1]。由于引文网络和链接网络的网络构成极为相似,文中将PageRank算法引入到引文网络中进行研究。

2 PageRank算法概述

2.1 PageRank算法的原理和基本思想

PageRank算法是一种经典的网页排序算法,它由Google的创始人L.Page和S.Brin提出[2]。PageRank算法用于衡量由搜索引擎构成的Web图中的每个网页相对于其他网页而言的重要程度[3]。

PageRank算法的基本原理:(1)起初,通过链接关系将各网页构建成Web图,每一个页面设置相等的PageRank值,通过一次一次的计算,得到每个页面所获得的PageRank值,每次计算,页面的PageRank值都将更新;(2)每一个页面将其当前的PageRank值平均分配给本页面包括的出链上,每一个页面将所有指向该页面的入链分配的值求和,进而得到该页面在本轮计算中的PageRank数值。

PageRank算法的核心观点是:对于一个网页来说,通常它会与其他网页之间存在一定的联系,比如,我们在其他网页中可以看到此网页的相关链接,并可以通过该链接对网页进行直接的访问,PageRank算法恰好利用了这样的链接关系来评价网页的重要程度[4]。具体来说,被其他网页链接的数量越大,那么这个网页的重要程度就越高,相应的,我们也就会得到更加大的PageRank数值。同样的道理,如果能够被一个非常重要的网页所链接,那么被连接到的网页的重要性不言而喻,因此,它所对应的PageRank数值也会变大。

下述公式展示了如何去计算PageRank的数值:

其中,PR(pj)表示网页pj的PageRank值,L(pj)表示网页pj的出链数量,M(pi)表示网页pi的入链网页集合,N表示网页的总数量,d表示阻尼系数。图1为一个简单的PageRank的计算过程。