费 鹏 彭丹丹
(南京信息工程大学电子与信息工程学院 南京 210044)
对学术论文进行客观、准确的评价是对学者学术贡献进行评估的重要前提。论文评价方法有很多,对于数据库中的海量论文来说,同行评议法[1]评价论文需要投入大量的人力资源,评审人水平差距大,主观性太强,往往会造成评价错误。而大型科学引文数据库的存在,越来越多的人使用论文引文网络对论文进行重要性排序,其中应用最为广泛的方法是根据论文被引数量对论文进行评价[2],论文的被引数量越多,则论文的重要性程度越高。论文被引数评价论文也有局限性,论文被引数忽略了被引论文的差异性[3],将所有论文的引用视为同等重要,其不合理是不言而喻的。
近年来,许多研究者将网络链接算法运用到学术评价中[4~14],喻依等将PageRank 算法[15]和HITS算法[16]用于期刊评价研究并讨论了影响因子、PageRank值和authority值之间的区别[17]。李仲谋等在PageRank 算法基础上考虑了时间对论文的影响,提出一种新的PageRank 算法的学术论文评价方法[18]。本文在HITS 算法的基础上进一步进行研究,提出加权HTS 算法,对其是否可以应用于论文评价进行了研究与探索。
HITS算法中将网页分为两种:Authority页面与Hub 页面,Authority 页面的Authority 值反映了页面的权威性,Hub 页面的Hub 值反映了页面的中心度。Authority 页面的Authority 值越大,则页面越具有权威、声望。HITS 算法的目的是经过一系列的迭代得到最具价值的网页,即Authority值最大的页面。HITS算法使用如下公式迭代:
用Ai表示页面i的权威度,用Hi表示页面i的中心度。
齐普夫定律是用来表述文献中词汇出现频率分布规律的重要定律之一[19],齐普夫定律可以表述为:把一篇文章的单词出现频率按从高到低的次序排列,则每个单词出现的频率与它的名次存在简单的反比关系,这种分布为齐普夫定律。该定律说明使用频率高的单词占少数,使用频率低的单词占多数。该定律同样适用于论文,将引文网络中的论文按照质量从高到底进行排序,则论文质量与论文数量满足式(3):
r为论文质量,v为论文数量,c为论文总数量,这个公式可以表示成一条斜率为-α的直线,表明在引文网络,质量高的论文占少数,质量低的论文占多数。
本文将引文网络表示为矩阵M,其元素mi,j∊[0,1]。如果论文i 被论文j 引用,则mi,j=1;如果论文i 未被论文j 引用,则mi,j=0。加权HITS 算法将论文分为两种:Authority论文与Hub论文,Authority论文的Authority 值反映了论文的权威性,Authority论文的Authority值越大,则论文的权威性越高。
第一次迭代中,计算Authority 论文的Authority值,论文的Authority值等于所有引用该论文的论文Hub 值之和,Hub 值之和越大,Authority 论文的Authority值越大,则Authority论文的权威性越高。
计算Hub论文的Hub值,论文的Hub值等于所有被该论文引用的论文Authority 值之和,Authority值之和越大,Hub 论文的Hub 值越大,则论文利用外部资源能力的越大。
在式(4)中,默认每篇Hub 论文对Authority 论文产生的影响相同,即每篇论文的重要性程度相同,实际上每篇论文的重要性程度是不同的,所以需要引入一个加权系数ρi,j来表示Hub 论文对Authority 论文的重要性程度。加权系数ρi,j越大,则代表Hub论文对Authority论文越重要。
且满足:
在式(5)中,默认每篇Authority 论文对Hub 论文产生的影响相同,即每篇论文的重要性程度相同,实际上每篇论文的重要性程度是不同的,所以需要引入一个加权系数ηi,j来表示Authority 论文对Hub 论文的重要性程度。加权系数ηi,j越大,则代表Authority论文对Hub论文越重要。
且满足:
将权值ρi,j带入式(4)中,得到新的Ai值。
将权值ηi,j带入式(5)中,得到新的Hj值。
为了保证数据的连续性,抓取了2018 年到2020 年发表的5118 篇论文,计算每篇论文的Authority 值并与论文被引次数进行对比。如图1 所示,图1(a)是论文被引次数与论文数量关系图,图1(b)是加权HITS 算法的论文Authority 值与论文数量关系图。在5118 篇论文中,有1796 篇论文被其他论文引用,其余论文的被引数为0。被引数为0的论文Authority 值为0,本文重点分析被引数不为0的1796篇论文。
图1 论文被引次数与加权HITS算法评价方法对比图
图2(b)为HITS 算法的论文评价方法,将HITS算法的论文Authority值按论文被引次数降序排序,从图2(b)可以看出,只有少数论文Authority 值很高,大多数论文Authority 值很低,这是因为HITS 算法存在TKC 效应(紧密链接社区现象)。TKC 效应是指HITS 算法在authority 值和hub 值在相互迭代加强的过程中,权重会越来越集中于紧密度最大的社区[20]。HITS 算法的TKC 效应导致部分论文的Authority 值过高,尽管这些论文真正的价值很低,说明HITS算法不能直接用于论文评价。
图2 论文被引次数与HITS算法评价方法对比图
本文在HITS 算法基础上对其进行了改进,在HITS 算法的基础上加入了论文权重,提出加权HITS算法。如图1所示,加权HITS算法的论文Authority 值总体上与论文被引次数趋势相同,都是呈现下降趋势,且下降的趋势越来越缓。说明在整个引文网络中,质量越高的论文,在整个引文网络中占比越少,相反,质量越低的论文,在整个引文网络中占比越多。
表1 为论文被引次数、HITS 算法与加权HITS算法前50 名论文评分与总论文评分之比,三种评价方法前50 名论文评分与总论文评分之比可以反应论文评分的集中程度。由于HITS算法的TKC效应,HITS 算法的前十名论文的占比为0.201,而加权HITS 算法和论文被引次数的占比为0.087 和0.05。HITS 算法的前五十名论文的占比为0.593,而加权HITS 算法和论文被引次数的占比为0.225和0.167,加权HITS算法和论文被引次数的前50论文评分占比远低于HITS 算法的占比,加权HITS 算法大大降低了TKC 效应。本文使用了两个不同的数据集测试了三种评价方法的评价值占比,分别是2424 篇论文、5118 篇论文的数据集。如图3 所示,加权HITS 算法和论文被引次数的前50 论文评分占比均远低于HITS 算法的占比,说明加权HITS 算法大大降低了TKC 效应,而加权HITS 算法与论文被引次数的前50 论文评分占比相差不大,说明加权HITS算法比HITS算法更加适合论文评价研究。
表1 论文被引次数、HITS算法与加权HITS算法前50论文评分与总论文评分之比
图3 前50论文评分与总论文评分比值图
为了进一步说明论文被引次数、HITS 算法的论文Authority 值与加权HITS 算法的论文Authority值之间的关系,本文进行了相关性分析,利用Pearson相关系数来计算两个变量间的线性相关程度[21]。
本文使用了两个不同的数据集来对论文的评价方法进行相关性分析,图4 为HITS 算法的论文Authority 值与论文被引次数的散点图,图5 为加权HITS 算法的论文Authority 值与论文被引次数的散点图。HITS 算法的论文Authority 值与论文被引次数的Pearson 相关系数分别为0.431、0.449,两者相关性低,导致这种结果的原因是HITS 算法的TKC效应导致论文Authority值预测的不准确,从而造成两者的相关性低。而加权HITS算法的论文Authority 值与论文被引次数的Pearson 相关系数分别为0.851、0.795,两者显著相关,由于加权HITS 算法大大降低了TKC效应,提高了论文Authority值预测的准确性,从而使两者线性相关性显著。加权HITS算法的论文Authority 值与论文被引次数在论文影响力的衡量上,总体变化趋势是一样的。但加权HITS 算法的论文Authority 值是一个综合性、复杂度更高的指标,相比于论文被引次数指标仅考虑了论文被引次数,加权HITS 算法的论文Authority 值还考虑了被引论文的质量,因此更为综合全面。
图4 论文被引次数与HITS算法的论文Authority值散点图
图5 论文被引次数与加权HITS算法的论文Authority值散点图
综上所述,一方面由于HITS 算法的TKC 效应导致论文Authority 值预测的不准确,而加权HITS算法降低了TKC效应,从而提高了论文Authority值预测的准确性,说明加权HITS 算法比HITS 算法更加适合评价论文。另一方面加权HITS算法因不仅考虑了论文被引次数,还考虑了被引论文质量,相比于论文被引次数指标可以更加全面地评价一篇论文的学术影响力。
本文将论文被引次数与论文Authority 值按照从高到低的次序排序,从图6 可以看出论文被引次数与论文数量存在简单的反比关系,满足式(3),说明论文被引次数与论文数量的分布满足齐普夫定律。
图6 论文被引次数与论文数量关系图
从图7可以看出加权HITS算法的论文Authority值与论文数量的分布也满足此定律,说明质量越高的论文,在整个引文网络中占比越少,质量越低的论文,在整个引文网络中占比越多,也解释了为什么图1(b)中加权HITS算法的论文Authority值下降的趋势越来越缓。图8 可知由于HITS 算法的TKC 效应,导致HITS 算法的论文Authority 值与论文数量的分布不满足齐普夫定律,通过对比发现加权HITS算法与论文被引数在论文评价方面具有高度的相似性,这也说明加权HITS 算法相比于HITS算法更适合评价论文。
图7 加权HITS算法的论文Authority值与论文数量关系图
图8 HITS算法的论文Authority值与论文数量关系图
本文在HITS 算法基础上对其进行了改进,在HITS 算法基础上加入了权重系数,提出加权HITS算法。结果表明加权HITS 算法大大降低了HITS算法的TKC 效应,加权HITS 算法的论文Authority值与论文被引次数有着高度的线性相关性,论文的Authority 值排名与论文被引数排名虽有差异,但总体上论文的Authority 值与论文被引数在衡量论文学术影响力上的变化趋势是一样的,并且都满足齐普夫定律。加权HITS算法因不仅考虑了论文被引次数,还考虑了被引论文质量,相比于论文被引次数指标可以更加全面地评价一篇论文的学术影响力。