考察文献活跃度特性的个性化引文推荐研究

2021-10-05 12:51崔志慧彭兰一香王名扬
智能计算机与应用 2021年5期
关键词:特征选择分类器研究者

崔志慧,彭兰一香,熊 曦,王名扬

(东北林业大学 信息与计算机工程学院,哈尔滨150040)

0 引 言

随着互联网的高速发展,每年发表的科技文献总数呈指数增长。据统计,仅2018年中国科研人员发表在国际、国内的优秀文献总量就达到31.59万篇[1]。对研究者来说,从如此海量的数据中定位满足科研需要的文献是非常困难的。引文推荐能针对某一具体的研究主题和学术文献,自动地为研究者推荐合适的相关成果和文献。借助于引文推荐,研究者可快速获取到与其研究相关的文献资料,从而在一定程度上提高撰写学术文献的效率。

2001年,Basu C等首次提出文献推荐的概念,给出文献推荐的过程是如何找到与用户兴趣相匹配的文献的过程,其核心问题在于如何表达用户兴趣和目标文献[2]。在之后的研究中,研究者们也将关注点更多放在对用户兴趣的建模和文献间相似度的计算上。2007年,Strohma等提出引文推荐的概念,并结合文本相似性和图模型方法对引文推荐问题进行了初步探索[3]。Bethard S等结合用户的历史引用信息和引用偏好来为目标文献推荐参考文献列表[4];2010年,He Q等人将词频信息和文献的主题分布作为主要特征,实施引文推荐[5];Pohl等基于用户下载文献的行为记录进行引文推荐[6]。2013年,刘盛博等以全文数据为基础,构建基于引用内容的引文检索与推荐系统[7];Liu Yaning实现了基于翻译模型和用户过滤算法的混合推荐模型[8];2014年,蔡阿妮等结合文献的内容信息和引用关系来对引文进行推荐[9];王萌星等基于主题社区和双层引用网络的学术推荐方案,向用户推荐作者和论文[10];刘亚宁等在考察用户的兴趣和其知识水平的基础上实施引文推荐[11];Guo LT等运用深度学习技术获取用户的兴趣模型,并改进个性化重排序算法实施推荐[12];Ali Z等从6个角度对基于深度学习的引文推荐模型进行综述[13];刘洋利用文献间的语义关联度和作者间的关系构造网络模型实施推荐[14];Wang J等将作者信息和引文关系整合到用分布式矢量表示的引文上下文和论文中,提出了基于端到端记忆网络的上下文感知引文推荐模型[15]。

综上,为了实现更精准快捷的推荐,研究者从用户和文献两个角度对引文推荐问题进行了深入的研究,但是这些已有成果的推荐效果仍然差强人意。在这些研究中,学者们均未讨论文献的活跃度特征在引文推荐中的作用。实际上,文献的活跃度体现了文献在科学社区的可见度,活跃度较高的文献将具有更高的被研究者关注的机会,而这种机会将在一定程度上促使文献被研究者引用,成为研究者文献中的参考文献。

在评价引文推荐效果时,往往将被推荐文献是否真正成为目标文献参考文献中的一员来作为评价的依据。这实际上已经将引文的推荐问题转化成了文献是否被引用的二元分类问题。为此,本文将引文推荐问题转换为文献是否被引的二元分类问题,提取表征文献活跃度的特征,结合研究者的个性化引用偏好和常用的文献计量学特征,构建二元分类问题的特征库。利用机器学习方法从特征库中提取有利于文献被引用的关键特征,并基于这些特征实现引文推荐。

1 相关研究

2010年,He Q等利用引文上下文的差异性将引文推荐任务细分为局部引文推荐和全局引文推荐[5]。局部引文推荐,是指为目标文献的局部上下文推荐合适的引文列表;而全局引文推荐,是根据目标文献的标题内容和摘要内容为其从整体上推荐引文列表。本文主要对全局引文推荐问题进行研究,仅对全局引文推荐相关的工作进行分析。由于推荐技术主要用于实现用户兴趣与待推荐对象之间的匹配,因此推荐算法是推荐问题的核心,引文推荐问题也不例外。在全局引文推荐领域,研究者主要用到的推荐算法主要包括协同过滤推荐和基于图的引文推荐。

协同过滤推荐根据作者的引用偏好和文献间的相关性来预测作者与文献间的引用关系。McNee等将作者视为用户,文献视为商品,利用文献之间的引用关系建立评分矩阵,从而将引文推荐问题转化为普通的商品推荐问题[16];Pohl等把用户下载文献的行为作为用户的活动记录,并将访问量较高的文献推荐给用户[6];Tang等综合引用关系和文献文本内容间的相关性来实施推荐[17];Choochaiwattana提出一种基于标签的引文推荐机制,通过用户创建的标签来为用户推荐引文[18];倪卫杰构建用户兴趣模型和文献兴趣模型,为特定用户推荐引文[19]。Wang等根据用户的历史行为构建用户偏好模型来实施推荐[20];Gipp等在引文推荐中使用了基于内容的协同过滤方法[21];陈将引文推荐问题视为分类问题,使用文献的内容信息预测文献可能的参考文献列表[22]。Pan等用标签对用户进行个人配置,计算文献标签向量与个人配置向量间的相似度来实施文献推荐[23];Khadka等结合引文位置和引文上下文特征,使用主题建模来实现引文推荐[24];Zhang等引入结构上下文的概念来提升引文推荐的效果[25]。

由于异种类型对象和其之间的关系可以简单的用一个图来表示,所以基于图的方法可以很容易地被应用到包含多种类型数据的数据集上来实施推荐。Gori等构建文献间的同构网络,使用PageRank算法计算权重来实施推荐[26];Meng等构建四层多元图,利用重启随机游走的方法计算目标文献与候选文献间的相似性来实施推荐[27];Jardine等在引文网络图中加入主题分布信息,来改进PageRank算法的转移概率以实施推荐[28];Cai等构造三层图模型,包括作者层、文献层和出版商层,在此基础上进行推荐[29];Pan等提出了一种包含多元信息异构图的引文推荐方法[30];Gupta等综合文献内容和文献的结构关系来表示文献,在网络图中计算文献间的相似度进行推荐[31];李飞构建基于作者和引文的异构图,利用Deepwalk算法进行推荐[32];陈洁等将多粒度属性网络表示学习应用于引文推荐工作中来解决在异质网络中的引文推荐问题[33]。

虽然这些工作实施推荐的角度不同,但其核心问题仍然离不开如何对用户兴趣和目标文献建模,以及如何度量目标文献和待推荐文献的相似性。尽管这些工作已尽可能广泛地提出了解决以上核心问题的思路,但引文推荐的精度仍不太理想,且有些推荐算法过于复杂,并不能很好地进行推广应用。本文致力于在这些已有工作的基础上,发掘尽可能简洁的特征来实施推荐,取得较为可观的推荐效果。

在当前的推荐工作中,还鲜有研究者考察待推荐文献的活跃程度相关的指标。如果一篇文献在近年来获得了较高的被引频次,说明该文献在科学社区具有较高的认可度,同时也具有较高的可见度。这种较高的可见度能带给文献更高的被研究者关注的机会,从而提升其被研究者引用的可能性。基于这种考虑,本文将文献的活跃度指标引入推荐过程,并探讨这种加入是否能显著提升引文推荐的效果。

2 问题定义

本文构建的考察文献活跃度的引文推荐系统的输入和输出信息如下:

(1)输入

①目标文献:需要被推荐引文的文献集合P;

②待推荐文献:待推荐文献集合R,由目标文献P的参考文献列表中实际出现的参考文献集合B,和未被目标文献P引用的文献集合N构成。其中,未被目标文献引用的文献集合N中的文献来自于与B中文献在同一期刊、同一年份发表的其他文献。

(2)特征集合X。由用户的个性化引用偏好特征、常用的文献计量学特征和文献的活跃度特征构成。

(3)输出。根据筛选出的特征,取3个分类器推荐结果的并集,为每篇目标文献生成一个按照被推荐概率排好序的推荐文献列表L。

3 考察文献活跃度特性的引文推荐

本文将引文推荐问题看成待推荐文献R是否被目标文献P引用的二分类问题。为此,需要首先构造用于分类的特征库X。 在已有的推荐工作中,研究者利用不同算法证实了用户的兴趣和文献对间的相似性在引文推荐中的重要作用。本文也将这些特征考虑进来,同时构造表征文献活跃程度的指标,共同生成分类问题的特征库X。 在此特征库基础上,运用Relief-F、RFE和LR3种特征选择方法,对特征库X中的各特征x进行重要性排序;利用朴素贝叶斯、SVM和Bagging3种分类器验证特征组合的分类性能,提取对文献是否被引用具有重要影响的特征。依据这些关键特征,生成针对目标文献的待推荐文献列表。本文提出的考察文献活跃度特性的引文推荐算法的示意图如图1所示。

图1 基于文献活跃度特征的引文推荐实验流程示意图Fig.1 Schematic diagram of citation recommendation experiment based on paper activity characteristics

3.1 构建引用分类问题的特征库

3.1.1 用户的个性化引用偏好特征

用户的个性化引用偏好特征主要用来反映用户在撰写科研成果时的引用习惯。本文主要从用户是否偏向于引用其之前发表的文献,是否偏向于引用其之前引用过的文献,是否偏向于引用合作者的文献,以及是否偏向于引用之前引用过的作者所写的文献,4个角度来表征用户的个性化引用偏好,见表1。

表1 用户的个性化引用偏好特征Tab.1 Personalized reference preference characteristics of users

为获取这些特征,需要为每篇目标文献采集如下信息:

(1)目标文献的所有作者发表的文献构成的集合;

(2)目标文献的所有作者曾经引用过的文献构成的集合;

(3)所有曾经同目标文献的作者合作过的其他作者构成的集合;

(4)目标文献的所有作者曾经引用过的其他作者构成的集合。

3.1.2 常用的文献计量学特征

在引文推荐工作中常被研究者用到的文献计量学特征见表2,符号p代指目标文献,符号r代指待推荐文献。这些特征涵盖了待推荐文献的作者、所在期刊、基金资助情况,以及待推荐文献与目标文献间的相似度等指标。

表2 常用的文献计量特征Tab.2 Commonly used bibliometric characteristics

其中,特征x6作者关键字是对文献作者的国籍、所属单位和研究领域等的概括性介绍。本文采用Jaccard系数计算目标文献p和待推荐文献r在作者关键字上的相似度。x6的值越大,说明目标文献p和待推荐文献r的作者越相似。对于目标文献p和待推荐文献r的作者关键字集合,Jaccard系数为p与r交集的大小与p与r并集的大小的比值,定义如式(1):

利用余弦相似度计算特征x8,x9,x10的值。利用Python中的jieba算法分别对目标文献p和待推荐文献r的标题、主题和摘要进行分词,去掉停用词,主题是Scopus数据库中对文献研究内容的高度概括。之后结合剩下的词的词频构建标题、主题和摘要的向量,最后利用余弦相似度计算目标文献p和待推荐文献r在3个方面的相似度。余弦相似度的计算公式(2)如下:

收集处理完上述特征后,利用线性函数归一化方法将上述特征归一化到[0.01,0.99]范围内,消除不同特征的取值范围对分类的影响。

3.1.3 文献的活跃度特征

本文用待推荐文献在近两年内的引用情况来度量文献的活跃程度。在本实验中,选取的目标文献均发表在2018年,则对待推荐文献而言,表征其活跃程度的引用指标均来自于其在2016和2017年的引用情况。

本文采集了待推荐文献在近2年内的总被引频次、近2年内的引证国家数量、近2年内的引证期刊数量、近2年内的引证机构数量和近2年内的引证学科数量,来构造文献的活跃度特征。这些指标反映了在近2年内待推荐文献在科学社区内的影响可见度。对一篇待推荐文献r而言,如果在近2年内得到了来自更多的国家、机构、期刊和学科的引用,则意味着该文献受到了更多学术同行的认可,在科学社区内产生了较为广泛的影响。而这种影响将推动其继续被学者关注,并持续转化为学者研究成果的参考文献。

为结合以上5个引用指标生成综合的文献活跃度特征,本文利用熵权法为每个特征赋权重,求得5个特征值的加权和以代表本文的文献活跃度特征。根据待推荐文献在近2年内的总被引频次、以及其被不同国家、期刊、机构和学科的引证数量的值构成这5项子特征的数据矩阵A,式(3),其中Xij为第i个文献的第j个特征的数值。

计算xij占特征xj的比重,式(4):

计算第j个特征的熵值,式(5):

根据ej计算第j个特征的熵冗余度,式(6):

根据gj求特征的权数,式(7):

将求得的每个特征的权重和其值求加权和,得出本文的文献活跃度特征x19,式(8):

3.2 特征选择过程

为提取对引文推荐具有重要价值的特征,本文采用Relief-F、Recursive Feature Eimination(RFE)和Logistic Regression(LR)3种特征选择方法对特征进行重要性排序,并结合不同特征组合的分类精度得到影响推荐效果的核心特征子集。

3.2.1 Relief-F

Relief-F算法通过计算不同特征,区分不同类型样本的能力来为特征赋予权重。其随机从待推荐数据集R中选取一个样本ri,从ri同类的样本集C中找到k临近的临近样本{hj},从与ri不同类的样本集S中找到k临近的随机样本{mj},计算特征x区分临近样本{hj}和随机样本{mj}的能力。如果样本ri和临近样本{hj}在特征x上的距离小于样本ri和随机样本{mj}上的距离,则说明该特征对区分同类和不同类的数据是有益的,则增加该特征的权重W。根据W对特征进行排序,获得根据重要程度排序的特征。

求权重W的具体算法见公式(9):

其中,p(C)为类别C在所有类别中所占比例,p(S)为类别S在所有类别中所占比例。diff定义见公式(10),其表示样本r1和r2在特征x上的差:Diff(x,ri,rj)=

3.2.2 RFE

递归特征消除法是通过递归的方式,不断剔除作用最小的特征,减少特征集的规模来选择需要的特征,RFE的底层模型很大程度会影响其稳定性。本模型底层采用SVM,SVM作为一种基于统计理论的分类方法,将低维线性不可分割的数据在核函数的作用下映射到较高维度而实现线性分割。每个特征对应特定维度,维度的权重由分类器的精度确定,而权重即可视作该特征的重要性。

REF首先给每个特征赋一初始权重w0,然后采用预测模型在这些原始的数据上进行训练,训练后获取特征的最终权重值w1,取这些权重值的绝对值,把绝对值最小的特征剔除掉。按照以上步骤,不断循环递归,直至剩余的特征数量达到所需的数量。将剩余特征按照w1排序即得到特征选择的最终结果。

3.2.3 LR

LR是统计学中一种经典的分类算法,对回归或分类问题建立代价函数并迭代优化,求解出最优参数,该参数即特征的权值。具体步骤如下:

将线性回归函数带入Sigmoid函数,得到的h函数,若hθ(x)>0.5,则Y∈A;若hθ(x)<0.5,则Y∈B。

线性回归函数,式(11):Sigmoid函数,式(12):

h函数,式(13):

然后构造代价函数C(θ),C(θ)能够描述模型预测值h(θ)和真实值y之间的差异。若有多个样本,则取所有代价函数的均值,计作J(θ)。 该均值J(θ)可用于评价该模型的好坏。J(θ)越小,则当前模型的参数与训练样本越相符。于是基于最大似然估计可得J(θ),式(14):

基础梯度下降法求J(θ)最小值,更新参数,得到最符合当前数据的模型,式(15):

特征对应的系数θj越大代表对期望的贡献越大,该系数也就是特征的权值。将系数θj从大到小排序,获得根据重要程度排序的特征。

3.3 筛选关键特征

在通过特征选择方法获得特征排序结果的基础上,本文利用朴素贝叶斯,SVM和基于决策树的Bagging 3种分类器来检验不同特征组合的分类效果,得到影响文献是否被引用的关键特征。

朴素贝叶斯是一种基于概率的分类器算法,其假设每个输入变量是独立的,根据训练集中每个特征的取值是否被引的先验概率,推算出测试集中特征给定时被引的后验概率,决定该元组是否被引。本实验中使用的是高斯朴素贝叶斯模型,假定数据符合高斯分布。

SVM是一种二分类算法,可以支持线性和非线性的分类,其把划分数据的决策平面统称为超平面。离这个超平面最近的点叫支持向量,点到平面的距离叫间隔,通过在特征空间中寻找最佳的分离超平面,从而使训练集中正样本和负样本的间隔最大。利用该最优超平面,将文献集输入模型后即可得到合适的引文集并推荐给目标文献。本实验使用线性核函数的SVM并进行概率估计。

Bagging是一种基于决策树的分类器,它是一种并行的集成学习方法,使用多棵树进行训练和预测,并结合训练结果输出预测值。本实验中使用决策树分类器,考虑到该分类问题为二分问题,构建9棵决策树进行投票,在避免过拟合的情况下尽可能收缩,使最终结果趋于均值。

4 实验过程和结果分析

4.1 数据集

本实验的原始数据均来自Scopus数据库。Scopus收录了来自于全球4 000家出版社的19 000种来源期刊,是全球最大的文摘和引文数据库,为科研人员提供一站式获取科技文献的平台。本文以科学计量学领域下的国际顶级期刊Scientometrics为文献样本来源,来获取目标文献集合。

数据的获取为利用爬虫算法在Python3.7环境下,爬取Scopus数据库中期刊Scientometrics中发表时间为2018年且被引频次排名前100的文献作为目标文献集合P。收集100篇目标文献P的参考文献共4 250篇,将标题、作者、摘要和DOI为空的文献删除,剩余的3 555篇文献作为被引文献B。按照1:4的比例收取与被引文献B在同一期刊、同一年份发表的且未被目标文献P引用的文献N。被引文献B和未被引文献N共同构成待推荐的文献集R。

数据的处理分为对目标文献集P的处理,以及对待推荐的文献集R的处理,处理步骤如下:

(1)目标文献

①从Scopus数据库上直接导出文献的标题、作者、作者ID、摘要、来源出版物、发表时间、施引文献数量、作者关键字以及在Scopus上的链接、文献的EID号和DOI号;

②在Scopus数据库上手工收集每篇目标文献p的每个作者之前写过的所有文献、每个作者的之前的合著者、每个作者引用过的文献以及每个作者引用过的作者;

③利用爬虫爬取每篇目标文献p的主题、学科和国家。

(2)推荐的文献

①从Scopus数据库上直接导出文献的标题、作者、作者ID、摘要、来源出版物、发表时间、施引文献数量、作者关键字、出资详情以及在Scopus上的链接、文献的EID号和DOI号;

②利用爬虫爬取待推荐文献r的常用的科学计量学特征和文献活跃度特征,利用程序判断待推荐文献r和对应目标文献p的关系,获取作者偏好特征。

4.2 实验过程

首先,利用Relief-F、RFE、LR 3个特征选择算法分别对实验收集的19个特征进行特征排序;其次,选取每个方法排名前10的特征完成进一步实验。对于某一种特征组合{xi},(i=1,2,…,10),取一篇种子文献pi,pi作为目标文献,pi的待推荐文献集RA作为测试集,其余99篇种子文献的待推荐文献集RB作为训练集。将训练集RB放入分类器进行训练后,输入测试集RA,通过比较分类器对测试集RA的预测结果和目标文献pi实际引用情况的吻合程度,衡量分类效果。求取3个分类器分别输出的F1的均值作为该特征组合{x i}对该篇目标文献pi的分类效果值。对100篇种子文献都重复以上步骤后,将获得的100个F1值求取均值,来代表该特征组合{x i}对本实验数据集的分类效果值。

按照上述实验思路,逐个去掉每个特征选择中得分最低的特征,输入到3个不同的分类器模型中,得出新的子特征组合对应的F1均值。提取F1均值最高时对应的特征子集为最终的约简子集。将在3种分类器下得到的约简子集取交集运算,即可得最终筛选出的特征。

4.3 评价指标

为评价本文提出的算法在引文推荐任务中的有效性,本文采用准确率P,召回率R和F1值来衡量推荐列表的质量。公式中符号的具体说明见表3。

表3 评价指标Tab.3 Evaluation indexes

准确率是指分类正确的文献在文献总数中的占比,是对推荐系统查准率的衡量。在本文中,即被正确分类的待推荐文献与总的待推荐文献的比值,式(16):

召回率指的是正确推荐给目标文献p的引文与其实际引用的比率,是对推荐系统查全率的衡量,式(17):

由于准确率与召回率有时候会出现相矛盾的情况,故引入衡量指标F1值对二者进行综合考虑,式(18):

4.4 推荐结果及分析

4.4.1 重要特征的选择

表4列出了3种特征选择算法下选出的前10个特征,可以看出由近期引用状况特征所确定的文献的活跃度特征,在3种方法中的排名均比较靠前,说明文献活跃度的特征有助于提升推荐效果;在常用的科学计量学特征中,主题和标题的相似度具有更大的优势;作者偏好特征中,大部分的特征排名都靠前,说明作者的兴趣对推荐具有较大的影响。

表4 特征选择的结果Tab.4 Result of feature selection

为了得到对文献是否被引具有重要影响的特征,在由每个特征选择方法得到的特征排序结果中,本文依次去掉权重得分最低的特征,将剩下的特征集合放入分类器中,记录分类的精度,循环进行,直到分类器的精度下降,取此时在特征集中剩余的特征为选出的特征约简子集。在分类器Relief-F、RFE和LR下分类精度的变化趋势如图2~4所示,按照此过程选出的特征约简子集的结果见表5。

图2 Relief-F方法下F1值变化趋势图Fig.2 Change trend diagram of F1 index under Relief-F method

图3 RFE方法下F1值化趋势图Fig.3 Change trend diagram of F1 index under RFE method

图4 LR方法下F1值变化趋势图Fig.4 Change trend diagram of F1 index under LR method

表5 特征选择结果Tab.5 Results of feature selection

不同的特征选择算法侧重点各异,单个特征选择方法选出的特征具有局限性,因此,对3个特征选择算法所得到的约简子集取交集运算,以得到在不同的特征选择算法下都比较重要的特征。这些特征,将是影响文献是否被引用的最核心的指标,得到的结果见表6。

表6 最终选择的特征结果Tab.6 The final selection of feature results

4.4.2 利用分类器实现推荐

将选出来的7个特征放入分类器,验证基于这些特征的引文推荐效果。本文将推荐问题转化为二元分类问题,对每篇目标文献p,生成一个按照被推荐概率排序的推荐文献列表l,将推荐结果l与每篇目标文献p的实际引用进行比较,算出相应的得分。同时与仅考虑文本相似度,利用标题相似度和主题相似度进行推荐的结果作对比见表7。可以看出,相对于基线方法,利用本文提取出的7个核心特征进行是否被引用的识别,其准确率、召回率和F1值分别提升了6%、29%和26%,由此证明了这些特征是影响文献是否被引,实际上也是文献是否应该被推荐的关键指标。

表7 分类器实现推荐的结果Tab.7 Results of classifier implementation recommendations

相对于之前的研究工作而言,本文用较少的非常容易获取的特征较好地实现了引文推荐的工作,这对研究者开展实际的引文推荐研究具有重要的价值。在这些特征中,本文引入的文献的活跃度特征在引文推荐过程中起到了非常重要的作用,这实际上反映了引用过程中的“优先链接”的思想,说明那些在近期内得到较高引用的文章将具有更高的被再次引用的可能性。

5 结束语

本文将引文推荐问题转换为文献是否被引的二元分类问题,提取表征文献活跃度的特征,结合研究者的个性化引用偏好和常用的文献计量学特征,构建用以二元分类问题的特征库。利用Relief-F、RFE和LR特征选择方法从特征库中提取有利于文献被引用的关键特征,并基于这些特征利用朴素贝叶斯、SVM和Bagging分类器实现引文推荐。本文的实验结果表明,文献的近期活跃度特性、作者的个性化引用偏好和文献对间的主题相似性是影响文献是否被推荐的核心因素。本文通过较为精简的特征实现了较好的引文推荐工作,这将对研究者开展实际的引文推荐研究提供有价值的参考。

猜你喜欢
特征选择分类器研究者
分类器集成综述
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
用水痘病毒开发新型HIV疫苗
饿死的毛毛虫
研究者调查数据统计
基于AdaBoost算法的在线连续极限学习机集成算法
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
年轻瘦人糖尿病增多