熊回香 孟璇 叶佳鑫
收稿日期:2020-11-04
基金项目:国家社会科学基金一般项目“融合知识图谱与深度学习的在线学术资源挖掘与推荐研究”(项目编号:19BTQ005)。
作者简介:熊回香(1966-),女,教授,博士生导师,研究方向:网络信息组织与检索。孟璇(1994-),男,硕士研究生,研究方向:网络信息组织与检索。叶佳鑫(1993-),男,博士研究生,研究方向:网络信息组织与检索。
摘 要:[目的/意义]从关键词语义类型和学术文献老化两个维度出发挖掘学术论文价值,为学者推荐符合其研究需求并在时间维度上具有较大参考意义的学术论文。[方法/过程]首先,将学术论文关键词按语义类型进行划分;随后,基于共现关系计算同类型关键词间相似度,基于关键词相似度得到论文在语义类型上的相似度;然后,借用文献老化思想,计算不同类型论文的时间价值;最后,结合论文在语义类型上的相似度及时间价值,生成论文推荐列表从而进行推荐工作。[结果/结论]实证结果表明,使用该方法推荐的论文,一方面与学者研究方向相符;另一方面在时间维度上也具有较大价值,推荐的论文质量较高。
关键词:关键词;语义类型;文献老化;学术论文推荐
DOI:10.3969/j.issn.1008-0821.2021.01.002
〔中图分类号〕G252.62 〔文献标识码〕A 〔文章编号〕1008-0821(2021)01-0013-11
Recommendation of Academic Papers Based on Keyword
Semantic Type and Literature Obsolescence
Xiong Huixiang Meng Xuan Ye Jiaxin
(School of Information Management,Central China Normal University,Wuhan 430079,China)
Abstract:[Purpose/Significance]In order to recommend academic papers for scholars the value of academic papers is explored from the two dimensions of keyword semantic type and academic literature obsolescence,and these papers meet their research needs and have greater reference significance in the time dimension are recommended for.[Method/Process]First,the keywords of academic papers were divided into four types;then,the similarity between keywords of the same type was calculated based on the co-occurrence relationship,and the similarity of the papers in semantic types was obtained based on the keyword similarity;then,calculated the time value of different types of papers using the idea of literature obsolescence;finally,combined the similarity and time value of the papers in semantic types to generate a recommendation list of papers for scholars.[Result/Conclusion]The empirical result showed that,on the one hand,the papers recommended by this method were consistent with the research direction of scholars,on the other hand,they also had great value in the time dimension and high quality.
Key words:keyword;semantic type;literature obsolescence;academic paper recommendation
科學技术的不断发展,使得各学科领域内的科研成果的数量呈指数增长,而海量科研成果的出现在丰富学者所需学术资源的同时,也造成了资源检索困难,尤其是在科学研究的过程中查询和引用相关论文具有很大难度,学者难以在短时间内精准定位最具参考价值的学术论文。为缓解科研人员的信息过载与信息迷航等问题,论文推荐等个性化服务技术受到了学术界的广泛关注。
学术论文推荐是指根据学者个性化信息为学者推送符合其偏好的学术论文信息。对于学者而言,具有较高参考价值的推荐论文需要达到两点要求:第一,特征价值。推荐论文所呈现的特征需要符合学者兴趣及其研究方向;第二,时间价值。推荐论文要具备一定的新颖性,有一定的参考意义。然而,目前大多数学术论文推荐方法的研究重点主要集中在对学者偏好及论文内容特征的相关度计算上,以尽可能挖掘学者和论文间的潜在关联为目标,却较少侧重于对论文本身价值的挖掘,即从不同维度分析论文的特征价值和时间价值。为了更好地挖掘论文自身价值,本文从论文关键词的语义类型和文化老化规律出发,一方面利用共词分析计算同一语义类型关键词的相似度,挖掘学者在研究主题、研究范围与理论技术方法等维度上所需论文;另一方面,结合文献在不同语义类型维度的老化特征,确定各语义类型的老化权重系数,对论文进行综合打分并排序,从而为学者推荐既符合其研究需求,又具有较高时间价值的论文。
3 推荐模型框架
本文借助关键词语义划分理论和文献老化理论,将关键词划分成4种语义类型,采用共现法对关键词进行向量表示,计算同类型关键词相似度,进而挖掘论文关联,提高推荐效果。同时引入文献老化思想,在考虑单篇候选论文时效性的同时,分析不同语义类型关键词的文献老化特征,确定各语义类型的文献老化权重,衡量不同语义类型的文献在时间维度上的价值,从而为学者推荐既符合其研究需求,又具有较高时间价值的论文。本文提出的基于关键词语义类型与文献老化的论文推荐模型框架如图1所示。
本研究可分为以下几个步骤:第一,将每篇论文的关键词按其语义类型划分为研究主题、研究范围、理论技术方法、其他4类,并按类型进行汇总,得到每个语义类型下关键词集合;第二,着重对研究主题、研究范围、理论技术方法这3类进一步研究,根据关键词的共现关系,计算关键词间相似度;第三,借助文献老化思想,根据论文年龄计算文献老化权重;第四,综合考量关键词相似度与文献老化因素,计算学者已有论文与候选论文间的相关性并将其进行排序,从而实现论文推荐。
3.1 关键词语义类型划分
在推荐过程中,从学者科研需求角度出发,一部分学者在文献调研时围绕预计研究的主题展开查找,需要针对研究主题给学者推荐论文;一部分学者会先从某一理论方法或某一技术模型出发,了解理论技术细节的同时,查看其他学者将这些理论技术运用在哪些场景中;还有一部分学者可能对自己的研究主题或者要用的理论技术方法比较模糊,他们往往会针对某一特定的研究对象或者研究范围,查看在这一研究范围内其他学者都做了哪些研究。由于研究领域关键词外延较广,子知识点关键词又较为具体,因而本文将这两类关键词统一划分为“其他类”,不对这两类进行分析。本文按照表1相应标准对关键词的语义类型进行划分。
例如,论文“基于Kano模型的高校智慧图书馆功能需求研究”的关键词是“高校智慧图书馆”“功能需求”“Kano模型”。从标题中可以得知该论文研究内容是围绕“功能需求”展开研究的,因而“功能需求”属于研究主题类型关键词;“基于Kano模型”表明该文是利用Kano模型进行研究的,因此“Kano模型”关键词属于理论技术方法类型;该论文的研究对象是针对高校智慧图书馆的,因此关键词“高校智慧图书馆”属于研究范围类型。
为了保证关键词语义划分的准确性和客观性,在对关键词语义类型进行划分后,再由5名本领域同事对划分结果进行独立检查,并针对有争议的划分进行集中讨论,力求通过不同语义类型的关键词,能够无歧义地揭示论文研究的主要内容,最终讨论后得出一致的划分结果。
3.2 基于共现关系的关键词相似度计算
根据表1将关键词按照语义类型划分后,在同语义类型关键词中,可以直接得到两篇论文的关系,如“基于序列模式的科技文献中知识元抽取研究”和“基于深度学习的文本中细粒度知识元抽取方法研究”的研究主题关键词都为“知识元抽取”,两篇论文的关联性一目了然。为进一步挖掘论文间的潜在关联,本文基于关键词共现对关键词相似度进行计算。
共词分析法最早是由法国文献计量学家于20世纪70年代中后期提出的,其思想来源于文献计量的引文耦合与共被引概念。1986年Callon M等[18]对该理论与方法进行完善。现如今共词分析法发展已经较为成熟,应用十分广泛。而关键词共现法作为共词分析法应用之一,一般用来发现热点主题和挖掘词间关联。但传统关键词共现存在“同量不同质”,词对关联缺乏语义性等问题[19],基于此,本文在传统关键词共词分析的基础上,借助关键词语义类型,加入语义共现关系计算关键词相似度,即同语义类型关键词之间的相似度是基于当前类别的关键词与其他两类关键词的共现关系得到的。以研究范围关键词为例,具体步骤如下:
首先,构建研究范围关键词共现矩阵。研究范围关键词在研究主题维度的共现矩阵可表示为A,研究范围关键词在理论技术方法维度的共现矩阵可表示为B。
其中,m为研究范围关键词个数,n为研究主题关键词个数,c为理论技术方法关键词个数。以A矩阵为例,则该矩阵第i行向量可以表示为:
vi=(ai1,ai2,ai3,…,ain)
其中aij代表研究范围第i个关键词在研究主题类第j个关键词上的共现次数,例如,若两个关键词只在一篇论文中共同出现过,则取值为1;若在两篇论文中共同出现,则取值为2。
其次,利用共现向量构建研究范围关键词在研究主题上的相似度矩阵ST。
ST=st11…st1m
stm1…stmm
stij代表研究范圍类型中第i个关键词与第j个关键词的相似度,利用余弦定理对其进行计算,见式(1)。
stij=vi·vjvi×vj=∑nk=1aik×ajk∑nk=1a2ik∑nk=1a2jk(1)
i=1,2,…,m; j=1,2,…,m
同理可得,研究范围在理论技术方法上的相似度矩阵SM。最后,将ST矩阵和SM矩阵中对应位置元素值两两求和并平均,得到研究范围关键词相似度矩阵S。具体见式(2):
Sim2=s11…s1m
sm1…smm=st11+sm112…st1m+sm1m2
stm1+smm12…stmm+smmm2(2)
同理,按照上述计算方法也可得出研究主题关键词相似度矩阵Sim1和理论技术方法关键词相似度矩阵Sim3。
3.3 文献老化权重计算
基于文献老化理论,本文的推荐方法从两个角度引入文献老化权重。
一方面针对候选论文计算单篇论文的老化权重,采用文献[20]的方法,单篇论文老化权重计算方法见式(3)、式(4)。
vi=2T-tlife(3)
wi=vimax(v)(4)
式(3)中,T表示文献半衰期,参考相关文献将T取值为6[21],tlife为论文年龄,具体计算方法为推荐时间减去论文发表时间,精确到天再换算成以年为单位。在实际推荐过程中发现,较新论文的文献老化权重较之较老的论文差异过大,因而通过式(4)进行归一化处理。以半衰期作为参考可以较为准确地反映论文的老化程度,即论文的发表年龄离半衰期越近,则论文的时效价值越低;反之论文的价值越高。
另一方面基于关键词语义类型的老化特点,将一篇论文的老化从研究主题、研究范围、理论技术方法3个视角进行分析。从近几年情报学科发展来看,研究主题的老化速度较慢,仍然围绕情报学理论、网络信息组织与检索、网络舆情、竞争情报、数据挖掘、知识发现、个性化推荐等若干主题展开研究;研究范围的老化速度相较于研究主题而言稍快,从宏观角度来看主要是由于整个情报学研究背景的变化,从微观角度上看原因在于新事物的不断出现导致研究对象的不断转换;理论技术方法的老化速度是最快的,主要原因在于情报学科与计算机学科的深度交叉,导致情报学越来越多地借助计算机学科中较新的技术方法解决情报学科中的问题。在计算机学科成果日新月异的今天,以技术方法为驱动的情报学科论文也随之以较快的速度老化。基于此,本文将3种语义类型的文献老化权重依次乘以相关系数进行调整,取值为:研究主题η1=0.7,研究范围η2=0.6,理论技术方法η3=0.5。
3.4 论文推荐列表生成
选取目标学者较新的5篇论文作为目标论文,对第i篇候选论文相对于第j篇目标论文的价值进行打分,计算方法见式(5)。
Score(i,j)=wi*∑nk=1ηk*Simk(i,j)(5)
其中,wi代表候选论文集合中第i篇论文的文献老化权重,n=3,代表从3个维度计算候选论文价值。当k=1时,η1为研究主题的老化权重系数,Sim1(i,j)代表第i篇候选论文研究主题类型的关键词与第j篇目标论文研究主题类型的关键词的相似度;同理,当k=2时,η2为研究范围的老化权重系数,Sim2(i,j)代表第i篇候选论文研究范围类型的关键词与第j篇目标论文研究范围类型的关键词的相似度;当k=3时,η3为理论技术方法的老化权重系数,Sim3(i,j)代表第i篇候选论文理论技术方法类型的关键词与第j篇目标论文理论技术方法类型的关键词的相似度。
最后,选取候选论文与学者目标论文分数的最大值作为该候选论文在该学者下的最终分数,见式(6)。
Paperscore(i,p)=max(Score(i,k))(6)
k=1,2,…,M
Paperscore(i,p)为第i篇候选论文在第p个学者下的价值,M为第p个学者下目标论文数量。Score(i,k)为第i篇候选论文对于第p个学者下第k篇目标论文的价值分数。最后对第p个学者下500篇的Paperscore进行排序,取Top-N作为推荐列表。
在实际推荐过程中,可能出现以下几种特殊情况:第一,目标论文不含有某种语义类型的关键词。这时该目标论文在该语义类型方面与所有候选论文的相似度都为0;第二,候选论文不含有某种语义类型的关键词。这时目标论文与该候选论文在该语义类型下相似度为0;第三,目标论文或者候选论文在某一语义类型的关键词数量大于1。例如:计算目标论文A与候选论文B在理论方法上的相似度,A或者B中理论技术方法类型的关键词可能存在多个,为了让B在理论方法维度上盡可能与A相似,又同时能突出论文本身的特色关键词,本文借助TF-IDF和贪婪策略思想提出一种解决思路:首先,在多个理论方法关键词中筛选出总论文集合(目标论文集+候选论文集)词频较低的关键词,作为论文的核心关键词,然后基于核心关键词计算论文A与论文B的相似度,若有多个核心关键词则取相似度最高的词对间相似度作为论文的相似度结果。
4 实证结果及分析
4.1 数据获取与预处理
本文以熊回香、王忠义、易明、余传明等10位学者作为学者集,将每位学者发表的较新的5篇论文作为目标论文集,如表2所示。根据目标论文关键词从CNKI数据库检索近5年的相关论文,随机进行选取得到500篇候选论文,部分如表3所示。针对目标论文及候选论文的每个关键词按其语义类型进行划分,同时对关键词进行规范化处理,如对涉及英文算法模型的大小写进行统一,中英文指代同一对象的关键词进行统一,得到不同类型关键词共1 687个,筛除其他类关键词后,得到研究主题类关键词407个,研究范围类关键词339个,理论技术方法类关键词460个,各类关键词部分如表4所示。
4.2 评价指标
本文从特征价值与时间价值两方面对实验结果进行量化评估,即针对推荐论文的相似度及其时效性分别进行打分,同时与基于关键词的文献聚类推荐方法进行分数对比,以说明本文推荐框架的有效性。
推荐论文的相似度分数量化步骤如下:首先,在3.4小节生成的目标学者推荐列表的基础上,不考虑关键词语义类型的老化权重系数以及候选论文本身的文献老化权重,计算推荐列表中候选论文与学者的相似度,见式(7)。
Sim_score(i,j)=∑nk=1Simk(i,j)n(7)
其中,Sim_score(i,j)代表第i篇候选论文与第j篇目标论文的综合相似度分值,考虑到3个维度相似度求和后可能出现大于1的情况,因此取其平均值;其余各符号含义与式(5)相同。
然后根据式(6)的思想,选取Sim_score最大值作为候选论文与该学者的相似度打分,见式(8)。最后,将学者Top-N推荐列表中的N篇候选论文相似度分数求平均值,作为该学者的相似度得分,见式(9)。
Paperscore_sim(i,p)=max(Sim_score(i,k))(8)
Ascore_sim(p)=∑Nk=1Paperscore_sim(k,p)N(9)
推荐论文的时效性量化方法与相似度类似,即Top-N推荐列表中候选论文的文献老化权重的平均值,见式(10)。
Ascore_time(p)=∑Nk=1wkN(10)
基于关键词的文献聚类推荐方法主要思想是根据文献的关键词对文献进行0~1向量表示,进而得到文献间余弦相似度。最后根据式(8),得到候选论文与学者相似度,排序取Top-N生成推荐列表。其特征价值与时间价值的量化与本文推荐方法相同。
4.3 推荐结果及分析
根据关键词不同的语义类型得到关键词共现矩阵后,依据式(1)和式(2)依次得到研究主题关键词相似度矩阵,研究范围关键词相似度矩阵及理论技术方法关键词相似度矩阵,如表5~7所示。
从以上3个表可见,相似度矩阵较为稀疏,其本质在于部分作者在使用关键词时的随意性,例如:论文“科技文献资源中方法知识元的抽取研究”的研究主题关键词是“自动抽取”,而实际上准确地说应为“知识元抽取”,从而导致多篇论文虽然研究主题一致,但研究主题关键词却不一样的情况出现,进而计算得到的相似度矩阵较为稀疏。
根据式(3)和式(4)可得候选论文的文献老化权重值,如表8所示。
根据式(5)和式(6),针对候选论文对于学者下的5篇目标论文的价值进行综合打分,并将分数从高到低排序取前8名作为学者推荐列表。
根据式(7)~(10)对本文推荐方法与基于关键词的文献聚类推荐方法的特征价值和时间价值进行量化评估并比较,如表9所示。
从表9中可以看出,相较于传统的基于关键词的文献聚类论文推荐方法,在推荐过程中,对关键词的语义类型进行划分并引入文献老化权重,从整体上能够较大提高推荐论文与学者的相似度以及论文本身时效性价值。该实验结果表明,本文细化到关键词所属语义类型进行推荐,更有利于给学者推荐符合其研究兴趣的学术论文;同时,引入文献老化思想,使推荐论文较为贴近当前研究热点,有利于学者产生新思路,形成新知识。
5 结 语
针对当前基于关键词进行学术论文推荐的研究,大多只是从词汇语义层面进行优化,却未考虑不同词汇在不同文章中所属的语义类型差异。本文基于关键词语义类型及文献老化对论文推荐工作进行优化。根据推荐结果发现,该推荐方法能够较好地发现相关论文,有利于提高科研学者的科研效率、拓宽科研视角、把握新的相关研究风向。本文的不足之处在于未考虑关键词间的同形异义和同义异形问题,使得最终推荐结果会受到一定影响;其次,论文关键词一定程度上的随意性和不规范性给关键词语义类型划分带来很大挑战,不同的划分结果对推荐结果影响较大,可能需要更大的数据集才能使得推荐结果收敛;最后,针对不同语义类型的文献老化权重取值未能作出严谨阐释。这些问题的解决仍需开展大量的工作,将在未来的研究中逐一进行探讨。
参考文献
[1]Ohta M,Hachiki T,Akasu A.Related Paper Recommendation to Support Online-browsing of Research Papers[C]//Fourth International Conference on the Applications of Digital Information and Web Technologies,2011:130-136.
[2]唐浩,刘柏嵩,刘晓玲,等.基于协同知识图谱特征学习的论文推荐方法[J].计算机工程,2020,46(9):306-312.
[3]孟偉龙.基于图模型的论文推荐系统设计与实现[D].咸阳:西北农林科技大学,2019.
[4]卢美莲,张正林,刘智超.MFWT:一种推荐学术论文的混合模型[J].北京邮电大学学报,2016,39(4):24-29.
[5]徐勇,司凤山,吴延辉,等.基于概念泛化的科技文献推荐算法[J].图书情报工作,2012,56(21):101-108.
[6]Qi J,Ohsawa Y.Matrix Plane Model:A Novel Measure of Word Co-occurrence and Application on Semantic Relatedness[C]//2015 IEEE International Conference on Data Mining Workshop(ICDMW).IEEE,2015:1246-1257.
[7]Aouicha M B,Taieb M A H,Hamadou A B.Taxonomy-based Information Content and Wordnet-wiktionary-wikipedia Glosses for Semantic Relatedness[J].Applied Intelligence,2016:45(2),475-511.
[8]Jorge G,Eduardo M.Web-based Measure of Semantic Relatedness[C]//Proceedings of the International Conference on Web Information Systems Engineering(WEBIST).Springer,Berlin,Heidelberg,2008:136-150.
[9]Asim M,Khusro S.Content Based Call for Papers Recommendation to Researchers[C]//International Conference on Open Source Systems and Technologies(ICOSST).IEEE,2018:42-47.
[10]谭红叶,要一璐,梁颖红.基于知识脉络的科技论文推荐[J].山东大学学报:理学版,2016,51(5):94-101.
[11]胡昌平,陈果.科技论文关键词特征及其对共词分析的影响[J].情报学报,2014,33(1):23-32.
[12]Gosnell C F.The Rate of Obsolescence in College Library Book Collections By an Analysis of Three Select Lists of Books for College Libraries[D].New York:New York University,1943.
[13]邱均平.信息计量学(三)第三讲 文献信息老化规律与应用[J].情报理论与实践,2000,23(3):237-240,192.
[14]Burton R E,Kebler R W.The“half-life”of Some Scientific and Technical Literatures[J].American documentation,1960,11(1):18-22.
[15]Price D J.Citation Measures of Hard Science,Soft Science,Technology,and Nonscience[J].Communication Among Scientists and Engineers,1970:3-22.
[16]馬费成,夏永红.网络信息的生命周期实证研究[J].情报理论与实践,2009,32(6):1-7.
[17]Brookes B C.The Growth,Utility,and Obsolescence of Scientific Periodical Literature[J].Journal of Documentation,1970:26(4):283-294.
[18]Callon M,Courtial J P,Turner W A,et al.From Translations to Problematic Networks:An Introduction to Co-word Analysis[J].Information(International Social Science Council),1983,22(2):191-235.
[19]巴志超,李纲,朱世伟.共现分析中的关键词选择与语义度量方法研究[J].情报学报,2016,35(2):197-207.
[20]赖院根,王星.面向检索排序的论文重要度测算[J].情报理论与实践,2009,32(10):78-81.
[21]周二强.SSCI收录图书情报学期刊2013—2017年被引半衰期变化及其影响因素研究[J].江苏科技信息,2020,37(12):12-16.
(责任编辑:郭沫含)