基于TextRank的多维度智库相互影响力评估

2020-04-06 03:43饶绪黎林晶赵佳旭林峰陈志德
荆楚理工学院学报 2020年6期
关键词:相似度智库影响力

饶绪黎 林晶 赵佳旭 林峰 陈志德

摘要:本文提出了一种基于TextRank的多维度智库相互影响力评估模型,该模型综合考虑智库的内、外影响力评估。在评估内影响力方面,该模型基于TextRank算法提取智库文章主题,通过各文章主题来衡量智库文章之间内容的相似度,引入时间衰减因子描述时间对影响力的削弱;在评估外影响力方面,该模型计算主题流行度来衡量智库文章对外部环境的影响。实验表明:本文提出的模型,立足于文章内容本身,多维度评估文章的内外影响力,能够有效评估智库文章的影响力,具有一定的实用性和指导意义。

关键词:智库;影响力;相似度;主题流行度;时间衰减

0 引言

智库(Think Tank)概念来源于美国,目前智库的概念不再局限于军事和国际关系的研究机构,而是延伸到从事政治、经济、社会等公共问题的研究机构[1]。智库以公共决策为研究对象,以公共利益为研究导向,以社会利益为研究准则的专业研究机构,又称为“智慧库”、“智囊团”等。智库通常由多个学科专家组成,在社会、经济、科技、军事、外交等各方面问题为决策者出谋划策,提供最佳理论、策略、方法、思想。智库与公民利益直接相关,以知识的形式表达社会的需求[2]。文献[3]中指出,智库可以通过情报分析、专家预测为国家提供决策依据,可以为解决国内经济社会发展难题提供决策,可以为总统决策期间提供施政纲领,进行政策解读,以获得民众支持。因此,关于智库影响力的研究尤其重要。

由于缺乏统一的评估工具和标准,智库影响力难以准确评估,实证分析难度大,因此以往智库的研究主要是定性研究。随着现代信息技术的发展,一些研究者开始着手于实证分析智库影响力,研究的方法包括问卷调查分析、智库网站分析、智库网络分析等。(1)问卷调查研究:Trimbath S[4]首次尝试使用定量分析的方法评估了1997.7~1999.6期间12家经济政策智库发布新闻能见度。Leeson P T等[5]使用计量回归的方法分析了美国州智库在相关公共政策的影响力。金晨[6]通过分析统计已发布的智库研究报告,分析了中国高校智库的影响力情况。这些方法局限于智库的外在机构特性,仅采取主观的研究方法,对智库自身的研究成果和研究主题却少有涉及,客观性不足。(2)智库网站分析:一些学者通过研究智库网站,基于智库的访问与出入链数据来评估影响力,文献[7]中提出了出链数的概念,认为网页的出链数可以用于描述文献的被引用量,出链数越大,反映了网页的指向能力强,也就是网页资源的开放程度越强。文献[8]中提出通过链接分析法对中美智库网站进行分析,从总网页数、总链接数、内链接数、外链接数、文档链接数、被链接网站数等数据指标对中国智库网站建设提出改进方法。这些方法通过客观的网站数据,能够定性分析智库的影响力,不过这类研究往往忽略网页的内容,仅关注网站的链接数据,欠缺内容相关性。(3)智库网络分析:智库集群和智库网络影响是西方新兴的智库研究方向,这类研究将关注点放在智库联合构成的同盟和组织上,研究这些智库组织对政策和社会的影响力。如文献[9]中将研究智库专家研究成果的引用率、曝光率作为依据展开智库及其专家影响力的排名。Richard Messnarz等[10]以构成欧洲智库的单位-创新集群为研究对象,通过智库的结构特点来评估智库的影响力。Pautz等[11]通过建立量表的方法分析英国智库的联合网络,对学术、记者、工会等不同背景智库联合的影响力进行评估。这类研究立足于智库联合化的新趋势,有着重要的实际意义,但是对影响力仅止于定性研究,缺少量化研究的方法;另一方面,对智库联合成员的个体影响缺少研究的措施。

综上所述,目前已有通过实证方式评估智库影响力的研究,但是这些方法主要依赖智库的外在内容,忽视了智库的“内在”,即智库的文章与思想。而实际上,智库的本质在于学者们会围绕相关主题探讨思想,撰写文章。若撰写文章针对某主题的思想被认可,文章的影响将逐步扩散,相关主题的热度也会随之上升。若能利用智库文章的影响力来衡量整个智库的影响力,即从智库的“内在”来评估其影响力,则评估准确程度就会更高。因此本文引入数据挖掘分析的方法,立足于智库文章内容,采用自然语言处理技术,提出了一种基于TextRank的多维度智库相互影响力评估模型,该模型综合考虑智库文章的内、外影响力问题,详细构建了智库文章的影响力评估方法。具体评估时,本文通过文本分析算法提取智库文章的文本特征,实现文本到特征向量的转换,随后基于特征向量进行内、外影响力分析,进而综合评估智库文章的影响力。实验数据表明:该评估模型从内部影响及外部影响两个方面,有效刻画智库文章的影响,能为决策者在决策时提供参考意见。

1 基于TextRank的多维度智库相互影响力评估模型

本文在评估智库数据的影响力时,评估所用的文本数据,主要来源于智库研究机构所发表的文章。智库中发表的某主题文章,产生的影响包含内、外两方面的影响:内影响产生于文章对智库内其他文章的影响;外影响产生于文章对外部社会观点的影响。例如当文章P提出某主题T后,后续发表一定数量的文章围绕主题T进行讨论,则说明文章P对智库产生了一定的内影响力。其次文章P发布后,社会上或其他智库围绕該主题T也发布了一定数量的文章,则说明该文章P对智库外产生了外影响力。因此智库观点会引起广泛讨论的特点使得我们需要通过内、外两方面综合评估智库文章的影响力。接下来本文将展开讨论智库文章内、外两部分影响力评估的构建。

1.1 内影响力评估

为评估文章对智库内部文章产生的影响力,本文采用TextRank算法[12]挖掘智库文章的关键词数据,构建文章的特征向量。TextRank算法以PageRank链接分析理论为基础,对文章词语的重要程度迭代计算,只需要文档本身即可实现词语重要程度的计算,是目前无监督关键词挖掘的主流方法,简洁并高效。本文在分析智库文章中,涉及大量的文本关键词提取,计算量较大且精确度要求高,故使用TextRank算法进行文章关键词提取。

挖掘到文章特征关键词后,组建文章特征向量,并依据特征向量计算某篇文章与该篇文章发表后的所有文章之间的相似度,相似度越大,说明两篇文章内容越相似,即发表时间在前的文章对发表时间在后的文章影响越大。同时,考虑到由于文章的影响力会随着时间的推移逐渐减弱,在评估影响力时引入了时间衰减因子。

为实现文章间相似度的计算,本文首先基于TextRank算法对文章进行特征提取。该算法通过将文本分割成若干组成单元(如单词、句子)并建立图模型,利用局部词汇之间关系(共现窗口)迭代传播图模型的各个节点权重,直至收敛,最后对关键词进行排序,得到最重要的n个单词。TextRank利用单篇文档本身包含的文本信息即可实现关键词提取、文本摘要的提取,该算法广泛应用于实际的文本挖掘中。

智库文章同样存在着多层影响关系,类似于学术研究领域的引文网络,文章影响关系示例如图1所示,文章Pi可影响文章Pj的内容,而Pj又影响文章Pk的内容,那么Pi与Pk之间存在的是一种间接影响关系而非直接影响关系,文章Pi的影响力也应有所下降。随着时间的推移,间接影响关系会逐渐增强,文章Pi的影响力也相应逐渐下降。因此,为体现这种文章影响力随时间衰减的情况,需引入时间衰减因子。

其中,λ为衰减率,DTj表示时间衰减因子,随着Tj的增加而衰减。引入了时间衰减因子的影响量ETi,用于评价文章内容的影响力,相比影响量Ei更为贴近现实,更为准确。

1.2 外影响力评估

通过文章总影响量的计算,可以衡量文章与文章间的内部影响关系。而文章的影响力还会体现在对外部环境的影响:影响力大的文章发表后,会引起同行对该主题的关注,并带动起学术界对该主题的讨论。所以文章的影响力大不仅体现在影响了许多的后继者,也体现为成为研究热潮的推动者。

其中PopularityTi表示在Ti时间段内发表的文章流行度,FTi在Ti时间段内某一特定主题所发表的文章数量,FTi表示在Ti时间段文章发表的增长率,实际意义为该时间段的文章引发了后续多少篇文章的讨论,即反映了一个时间段内的文章对外部环境的总影响趋势贡献率。为了将贡献率均分到发表在该时间段内的文章上,将贡献率FTi'除以文章数。

1.3 智库文章影响力评估

其中,ET为文章Pi的带时间权重影响量,即Pi的内部影响量。FTi+1表示Ti+1时间段的总文章数,PopularityTi表示文章Pi的流行度,即文章Pi对Ti+1时间段内文章数目增长的贡献率,PopularityTi与FTi+1的乘积表示文章Pi对外部环境热度的贡献量,即文章Pi的外部影响量。

内部与外部影响量的和即文章的总影响量,作为文章影响力的评价指标,EFi值越大,说明文章的影响力越大。

2 实验分析

2.1 实验数据来源

本实验数据来源于国内外87个著名智库机构站点,共采集到45 492篇文章进行实验,采集到的文章发表时间从1975年3月~2019年8月。同时为了使实验数据更加集中,实验结果更有意义,本文选取关于nuclear、iran、afghanistan、iraq、african、korea、environment、korean、japanese、intelligence主题的智库文章进行实验。

2.2 阈值有效性

本文在1.1节中提出了采用欧式距离衡量两两文章间的特征向量的相似度,并采用设定阈值的方式,计算文章内容的影响量。相似度大于设定的阈值,则认为该文章与所对比的文章内容相似,两篇文章之间存在影响与被影响关系。

为了验证本文相似度阈值的有效性,本实验采用TextRank算法提取文章的关键词,并选取其中出现频率高的关键词或主题名词作为研究主题,如表1中所示的10个主题。同一主题下的文章内容在理论上会具有一定的相似性,实验通过高于相似度阈值所占的比例来判断阈值的有效性。通过计算该主题下的两两文章对数之间的特征向量欧式距离,来衡量两篇文章间的相似度,距离越小,相似度越高。由于environment主题涉及的文章内容相对比较广泛,因此数据较为不理想,小于等于阈值0.15的文章占比较低,如表1所示。而除了environment主题外,其他主题的文章距离小于等于阈值0.15的占比均在86%以上,距离大于0.15的文章占比在13%以下。在图2中,横轴表示文本距离阈值,纵轴表示文章对数,从图2中可以发现,文本距离在0.15左侧的文章对数更多,而当文本距离大于0.15的文章对数较少。因此,本实验将相似度阈值设为0.15。

2.3 影响力评估算法分析

本文提出了一种基于TextRank的多维度智库相互影响力评估模型,首先,通过TextRank算法提取文章特征向量,利用欧式距离衡量特征向量间的相似度,统计相似度高的文章数量并引入时间衰减因子作为文章内部影响量;然后计算主题流行度来衡量文章对外部環境热度的贡献量,作为文章的外部影响量;最后,将文章内部影响与外部影响结合作为文章的综合影响力。

一篇来源于卡内基国际和平基金组织发布的标题为“Iran Nuclear Propulsion:IAEA Firewalls”的文章,文章主要内容关于伊朗扩大核活动范围的计划的讨论[14],本文采用TextRank算法提取文章关键词后的结果如表2文章关键词提取结果所示。

如图3所示为本文第1.1节中引入的时间衰减因子函数图,从图中可以发现,在不同λ取值下,随着时间的增长,衰减系数不断减少,同时,λ值越大,衰减系数下降得越缓慢。为了更好地拟合智库文章随时间推移,文章影响力不断减弱的现象,本文实验选取λ=0.3。图3 时间衰减因子函数图

最后,通过结合基于相似度的文章内部影响量,与基于主题流行度的文章外部影响量,得到智库文章的综合影响力值,如表3所示为部分智庫文章综合影响力值示例。

内部影响值越大,说明智库中的其他文章与该检测的文章内容相似度越高;而外部影响值越大,说明该检测的文章对整体智库主题热度的贡献越大,即引发其他文章对同一主题的讨论和发布。《全球智库报告》[15],是美国宾夕法尼亚大学智库与公民社会项目连续第十一年为全球智库进行综合评价的权威报告,与表3中文章来源的智库机构进行对比,对比结果如表4,表中数据表示智库机构在相应的地区或研究领域的排名。

同时,这些顶级智库在其他领域均有上榜全球报告,例如,海因里希·伯尔基金会上榜最佳政党智库,加拿大国际治理创新中心、南非国际事务研究所、卡内基国际和平基金组织上榜国际发展顶级智库,加拿大国际治理创新中心、卡内基莫斯科中心、卡内基国际和平基金组织上榜具有突出政策导向的智库等。这些数据进一步说明本文提出的算法,能够有效计算智库文章的综合影响力值,具有准确性。

3 结论

本文提出了一种基于TextRank的多维度智库相互影响力评估模型,结合智库文章内容的相似度,时间的衰减因素以及文章对外部环境的贡献率多维度评估智库的影响力。本文的创新点在于,从智库文章本身内容的角度衡量文章的影响力,从文章与文章之间内容的相似性,计算影响力,更加符合实际分析。同时引入对外部环境的影响进行综合评估文章的影响力。实验结果表明:本文提出的智库影响力评估模型具有合理性和实用性,能够快速找出影响力较高的智库文章,具有一定的实用价值和指导意义。

参考文献:

[1] 上海社会科学院智库研究中心项目组,李凌.中国智库影响力的实证研究与政策建议[J].社会科学,2014(4):4-21.

[2] 朱旭峰.“思想库”研究:西方研究综述[J].国外社会科学,2007(1):60-69.

[3] 王莉丽.旋转门:美国思想库研究[M].北京:国家行政学院出版社,2010.

[4] Trimbath S.Think Tanks:Who's Hot and Who's Not[J].The International Economy,2000,14(5):10-47.

[5] Leeson P T,Ryan M E,Williamson C R.Think tanks-MyScienceWork[J].Journal of Comparative Economics,2012,40(1):62–77.

[6] 金晨.我国高校智库影响力及其提升研究——基于一流高校智库的分析[J].中国高教研究,2019(7):63-69.

[7] 邱均平.网络计量学[M].北京:科学出版社,2010:182-183,185.

[8] 黄开木,樊振佳,卢胜军,等.基于链接分析法的中美智库网站比较研究[J].情报理论与实践,2014,37(11):129-133.

[9] 金芳,孙震海,国峰,等.西方学者论智库[M].上海:上海社会科学院出版社,2010:13-27,89-93.

[10] Richard Messnarz,Andreas Riel,Gabriele Sauberer.Forming a European Innovation Cluster as a Think Tank and Knowledge Pool[C].European Conference on Software Process Improvement.Graz:Springer International Publishing,2016.

[11] Pautz,Hartwig.British Think-Tanks and Their Collaborative and Communicative Networks[J].Politics,2014,34(4):345-361.

[12] Mihalcea,Rada,Tarau,et al.TextRank:Bringing Order into Texts[C].Proc Conference on Empirical Methods in Natural Language Processing.Barcelona:Association for Computational Linguistics,2004.

[13] Li L,Zheng L,Yang F,et al.Modeling and Broadening Temporal User Interest in Personalized News Recommendation [J].Expert Systems with Applications,2014,41(7):3 168-3 177.

[14] Mark Hibbs.Iran Nuclear Propulsion:IAEA Firewalls [EB/OL].(2017-01-04)[2020-09-01]http://carnegieendowment.org/2017/01/04/iran-nuclear-propulsion-iaea-firewalls-pub-66603.

[15] 韦路,李佳瑞.2008-2018全球智库发展变迁及对中国媒体智库的启示[J].当代传播,2019(5):4-9,49.

[责任编辑:郑笔耕]

猜你喜欢
相似度智库影响力
书讯:《新型智库质量提升与国家治理现代化》
My Hobby
改进的协同过滤推荐算法
模糊Petri网在油田开发设计领域的应用研究
相似度算法在源程序比较中的应用
你凭什么影响别人
影响母线负荷预测的因素及改进措施
2015中国最具影响力10位商界领袖
新型智库不能有“库”无“智”
3.15消协三十年十大影响力事件