基于影响力的学术评价体系探析

2020-03-02 14:42许思娴

江苏科技信息 2020年14期

许思娴

（南京工业大学，江苏南京 210009）

0 引言

影响力这一指标在学术评价中的关注度历来较高，但其概念的内涵尚无一个清晰且普适的定义。美国心理学家罗伯特·B·西奥迪尼（Cialdini，R.B.）［1］认为，影响力是一种以他人愿意接受的方式去影响其认知观念和行为表征的能力，个体创新的影响力对其行为表征产生重要作用。影响力评价能够筛选出领域内的重点研究机构和核心学者，引导正确的科研方向，提升研究参与者的积极性，促进科研竞争良性发展，因此这一课题在学界的关注度历来较高。国内外学者基于机构、学者、期刊、学术论文等对象的影响力进行过大量的指标分析和体系构建研究，以下主要就学者及其学术成果，从学术影响力和社会影响力两方面阐述影响力评价的研究现状及体系构建。

1 影响力评价方法的演进

1926年，洛特卡将著者与论文数量联系起来，在《科学生产率的频率分布》一文中提出了被称为“洛特卡定律”的经验规律［2］，随后Gross等［3］在1927年开始从论文被引次数进行科研工作重要性程度评价，奠定了学者影响力的评价基础。但由于当时引用数据的获取难度较大，该方法较难投入实际应用，直到SCI问世后，被引次数才成为影响力评价中的最重要的指标之一。

1.1 影响因子

1955年，Garfield［4］在Science上发表文章，针对期刊的评价提出了影响因子IF（Impact Factor）指标，第一次用引文分析作为期刊评价的工具。1957年，美国科学信息研究所（Institute for Scientific Information）创办了《科学引文索引》（Science Citation Index，SCI）。SCI以布拉德福（S.C.Bradford）文献离散律理论和加菲尔德（E.Garfield）引文分析理论为主要基础，通过论文的被引频次等的统计，对学术期刊和科研成果进行多方位的评价研究，进而评价国家或地区、科研单位、学者个人的科研成果产出绩效，反映其在国际上的学术水平。此后针对SCI的研究大量涌现，影响因子成为影响力评价中的主导指标，其数值越高，期刊的影响力就越大。

被引频次评价具有广泛性、公开性、公平性和客观性的优点，在一定程度上能够表征期刊和论文学术质量的优劣，以及成果的学术地位和价值。然而，由于影响因子与学术质量间并非呈线性关系，在实践中又会受到学科领域、文献类型、出版时间、引用动机等的影响，这种绝对指标无法精确评价学术质量。2012年12月，由美国科学促进会（AAAS）牵头的75家机构和150多位知名科学家签署了《关于研究评价的旧金山宣言》（San Francisco declaration on research Assessment，DORA），呼吁学界停止使用影响因子评价学者贡献或作为招聘、晋升和项目资助等的评审条件［5］。

1.2 h指数

20世纪90年代之后，研究者们开始意识到过度依赖期刊的影响因子和引用次数导致的学术质量问题，并试图寻找新的指标改善现有体系的弊病。2005年，美国加州大学圣地亚哥分校的物理学家Hirsh［6］提出了混合量化指标h指数，将科研人员作为独立个体进行研究成果量化。根据他的原始定义，一名科学家的h指数是指其发表的Np篇论文中有h篇每篇至少被引h次、而其余Np-h篇论文每篇被引均小于或等于h次。

h指数综合考虑了论文数量和引用次数，一定程度上避免了自引的影响，比较好地表征了高被引论文的实际影响力，因此迅速成了影响力研究的热点指标。但这种方法同样存在着一定的问题，比如不能进行跨学科比较、过度依赖学术生涯时间、反映不了学者影响力的消退和下降等。为了弥补h指数存在的这些缺陷，学者们研究并提出了h指数的诸多变体，如m指数、e指数、Hmx指数、Hg指数、H（2）指数、A指数、R指数等，后续又提出了独立于h指数的扩展指数、适合评价不同学科领域的个人的扩展指数以及考虑合作者的扩展指数等大量评价指标［7］。

1.3 社会网络分析方法

随着科技进步和网络普及，大数据技术也逐渐应用到了学术评价中，作者合作网络和互引网络成为影响力评价的新热点。研究者们基于社群影响力（合著网络）和学术影响力（被引次数）进行了大量的影响力评价研究，提出了点度中心度、中间中心度、接近中心度和类PageRank算法等一众新方法［8］。

相比于传统的文献计量学，社会网络分析方法能够自动生成被引权重，从知识流通的角度评价学者影响力，对于分类评价有着促进作用，但在随机网络和大型网络中表现较差。

1.4 替代计量学

2010年，Priem等开始倡导替代计量学（Altmetrics）学术运动，在多年的指标发展之后，出现了包括摘要浏览量、点击量、下载量、图片浏览量、全文浏览量、馆藏量、书签数、评论数等在内的大量网络社会影响力指标，用以反映可见度、知名度和社会影响力，作为网络环境下学者科研成果的计量系统，受到了广泛关注和认可［9］。

该方法具有强烈的社会性、即时性、选择性和非传统性，在学术影响力的基础上同时能够反映社会影响力，打破了传统研究方法中基于引文数据存在的封闭和不透明问题，是当代科学交流新模式下的适应性创新。但在目前的网络社会环境中，由于数据比较容易被人为恶意操纵，加上国外认可度较高的网络指标国内获取受限，替代计量学真正替代传统文献计量学的路还相当漫长。

2 国内外影响力评价的实证研究

尽管影响力是学术评价的主流研究内容，但将影响力作为评价指标之一，大范围开展实践的国家和机构并不多。英国的卓越研究框架（REF）中单列了研究机构的对外影响力，指参评单元进行的科研活动对经济和社会等各阶层产生的广泛影响，评价标准是能否产生影响及影响的意义，权重为20%。在实际评估中，主要是通过案例展示的方式，由参评者填写影响力模板，并将相关数据、实例、指标等作为参考信息提供给专家。考虑到学科间科研活动的差异，REF将学科分为了四大类36个小组，允许参评者从健康和社会福利、社会、文化和创造力、经济和商业、公共政策和服务、生产、从业者和服务、环境、国际发展、其他（如公民社会、教育事业、公共话语权等，兼顾某些特定学科的研究产生的影响）等方面选择一个或几个方面来阐述影响力。这种案例结合模板的方式关注两个方面：（1）科研是否产生了影响；（2）影响的意义。前者关注广度和深度，后者关注强度。专家会整体评估参评者的影响力，最终给每项指标划分等级后加权平均，结果分为0～4星5个等级，分别代表影响很小或根本没有影响、影响认可但适度、影响可观、影响非常可观、影响杰出［10］。

加拿大人文与社会科学联合会也在加拿大国内的人文社科领域做过大范围的影响力评估，并形成了《评估人文与社会科学影响力的途径》报告。他们发现，出于学科和学术研究的多样性，加上“影响力”本身定义不详，学者的创造力和探索成果给社会带来的影响很难界定，有些影响可能是学者本人都不曾料想的，也有些影响可能要等上几年甚至几十年才能显现。除了研究人员，成果使用者、研究合作者、社会受益者也都处于影响的波及范围，但在评估实践中，很难收集到所有人的长时反馈。这也导致加拿大学界对于影响力的评估结果存疑，受到“学术测不准”不确定性的影响，很多学者认为范围狭隘、灵活性不足的评估体系不利于难以用简单量化指标来评估影响力的研究学科［11］。

我国早在20世纪90年代已经开始关注影响力相关的课题，但2000年后才有比较系统的研究。关于影响力的评价主要分成两个方向：一部分研究采用文献计量的方法，从发文量、被引次数、平均被引次数、h指数、基金论文、学术迹等角度，针对学术成果和学术期刊展开的有关学术影响力的讨论［12-14］；另一部分则从公关价值出发，以学术职业类别、导师级别、职称级别、社会网络知识图谱等衡量学者的学术地位，进行社会影响力的评价［15-16］。近几年，随着替代计量学的出现和大数据技术的逐渐成熟，一些研究开始糅合学术影响力和社会影响力，对学者的综合影响力进行评价［17］。但总体来说，国内的影响力研究偏向单一计量指标和社会网络图谱，比较多地集中在某个指标的概念和相关性研究上，少有对于指标体系的研究，且评价对象多是科研成果，尤以学术论文占据的权重最高，在一定程度上存在着重学术影响力、轻社会影响力的问题，忽略了优秀的学者和学术成果对于经济社会和工业产业的贡献和影响。

3 基于影响力的学术评价体系

3.1 影响力评价指标的演进

3.1.1 传统文献计量学指标

在影响力的评价指标选择问题上，前人做了大量的工作，很多得到广泛认可的指标也不断被改良和修正。传统的计量指标主要是基于科研成果的文献计量，尤其是引文分析，佐以少数荣誉类指标如学术任职、学术奖励等，一些创新型人才评价指标中会增加知识产权相关指标。

传统的文献计量学指标集合包括论文总数、引文总数、篇均被引数、重要论文数及其被引次数、期刊影响因子等，数据相对来说比较容易获取和统计，也就比较容易被操作，因此后续又有学者提出引用应当是在论文中实质性“被提及”、作者个人贡献需要单独计算、重点衡量高被引论文、加权引用等观点对上述指标进行细化和补充。但由于这套指标体系无限放大了学术论文的数量效应，忽略了学术论文的质量和学科间的差异性，引发了大量科研人员的反对。

h指数以及它的扩展指数如w指数、g指数、f指数、t指数、Ga指数、grat指数、n指数、Normalized h指数、hf指数、x指数、Alternative h指数、Hp指数、Hm指数、hap指数等在影响因子遭到批判后得到了一定的发展和推广。h指数及其扩展指数兼顾论文的质量和数量，计算方法也适应大数据技术，相比传统的文献计量学指标有着一定的优势，但也存在着诸如无法侦测学术影响力波动、无法确定团队影响力分配、缺乏区分度等的问题。另一类基于大数据技术的影响力指标是谷歌的PageRank及其衍生出的AuthorRank，LeaderRank等，这些关联型指标主要考察学者之间的引用和合作关系。

为了消除学科的影响，又有学者提出了皇冠指数和新皇冠指数，即领域篇均引文率和标准化引文比分，但这种基于算术平均的引文指标也遭到了一些诟病。同时，由于指标之间存在着一定的相关性，例如论文总数会影响引文总数，也导致一个参数的改变会同时影响两个以上的指标，不利于构建公平、客观的影响力评价体系。

3.1.2 基于社会网络的计量学指标

随着网络技术的普及和数据技术的革新，2008年前后，一种基于社会软件的分布式科学评价出现，随后这一评价方法被不断改进，用于测试学者在线研究行为的外部有效性水平。这种方法被命名为Altmetrics，国内将其命名为替代计量学，也有文献翻译成选择计量学或补充计量学。国外学者基于替代计量学指标开展的实证研究最早是基于Twitter等社交网络，后来认为Twitter的用户群体、情境等不能有效反映学术影响力，现在多采用Mendeley作为数据源。国内现有的实证研究不多，主要是分析Plum Analytics和Mendeley上的数据，从基于网络的社会影响力指标出发，涵盖点击量、下载量、书签数、链接数、评论数、合作者数等网络资源传播、获取、利用的常规指标，一些深入分析也会从大数据分析的点度中心度、中间中心度、接近中心度等社会网络分析指标考察学者影响力。但是目前替代计量学在国内还难以推广，主要的问题是国内没有大型的替代计量学工具。一些研究采用新浪微博作为数据源，往往遭遇和国外研究Twitter同样的问题，且由于新浪微博的普及率和真实度远低于Twitter，对于影响力客观评价的干扰更加严重。虽然国产替代计量学工具的开发势在必行，但从开发、推广、使用到获取数据都需要一定的时间积累，替代计量学作为影响力评价的参考指标在国内普及还有很长的路要走。

3.1.3 同行评价指标

目前来说，计量学指标在影响力的评价中还是占据主导地位，但受到主流学术评价方式的影响，同行评议指标也逐渐出现。国内的一些实践中就将学历、荣誉、教学等项目纳入评价体系，主要从毕业院校、学科专业、学历等级、人才项目、荣誉岗位、学术奖励、学生培养、授课语言等方面综合评价学者影响力。此外，基于学术成果的“开放同行评议”概念也逐渐兴起，不少学者以F1000和WoS作为平台开展了一系列实证研究，并认为开放同行评议内容的定性评价涉及了传统评价方法尚未涉及的层面［16］，不过这种评价方式在国内面临着和替代计量学相同的推广问题。

3.2 基于影响力的学术评价体系构建

关于影响力的学术评价指标体系目前已有较多研究：杨国梁等［17］主张以自然学科、社会学科、工程学科划分，从科研成果的产出数量、投入产出效率和质量3个维度综合评价机构和学者的影响力；李蒙等［18］通过追踪调研智库人才，得到咨询决策贡献、学术贡献、社会传播、国际智库合作4个一级指标，然后选取影响力因子中荷载较高的因素作为下级指标，对智库人才进行分层；王妍［19］从学术影响力和社会影响力两个方面构建了二维测度方法模型，选取摘要浏览量、全文浏览量、下载量、点击量、Mendeley添加量、Facebook评论量、喜爱量、Facebook共享量、Google+量作为社会维度指标，选取总被引频次、篇均被引频次、h指数作为学术维度指标，将两类指标因子投射在直角坐标系中，将学者落位划分在“名家”“明星”“专业”“普通”4个象限中；王菲菲等［15］则从学术文献影响力、学术合作影响力、学术引用影响力、社会影响力和网络社区影响力5个维度筛选出21个二级指标，利用天际线算法对学者进行综合影响力评价。综合来看，各个学者所采用的指标和分类有着比较大的差异，从不同角度展开的体系构建有着明显的区别，不同学者选择的指标之间甚至存在一定的冲突。

此外，不同学科行业认可的影响力评价标准也有很大区别，比如工科类人才的影响力评价指标与上文所述传统计量学和新兴社会网络评价指标截然不同。以李瑞等［20］针对典型工程技术类高层次创新型科技人才开展深度访谈后提出的评价指标体系为例，他将学界影响力、业界影响力、社会影响力作为3个主要指标，以学术任职情况、获得工程技术类奖励、自主知识产权转化的数量和经济效益、对产业结构优化和产业技术水平提升的影响、技术性服务收入情况、自主知识产权转化的社会效益、传播工程技术知识的能力等作为二级指标，对工程技术类高层次创新型科技人才的引进、培养和管理提供参考。

基于影响力的学术评价指标体系和基于贡献力的学术评价指标体系相似，都需要对评价对象进行分类，针对不同学科不同专业的学者，应当科学设置同行评议及计量学指标，合理分配多种评价方式的权重。同时，由于影响力存在一定的滞后性，一些成果的影响力要数年乃至数十年才能显现，更需要重视中长期目标导向，选择比较久的考核周期，避免促成急功近利的学术氛围。

4 基于影响力的学术评价体系的实践局限性

国内关于影响力的研究成果不在少数，但与国外的影响力研究相比，还停留在传统计量学指标拼图和h指数的改进上，PageRank算法改良、替代计量学、开放同行评议等方面的成果不多，基于后三者的评价体系构建更是少之又少。同时，国内的网络环境较为闭塞，缺少一些基于社会网络的新兴指标数据，也导致替代计量学研究在国内比较难以推广。而在目前国内高校的实践中，影响力的评价几乎完全等同于引文水平和影响因子，因为其他成果形式的影响力难以衡量，国内实践只关注学术论文，连专著和专利都被排除在外。另外，在高校实际的绩效考评中，评价对象普遍存在成果数量少、影响力不高的问题，加上国内学术论文多有署名不规范、虚假贡献、消极引用等现象，也导致很大一部分对于影响力的学术评价体系研究沦为纸上谈兵。

5 结语

影响力评价是近年来国内外学术评价研究的发展趋势。在当前，我国的学术评价已经过了追求数量的年代，随着科技和经济实力的整体提升，学术科研对经济和社会的影响更应该得到重视。我们需要尊重不同学科的特点，具体问题具体分析，因地制宜，科学设计不同的方法和标准，分类评价不同种类人才的影响力。