数据科学驱动下ESI潜力学科入围预测方法的实践探索

2019-12-04 02:18:14
中华医学图书情报杂志 2019年8期
关键词:象限潜力论文

自我国提出建设世界一流大学和一流学科(简称“双一流”)目标[1]以来,ESI(Essential Science Indicators,基本科学指标[2])就与“双一流”学科建设就产生了千丝万缕的联系。2016年的第四轮学科评估工作中,教育部首次明确要求使用ESI作为衡量学术产出水平的重要指标。之后,各地对ESI学科发展进行定期的动态跟踪,ESI及其相关分析越来越受到政府部门、各高校、科研机构的关注和重视。目前,ESI已成为全球反映学科论文质量、体现学科竞争力和影响力的权威工具,并把学科能否进入ESI全球前1%作为评价学科水平高低的重要标准之一[3]。

1 数据与方法

通过检索维普期刊全文数据库、中国知网(CNKI)的期刊全文数据库、万方期刊全文数据库3个国内知名数据库进行文献调研[4],使用“ESI”合并“预测”或“趋势”作为检索入口词,不限定检索年限,发现我国对ESI学科的预测分析从2011年开始,近二三年通过文献计量学和情报学等研究方法对学科趋势进行预测分析比较活跃,截止到2019年7月20日,此类论文约有20余篇。其中,“学术机构入围ESI前1%学科时间的曲线拟合预测方法研究[5]”“基于ESI和InCites的高校潜力学科发展预测[6]”以及“基于ESI的潜力学科预测模型修正和实证分析[7]”等3篇论文均在业内具有较高的关注度和影响力,但增加合并“暗数据”或“dark data”后只发现1篇相关文献。从检索结果可知,在文献报道方面,国内对此研究接近空白。

“双一流”建设需要放眼全球,定位不仅仅是国内的同行,还有世界一流高校及其优势学科,涉及的成果数已经达到大数据量级。已进入ESI全球前1%的研究机构的学科情况是直观可见的,可通过直接登入ESI数据库检索获得,但尚未进入的潜力学科则是不可见的,笔者将其定义为“暗数据”范畴。从分析的广度来看,符合“暗数据”作为大数据主体的数据分析量[4]。

潜力学科需要联合使用ESI数据库的阈值(图1)和InCites数据库的数据进行合并计算,才能估算出该机构某学科进入ESI全球前1%的可能性。从分析的深度来看,该过程则可看作是“暗数据”的可视化分析。

本文以“暗数据”可视化分析与ESI潜力学科入围全球前1%的趋势预测的耦合关系作为主要研究对象,通过对ESI学科数据定期抓取与分析,合并使用WOS-SCIE、InCites、ESI、SQL数据库,联用SWOT分析法、文献调研法和回归分析法等进行文献计量学分析,实现机构学科潜力全景分析,构建潜力学科入围所需论文篇数的线性预测公式,并分别从绝对指标和相对指标的不同维度搭建入围预测的绝对指标和相对指标2个数据模型,尝试对ESI潜力学科进行态势分析与趋势预测,从绝对指标和相对指标的不同维度归纳合理或通用的预测方法,为更好地挖掘未来发展潜力学科提供高效且通用的预测方法,为进一步研究“双一流”学科建设提供参考依据和经验借鉴。

2 结果与分析

首先通过SWOT进行某机构当前学科的全景分析,寻找其当前最具发展潜力的1个或多个潜力学科,然后确定具体分析目标并实施下一步的潜力深挖。考虑到潜力学科的测算数据主体主要来源于InCites数据库,并通过对某机构一定时期的数据动态跟踪分析积累数据样本,分别从绝对指标和相对指标的不同维度尝试探寻入围预测方法的规律性。

2.1 学科发展潜力全景分析

从SWOT分析的角度定量研究ESI学科发展优、劣势预估分析。图2中,X轴以Web of Science论文数表示,为绝对指标;Y轴以学科规范化引文影响力(CNCI)表示,为相对指标,它表示机构某学科的文献产量占该机构文献总产量的比例除以全球该学科的文献产量占全球文献总产量的比例的比值。这是一个均一化指标,排除了出版年、学科领域与文献类型的影响,是反映质量和效率的指标。如果CNCI值等于1,说明该组论文的被引表现与全球平均水平相当;如果CNCI值大于1,表明该组论文的被引表现高于全球平均水平;如果CNCI值小于1,表明该组论文的被引表现低于全球平均水平。Y轴揭示了机构在各学科的相对科研产出是否高于全球平均值1的水平,图中每个圆圈的面积大小表示22个ESI学科的被引频次多少。由于学科、年代的不同,被引频次的高低没有直接可比性,故引入归一化的CNCI。因而,图2表示在发文数量和引用影响不同的状态下,体现各个学科在归一化之后的影响力差异比较。

图2 某研究机构22个ESI学科SWOT分析

图2中右上角的第一象限代表优势(Strengths),该区域的学科文献产量占比高且具有高引文影响力;左上角的第二象限代表机会(Opportunities),该区域的学科文献产量占比较小,但相对于全球平均水平而言具有较高的引文影响力。这两个象限的所在学科都是该机构当前发展关注的重点对象,也是对潜力学科进行深挖掘的关注区域。从图2中也可以看出,基于目前的数据和4个象限制定的规则来看,位于优势学科区域的分别有临床医学、分子生物与遗传学、药理与毒理学3个学科,其论文产出占比和引文影响力均超过了全球平均水平;而第二象限的免疫学、精神病学2个学科已比较接近第一象限,虽然这些学科的产出绝对数量较少,但其引文影响力均超过了全球平均水平1,未来可能转化为优势学科的机会较大。它们都可为学校未来的规划提供更为合适的建议和本机构未来发展规划的重点关注对象。此外,图2左下角的第三象限的ESI学科,由于发文量较少,CNCI被引表现也尚未达到全球平均水平,属于潜力较弱的学科(weaknesses);而位于右下角的第四象限的学科虽然文献产量较高,但影响力表现也尚未达到全球平均水平,属于受到威胁的学科(threats)。位于这2个象限的学科,由于其学术水平均较低,对于本文对潜力学科的确定分析相关度不大,因而在此不再赘述。

2.2 线性预测公式

ESI潜力学科当前所需该学科论文篇数的线性预测公式如下:

(公式1)

公式中,Pi表示所需新增论文数,Xy表示该学科进入全球前1%被引的阈值次数(图1),Xi表示某机构该学科当时已达到的被引次数,Yi表示某机构该学科的篇均被引次数。

明确学校当前的学科发展潜力后,则对第二象限重点关注的潜力学科做进一步的预测研究,可通过预测公式(公式1)估算。但此公式是按照ESI对近10年收录论文规律的统计,并按照当前的发展速度进行推演的。实际上,新出版的论文一般在出版2-3年后才进入引用高峰期,“新增论文的被引次数”往往低于作为分母的“某机构该学科的篇均被引次数”,而且该公式并未考虑现有论文的被引次数继续增加的情况。所以所需新增论文数与实际存在一定的差距[5],只能作为粗略估算的摸底尝试。

2.3 绝对指标模型

目前,各机构更多关注的是该潜力学科需要多长时间才能进入ESI全球前1%。对于这个时间长度问题,笔者根据近年来从InCites数据库定期更新并抓取下来的潜力学科数据寻找规律,利用回归算法绘制入围时间预测的拟合趋势模型,形成图3的绝对指标预测模型。

图3 回归算法预测潜力学科入围时间趋势模型

图3是以广州医科大学药理与毒理学ESI学科为例,于2017年底至2018年初建立了该学科的预测模型。该模型通过进一步修正误差得到量化的入围差距,充分考虑到每年5月份ESI与InCites数据库将对统计周期进行滚动10年的特定年份进行割舍,从而造成阈值预估值显著下调等客观因素影响。

从图3可以看出,蓝绿色线条代表该学科进入全球前1%的阈值变化和预估值变化情况,紫色线条代表该学科被引频次的预估值变化情况,2条线的预测公式如下。

y=15.612x+3076.9,R2=0.3301

(公式2)

y=108.82x+2100,R2=0.7858

(公式3)

两条曲线的相交点对应于2019年3月至5月之间,因而推断广州医科大学药理与毒理学ESI学科的入围时间预计为2019年上半年[5]。经过与实际情况验证,预测时间与实际入围时间完全相符,广州医科大学的药理与毒理学ESI学科在2019年3月份如期入围。

2.4 相对指标模型

某机构的学科进入ESI意味着它在某学科的总被引频次达到全球的前1%。这是一个相对指标,表示某学科论文的总被引频次与阈值的比值是较常用的标准化测算方法。在积累了一定时间段机构学科数据的前提下,具有一定的合理性,能比较合理地描述尚未入围的潜力学科与已入围的ESI学科的接近度。

图4是以广州医科大学分子生物与遗传学ESI学科为例建立的入围预测的相对指标模型,数据样本从2016年9月至2019年7月,3年共18个周期[8]。

从图4中可见,红色曲线为分子生物与遗传学ESI学科每个周期与阈值比对后得出的入围可能性,蓝色直线为修正偏差后的预测趋势线,两条线的相交点对应于2019年11月之后,因而推断广州医科大学分子生物与遗传学ESI学科的入围时间预计为2020年初,今后将进一步关注和验证。

图4 潜力学科入围预测的相对指标模型

3 讨论

由于数据主体均为预估值,因而误差的存在有一定的必然性,主要涉及以下3方面的原因。

3.1 数据统计源的客观偏差

ESI学科论文总被引频次的统计来源为SCI-E、SSCI 和A&HCI数据库;而在测算过程中使用的InCites数据库统计范围更广泛,除了来自上述3个数据库的被引频次外,还包含来自CPCI-S、CPCI-SSH、ESCI等其他数据库的被引频次[6],无法通过检索操作简单区分。因此,通过InCites数据库统计的潜力学科总被引频次可能比实际阈值稍大,在预测模型中的测算值将略高于实际数值;同时ESI和InCites数据库由于更新频率的步调并不完全一致,导致统计时所截取的时间轴长短也并不完全吻合;此外,数据样本的多寡也会影响模型曲线走势描摹的精准度。它们都可能对潜力学科的入围预测带来较难避免的客观因数误差。图3和图4分别是对2个不同的ESI学科进行较长时间的数据跟踪和抓取分析而绘制的,尤其是图4的分子生物与遗传学,经过3年左右的历史数据积累,呈现较直观的一元线性回归模型。通过拟合分析发现以上2个ESI学科的数据分布均呈现出线性趋势。虽然这经过了实践的初步检验,但仅能体现有限范围的短期预测效果。今后我们将对更多的ESI学科数据做进一步的动态跟踪和拟合分析,对是否符合线性发展趋势做更深入的尝试。

3.2 人才流动或政策引导变化

根据以往的数据分析可以看到每个机构的发展都不尽相同,当机构的指导政策或人才队伍发生变动时,可能会影响机构整体或个别学科的发展。如当引入某一优秀人才团队或者发布一些相关激励措施时,可能会在短时间内迅速提升机构某学科的影响力;反之,某一高水平科研人员/团队离开时,也可能会造成进入该学科前1%的速度放缓。

3.3 高水平论文或期刊的学科归属变动

实际上,是否入围ESI只以被引频次高低这一单一指标作为依据,在使用时较容易受到高水平论文(即高被引论文或热点论文)的影响。如果ESI学科论文所属期刊的ESI学科归属有所调整,如有新的期刊进入该学科或另一些期刊从该学科被剔除出去时,该学科的阈值发展就会变得难以预测。而图3和图4中的设定是在假设该学科期刊收录量不变的前提下,对未来的阈值数据进行大胆假设而形成的趋势模型。

4 结语

入选ESI与否只是一个结果,实现它的方法、过程和途径既是本文研究的立足点,也是实施“双一流”建设以来一直受到关注的热点议题之一。在预测方法的实践探索中,其数据主体均为预估值,误差的存在有一定的必然性。这既受到数据统计源的客观偏差、人才流动或政策引导变化、论文或期刊的学科归属变动等众多客观因素的影响,也受到构建模型或研究方法等各种主观因素的干扰。虽然本文对2个不同的ESI学科进行了较长时间的数据跟踪和抓取分析,部分学科经过3年左右的历史数据积累,呈现出较直观的一元线性回归模型,也经过了实践的初步检验,但仅能体现有限范围的短期预测效果。今后我们将对更多的ESI学科数据进行进一步的动态跟踪和拟合分析,对是否符合线性发展趋势做更深入的尝试。

这项工作能够协助领导决策层、科研管理人员实时跟踪本机构的研究产出和影响力,并将研究绩效与其他机构甚至是全球的平均值进行对比,发掘机构内学术影响力较高或具备发展潜力的研究人员,挖掘潜在的科研合作机会[9]。今后,在进行学科影响力估算和预测时,除了探索文献计量学等较直观的定量方法外,还应结合更多维度的其他评价指标,如南京大学叶继元教授课题组“全评价”分析框架等[10],实现定量与定性分析的兼容并蓄,寻求对学术评价更全面、更客观、通用和可靠的可视化分析方法,助力“双一流”建设,探寻决策咨询等深层次信息服务的新一轮飞跃。

猜你喜欢
象限潜力论文
复数知识核心考点综合演练
基于四象限零电压转换PWM软开关斩波器的磁悬浮列车
电子测试(2018年11期)2018-06-26 05:56:04
潜力榜
平面直角坐标系典例分析
PPP模式怎样发挥最大潜力?
中国卫生(2016年7期)2016-11-13 01:06:32
学习潜力揭秘
12星座
创新思维竟赛
下期论文摘要预登
下期论文摘要预登