孙劲楠,丁佐奇,2*
(1.中国药科大学 理学院,江苏 南京 210009;2.中国药科大学《中国天然药物》编辑部,江苏 南京 210009)
科研人员是科学研究过程中最重要的因素,对科研人员学术水平的评价不仅关系到对其研究成果的认可程度,也关系到其自身后续的发展。一个严谨、科学的评价体系既有助于高校、科研院所建立切实可行的奖励、晋升体系,又可以充分调动科研人员的积极性。
中共中央办公厅和国务院办公厅于2018年发布的《关于分类推进人才评价机制改革的指导意见》中明确提出要对人才评价体系进行改革、实施代表性成果评价等内容。据此,代表作评价制度受到了广泛的关注,国内的学者也提出了很多针对性的建议[1-3],但是针对代表作制度也存在很多的质疑。代表作制度的主要问题集中在代表作认定、评价标准和具体实践上[4]。现今对代表作的认定还没有一个公认的标准和方法,并且由于学科的特殊性使得不同学科的代表作认定存在差异,这无疑增加了标准制定的难度。
在文献计量学方面,研究人员利用引文、出版物和其他指标评估科学家的学术表现与学术影响,并通过不断改进完善评价指标优化评价体系。常用的指标包括被引量、学科规范化引文影响力(Category Normalized Citation Impact, CNCI)和期刊规范化引文影响力(Journal Normalized Citation Impact, JNCI)。但已有研究表明基于引文的指标在衡量个别学者的整体学术影响存在某些方面的局限性:由于基于引文的指标极易被认为存在着操纵(自引、不正当引用等行为)、高度依赖时间积累等问题,造成其无法可靠反映学术成果实际影响、不能作为学者科学影响力的唯一指标[5]。而随着互联网和社交媒体的快速发展,利用各种网络平台进行论文的获取、分享与传播已成为当前学术交流的主要形式,替代计量学(Altmetrics)应运而生,其评价指标主要基于用户对文章的下载、分享、阅读、评论等行为。而对于替代计量学能否作为评价指标存在着一定的争议,一些学者认为替代计量学的指标仅能反映的是论文的社会关注度和受欢迎程度而非对社会经济的影响[6],同时因替代计量学缺少成体系的理论而受到了较多的质疑[7];另一些学者认为,替代计量学指标通过社交媒体网络的应用反映了研究成果的社会和经济影响[8],并且由于其提供了一种具有广泛性、多样性、高速性、开放性的新方法来参与对研究的衡量工作,可以及时跟踪学术成果对社交网络平台的影响。无论是文献计量学还是替代计量学指标都存在着一个先天缺陷,即引文周期。两类指标数值的增加需要依赖时间,这就导致高质量的研究成果无法立刻识别。因此,陈超美博士于2012年提出了基于参考文献的结构变异模型(Structural Variation Model, SVM),并在此基础上提出了结构变异分析(Structural Variation Analysis, SVA)[9]。该模型通过文章的参考文献构筑引文网络,借助引入某一文章后的引文网络变化筛选出具有潜力的文章,已达到提前选取高质量研究成果的目的。一般来说,科研人员的研究工作存在着连贯性,基于引文网络结构变化的SVA筛选出的文章能够筛选出对连贯性“突破”最大的研究成果。因此,该方法筛选出的文章可以定性认为是某一科研人员的所有研究成果中最具创新性的文章,而这一筛选代表作的思想同国家于2020年底发布的《“双一流”建设成效评价办法(试行)》中提到的“强调成果的创新质量和贡献”这一科研成果评价的思想不谋而合[10]。
因此,本研究提出以下问题作为研究重点:使用SVM能否有效筛选出科研人员的创新性文章?不同性别的科研人员在综合评价体系中是否存在差异?不同年龄段的科研人员在综合评价体系中是否存在差异?基于这些问题本研究将重点关注C高校药物化学领域教授的科研论文在经过SVA法筛选后的文献计量学指标,以分析该方法在性别及年龄层次上是否存在显著性差异,以期为代表作选取提供建议。
由于本研究将年龄层次纳入分类标准,考虑到一般意义上博士研究生是每位科研人员独立科研工作的开始并且需要一定的时间积累才能产出较为高水平的研究成果,因此设置了学术年龄 5~10年、11~15年、16~20年三个年龄层次。学术年龄是指在其在C高校工作后在WoS核心合集中能够检索到的最早文章出版年到2021年的时间差。考虑到数据的代表性,共选取了24位教授,其中男性15位、女性9位。各年龄组情况见表1。
1.2.1 SVA法
由于CiteSpace中可以直接完成SVA法选取代表作的操作,因此,在WoS核心合集中以教授姓名和高校名称为标准检索其发表的所有文章,作为元数据集。将各教授元数据集导入 CiteSpace中,选择SVA法,时间区间为2011.1~2021.12,Node Type为Reference,以1年为跨度滑动窗(1-year span sliding windows),进行分析。选取中心性发散(centrality divergence)值最高的两篇文章作为其代表作。
Table 1 Study subjects and the number of people in each group表1 研究对象及各组别人数
1.2.2 描述性统计分析及显著性检验
研究将主要分析筛选出的代表作的所属期刊影响因子、分区、发表年、作者人数等基本文献计量学指标,研究代表作被引量、影响因子在性别和各年龄组间是否存在显著性差异,以及文章作者人数和被引量、影响因子间是否存在相关性。因此,将提取各教授元数据中的作者人数、被引量、期刊影响因子、分区、出版年等指标。
由于被引量、影响因子的分布不呈现正态分布,因此显著性选用曼—惠特尼 U检验(Mann-Whitney Test)和克鲁斯卡尔—沃利斯检验(Kruskal-Wallis test)作为检验方法,相关性检验采用皮尔逊相关性检验(Person)。P值小于0.05即认为存在显著性。所有的检验均在SPSS 19中完成。
1.2.3 数据检索时间
为避免数据库更新导致的误差,所有的检索工作均于2021年11月20日完成。
由于本研究仅探讨SVA法用于代表作筛选的实用性,因此没有区分是否为第一作者或通讯作者,进而选取出的代表作可能存在重复。筛选出的48篇代表作中有2篇重复,因此共计46篇文章。
从被引量看,46篇文章的被引量从0~161次不等,均值为27.30次。除1篇被引量在100以上外,32篇在10~100之间,13篇在0~9之间。从影响因子看,影响因子从1.652~15.419不等,均值为6.321。17篇文章影响因子在5以下,占比37.0%;22篇文章影响因子在5~10,占比47.8%;7篇文章影响因子在10以上,占比15.2%。从期刊分区看,29篇文章发表于Q1期刊上,16篇发表于Q2期刊上,仅有1篇发表在Q3期刊上。从JNCI看,46篇文章的JNCI从0~4.32不等,均值为1.09,其中有19篇JNCI值大于1超过全球平均水平。从CNCI看,46篇文章的CNCI从0~6.31不等,均值为1.49,其中有28篇文章CNCI值大于1,超过全球平均水平。从学科领域百分比看,46篇文章从0.71%到99.92%不等,均值为34.35%,其中有20篇位于该领域的全球前20%,8篇位于全球前10%。由于引文指标受到引文周期的较大影响,因此发表于2021年的文章基本没有任何指标积累从而表现为0次被引、JNCI和CNCI值为0。引文指标结果共同表明,基于创新性的SVA法能够筛选出教授的高学术价值研究成果。
从发表年看,46篇文章的时间跨度为2012~2021年(见图1)。其中发表于2018年的文章数最多,为11篇。近五年发表的文章数为23篇,占比50.0%。发表年的数据表明,SVA法能够筛选出较新的研究成果,这也符合代表作筛选的基本原则。从作者数量上看,46篇文章的平均作者数为7.95人。由5位及以下作者完成的文章为9篇,6~10位作者完成的文章为31篇,11位及以上的作者完成的文章数为6篇。统计结果表明,科研人员倾向于合作完成科研工作。
为了进一步阐明经过SVA筛选出的代表作能够基本反映科研人员的科研能力,进一步分析了46篇文章的被引量、JNCI、CNCI和学科领域百分位与每位教授的对应指标中位数之间的差异(见图2)统计图表明,从各项指标上看,经过SVA法筛选出的代表性研究成果总体上优于各教授的平均水平。46篇文章在被引量、JNCI、CNCI和学科领域百分位中分别有14、18、15和15篇低于对应教授指标中位数。进一步具体考察各指标中低于中位数的文章的情况,被引量小于其中位数的14篇文章中有9篇被引量和其中位数差值小于5次,最小为1次;JNCI小于其中位数的18篇文章中有11篇JNCI和其中位数差值小于0.35,最小为0.02;CNCI小于其中位数的15篇文章中有7篇CNCI和其中位数差值小于0.35,最小为0.03;学科领域百分位小于其中位数的15篇文章中5篇差值小于10%,最小为1.57%。考虑到46篇文章中有20篇文章发表于2018年及以后,由于引文周期的存在导致其被引量的积累尚不够,JNCI、CNCI、学科领域百分位都是被引量的衍生指标,从而表现出了和被引量类似的分布情况。因此,总体上基于创新性的SVA法能够筛选出科研人员的高水平研究成果。
Fig.1 Published year distribution of representative works图1 代表作发表年分布
Fig.2 Comparison of each index value with the median (arranged according to the descending order of percentile in the subject area)图2 各指标值与中位数对比(依照学科领域百分位降序排列)
由于显著性和相关性检验是针对单篇文章的,因此在该部分研究中并未排除重复的两篇文章。
针对性别间的差异性检验表明(见表2),筛选出的代表作在被引量(P=0.953>0.05)和影响因子(P=1.000>0.05)间均不存在显著性差异。统计结果表明,样本教授的科研能力不存在性别上的显著性差异。
针对各年龄组间的差异性检验表明(见表3),筛选出的代表作在被引量(P=0.906>0.05)和影响因子(P=0.919>0.05)间均不存在显著性差异。统计结果表明,样本教授的科研能力不存在年龄上的显著性差异。
针对作者人数和被引量与影响因子的相关性检验表明(见表4),作者人数和被引量(P=0.715>0.05)、影响因子(P=0.343>0.05)间均不显著相关。统计结果表明,科研合作可能并不是提高文章创新性的有效手段。
Table 2 Significance test between different genders表2 不同性别间的显著性检验
Table 3 Significance test between different age group表3 不同年龄组间的显著性检验
Table 4 Correlation test between number of authors and number of citations, impact factors表4 作者人数与被引量、影响因子间的相关性检验
研究表明,基于创新性的SVA法能够较为有效地筛选出科研人员的高质量研究成果,并且不同性别、不同年龄组之间科研人员的研究水平不存在显著性差异。
3.1.1 有效地提前筛选出具有潜力的文章
在本研究中筛选出的46篇文章中,有20篇发表于2018年及以后,且有一篇发表于2021年。表现出了SVA法筛选优质文献的前瞻性。由于引文周期的存在,具有开创新的研究成果在发表初期可能不具备较高的文献计量学指标,这就可能导致采用被引量或其他计量学指标不能准确定位到此类文章。不同于传统的文献计量学指标,SVA法通过构建基于参考文献的引文网络,从参考文献的角度发掘具有高潜力的文章。其理论核心就是通过单篇文章对引文网络的“变构”程度,寻找到连接多个不同研究方向文章的“重点文章”。参考文献作为在论文完成时就已确定的内容,可以有效规避因为引文周期带来的指标差异,做到快速、有效地筛选出文章。研究发现,筛选出的文章大多发表于Q1或Q2期刊上,并且各项文献计量学指标总体上优于各教授的平均水平,部分文章甚至大幅超越平均水平,因此该方法在一定程度上达到了创新性和科学性的平衡。
3.1.2 无效引用造成的结果误差
由于SVA法的核心是从引用的参考文献出发筛选代表作,每一篇引用的文章都在此方法中发挥着重要的作用。但已有研究表明,科学界存在着大量的同质化研究,从而埋没了真正具有价值的研究成果[11]。同质化研究导致单篇文章的学术价值下降、从而影响了参考文献在文章中的价值。此外,由于科研论文需要回顾以往的相关研究,因此将会引用大量的科研论文,但是并不是每一篇文章都会对研究产生贡献。同时,已有研究表明,在文章投稿时期刊编辑会建议作者引用一定数量的目标期刊文章[12],此类文章可能和研究的相关性并不高,这同样会导致引用文章的价值下降。因此,如果文章中存在着一定数量的无效引用,将有可能影响到SVA法筛选的准确性。
3.1.3 数据集不足造成结果误差
SVA法的核心是分析对引文网络的“变构”程度,这种变构是基于引文网络已经存在一定规模的基础上的。倘若已经发表的文章的数量尚不能构成一个较为完整的引文网络,那么可能通过SVA法无法有效筛选出对中心性发散情况产生影响的文章。这一点在较为年轻的科研工作者的代表作筛选中可能会存在,进而造成无法有效筛选出其创造性的研究成果。
3.2.1 重视科学研究的创新性
什么样的学术论文是有价值的,一直是科研评价中无法绕开的关键问题。由于历史等多方面的原因,国内形成了“唯论文、唯职称、唯学历、唯奖项”的错误评价导向。这已经严重影响到了人才评价、机构评估等科学评价活动的良性发展。因此,基于代表作的科学评价成为了主要的替代方案。以何种方式选取代表作成为科研人员需要面临的最主要问题。代表作评价的特征在于突出质量、贡献和影响,注重“量”和“质”的平衡等[13]。这种定性表达导致科研人员在选取代表作时不能准确有效地选取出最能代表其科研能力的文章,往往大多选择在影响因子高的期刊上发表的文章,或是被引量高的文章,这类文章可能有较高的文献计量学指标,但也可能已经落后于时代,已不能反映出科研工作者现今的科研实力,反而不能实现代表作评价的初衷。所以,有必要采取基于创新性的代表作选取和评价模式,从而反映出科研工作者的实际科研能力。
科学研究的创新性包含多方面的内容,不仅在于新理论、新观点、新方法、新成果,也在于对已有研究结论的完善补充等多方面的内容[14]。基于创新性的代表作选取和评价模式将能够引导科研人员在科研实践中关注研究中的新问题、前沿领域、亟待突破的重点领域。这不仅有助于科研人员自身发表高质量的研究成果,也有助于国家创新水平的提升,真正解决在关键领域的“卡脖子”问题,从而发挥好科研评价的“指挥棒”作用。
3.2.2 形成完善的代表作评价体系
代表作评价的两个关键问题在于,如何选取代表作和如何对代表作做出客观准确的评价。两者是遥相呼应、相辅相成的。代表作的选取要参考评价标准、评价标准的确立要以选取代表作的指导思想为参照。基于创新性的代表作选取模式,要求对于代表作的评价需要从科研成果的创新性评价展开。
目前,我国采取的代表作评价方式是以定性评价为主、定量评价为辅的综合评价模式。定性评价主要是指同行评议,定量评价则是基于多种文献计量学指标开展的。但实践工作中面临着诸多问题,例如有学者认为我国目前尚未形成真正意义的学派,还不具备形成学术共同体的条件和群体意识[15],进而导致同行评议制度尚不完善;随着代表作评价工作的全面展开,必然导致工作量的增加,为了满足实际工作的需要就需要增加评审专家数量,这可能会导致专家平均水平的下降,从而影响了同行评议的准确度。而基于文献计量学指标的定量评价体系也可能存在着指标数量选取不合理、指标权重赋值不合理等问题,进而导致基于文献计量学指标的定量评价信息缺失、客观性下降,不能全面准确地展现科研论文的学术价值。同时,研究发现,筛选出的代表作发表时间可能较短,对于文献计量学指标的积累必然落后于其他文章,但其学术价值可能反而较高。如果一味采用以往的指标体系,将不能有效展现这类文章的价值。因此,有必要形成与创新性相匹配的代表作评价模式。
3.2.3 开展更高效的科学合作
科学评价的一项最为重要的目的是为了促进科研人员的良性发展,从而达到整体国家科研实力的增强。因此,科研人员自身采取一定的措施进行高质量研究,不仅有助于科研评价工作的开展、也有助于自身科研实力的增强。本研究发现作者数量与被引量和期刊影响因子之间不存在显著的相关性。因此,科研人员需要思考是否所有的科学合作都是有意义的,都是能够推进高质量成果产生的。
研究表明,单纯增加作者人数并不能直接带来文章被引量和发表期刊水平的提升。但已有研究表明,科学合作能够促成高被引研究成果的产生[16]。两者看似是矛盾的,但本质上反映的是作者数量增加与高质量科研合作间的矛盾。在证明了科研合作可以提高被引量的研究中,相较于国内合作或单一机构内部的合作,国际合作在提高被引量上发挥着更为重要的作用,但在本研究中筛选出的46篇文章中,仅有4篇是国际合作论文。并且由于本研究只选取了来自药物化学领域的24位教授,他们之间存在着较为广泛的合作关系,导致大量的文章出现了在本校课题组间的合作现象。而这种合作关系是否真正在科学研究中发挥了助推作用,仍有待商榷。
随着科研的不断进步,科研合作在科学研究中发挥着不可替代的作用,特别是在自然科学领域,突破性的研究成果往往需要多方的合作完成。因此,科研人员在科研工作中不可避免地需要与同行进行合作。因此,建议科研人员,特别是在同一科研机构内工作的科研人员积极开展与机构间的合作,尽可能与领域内有一定影响力的课题组合作,而不是局限于机构内合作。当然,这也不是意味着必须与其他机构间合作。合作意味着科研分工,不同课题组间需要发挥自身优势,高效率完成科研工作。因此,寻求科研合作的对象应该是能够合作完成高水平研究的课题组,在科研合作中避免“人情合作”“无效合作”等等。
3.2.4 避免性别和资历的评价导向
科研评价的本质应当是对科研成果的评价,从而反映出以科研人员的科研实力,而不是通过科研人员的科研实力反映科研成果的价值。以往的“唯资历”“唯职称”等正是由于颠倒了两者之间的关系,从而导致了错误的评价模式。本研究表明,基于创新性的代表作的被引量和影响因子在各年龄组间不存在显著性差异。这不仅表明了SVA法能够有效筛选出所有年龄组科研人员的高质量研究成果,也避免了“唯资历”“唯职称”等不良评价模式的错误。
目前,国际上对于性别在科研工作中的研究日益增多。部分研究表明,女性科学家在发文量和被引量上和男性存在显著性差异[17]。大量的研究最终得出,女性在科研活动存在着普遍的被歧视现象。在科研活动中对于女性的普遍性性别歧视在中国似乎尚未形成,但应该避免。正如前文所述,科研评价应当针对的是成果本身,而不应该受到任何其他无关因素的干扰,如果本末倒置就会对科研评价结果的正确性产生干扰。正是因为需要正确对待性别问题,使得科研人员在日常科研工作中拒绝对于性别的刻板印象,国家于2021年发布了《关于支持女性科技人才在科技创新中发挥更大作用的若干措施》的通知,通过设立专项资助基金以及一些政策优惠,进一步激发女性科研人员的创新活力[18]。在制度层面上为消除可能产生的性别偏见提供了制度保证。
差异性检验表明,筛选出的代表作在不同性别间、不同年龄组间不存在显著性差异,这就表明性别和资历不应当成为评价科研人员的影响因素。科研评价应当重新回到评价成果上,在由此产生的资金项目资助评定、职称评定等一系列人才评定工作中,真正做到从科研成果出发,客观准确地对科研能力做出评定。
代表作评价是现今难以解决的问题,至今仍没有一种公认的完美的方法达到学术评价和代表作选取的完全客观、公正。基于创新性的SVA法,有利于推动科研人员潜心科学研究、致力于“从0到1”的原始创新、从而发表高水平的原创性论文,最终提升中国整体的科研实力。