陈斯斯+邱宇红+许丹+徐爽+韩爽
摘要:[目的/意义]构建一个利用ESI和InCites进行机构对标分析的模式,为全方位、量化公开的对比分析对标机构的国际发文表现,提供一个可行的途径。[方法/过程]利用ESI、InCites发文数量、被引频次以及学科规范化的引文影响力指标,根据作者对文献贡献力的不同,提出机构全部发文、主导发文、参与发文三个概念,提出衡量机构发文实力的新指标——参与影响率。对两所国际发文排名实力相当的机构总体发文、所属作者、合作机构、发文期刊模块进行对标分析。[结果/结论]本文使用的用于描述机构发文数量的指标是发文数量,描述机构发文质量的有学科规范化的引文影响力、高被引论文。结果显示,A高校发文数量占优,总体被引频次占优,B高校发文质量占优。所属作者数据分析结果显示,B高校所属顶尖作者的国际发文影响力较大,排名较靠前。合作机构数据分析结果显示,B高校最佳合作机构的合作双方收获效益更高,双方通过合作使得国际排名更靠前。发文期刊模块分析显示,B高校的发文期刊影响因子水平居上,这可能是其发文质量占优的一个主要原因。
关键词:ESI InCites 主导发文 参与影响率 学科规范化的引文影响力
分类号:G250
引用格式:陈斯斯, 邱宇红, 许丹, 等. 利用ESI和InCites数据库进行机构对标分析[J/OL]. 知识管理论坛, 2017, 2(4): 304-317[引用日期]. http://www.kmf.ac.cn/p/1/150/.
1 引言
自2012年起,国内众多机构引进了基本科学指标数据库(Essential Science Indicators,ESI)[1]和InCites[2]两个数据库,对机构的十年期国际发表论文(文献类型为Article和Review)进行分析。ESI数据库是一个基于Web of Science数据库分析型研究工具,用来衡量科学研究绩效、跟踪科学发展趋势,ESI数据库仅收录Web of Science核心合集(SCI/SSCI)收录的期刊,且文献类型为Article和Review,提供最近10多年的滾动数据。InCites数据库中集合了近30年来Web of Science核心合集七大索引数据库的数据,拥有多元化的指标和丰富的可视化效果。 探究国内学者关于ESI和InCites的相关论文,大致可分为4类:①机构发文情况统计分析[3-4],如全国性、省市级的,其研究目的在于分析某一区域内进入ESI的入围情况;②预测分析[5],通常是科研机构潜力学科预测;③对比分析[6],如国内国外的一组机构进行对比,全国不同区域的对比分析;④对发文期刊或者发文作者等InCites模块的统计分析[7-8]。
利用ESI和InCites两个数据库做论文产出分析,目的是得到一个量化的、客观的、可对比的分析结果。然而,现有的研究中还存在一些问题:①使用的分析指标较少;②绝大部分作者默认了ESI和InCites设定的作者不论排名顺序贡献力相等这一前提,没有对作者的贡献力做进一步区分;③缺少对两个具体机构进行对标分析,即缺少针对性的机构竞争力分析。
ESI和InCites数据库提出了众多对比性的指标,如学科基准值、百分位、学科规范化的引文影响力、期刊规范化的引文影响力、相对于全球平均水平的影响力等,这些对比性的指标能够量化机构的发文成果。公开的、易获得的、量化的机构成果分析,使机构对标分析的效果显著。机构的对标分析对各种资源分配具有客观的指导作用。笔者认为机构对标分析将成为相关人员使用ESI和InCites数据库的主要工作内容。
笔者根据作者对文献贡献力的不同,提出机构全部发文、主导发文、参与发文三个概念,提出衡量机构发文实力的新指标——参与影响率。结合ESI和InCites发文数量、被引频次以及学科规范化的引文影响力指标,对实力相近的两所医学院校的总体发文、所属作者、合作机构、发文期刊模块进行对标分析,认定机构的优势学科,探讨机构国际发文竞争力提升的关键问题。
2 工具和方法
笔者使用ESI数据库2016年更新的数据,统计文献时间跨度为2006年至2016年。进入ESI主页,选择数据指标菜单,在左侧检索栏限定检索结果为研究领域,筛选条件选择机构,输入A/B大学的英文名称,将检索结果以XLS的格式下载到本地。本文3.1和3.2均利用以上方法检索得出的数据进行对比分析。
进入InCites主页,选择分析菜单,分别进入人员、机构、研究方向、期刊以及图书、会议录文献四个模块进行具体分析。在左侧检索栏数据集设定为InCites Dataset,筛选条件均设置机构名称输入A/B大学,为了和ESI的统计时间和统计文献类型保持一致,笔者将InCites时间限定为2006年至2016年,文献类型限制为Article和Review。将检索结果以CSV的格式下载到本地进行对比分析。本文3.1主要利用机构模块分析数据;3.3利用研究方向模块分析数据;3.4利用人员模块分析数据;3.5利用机构模块分析数据;3.6利用期刊、图书、会议录文献模块分析数据。
笔者通过对从InCites数据库中下载的两校发文进行分析,区分得出通讯作者或者第一作者的发文。将通讯作者或者第一作者的发文WOS号,输入到Web of Science进行高级检索,将检索结果保存到InCites。进入InCites,改变数据集设定,改为检索结果数据集,重复上述InCites检索方法,获取两校通讯作者或者第一作者的数据进行具体分析。
3 结果分析
3.1 国内医学院校的国际发文排名情况
中国进入世界前1%的机构数为606个,提取独立设置的医学院校27个。由于综合性大学医学院部的发文产出不能作为独立机构被ESI数据库统计得出,笔者统计这27所医学院校在ESI 22个学科的产出情况。将每个院校的学科按照其发文被引次数由高到低排序,截取累积被引次数占总被引次数百分比达到90%的学科,得出9个学科,具体是:生物学与生物化学27次,临床医学26次,药理学与毒理学25次,分子生物与遗传学23次,神经科学与行为学19次,化学12次,工程学1次,材料科学1次,微生物学1次。取出现次数大于18次的5个学科,利用InCites数据库查询这5个学科在中国大陆的学术机构发文情况。结果得出,共计428个学术机构在这5个学科里有所贡献,将428个机构按被引频次由高到低排序,截取累积被引频次占总被引频次34%(约1/3)为第一区间。依次截取之后的33%(约1/3)为第二区间,剩余机构自动划为第三区间。endprint
第一区间有上海交通大学、北京大学、复旦大学、中山大学、浙江大学、四川大学、华中科技大学、首都医科大学,共8个。第二区间有山东大学、南京医科大学、第二军医大学、第四军医大学、中南大学、清华大学、南京大学、武汉大学、中国医科大学、第三军医大学、哈尔滨医科大学、苏州大学、西安交通大学、同济大学、南方医科大学、天津医科大学、吉林大学、重庆医科大学、中国农业大学、中国科学技术大学、东南大学、北京师范大学、南开大学,共23个,处于第二区间中间位置。第三区间共计397个,前十位为温州医科大学、安徽医科大学、厦门大学、郑州大学、中国医药大学、沈阳药科大学、暨南大学、华中农业大学、广州医学院、南京农业大学。
笔者选取实力相近的A高校(位列第六)和B高校(位列第八)两所院校进行对标分析。
3.2 两校InCites概况
首先利用ESI数据库查询两校进入全球前1%的情况。A高校进入全球1%的学科数为4个,B高校为3个。A高校的发文数量、被引频次、顶尖论文、世界排名以及中国排名占优,篇均被引频次较低。如表1所示:
InCites学科规范化的引文影响力[9](Category Normalized Citation Impact,CNCI)是一个十分有价值且无偏的影响力指标,它排除了出版年、学科领域与文献类型的影响,因此使用它可以进行不同规模、不同学科混合的论文集的比较。如果CNCI的值等于1,说明该组论文的被引表现与全球平均水平相当;CNCI大于1,表明该组论文的被引表现高于全球平均水平;CNCI小于1,则表明该组论文的被引表现低于全球平均水平;CNCI等于2,表明该组论文的平均被引表现为全球平均水平的2倍。
考虑到文献第一作者和通讯作者的贡献力在全部作者中较大,笔者对机构发文进行区分: ①有机构所属人员参与的发文,即全部发文; ②机构所属人员为第一作者或者通讯作者的发文,称为主导发文;③机构所属人员不为文献的第一作者或通讯作者的发文,称为参与发文。全部发文数量=主导发文数量+参与发文数量。
笔者在区分三种发文的基础上提出参与影响率(P),将参与发文对全部发文在具体指标表现的影响量化,如某机构全部发文被引频次为N,参与被引频次为M,那么被引频次的参与影响率P=N/M*100%。参与影响率越大,说明某机构参与发文对该机构全部发文在该指标的表现影响越大。笔者对部分指标计算参与影响率,如发文数量、学科规范化的引文影响力和高被引论文,结果见表2。
A高校全部发文和主导发文在发文数量和被引频次均占优,B高校在学科规范化的引文影响力方面均占优。对于高被引论文A高校全部发文占优,主导发文较低。A高校的参与影响率除发文数量以外,其余指标的参与影响率均大于B高校。
3.3 两校优势学科
学科阈值(ESI Thresholds)[10]主要是指近10年,某一ESI学科被引次数排在前1%的作者和机构,或排在前50%的国家或期刊的最低被引次数。学科阈值、机构某学科的被引频次、该学科被引频次与学科阈值的比值(下文简称“阈值比值”)情况如表3所示:
A高校除进入前1%的4个学科外(临床医学、神经科学与行为学、生物学和生物化学、药理学和毒理学),分子生物学和遗传学以及免疫学阈值比值得分位列1、2。B高校除进入的3个学科外(临床医学、生物学与生物化学、药理学与毒理学),分子生物学和遗传学以及神经科学与行为学阈值比值得分位列1、2。笔者认为临床医学、神经科学与行为学、分子生物学和遗传学、生物学和生物化学、药理学与毒理学、免疫学,为两校的既定与潜在优势学科。
笔者对两校全部发文及6个既定与潜在优势学科的全部发文和主导发文数量、被引频次以及学科规范化的引文影响力3个指标10年(2006年-2015年)发展情况绘制趋势图,见图1-图21。
A高校发文数量及被引频次占优,B高校学科规范化的引文影响力占优。对比分析可以得出,A高校的數量优势学科有临床医学、神经科学与行为学、药理学和毒理学以及免疫学。B高校的数量优势学科有分子生物学和遗传学。A高校的影响力优势学科包括免疫学,B高校的影响力优势学科包括临床医学和生物学与生物化学,两校表现较为一致的学科为药理学与毒理学。另外,两校6个学科全部发文和主导发文数量均逐年提高,临床医学、神经科学与行为科学、药理学与毒理学的发文影响力总体呈上升趋势。分子生物学和遗传学的论文影响力在2006年和2007年达到高峰之后,经2008年下跌后,逐年上升。
3.4 两校所属作者发文分析
两校全部发文和主导发文所属作者按照发文数量分布情况见表4。
两校全部发文和主导发文所属作者按照发文被引频次分布情况见表5。
对于全部发文和主导发文的所属作者发文数量分布,A高校在100及以上、10-99区间分布人数占优;对于所属作者发文被引频次分布,B高校全部区间均占优。
笔者提取两校所属作者全部发文被引频次500及以上区间的前10位作者,称为两校全部发文顶尖作者,见表6。
笔者提取两校所属作者主导发文被引频次500及以上区间的前10位作者,称为两校主导发文顶尖作者,如表7所示:
在全部发文和主导发文顶尖作者方面,B高校被引频次、影响力、高被引论文均数占优;A高校发文数量均数占优。
3.5 两校合作机构发文分析
A高校全部发文数为8 517篇,主导发文数量为6 484篇;B高校全部发文数为7 207篇,主导发文论文数量为5 119篇。合作率指本机构合作发文占本机构全部发文的百分率,表示机构的合作程度。B高校在全部论文和主导论文的国内国外合作率方面占优,如表8所示:
两校全部发文和主导发文合作机构按照发文数量分布情况,如表9所示:endprint
两校全部发文和主导发文合作机构按照发文被引频次分布情况,如表10所示:
对于全部发文和主导发文合作机构发文分布,B高校50及以上分布机构数占优;对于合作机构被引频次分布,B高校500及以上分布机构数占优。在全部发文合作机构发文被引分布500及以上的机构数方面,两校差距约550个,B高校平均被引仍占优。
笔者提取两校合作机构全部发文被引频次500及以上区间的前10机构,称为两校全部发文最优合作机构,如表11所示:
笔者提取两校合作机构主导发文被引频次排名前10的机构,称为两校主导发文最优合作机构,如表12所示:
B高校在全部发文最优合作机构被引频次、影响力均数方面占优,A高校在发文数量、高被引论文均数方面占优。B高校在主导发文的全发文数量、高被引论文及影响力均值占优。
3.6 两校发文期刊影响因子分析
IF取值来源为2015年Journal Citation Reports(JCR),若未查到,选取最近一年JCR的影响因子值。按照期刊影响因子大于6、介于3和6之间和小于3,将发文期刊的影响因子分为3个区间段,即高、中和低水平段。两校全部发文和主导发文影响因子分布情况,如表13所示:
A高校的高水平段发文参与影响率均值为0.7,B高校为0.63。中低水平段发文参与影响率均值不足0.4。对两校全部发文和主导发文发文期刊影响因子分区做2006-2015年发展趋势图,见图22-23。
如图3和表13所示, A高校与B高校发文期刊3个水平段的文献数量均逐年递增。在高水平段,B高校自2010开始占优,10年总体数量高于A高校。在中水平段,每年的发文数量两校交替占优势,10年总体数量B高校占优。在低水平段,A高校每年的发文数量和10年总体数量居上。
对两校全部发文和主导发文发文期刊影响因子分区占比做发展趋势图,见图24-25。
如图4和表13所示,对于两校全部发文和主导发文的高水平段占比,B高校自2010年开始居上,10年总体占比占优。B高校与A高校在中水平段的文献占比呈现出增长的趋势,B高校自2011年开始占优,上升趋势更加明显,10年总体占比高于A高校。B高校与A高校低水平段的文献占比有所降低,A高校自2011年居上,10年总体占居上。两校发文期刊低水平段占比均较大。
4 讨论
笔者使用的指标有发文数量、被引频次、学科规范化的引文影响力以及高被引论文。以上指标用于描述机构发文数量的有发文数量,描述机构发文质量的有学科规范化的引文影响力、高被引论文。发文质量实质上指发文影响力,质量越高表明影响力越大。另外,发文质量是一个均值,表示发文的平均影响力。被引频次指标涉及了发文数量和发文质量,是一个综合指标,被引频次影响国际排名。笔者提出参与影响率这一引申指标,认为机构主导发文能力能够更加真实地体现机构的科研发文实力,即不借助“外力”的情况下,机构的科研论文产出能力。参与影响率是衡量机构参与发文对机构全部发文指标的影响程度,即机构ESI/InCites指标表现借助“外力”的程度。
本文的研究结果表明:① A高校进入全球前1%学科数比B高校多一个,全部学科及进入ESI学科的ESI排名较靠前。②两校InCites指标显示,A高校全部发文和主导发文的发文数量占优,被引频次居高。B高校全部发文和主导发文的发文质量占优。参与论文对A高校发文质量影响较大,对B高校发文数量影响较大。③两校在临床医学、神经科学与行为学、分子生物学和遗传学、生物学和生物化学、药理学与毒理学、免疫学方面的发文数量或质量呈上升状态,近10年发展较为乐观。
所属作者模块的分析是对标机构竞争力分析的核心内容。人才是一个机构最为灵活的竞争力构成,对机构的分析实质上是对机构人才的分析。本文对标机构的所属作者分析显示,在全部发文和主导发文方面,两校所属人员分布情况表现一致:A高校在数量上占优,B高校在質量上占优。B高校在综合指标被引频次上占优。在全部发文和主导发文顶尖作者方面A高校数量占优,B高校质量占优,B高校在被引频次上占优。这意味着,B高校所属顶尖作者的国际发文影响力较大,排名较靠前。
合作机构模块分析涉及到当代学术领域提倡的合作精神。本文对标机构的合作机构分析显示,在全部发文和主导发文方面,B高校的合作率均较大。合作机构发文数量和被引频次分布,B高校全部论文的合作情况是发文数量和被引频次均在50及以上分布段领先。B高校主导论文的合作情况是发文数量和被引频次在500及以上、10-499水平段领先,说明其合作较深入的机构数量占优。对于全部发文合作机构发文被引分布500及以上的机构数,两校差距约550个,B高校在平均被引上仍占优,说明B高校全部发文合作机构对其发文质量的影响积极。对于主导发文最优合作机构,B高校的数量、质量、被引频次均占优。对于全部发文最优合作机构,A高校数量占优,B高校质量占优,B高校在被引频次上占优。同样意味着,B高校最佳合作机构的合作双方收获效益更高,双方通过合作使得国际排名更靠前。
影响因子是国内众多学术领域关注的问题。绝大多数机构认定,影响因子高的期刊刊载的论文更有价值。本文对标分析的两个机构,B高校全部发文与主导发文均是高、中水平段占优。对于全部发文和主导发文占比情况,两校在中水平段逐年提升,在低水平段虽然占比过6成,但有下降的趋势;在高中水平段B高校占优,且参与发文对总体发文期刊影响因子在6以上的分布影响率达到70%。B高校的发文期刊水平居上,这可能是其发文质量占优的一个主要原因。因此笔者认为提倡向影响因子较高的期刊投稿,是提升机构发文质量的一个途径。
在未来的工作中,笔者计划进一步对机构对所属作者进行分析,引入更多合适的ESI、InCites指标,针对性地解决人才引进、机构人员绩效分析的问题。endprint
参考文献:
[1] Essential Science Indicators[EB/OL]. [2016-11-05]. http://ipscience-help.thomsonreuters.com/InCitesLiveESI/ESIGroup/overviewESI.html.
[2] InCites help[EB/OL]. [2016-11-05]. http://ipscience-help.thomsonreuters.com/InCites2Live/overviewGroup/overviewInCites.html.
[3] 劉虹, 徐嘉莹. 上海市高校学科国际影响力评价——基于InCites数据库学科映射的文献计量分析[J]. 复旦教育论坛, 2014, 12(4): 29-34.
[4] 梁木生, 王秉中. 中国高等院校进入ESI前1‰学科分析研究[J]. 图书馆工作与研究, 2016(5): 71-77.
[5] 顾东蕾, 武莹, 邱家学, 等. 基于WOS的学科发展预测研究[J]. 现代情报, 2014, 34(6): 32-40.
[6] 何培, 郑忠, 何德忠, 等. C9高校与世界一流大学群体学科发展比较——基于ESI数据库的计量分析[J].学位与研究生教育, 2012(12): 64-69.
[7] 张莉, 朱庆华, 徐孝娟. 国际科技人才成长特征及演变规律分析——基于文献计量的分析[J]. 情报杂志, 2014, 33(9): 64-71.
[8] 顾东蕾, 邱家学. 基于ESI的中日俄韩科技期刊竞争力比较研究[J]. 中国科技期刊研究, 2014, 25(12): 1504-1508.
[9] Category Normalized Citation Impact[EB/OL]. [2016-11-05]. http://ipscience-help.thomsonreuters.com/InCites2Live/indicatorsGroup/aboutHandbook/usingCitationIndicatorsWisely/normalizedCitationImpact.html.
[10] Citation Thresholds- ESI Threshold[EB/OL]. [2016-11-05]. https://esi.InCites.thomsonreuters.com/ThresholdsAction. action.
作者贡献说明:
陈斯斯:论文设计与撰写,数据分析,图表制作;
邱宇红:数据统筹分析;
许 丹:数据下载预处理;
徐 爽:数据下载预处理;
韩 爽:论文设计与修改。
Abstract: [Purpose/significance] This paper aims to build a model for benchmarking analysis of two institutions by using ESI and InCites databases. It provides a feasible approach for comprehensive, quantitative and public comparison and analysis of the international delivery performance of benchmarking institutions. [Method/process] We used the index provided by ESI and InCites, including Web of Science documents, citation times, category normalized citation impact. According to the different literature contribution, we proposed three new concepts, all documents, leading documents and not-leading documents. We put forward a new index—participation rate to measure the paper competitiveness of the agencies. We compared the general paper competitiveness, the affiliated author, the cooperative organization and the publication of journals of two universities. [Result/conclusion] In this paper, Web of Science documents are used to describe the quantity of the document issued by the organization. The category normalized citation impact and citation times are used to describe the quality of the document issued by the organization. For A university, the number of documents is dominant, and for B university quality is dominant. According to the authors data analysis, Bs top authors of international publications have greater influence, ranking in the front row. According to the data analysis of the cooperation institution, the cooperation between the best cooperation institutions in B is more efficient, and the cooperation between the two sides makes the international ranking more advanced. It is the main reason for the quality of published papers of B university that the impact factors of the periodicals where papers of B university published are much higher.
Keywords: ESI InCites leading documents participation rate category normalized citation impactendprint