于 曦
(天津师范大学图书馆 天津 300387)
随着“双一流”建设方案的实施,学科建设与发展愈显重要。学科分析是学科建设的基础,不仅为学科建设提供数据支撑,也为学校职能部门提供决策参考。高校图书馆作为文献信息服务中心,积极地开展学科数据分析工作,尤其是潜力学科的预测与分析,在近几年成为研究的焦点。首先,基于ESI(Essential Science Indicators,基本科学指标)潜力学科研究与分析的论文呈井喷式增长;其次,图书馆开展学科分析实践工作,撰写了大量关于潜力学科的评价分析报告[1]。但是经过几年的深入研究和实践,ESI在潜力学科分析评价中存在的问题日益突出,仅仅依靠ESI开展潜力学科的分析有很大的局限性,一些隐藏在数据背后的学科发展问题不能被发现。与此同时,教育部和科技部为改变学术评价中的不良导向,先后下发了关于“破五唯”的一系列政策文件,对学科分析工作产生了重要的影响,一些高校图书馆也因此弱化了学科分析工作[2]。但笔者认为,潜力学科的分析对学校的学科发展依然有其促进作用,对学科进行全面画像才是学科分析工作的落脚点和根本出路。本文在文献调研、网络调研和走访调查的基础上,分析当前潜力学科研究的不足,并以天津师范大学为例,开展对潜力学科的全面画像工作,为学校相关职能部门提供决策支持,促进学校办学水平和科研能力的整体提升,也为同行从业者提供参考与借鉴。
在潜力学科的理论与实践研究论文中,研究内容主要包括:①潜力学科的识别:学者们提出了潜力学科的指标和计算方法,如学科比重指标Q[3]、学科欠缺度指标P[4]、学科潜力值Qi[5]、学科EV值[6],以及基于灰色系统理论[7],排名转换系数[8]、学科区位商[9]等方法,开展对潜力学科的发现和预测分析。②潜力学科入围时间的预测:管翠中等人[10]找到已入围某ESI学科的最后十个机构,计算近十年中每年这些机构发文总被引频次的平均值,用这十年的平均值拟合成入围时间线,再拟合目标机构该ESI学科近十年每年发文总被引频次的时间线,两条时间线的交点就是可能入围的时间;顾东蕾等人[11]在上述方法的基础上不仅预测入围时间,还提出预测入围后所处排位的计算方法;王雪[12]和朱文佳等人[13]提出了时间序列分析法预测入围时间。③潜力学科动态评价、追踪和预警:许子媛[14]提出了ESI学科动态监测系统和三级预警指标。蒋德凤[15]提出从纵向维度(国内排名和学科潜力值的变动)和横向维度(同类机构数据的动态变化)两方面的分析,实现对ESI学科的动态评价以及持续追踪分析。④潜力学科在竞争机构之间的比较:刘玉婷[16]提出从发文年代、期刊分布、院系贡献度、作者贡献度、合作情况以及竞争对手情况等角度,进行ESI学科竞争机构间的实证分析。⑤潜力学科研究方法的比较和修正:程建萍等人[17]提出根据ESI22个学科在ESI和InCites数据库的数据偏差,分别计算出22个学科误差修正因子,在此基础上建立ESI的潜力学科修正模型。杨爱英等人[18]对7种潜力学科识别的计算方法进行了比较研究,分析了每一种方法的优缺点。
除了学术论文之外,一些高校还开展了针对ESI学科分析的实践工作。通过网络调查和走访调研,42所“双一流”建设高校中有22所提供了ESI分析报告。报告形式包括ESI数据简报、ESI研究前沿、ESI学科动态和ESI学科分析。其中在网站上明确提出开展潜力学科分析的高校有中国人民大学和北京理工大学。
研究者们在提出潜力学科预测方法的同时,也分析了现有方法存在的问题和不足,如:①ESI和InCites数据库的来源文献与被引频次统计源不同,各种指标统计时间不同步。②ESI统计的机构是单个分散的、未经过标准化处理的。InCites统计的机构是将机构所有变体,如曾用名、缩略名、附属二级组织及拼写变体等进行合并。③预测的方法是基于引用频次的差距推测排名的差距,忽略了学科之间引用频次在空间分布上的不均衡。④忽略了ESI基准值(入围ESI最后一位机构的总被引频次)在时间维度上的变化。
目前关于潜力学科的分析,无论是论文层面还是实践层面,基本是围绕引用频次这个单一指标的分析。出现的问题和不足也是由于不能精准地统计引用频次,造成对潜力学科预测存在误差。学科的发展受多因素制约,引用频次是与科研规模相关的指标。仅依靠科研规模指标评估学科,提供的信息量有限。对潜力学科的分析应从全方位、多角度开展,探索学科发展趋势,发现问题和不足,制定有效提升措施,才是潜力学科研究的根本目的。因此,笔者认为潜力学科的研究还存在以下不足之处。
2.2.1 潜力学科的研究范畴狭窄
目前对潜力学科的研究仅限于对即将入围ESI全球排名前1%学科的研究,笔者认为这样的研究范围过于狭隘。学科潜力的表现不应只停留在是否入围ESI,还应表现在学科在教育部学科评估中等级的提升,与国内一流学科差距的减少,能否申请到博士点以及在各类世界大学学科排名中位次的上升等。ESI学科划分宽泛,忽略了大部分人文社科类学科。教育部第五轮学科评估强调了中文期刊论文在科研评价中的重要性。因此潜力学科的分析不应当排除人文社科类学科和中文期刊论文。此外,优势学科由于其依然具有潜在的上升空间而应继续保持跟踪,分析学科是上升还是退步,起到促进或预警作用。对学科潜力开展全方位、多角度的分析,也符合国家“破五唯”的初衷。
2.2.2 研究数据收集不全
潜力学科预测分析数据来自ESI,仅包括研究论文(Article)和综述论文(Review),数据源单一,文献类型过少。此外,研究论文和综述论文的学术价值不同。综述论文仅是对某一研究主题发展方向和趋势的归纳总结,往往是学科领域的专家或者有一定学术地位的学者所撰写,这些论文相对容易获得引用。一般情况下同一学科,综述论文的引用次数会高于研究论文。但从推动学科发展的角度来说,综述论文的价值不及研究论文,因为综述论文基本不产生新的研究方法,不做新的研究命题,不开展新的实验或推理。但是在潜力学科的分析中还没有人开展综述论文和研究论文各自贡献情况的分析。
2.2.3 学科分类未统一
现有学科分类体系多样,但没有进行统一和对应。各数据库为方便文献管理,分别设定了各自的学科分类体系,同一学科在不同数据库中的数据范围不同,使得分析结果存在偏差甚至错误。
国内外的学科范畴不同。如“生物信息学”在ESI中被分配到“计算机科学”,在中国教育部学科分类中被归入到“生物学”一级学科。“高分子”在ESI中一部分归入“化学”,一部分归入“材料科学”,而在中国教育部学科分类中被归入到“化学”一级学科。国内外学科分类范畴的交叉和不同,造成ESI所展现出来的学科发文量和总被引频次,并不是我们所认为的学科的实际情况。
数据库的学科粒度不同,如ESI体系学科分类宽泛,WOS(Web of Science)体系学科分类细化,两者学科粒度不同。某一ESI学科的数据集分布在多个WOS学科中,随着学科的交叉融合,机构的科研产出随着研究方向的偏移会从某一ESI学科转向交叉范围较大的另一学科。对潜力学科需要进行更细粒度的学科分析,才能发现自身学科的组成结构、发展趋势、差距和不足。
2.2.4 评价指标维度单一
目前潜力学科的分析仅停留在引用频次这个指标上,未开展多维度、多指标的综合分析和评估。如深入到论文层面的单篇文献的学科(主题)定位;施引文献的期刊影响因子、期刊分区和所属学科分析;多作者论文的作者贡献度分析,学科的学院贡献度分析等。
2.2.5 不同学科同等对待
在已开展的潜力学科研究成果中,没有针对不同学科入围ESI难度的分析。笔者曾调研过全国师范类高校和天津市属高校ESI学科入围情况,发现入围高校数最多的学科是“化学”,其次是“材料科学”。可见不同学科入围ESI的难易程度是不同的,在分析时不同学科应当区别对待,不能简单一刀切。
受校领导和学校职能部门的委托,天津师范大学图书馆开展了对学科潜力的分析研究(见图1)。深入数据内部,多角度、全方位分析影响学科发展的各个因素,开展对潜力学科研究的全面画像。
图1 学科潜力研究总体框架和流程
自天津师范大学图书馆2016 年开展学科分析工作以来,笔者先后到北京大学、清华大学、复旦大学、同济大学,与开展学科分析工作时间长、影响力高的图书馆进行学习交流。并在走访调研的基础上检索国内外相关文献,了解该领域的发展现状,研究前沿和进展。此外还深度研究了多种平台的操作,如InCites、ESI和JCR(Journal Citation Reports)。学习数据清洗及分析软件,如OpenRefine,可视化软件VOSviewer、CiteSpace、Cytoscape以及绘图工具RAW和E-Charts,对比分析一些绩效指标的意义、作用和计算方法。
研究对象包括优势学科和潜力学科。针对天津师范大学,优势学科即已入围ESI的学科,如化学学科;国家或天津市重点学科,如心理、政治和历史学科。潜力学科如即将入围ESI的学科,如材料学科;申请博士点的学科,如生物和地理学科。
学科潜力的研究既要与国际接轨也要考虑在国内的发展情况。因此学科分类体系的选择包括国外ESI学科分类体系和国内教育部《学位授予和人才培养学科目录(2018年)》(以下简称《学科目录》)学科分类体系。如果分析能否入围ESI,就依据ESI学科分类;如果分析学科在教育部学科评估中能否升级,能否成为一流学科,能否申请到博士点,就依据《学科目录》学科分类。人文社科类学科在ESI中没有被精细划分,且引用关系不明显,因此分析时采用教育部《学科目录》分类体系。
由于学科分类体系划分标准不同,在进行学科潜力分析和文献收集之前,本馆开展了不同分类体系之间的学科映射工作,尤其是不同数据库学科分类与我国《学科目录》之间的对应关系,确保用于分析的数据全面、准确。
针对ESI评价体系,统计数据仅来自目标学科近10年被SCI和SSCI收录的研究论文和综述论文。教育部学科评估要求,除了中外期刊论文,各级各类项目和获奖情况之外,对于人文社科类专业需要统计专著,对于自然科学类学科需要统计分析专利及转化,对于计算机和电子信息类学科需要统计业内公认的顶级会议论文。
针对不同的学科和需求,对标机构的选择标准不同。通常受学院或职能部门委托的学科分析,都会指定对标机构。如果没有明确的指定,就以学校的发展方向和所处位置为依据,根据不同的目的选择对标机构。如分析即将入围ESI的潜力学科,对标机构就是入围ESI但排位相对靠后的高校。如果是为了提升学科评估地位,对标机构就是处于上一级别的高校。如果是为了申请博士点,对标机构就是已经具有博士点的高校。如材料科学以天津工业大学、曲阜师范大学(已入围高校)为对标机构,心理学科以北京师范大学、华南师范大学(学科评估A类高校)为对标机构,化学学科以贵州大学、华侨大学(具有博士点高校)为对标机构。
学科潜力的分析需要综合运用多种类型的数据,包括Web of Science核心合集,Scopus、CNKI、CSSCI、超星等商业数据库,以及专利数据、基金数据、获奖数据、国际知名学科排名数据、自然指数排名数据和教育部学科评估官网数据等网络公开数据。
不同来源的数据会有一定的重复,需要去重。数据库中作者署名存在标注不规范或错误的现象,二级机构的书写形式也会随着时间发生变化,在检索时要充分考虑到这些因素,确保数据查全查准,对初步检索的结果进行二次校对。数据下载时要考虑到下载格式是否与分析工具兼容,以便于下一步的统计分析工作。
学科潜力的多维分析包括潜力学科的识别、学科结构分布、学科论文绩效指标分析、单篇论文的主题定位、论文的施引文献分析、论文的作者贡献度和学院贡献度、学科动态追踪以及与竞争机构的比较、学科入围难度的分析(见表1)。
表1 学科潜力的分析维度和内容
3.7.1 潜力学科的识别
开展国内外两种分类体系下的潜力学科的识别。对于ESI潜力学科的识别,目前被普遍认可的方法是计算学科潜力值。学科潜力值是机构某个ESI学科在InCites数据库中的被引频次除以该学科ESI入围阈值(最后一位入围ESI机构的总被引频次),潜力值在0.7以上的学科即为潜力学科[19]。国内学科分类体系下的潜力学科识别,可通过学科映射将InCites数据库中的论文映射到对应的教育部一级学科。通过计算学科论文总被引频次与该学科中国大陆地区平均基准值③的比值,比值大于1的学科即为潜力学科。
天津师范大学化学学科已入围ESI,有希望入围的学科是材料科学、工程学(潜力值在0.7以上),国内学科分类体系下的潜力学科包括化学、材料科学与工程、物理学、环境科学和工程(比值大于1)。限于篇幅,以下仅对ESI材料科学展开分析。
3.7.2 学科结构分布分析
结构分布用来分析学科论文在不同百分位区间的分布情况[6]。百分位区间包括0%—1%、1%—10%、10%—20%、20%—50%、50%以上,共5 个百分位等级。各区间论文的实际百分位应与期望百分位相近,这样的结构才是合理的。学科论文的结构分布是否合理决定今后学科发展的趋势,结构合理学科会获得良性发展,结构不合理(高百分位区间的论文少,低百分位区间的论文多)会使本来很有希望入围ESI的学科失去发展优势。
ESI材料科学顶端论文已达标准(实际百分位1.69%,高于期望百分位1%),其他区间也基本达到要求。从目前看结构还算合理,但论文数量与已入围机构相比较少,发展势头一般。
3.7.3 学科论文绩效指标分析
开展对单篇论文多个绩效指标的综合分析,指标包括论文的学科规范化引文影响力(CNCI)、期刊规范化引文影响力(JNCI)、论文所处百分位、发文期刊影响因子和分区。这些指标可以综合反映机构学科的内部情况。分析学科论文各类绩效指标的空间分布情况,可以发现学科发展的潜在问题、优势和不足。
天津师范大学ESI材料科学论文的CNCI值主要集中在0到2.08之间,近10%的论文CNCI值超过2.08,最高值达到23.94,顶端论文已有一定的积累。但CNCI值在1以下的论文占比76%,说明大多数的论文表现一般。该学科中被引频次最高的论文的CNCI值为2.61,远小于最高值23.94。说明在对同学科论文进行被引频次比较时要考虑到论文的发表时间和文献类型。ESI材料科学发文期刊的影响因子主要集中在1.08到3.8之间,超过10%的论文期刊影响因子超过3.8,最高的期刊影响因子接近19。由此可见材料科学发文期刊质量较高。其中一篇期刊影响因子高达18.98的论文的CNCI值仅为0.66;而另一篇期刊影响因子为2.69的论文的CNCI值高达7.6,再一次印证了期刊影响因子的高低不能作为评价其发表论文质量的依据。
3.7.4 单篇论文主题定位
ESI数据库中期刊是学科最小划分单位,期刊的学科属性决定其发表论文的学科属性。但随着学科的交叉、融合,越来越多的期刊具有多学科倾向。如果按照引文关系来划分,几乎不存在单学科期刊。开展单篇论文的主题定位,便于对同质同类论文进行对比分析,有助于发现机构实际的学科研究领域、发展方向和趋势。笔者借助Incites Citation Topics、CWTS和Dimensions等单一出版物主题定位系统,以及论文内容本身(题名、摘要和关键词等),开展基于单篇论文的主题定位分析。
3.7.5 论文施引文献分析
施引文献的数量和学科分布可以反映出学科的影响力和辐射面。分析施引文献的学科属性,可以获知机构科研成果是否在学科方向上发生偏移。分析施引文献的学科分布及各学科期刊分区情况,可以了解机构该ESI学科的影响力和覆盖面。如果来自本学科期刊的分区都比较靠前,说明机构该学科的影响力较高。如果施引文献大多数来自其他学科,且分区较高,说明研究已经辐射到了其他学科且影响力较大,学科方向已经发生偏移。
天津师范大学ESI材料科学的施引文献分散在14 个ESI学科中,其中48.66%的施引文献属于材料科学,34.29%的施引文献属于化学学科,还包括物理学、工程学和环境/生态学等。材料科学的研究影响力已经辐射到多个学科,研究方向有所偏移。施引文献中发文量位于前三位的材料科学刊物Journal of Alloys and Compounds、Journal of Materials Chemistry A和ACS Applied Materials & Interfaces在JCR分区中位于一区或二区。施引文献中发文量位于前三位的化学刊物Electrochimica ACTA、RSC Advances和New Journal of Chemistry在JCR分区中也位于一区或二区。材料科学的研究对本学科以及对化学学科的影响力都比较高。
3.7.6 作者贡献度分析
ESI对于一篇论文中所有作者的贡献都是同等对待的,无论第一作者、通讯作者还是参与者。这种统计方法,没有体现出作者(机构)的贡献程度。一些机构虽然从表面上看排位不相上下,但实际的科研实力和水平可能相差甚远。如果盲目地看待排名而不深入挖掘自身机构对论文的贡献,一旦失去合作机会或排名规则发生变化,某些学科可能会出现排位迅速下滑的现象,失去优势地位。因此,在开展学科潜力分析时,应进行作者贡献度分析,对于不同排位的作者给予不同的权重,获知机构在论文中的贡献程度,以及学科的真实水平。
天津师范大学ESI材料科学中第一作者是本校教师的论文占到59%,通讯作者是本校教师的论文占到65%,用来支撑材料科学的论文中仅有一半多的论文是以本校教师为主导的(本校教师是第一作者或通讯作者)。发文量排在前10位的本校作者中有一位已经退休,两位已经离职。虽然从表面看ESI材料科学的发展势头较好,但发文作者有相当一部分不是第一作者或通讯作者,且有些重要的教师也不再有科研产出。
3.7.7 学院贡献度分析
由于院系设置与学科分类并不一一对应,一个学院可以包含多个学科方向,一个学科也可分布在多个学院中,尤其是像ESI这样比较宽泛的学科分类体系,这种现象更为普遍。学院贡献度分析可以发现支撑学科的学院分布和重点贡献学院;可以为校领导在学科资源和资金分配上提供参考依据;可以帮助图书馆从业人员开展对学科的分析,发现学科的发展变化、学科的交叉与融合以及学科之间的亲缘关系。
天津师范大学材料科学论文来自多个学院。论文总被引频次的61%来自“物理与材料科学学院”,27%来自“化学科学学院”。除此之外,还包括“水环境与水资源研究所”“生命科学学院”“数学科学学院”“计算机与信息工程学院”,甚至一些人文社科类学院,如“教育科学学院”。
3.7.8 学科动态追踪与竞争机构比较分析
学科动态追踪以及与竞争机构的比较,可以发现学科的变化情况及发展差距。天津师范大学在每一次ESI更新时都会做一期简报,对于已入围的化学学科分析排位的变化,收录机构数的变化以及入围阈值的变动;对于未入围学科如材料科学等,分析其与入围阈值的差距,学科潜力值随时间的变化,并开展对未入围学科的发文数量(专著、中外期刊论文、专利等)、总被引频次、获奖情况和基金获批情况的动态追踪。此外,笔者所在机构还开展了天津师范大学与多所师范类高校、具有博士点的高校以及天津地区高校在发文年代、期刊分布、作者贡献、合作情况以及各类绩效指标的横向比较分析。
3.7.9 学科入围难度分析
不同学科入围ESI的难易程度不同,应区别对待,而不是盲目地肯定或否定一个学科。根据ESI平台提供的数据,分别从收录的期刊数量、入围的机构数量、引文规律和被引频次分布情况进行统计分析,结果发现:①不同学科WOS收录的核心期刊数量不同,如“临床医学”有近2 000个核心期刊,“空间科学”仅有50多个核心期刊。②不同学科入围ESI前1%的机构数不同,“临床医学”有4 000多个机构入围,“多学科”只有100多个机构入围。入围机构中中国大陆地区所占比例在22个学科中也有很大差距,中国大陆地区入围机构占全部入围机构比例最高的学科是“材料科学”,达到15.9%,其次是“化学”,而“精神病学/心理学”最低,仅占1%。③不同学科的引文规律不同,“分子生物学与遗传学”篇均被引频次是23.61,“数学”篇均被引频次仅为4.34。④不同学科入围的相邻机构之间总被引频次分布情况不同,差距较大。“临床医学”入围机构之间的总被引频次分布范围较广,相邻机构之间的总被引频次差距较大,“数学”和“多学科”入围机构之间的总被引频次分布范围较窄,相邻机构之间总被引频次的差距较小(见表2)。
表2 学科入围难度分析
除了ESI学科,人文社科类各学科之间提升难度也是有差异的,如不同学科包含的二级学科数量不同,学科覆盖的广度不同;不同学科被CSSCI、SSCI收录的期刊数不同;在学科评估中不同学科参评的机构数不同。此外,由于国情和政治因素,也会限制一些学科在国际上的影响力。
注释:
① 学科规范化的引文影响力(Category Normalized Citation Impact, CNCI)是一篇论文被引频次与同文献类型、同出版年、同学科领域论文平均被引频次的比值。
② 期刊规范化的引文影响力(Journal Normalized Citation Impact, JNCI)是一篇论文被引频次与其发表期刊上同出版年、同文献类型论文平均被引频次的比值。
③ 一个学科的中国大陆地区的平均基准值可通过Incites平台获得。