基于马尔可夫模型的高校图书馆学科评价服务研究

2019-03-14 15:05谭智敏刘万国
现代情报 2019年3期
关键词:影响因子高校图书馆

谭智敏 刘万国

摘要:随着“双一流”建设总体方案的提出,科研成果越来越受到重视,高校图书馆开展学科评价服务,对于提升图书馆的服务和地位具有至关重要的意义。本文在分析了吉林大学2010-2016年发表的论文总体情况的基础上,选取论文发表总量前10名的学科为研究对象,运用文献计量学方法和马尔可夫模型分析方法,与传统的评价指标相结合,构建相应的综合评价指标,消除学科间的基础差异,分析得出各个学科的发展速度和发展趋势情况。

关键词:高校图书馆;学科评价;马尔可夫模型;被引频次;影响因子;基金论文比

DOI:10.3969/j.issn.1008-0821.2019.03.017

〔中图分类号〕G250.1〔文献标识码〕A〔文章编号〕1008-0821(2019)03-0150-07

科研评价和学科评价是国家、地区和高校都十分关注的问题。特别是近几年随着“双一流”建设总体方案的提出及各种大学排行榜的发布,学科评价越来越受到科研相关部门的重视。传统的科研评价和学科评价主要是由专家同行评议的结果来定的,随着量化方法在科研评价中的引入,科研评价也逐渐从专家评定向定量评定与同行评议相结合的方式转移[1-2]。文献计量学方法由此引入。文献计量学主要是用数学和统计学的方法定量的分析文献数量、被引频次、作者数量、单位数量、基金数量等一切与科研有关的量化数据,用于评价科研成果。在文献计量学应用与科研评价的过程中,一些比较方便且能精确反映某个问题的评价指标开始出现,比如期刊影响因子、分区及百分位数等,可以有效地描述一个期刊近期的发展状况,后来也被用来对个人和单位做评价,还有按论文发表的数量来反映科研的产出能力,用论文总被引频次、篇均被引频次或者h指数来同时反映论文的数量和质量等等[3],已经有很多相关的理论和实例研究[4-9]。这些指标的好处是可以方便地比较和计算,能反映某一个方面的能力,并根据数据分布对学科评价指标做标准化处理,可以在一些方面实现不同学科的横向对比,但对于不同学科的总体水平之间的对比仍然比较困难[4]。

本文将在指标归一化这一理念的基础上,通过建立马尔可夫模型[10-11],考虑科研基础对科研产出的影响,拟合数据,并通过拟合结果预测以后的科研产出情况,同时构建综合评价指标对学科之间做横向对比,以期得到更加科学合理的评价体系。

1研究对象与研究方法

1.1研究对象

本文选取权威的Web of Science核心合集作为数据源,对吉林大学近7年的科研产出情况做一系统梳理,检索词在“地址”一栏输入“Jilin University”,为尽量保证研究数据的全面及完整性,检索的时间范围设定为2010-2016年所有文献,检索时间截至2017年12月9日,检索结果为33 652篇,以年为单位分别下载并统计。并在此基础上选取论文发表总量前10名的学科为研究对象,分析各个学科的发展速度和发展趋势。

1.2研究方法

1.2.1影响学科评价的因素

对于学科评价,不同的机构评价方法各不相同,评价过程也呈现多样性特征。在进行评价时,虽然有些影响因素(比如文章数量、被引频次、影响因子等)是可以控制和确定的,但也有不可控的因素(比如可用的仪器数量、比较稳定可靠的实验合作关系、以及科研经验等)甚至是无法定量描述的,这些不可控的因素对评价结果有很大影响,在进行科研评价时最好给予考虑。

本文将科研评价指标按一定的次序分成若干有限等级(状态),将科研的指标按年限做统计,给出各个时间段的科研指标变化情况,并假定这个时间段对应一个时刻。从动态角度看,由某一时刻到下一时刻科研指标变化可以客观地反映对应对象的科研质量变化情况,并且由于科研的变化(比如文章发表数量、文章被引次数等)是比较缓慢的,必须经过一个长期努力才能看到收效的,具有稳定的转移趋势。这种稳定的转移趋势依赖于科研人员在这段时间的努力程度,或者由于体制变化而得到的实质性变化,因此这种转移趋势会趋于一个稳定的结构,并且与以往所处的状态无明显的关系,只与当前状态有关,具有无后效性。这点也是必须考虑的因素。

基于学科评价中以上因素的考虑,结合马尔可夫模型的原理分析,构建适用于消除基础学科差异的应用于学科评价的基本方法模型。

1.2.2馬尔可夫模型应用于学科评价的具体过程

1)首先选定一个指标,如学科评价,一般会分析文章数量,被引频次、总被引频次等因素。

4)马尔可夫过程的平稳分布:马尔可夫模型有一个稳定的平稳分布,是指马尔可夫链通过若干步转移,最终会达到一个平稳分布,用平稳分布(p1,p2,p3)来表示,就是指研究对象按现在的发展趋势继续发展若干年,最终会达到的效果其中p1、p2、p3是3个等级最终所占的比例,这个效果是和当前的绝对数量无关的,只与转移矩阵有关,所以用这个平稳分布既可以用来描述学科的发展状况,也可以用来预测学科未来的发展趋势。

5)根据层次分析法确定综合权重系数并且计算综合评定值,描述综合评定向量,并对这个向量求和,这样我们就可以用一个相对复杂的方式来处理这个指标,使它可以消除当前由于基础不同而引起的学科差异。

综上所述,引入马尔可夫模型分析方法对学科进行评价是合理可行的,此研究方法可以消除学科间的基础差异,分析各个学科的发展速度和发展趋势。

以下为具体实例,运用文献计量学和马尔可夫模型的分析方法,在分析吉林大学2010-2016年发文总量的基础上,研究发文总量前10的学科的发展情况。

2实证分析

2.1论文总体分布情况

对发表论文的数量和被引情况做简单的统计,结果如表1所示。从2010-2016年,发表论文的总量在逐年增加,从2010年的2 918篇到2016年的6 211篇,增加量超过1倍。从这个趋势我们可以看出吉林大学科研产出水平处于一个比较好的发展态势。基金论文也从一个侧面反映了科研水平的变化。基金论文占比是指基金论文占总论文的比例。从表1中可以看出基金论文占比虽有小的波动,但总体趋势是增加的。基金论文的被引次数占比是指基金论文的被引次数占总的被引次数的百分比。这个比例变化范围不大,但总体的比例都很高,占70%左右的基金论文,被引频次的占比为90%,说明基金论文对被引频次的贡献很大。

论文数量增加尤其是基金论文数量的增加一定程度上表明吉林大学科研水平在逐年提高,相关领域的研究也在快速发展,源于学校在政策、资金导向上对优势学科的支持与重视,以及近几年对高层次和高学历人才的大力引进,另外研究人员科研水平和科研经验的提升也是一个重要因素。

2.2学科发展情况分析

评价学科发展的最主要因素就是评价其论文成果。评价论文成果影响力的一个重要指标就是评价论文的被引用情况,它是一个非常客观的评价指标,同一研究方向的科研论文被引次数越高,说明其利用率越高,研究成果的质量也越高,更突显了其学术价值以及社会贡献度。如果引用数量逐步提高,就说明科研水平也在逐年增长,科研实力在逐年增强。由于需要比较不同年份的论文的被引次数,因此在评价被引次数的时候,对文献的年龄做平均值。

首先将检索出来的论文数据按学科分类,并统计各个学科论文数量和被引频次所占的比例,结果如表2所示。为了更方便展示各个学科的发文总量和被引频次,我们把各个学科所占比例用饼状图表示,结果如图1所示。我们选取发表论文总量排在前10的学科作为研究对象。

图1左侧图为各学科论文数量所占比例,可以看出吉林大学发表的SCI论文主要分布在化学、材料科学、工程学、物理学、计算机科学以及分子生物学等学科。这与学校大力推进重点学科和重点实验室的建设相吻合,特别是“双一流”总体方案提出后,学校以重点建设一些学科为世界一流学科为目标,全面保障重点学科的发展。其它学科被收录的文献数量不多,体现出各学科间的发展不平衡。如何在保证优势学科发展领先地位的同时,加强其他相对比较弱势学科的科研力量,培养这些学科的高端人才,是今后制定学校发展规划是值得思考的问题。图1右侧为各学科论文的被引频次所占比例,从图中可以看出前10名的学科引用量基本占据了90%,而且发文量大的学科被引频次一般也比较大,但也有学科例外,比如排在第3位的Engineering,其被引频次相对较低,排在第5位的Science & Technology和排名第7位的Biochemistry & Molecular Biology被引频次相对较高,一般用被引频次来描述文章质量,说明各个学科文章的数量和质量并不一定保持一致。

为了得到更精细的结果,本文引进马尔可夫模型来对学科进行评估,更能反映学科发展的快慢程度。

首先把被引频次按最大的被引次数做归一化处理,然后再分成5段,就是0~0.2,0.2~0.4,……,0.8~1,这样就可以定量描述各个学科的被引频次分类的变化,用各类之间的数量变化来描述各个学科发展的快慢。并通过内容2中所说的拟合办法求出马尔可夫模型的转移概率矩阵。图2是以化学学科为例给出马尔可夫模型拟合的结果,图中的横坐标代表年代,纵坐标代表这5段儿所占的百分比,圆圈代表统计的数据,直线是用马尔可夫模型拟合的数据。从图中可以看出它们的相对值符合比较好,因此可以用来做分析。其它学科的拟合效果与化学学科拟合效果类似,没有全部画出。图3给出用马尔可夫模型计算出来的平稳分布值,中间的插图是给出的平稳分布,相当于按现有情况的发展速度以及各学科等级分布。从图中可以看出,随着排名序号增加,其发展速度是越来越快的,尤其是第5和第7相对其它学科有一个飞跃式的发展。排名第1的化学学科,其文章总量最多,说明和其它学科相比其科研累积的基础比较好、人员比较充足,但其文章质量的相对发展速度较慢,说明这个学科的发展已经进入比较成熟稳定的时期。排名第7的分子生物学虽然暂时发表的数量比较少,但其文章质量进步速度很快。通过这样的对比分析,可以有助于管理者对资金分配、人员引进等有更优化的考虑,在相同的资源下,可能得到更好的科研产出。

为了更简单明了地看出各个学科速度的变化结果,我们可以选一个评价权重,然后对各个学科的稳态分布计算一个综合评定结果。这里对发表文章数量划分的区间为5个,这5个区间是一个线性的,因此就选一个最简单的线性权重,区间0~0.2,0.2~0.4,……,0.8~1分别对应1,2,……,5,这5个值,计算的综合评定值如图4所示。从图中可以看出前10名学科随着排名序号变大综合评定值大体上是一个增加的趋势,并且第5位的Science & Technology,第7位的Biochemistry & Molecular Biology和第10位的Mathematics發展速度比较快。

2.3基金资助情况分析

基金资助论文是指由国家各级政府部门、各类基金组织和企事业单位提供科研经费而产生的研究论文,可以一定程度上反映该专业领域内的研究热点和最新的研究成果。有学者认为,“基金论文比”(期刊刊载的基金论文篇数在期刊发表论文总篇数中所占的比例)比“影响因子”更能代表期刊的学术质量[12-13]。

基金资助论文产出量,一般与单位承担基金项目呈正比关系,而单位承担基金项目的多少恰恰是其科研实力和科研水平的真实体现。表1中给出了基金论文数量的变化趋势,从2010-2016年基金论文的数量逐年增加,占总论文的数量也增加,这说明近些年本校有基金支持的论文总体是增加的趋势,科研基金资助对某些学科的快速发展起到了一定的助推作用,也是集中有限的资源多出优秀成果的重要方式。

对不同学科的基金论文的被引频次,引进马尔可夫模型加以分析。同样选取权重值为线性权重1,2,3,4,5,得到的结果如图5所示,图中给出基金论文和非基金论文综合评价,从图中可以看出不同学科中基金论文和非基金论文的发展速度相差不多。这说明虽然基金论文的数量和被引频次占有绝对的优势,但发展速度和非基金论文相差不多,甚至有的学科比非基金论文的发展慢很多。

图5基金论文和非基金论文的被引频次的马尔可夫模型评价结果

2.4影响因子分析

影响因子是一个国际上通用的期刊评价指标,是期刊前两年发表论文在统计当年被引用的总次数与该刊前两年发表论文总数的比值。由于影响因子是一个相对统计量,所以可以用来公平地评价和处理各类期刊,通常期刊影响因子越大,其学术影响力和作用也越大[14]。对于一个成熟的杂志,其影响因子的相对变化一般比较小,所以能在高影响因子期刊上发表文章也能在一个侧面上反映文章的质量比较高。

为了说明文章发表质量的变化,笔者统计了吉林大学发文总量前10的学科的发表文章的影响因子分布,结果如图6所示,横坐标代表影响因子的区间,纵坐标代表各年發表文章的数量,这里我们取[0~2][2~4][4~6][6~8][8~10][10~15]和15以上为区间,图中的不同颜色代表不同年份发表的文章。从图中可以看出各影响因子分布区间大体上按年份增加,文章数量也随之增加,这和总体论文数量增加是一致的,说明了吉林大学发表的论文数量增加的比较均匀,不同影响因子区间都增加。但相对增加的量就比较难直接看出,为了得到发表文章的质量增速,我们对影响因子做了一个平均,这样就可以用一个相对值来描述文章质量。同时用马尔可夫模型加以分析。马尔可夫模型的权重选择为各个区间的平均值,高于15区间权重选择为20。马尔可夫模型分析结果如图7所示,不同学科的综合评定值基本持平,这说明,每个学科对发表文章的影响因子还是比较重视,并都得到了很好的提高。

3结语

论文的数量、被引频次和影响因子等都是常用的科研评价指标,一般来说分别描述科研的产出数量和质量。本文在以往研究的基础上,通过马尔可夫模型分析,构建消除科研基础差异的综合评价指标,以便更客观的评价基础不同的学科的科研影响力,同时马尔可夫模型的转移速率代表了学科中不同层次的团队发展速率的快慢,也可用其对学科的发展速度及未来的发展趋势进行预测。

任何一种评价模型都有各自的优缺点,马尔可夫模型也不例外。马尔可夫模型用来分析学科发展状况的前提是转移概率矩阵在统计的时间段内是不变的,但实际情况并非完全如此,只有那些发展较为成熟的学科才会表现为比较稳定的结果,对一些新兴学科,由于其发展迅速,转移概率矩阵变动很大,这样用齐次马尔可夫模型来描述就不是十分的合适,需要考虑转移概率矩阵随时间的变化等等,因此马尔可夫模型用于学科评价还有待于在实践中不断地改进和完善,以期得到更加有效公平的评价体系。

参考文献

[1]董琳,刘清.学科评价之文献计量指标分析.[J]图书情报工作,2008,52(1):31-34.

[2]涂文菠.“双一流”政策下的国内高校图书馆学科服务探讨.[J]大学图书情报学刊,2017,35(3):62-64.

[3]刘雪立,魏雅慧,盛丽娜,等.期刊PR8指数:一个新的跨学科期刊评价指标及其实证研究.[J]图书情报工作,2017,61(11):116-123.

[4]俞立平,张全,刘爱军.不同学科多属性评价横向比较研究.[J]图书情报工作,2014,58(20):100-105.

[5]王雯霞,刘春丽.不同学科间论文影响力评价指标模型的差异性研究.[J]图书情报工作 2017,61(13):108-116.

[6]赵元斌,吴志红,郭艳秋.高校学科发展分析评价实证研究.[J]图书情报工作 2015,59(15):115-121.

[7]于非,张柏秋,张岚.2001-2010年吉林大学SCI论文收录统计与分析.[J]情报科学 2013,31(9):113-116.

[8]罗守进,高菲.2013-2014年SCI农业及相关期刊统计分析与研究.[J]农业图书情报学刊 2015,27(7):61-65.

[9]蒋德凤.ESI学科动态评价与持续追踪分析模式研究——基于Incites学科评价角度.[J]现代情报,2018,38(4):149-155.

[10]沈晋会.马尔可夫链法在教学质量评估中的应用.[J]内蒙古师范大学学报,2013,26(6):10-13.

[11]李紫瑶.ERP综合实验平台改善MIS教学质量的马尔可夫法评估.[J]科技管理研究 2011,13:92-93.

[12]李晓红,于善清,胡春霞,等.科技期刊评价中应重视基金论文比的作用[J].科技管理研究,2005,25(10):138-139.

[13]周蕾,吴凤芝,席宁,等.《现代中医临床》2003-2015年基金论文统计分析.[J]现代中医临床,2017,24(3):56-60.

[14]许广奎,涂志芳.两类学术评价指标比较研究.[J]图书情报工作 2017,61(3):109-117.

(责任编辑:郭沫含)

猜你喜欢
影响因子高校图书馆
云雾物理生长过程及其影响因子的虚拟仿真实验
“影响因子”是用来赚大钱的