基于h2n指数的机构学术影响力评价方法分析及改进研究

2018-05-15 10:17陈淑平
现代情报 2018年4期
关键词:因子分析

陈淑平

〔摘 要〕机构h2指数能够定量的计算出机构所拥有的高水平科研人员规模,以一个全新的角度对机构学术影响力进行评价,具有简单、直观、可视等优点,但同时也存在着一些问题。[方法/过程]本文结合数据分析和实证研究,对机构h2指数存在的问题进行深入的理论分析。首先,同机构科研人员合作署名会在很大程度上提高机构h2数值;其次,不同机构所拥有的高水平科研人员数量有可能相同,但被引次数和高被引文章数量可能存在较大差距;另外,机构h2指数将拥有单篇高被引但发文少或个人h指数不高的作者排除在外,忽略了单篇高被引论文和作者对机构学术影响力的贡献。[结果/结论]本文针对上述问题提出相应的对策,对h2指数进行修正,并进一步以机构h2n指数为基础,利用因子分析方法,得出一种机构学术影响力的综合评价指数。

〔关键词〕h指数;机构h2指数;机构学术影响力;合作者贡献;因子分析

DOI:10.3969/j.issn.1008-0821.2018.04.010

〔中图分类号〕G30 〔文献标识码〕A 〔文章编号〕1008-0821(2018)04-0071-06

〔Abstract〕The h2 index can quantitatively calculate the scale of the high-level scientific researchers owned by the institution,and evaluate the academic influence of the institution with a new angle.It has the advantages of simple,intuitive and visual,but there are some problems.[Method/Process]Based on the data analysis and empirical research,this paper analyzed the above problems of institutional h2 index.First,the cooperation in same institution greatly improved the h2 value.Second,different institutions had the same number of high-level scientific researchers,but the number of cited number and high-cited papers might be a large gap.In addition,the institutional h2 index excluded the author who had single high-cited paper but less papers and low h-index,ignoring the single high-cited papers and the authors contributing to the academic influence of institutions.[Result/Conclusion]The paper put forward the corresponding countermeasures in view of the above problems to correct the h2 index.And based on the new institutional h2n index,the paper proposed a comprehensive evaluation index of the institutional academic influence.

〔Key words〕h index;institutional h2 index;institutional academic influence;collaborator contribution;factor analysis

2005年,美国物理学家Hirsch教授提出了一种全新的评价指标-h指数[1],将发文数量与发文质量有机地结合起来,同时考量论文数量和质量,比单纯采用论文数量或被引频次评价科学家个人学术影响力更加合理,h指数一经提出,就受到了广泛地关注,被迅速推广到机构、期刊、专利等多个领域的评价研究中。2006年,Prathap以h指数为基础给出了机构h指数两种不同等级的定义[2],提出了机构h1、机构h2的概念,机构h2指数通过计算机构所拥有的高水平科研人员规模对机构学术影响力进行评价,具有简单、直观、可视等优点,杨立平等[3]针对机构h2进行了理论分析,并以“HIV感染與治疗”主题为例,对h2指数在机构评价中的应用进行了案例分析;文献[4]就大分子化学领域进行了案例分析,提出机构h2指数可用于划分机构的等级;许翠花[5]应用h2指数评价高校档案馆学术能力,上述实证研究验证了h2指数用于机构评价的可行性和实际价值,本文以此为基点,进一步对机构h2指数用于机构评价存在的问题进行理论分析,针对合作发文对机构h2指数的影响及h2指数存在的区分度不高等问题,提出相应的对策,并以机构h2为基础、利用因子分析法得出一种机构学术影响力综合评价方法。

1 机构h2指数的基本理论

Prathap指出[2],机构h1指数是机构发表的论文中有h1篇的被引次数至少为h1次;机构h2指数是指机构内的科研人员中有h2个科研人员的h指数都至少为h2。h1指数将h指数从评价科学家个人成就直接拓展到机构学术影响力评价,以机构整体为单位进行h指数计算。而机构h2指数要先分别统计机构内所有科研人员的h指数,再按照科研人员h指数从高到低排序,当前h2位科研人员h指数大于等于h2,而h2+1位科研人员的h指数小于h2+1,则机构的h指数为h2。

從h1、h2的含义,我们看出,机构h1指数代表了机构所拥有的高水平论文的数量,侧重于从论文水平评价机构学术能力,文献3通过数据分析指出[3],机构h1指数受个别高产出科研人员h指数影响较大,可能带来机构研究水平的不稳定,对机构科研的可持续发展不利。机构h2指数代表了机构高水平科研人员的数量,利用研究人员的科研能力测度机构学术能力,具有精确性和直接可视性。众所周知,机构的科研水平离不开科研人员的成果积累,科研人员的学术能力越高、规模越大,机构拥有的高水平论文就会越多,就更能促进机构整体科研水平的提高。

利用机构h2指数评价机构学术影响力具有实际应用意义,例如学者杨立平[3]以“HIV感染与治疗”为主题进行的机构评价研究,通过数据定量地识别出美国国立癌症研究所、美国国家过敏及感染疾病研究所、美国加州大学旧金山分校、约翰霍金斯大学、哈佛大学、美国疾控中心等机构,在高水平论文数量和高水平科研人员的数量方面都处于领先,这类机构的h1、h2数值表现为双高,是该主题科研的领军机构,而h2指数高、h1指数低的机构,在这一主题的研究中也具有一定的优势,属于小而精的机构典型,这方面的研究能够指导科研团队寻求国际合作、研究人员寻找留学目标、跟踪学术成果等,方法可行有效,具有非常实际的指导意义。

2 机构h2的合作者问题及解决方案

2.1 机构h2存在的合作者问题

机构h2指数源于h指数,继承了h指数的优点的同时也存在着相应的不足,利用机构h2评价机构学术影响力,由于不考虑合作者因素,1篇文章所有作者的贡献视为相同,一方面可能导致合作者注水问题;另一方面,不区分合作者因素,单篇文献的贡献被重复利用,必将推高机构h2的值,影响真实的机构学术影响力。

如例1,A机构有5位科研人员,分别记为a、b、c、d、e,该5位作者分别以独作形式共发表了13篇论文,其发文被引情况以集合a{n∶a1,a2,…,an}的形式表示,其中,n表示作者a发表的论文篇数,ai表示a作者第i篇论文的被引次数,i从1到n。A机构的5位作者发文情况分别为:a{5∶15,13,12,10,1}、b{3∶13,9,5}、c{2∶8,1}、d{2∶4,0}、e{1∶0},5位作者的个人h指数分别为4、3、1、1、0,按照上文的定义,该机构A的h1指数为7,h2指数为2。而如果该5位作者发文时互相署名,所有文章都带有5个人的名字,此时,该机构的h1指数为7,h2指数为5。由此可以看出,通过增加合作署名,机构h2指数的值能显著提高。

又如例2,A、B两个机构,分别拥有4位科研人员,分别为a、b、c、d,A机构的4位作者以独作的形式发表论文,分别为a{7∶30,27,25,24,21,18,16}、b{1∶15}、c{1∶14}、d{1∶12},那么A机构的科研人员的个人h指数分别为7、1、1、1,机构h1指数为10,而机构h2指数为1。机构B的4位作者以合作署名的方式发文,发文被引情况为{10∶7,6,5,4,0,0,0,0,0,0},则机构B的4位作者的个人h指数分别为4,机构B的h1指数为4,h2指数为4。从这个例子中,我们发现,两个机构都发表了10篇文章,机构A的论文被引情况明显高于机构B,拥有更多的高质量论文,具有更高的学术影响力,虽然机构h1值较高,但机构h2仅为1,而机构B的10篇论文中仅有4篇有被引,虽然被引频次并不高,但由于作者互相署名,却取得了较高的h2值。

通过上面的例子,我们看到,通过互相署名发文,能够显著提高机构h2指数,在一定程度上掩盖了机构发文质量,以机构h2作为评价机构学术影响力的指标,而不考虑合作者因素,无法揭示机构真正的学术影响力。

2.2 考虑合作者贡献的机构h2

从前面的分析可以发现,不考虑合作者因素的机构h2评价是不合理的,而平均分配方法也模糊了不同署名次序作者的贡献度,由于在实际发表论文的过程中,合作者次序通常是按照贡献大小来安排的,因而可以根据署名次序对合作者分配不同比例的贡献值。在合作者贡献分配的研究中[6-7],根据作者排名进行分配的方法主要有,Harmonic分配方法[8]、Van Hooydonk提出的比例分配方法[9]、Lukovits提出的根据作者平均贡献值进行分配的方法[10]、Egghe提出的几何分配法[11]。当合作者数增多时,按比例分配的第一作者比例下降过快,而按几何分配法进行分配则会出现前几位作者比例过多,Harmonic分配法和平均贡献值法对上述问题进行了修正。本文以Harmonic分配方法对机构h2进行改进,以期能够更准确的计算出机构所拥有的高水平科研人员数量,更公正的揭示机构的真实学术影响力。

Harmonic分配方法是由Hodge提出的[8],其公式为,在有N个作者的论文中,排名第R的作者的贡献比例被估算为(1/R)/(1+(1/2)+…+(1/N)),按照该比例重新计算机构内每位科研人员的h指数,进一步得到新的机构h2指数,记为h2n。

2.3 实证分析

选择武书连2016中国大学综合实力排名前20的高校图书馆[12],以中国知网Cnki为数据源,统计截至2016年12月31日,以高校图书馆作为检索词对作者单位进行检索,计算机构h1、机构h2、机构h2n的值,得到的数据如表1所示。

从表1中可以发现,h2n数值普遍较原h2低,其中多个高校图书馆的指数降低了至少2个数值,如北京大学、浙江大学、上海交通大学、中山大学、南开大学、西安交通大学、哈尔滨工业大学,这些高校图书馆发表的高水平论文数量较多,但由于合作发文较多,在一定程度上提高了机构h2指数,如h2值变化较大的北京大学图书馆,其原h2核心内篇均合作人数为2.694。而武汉大学、中国人民大学、华中科技大学的图书馆机构h2数值在修正后没有变化,正是由于多个高水平作者合作发文较少或者单篇论文合作者数低,计入机构h2核心的论文合作者总数也较低,如中国人民大学、武汉大学图书馆,其原h2核心内篇均合作人数分别为1.464和1.882。通过考虑合作者因素对机构h2指数进行改进,很好的修正了合作发文抬高机构h2指数的问题,更加真实地反映了机构所拥有的高水平科研人员的规模。

3 机构h2n指数存在的区分度不高问题及解决方案

3.1 机构h2n指数存在的区分度不高问题

首先,机构h2n指数掩盖了高水平论文数量和质量的高低。

在上述实证研究中我们发现,拥有不同h1指数的机构可能拥有相同的h2n数值,如北京大学、浙江大学、武汉大学、上海交通大学图书馆分别拥有相同的h2n指数6,但h1指数分别为42、35、35、34,另外,在拥有h2n指数为5、4、3等数据中,也存在这种情况,这也比较符合实际情况,不同机构所拥有的高水平科研人员数量有可能相同,但也反映出机构h2n指数不能明显的区别机构的实力,单独以机构h2n指数作为评价指标,掩盖了高水平论文数量的差异。

如例3,A、B两个机构,分别拥有4位科研人员a、b、c、d,A机构的4位作者发表论文情况为a{4∶135,98,76,45}、b{4∶121,74,68,55}、c{4∶90,43,39,28}、d{4∶101,83,65,37},那么机构h1指数为16,而机构h2n指数为4。机构B的4位作者发文被引情况为a{4∶9,8,7,6}、b{4∶12,11,8,5}、c{4∶11,10,7,6}、d{4∶13,8,7,5},则机构B的h1指数为8,h2n指数为4。从这个例子中,我们发现,两个机构都发表了16篇文章,拥有相同的机构h2n指数,但机构A的论文被引情况明显高于机构B,拥有更多的高质量论文,具有更高的学术影响力。该例以极端的数据说明了机构h2n指数虽然能够计算出机构所拥有的高水平科研人员规模,但却忽略了发文质量的高低。

其次,机构h2n指数忽略了单篇高被引论文和作者的贡献。

在前文的例2中,A机构的5位作者发文质量都很高,对h1数值都有贡献,但后4位由于发文数量少,在机构h2n中没有体现,如东南大学图书馆的朱佳鸣(58、38)、陆美(27)、中国科技大学图书馆的费业昆(75)、王亚军(56)、中国人民大学图书馆的武继山(87、53、28)、付小爱(44)等作者发表文献少,但单篇被引次数较高(作者姓名后括号内为单篇论文被引次数),对h1有所贡献,但对机构h2n没有贡献。也就是说,单独采用机构h2n指数评价机构学术影响力,把高被引但发文少或个人h指数不高的作者排除在外,忽略了单篇高被引论文和作者的贡献。

另外,从例2中我们也会发现,A机构中作者a发文多、被引高,对机构h1贡献较大,但机构h2n并不高,这说明个人h指数有可能很大程度决定机构h1指数,而过度依赖个别科研人员,可能导致机构研究水平的波动,不利于机构科研能力的可持续发展。因而,不能单独依赖个别高水平科研人员对机构整体实力进行评价。

3.2 一种综合评价方法

机构h1指数代表了机构所拥有的高水平论文的数量,关注高被引论文,而机构h2n指数代表了机构高水平科研人员的数量,关注机构稳定的科研力量,二者形成互补。因而,本文尝试综合机构h1和h2n指数,扬长避短,克服机构h1受个人h指数控制的问题,修正机构h2n指数存在的区分度不高及忽略单篇高被引论文和作者的贡献问题,同时,考虑机构总发文量和总被引频次,引入总量标准,在关注“质”的同时补充“量”,进一步增加评价结果的区分度,最终形成一种机构学术影响力综合评价方法。

1904年,英国心理学家Spearman提出了因子分析方法[13-15],因子分析通过研究多个原始变量内部之间的依赖关系,找出原始数据内部的基本结构,并用较少的共同因子来表示该结构,这几个因子包含原始数据的主要信息。本文将采用因子分析的数学方法对机构h1、机构h2n、总被引频次、总发文量进行分析,得到一个综合评价值。我们以2016中国大学综合实力排名前50的高校图书馆为例[11],通过数据库检索和计算得到各个图书馆的机构h1、总被引频次、总发文量,并利用前文方法计算得到修正了合作者问题的机构h2n指数,得到表2。

利用SPSS软件对表2中的数据进行分析和处理[16],Bartlett值=248.308,P<0.001,表明相关矩阵不是一个单位阵,表3的相关系数矩阵表明各变量呈强相关关系,进一步的,KMO值=0.794,接近1,表明这些变量适合进行因子分析,且能取得良好的效果。

然后,使用主成分分析法提取因子,最终得到2个因子,由表4可知,所提取的因子对样本方差的累积贡献率达到94.398%,包含了数据的绝大部分信息。采用最大方差法进行因子旋转得到因子载荷矩阵。

利用Bartlette法估计因子得分,输出因子得分系数矩阵如表5所示,根据表5可写出因子得分函数:y1=0.703x1+0.571x2+0.414x3-0.888x4,y2=-0.478x1-0.321x2-0.092x3+1.592x4。

采用计算因子加权总分的方法,以两个因子的方差贡献率为权数,得到综合评价公式:Y=(58.296y1+36.102y2)/94.398,代入相应数据计算得出高校图书馆的综合得分值如表6所示。

从表6我们看到,指标Y综合考虑了机构h1、机构h2n、总被引频次、总发文量,对多个拥有相同机构h2n而机构h1数值不同的机构进行了区分,如南开大学、中国人民大学、南京大学、复旦大学等图书馆拥有相同的机构h2n数值,但机构h1不同,在重新计算后排名不同,对于具有相同的机构h1和机构h2n指数的图书馆,利用总被引频次和总发文量进一步增加区分度,综合指数Y克服了单独利用机构h2n指数进行机构学术影响力评价存在的区分度不高和忽略单篇高被引论文的问题。从表2和表6我们可以发现,对于机构h1和h2n双高的机构能够取得更好的指标Y排名,这正是因为拥有较多高水平论文和较多高水平科研人员的机构处于学术领先地位,在未来也更具有竞争力。

4 结 論

机构h2指数反映了机构所拥有的高水平科研人员的规模,从一个全新的角度测度机构的科研能力,但也存在着合作署名提高h2指数数值以及忽略单篇高被引等问题,本文对上述问题进行理论分析,并提出相应的对策,考虑了合作者因素的h2n更能真实地呈现机构的高水平科研人员规模,综合指数克服了机构h2n忽略单篇高被引论文和作者贡献的问题,更真实的评价了机构的学术影响力。在上述实证分析中,由于作者的单位有可能存在准确性问题,实例分析中的数据会有一定误差。

参考文献

[1]Hirsch J E.An Index to Quantify an Individuals Scientific Research Output[J].Proceedings of the National Academy of Sciences of the United States of America,2005,102(46):16569-16572.

[2]Prathap G.Hirsch-Type Indices for Ranking Institutions Scientific Research Output[J].Current Science,2006,91(11):1439.

[3]杨立平,岳婷,杨立英,等.h2指数用于机构评价的理论分析与初步应用[J].图书情报工作,2010,(16):18-21.

[4]乔中华,杨立平,岳婷,等.机构h2指数在科学评价中的应用研究——以大分子化学领域为例[J].情报学报,2011,30(5):548-553.

[5]许翠花.应用“h2指数”评价高校檔案馆学术能力的效果研究——以我国高校排名前20名的高校档案馆为例[J].情报科学,2014,(2):83-85,99.

[6]刘烜贞.考虑合著者的h指数的修正——国际研究回顾[J].中国科技期刊研究,2012,(6):85-89.

[7]王红,王全红.合著者贡献率的国际文献回顾[J].现代情报,2016,36(5):63-70.

[8]Hodge SE,Greenberg DA.Publication Credit[J].Science,1981,213(4511):950

[9]Van Hooydonk G. Fractional Counting of Multiauthored Publications:Consequences for the Impact of Authors[J].Journal of the American Society for Information Science,1997,48(10):944-945.

[10]Lukovits I,Vinkler P.Correct Credit Distribution:A Model for Sharing Credit Among Coauthors[J].Social Indicators Research,1995,36(1):91-98.

[11]Egghe L,Rousseau R,Van Hooydonk G.Methods for Accrediting Publications to Authors or Countries:Consequences for Evaluation Studies[J].Journal of the Association for Information Science &Technology;,2000,51(2):145-157.

[12]人民网.武书连2016中国大学排行榜[EB/OL].http://edu.people.com.cn/n1/2016/ 0407/c1053-28258283.html,20164-7/2017-01-10.

[13]Charles Edward Spearman.“General Intelligence,”Objectively Determined and Measured[J].The American Journal of Psychology,1904,15(2):201-292.

[14]包明林,刘蓉,邹凯,等.政务微博服务质量评价指标体系研究[J].现代情报,2015,35(9):93-97,110.

[15]李瑞璇,王学思.基于因子聚类分析的专利综合评价研究[J].现代情报,2012,32(9):172-177.

[16]薛薇.SPSS统计分析方法及应用[M].北京:电子工业出版社,2013:262-279.

(责任编辑:孙国雷)

猜你喜欢
因子分析
中国创业板生物制药类上市公司成长性评价体系实证研究