殷之明,周春雷
( 1.集美大学学校办公室,福建厦门 361021;2.郑州大学信息管理系,河南郑州 450001)
基于h指数的专家引荐分析法与实例分析
殷之明1,周春雷2
( 1.集美大学学校办公室,福建厦门361021;2.郑州大学信息管理系,河南郑州450001)
摘要:引荐分析法( CRA)通过分析高影响力作者的施引列表来寻找该作者眼中的学界同行,通过对同行h指数的分析,可以揭示引荐者本身的学术地位。文章通过对中国物理类国家重点实验的引荐分析,验证了其引荐水平与其领域研究地位一致。
关键词:引文分析法;引荐分析法; h指数;国家重点实验室评价
欢迎按以下格式引用:殷之明,周春雷.基于h指数的专家引荐分析法与实例分析[J].重庆大学学报:社会科学版,2015( 3) :108 -113.
Citation Format: YIN Zhiming,ZHOU Chunlei. Evaluation of state key laboratory in physics on citation recommendation analysis based on H-index[J]. Journal of Chongqing University: Social Science Edition,2015( 3) :108 -113.
修回日期:2015 -01 -07
美国著名情报学家尤金•加菲尔德( E. Garfield)认为引文是学者付给同行的硬币工资,引文测度能把一些有用的、客观的因素引入评价过程中,而只涉及少量的使用调查技术的费用,是一种有效的同行专家评议方式[1]。叶继元也认为引文索引可以帮助确定知识或科学的结构,反映学科之间的渗透情况,可以从一个重要侧面评价被引用论文、刊载被引论文期刊以及学者、学者群体的影响程度和水平[2]。由于引文具有如此重要的价值,引文分析法自Garfield创立以来一直是一种经典的情报学分析方法,同时引文分析法也被发展成一种间接评价法,用以评价个人、团队、组织、机构的学术贡献。以此类推,对某机构学术成果的频繁施引,意味对对机构学术贡献的认同。
引荐分析法( Citation Recommendation Analysis,CRA)是一种新型的引文分析法,通过从施引作者入手,不断寻找其领域同行、同行的同行来绘制整个研究领域的全景图。它融合了引文分析法、知识图谱分析等技术,为研究领域内的学术网络关系和学科结构提供了新途径。所谓引荐( Citation Recommendation,CR)是指同一施引者对某人的多次引用行为[3]。从施引者的引用行为可知,对同一作者多次引用,意味着施引者对被引者学术贡献的认可。为了消除引荐行为的偶然性,我们将引用的下限,即至少引用的次数,定义为引荐阈值( Threshold of Citation Recommendation,TCR)。只有超出引荐阈值的频繁施引才会被采信为一次有效引荐,而一旦引用次数超出引荐阈值则数值大小将是无差别的[4]。
与传统引文分析法不同的是,引荐分析法对施引者给予足够的关注。实际上,对于同一学术成果的引用,一般作者与领域专家的重要程度也不一样。马凤、武夷山认为:“一篇文献被普通作者和知名作者引用,被粗略引用和详细引用是不一样的,高质量的著作常被知名作者多次引用,引用认同结合同行评议可以更全面客观地评价作者及其著作。”[5]绝大多数低产作者对特定领域的学术兴趣很不稳定,其学术判断未必准确,而专家往往因在特定领域进行了长期深入研究,对相应问题的看法常具有超越普通作者的见识,其对某作者的频繁施引往往意味着对该作者学术贡献的重视。我们在研究h指数的过程中发现,高影响力作者的
参考文献施引列表(其独著或合著论文的列表的汇总)蕴藏着很有价值的信息。绝大多数高影响力作者或其所在团队引用最多的是高影响力作者自己,其次是一些研究高度相关的同行[3]。
因此,我们在引荐分析中,通常通过h指数来遴选专家,故也称为基于h指数的引荐分析法( H-index Based Experts Citation Recommendation Analysis,简称HBECRA),实质是借鉴选举过程,将引文视作投票,借助学科专家的学术洞察力和引荐及时发现学界新秀、其他研究领域值得关注的学者以及国际上有影响力的学者,弥补了传统引文分析法对施引者关注不足的缺憾,为研究学科结构开辟了新的途径。如果将专家选择尺度进一步放宽,还可以勾勒更精细的学科结构图[3]。
同理,就一个机构而言,其研究成果经常引用普通作者和知名作者,其重要程度是不一样的。通常机构施引的作者越知名,次数越多,我们认为对应机构越紧跟国际研究前沿,其研究成果也越具有价值。
基于h指数的专家引荐法用于评价科研人员或机构时,通常需要实施如下八个步骤。
第一步,选定学科或主题领域。当前,一方面学科、主题划分的方法种类繁多,且相互间缺乏通用性;另一方面,学科间的交叉、融合情况日益显著,这都给学科或主题领域的选择带来了困难。
第二步,领域成果最大限度的收集。难点:关于学科或领域主题的“全”和“准”。领域成果的收集关键在于当前的各种类别数据库。数据库收录回溯时间的长短,收录成果类型的多寡,都将对最终的评价结果产生一定影响。
第三步,学科或主题作者h指数的计算与确定,依据h指数高低,遴选出学科或主题“h指数权威专家”。难点在于甄别出同名作者,对于中文数据而言,通常可以通过机构加作者的方式识别,对于外文数据库,则通常困难重重。
第四步,下载获得对评价对象(人员或机构)的全部研究成果施引记录。
第五步,利用自编程序分析施引情况。
第六步,分析“h指数权威专家”对被评价对象的“提名”情况。
第七步,选定引荐阈值,获得被评价对象“引荐情况”。引荐阈值的设定需要经历多次测试与检验,阈值太高的结果是引荐次数大幅减少,可能出现大多数被评价对象没有获得引荐的情况,从而无法实现评价比较的目标;阈值太低的结果,比如阈值为1时,导致评价的实质成了“h指数权威专家”引用评价法。
第八步,分析“引荐情况”,得出评价结论。分析的角度可以拓展,引荐次数的高低是一个方面;反过来,引荐专家的平均h指数高低是另外一个方面;同时,引荐分析法也可以与引用评价进行对比,并从二者的差异中发现问题。
(一)评价对象选择与确定
依据《中华人民共和国科学技术进步法》,国家科学技术部在2002年4月公布的《国家重点实验室建设与管理暂行办法》中明确:“重点实验室是国家科技创新体系的重要组成部分,是国家组织高水平基础研究和应用基础研究、聚集和培养优秀科学家、开展学术交流的重要基地。”经过20多年的建设与发展,国家重点实验室作为中国基础性研究的“国家队”,已经成为中国国家科技创新体系的中坚力量。选择国家重点实验室,来实践和检验引荐分析法评价科研机构,具有较好的代表性。故我们的引荐分析法应用评价研究选择全部11个物理类国家重点实验(表1)。
表1 物理类国家重点实验室名单
(二)数据来源及其处理方法
1.基础数据来源及处理
依据JCR选取全部物理类期刊,剔除出各大类别之间的重复期刊后,共计338种期刊,其中“PHYSICS,APPLIED”类88种,“PHYSICS,ATOMIC,MOLECULAR & CHEMICAL”类30种,“PHYSICS,CONDENSED MATTER”52种,“PHYSICS,FLUIDS & PLASMAS”24种,“PHYSICS,MATHEMATICAL”40种,“PHYSICS,MULTIDISCIPLINARY”65种,“PHYSICS,NUCLEAR”13种,“PHYSICS,PARTICLES & FIELDS”26种。下载上述338刊自1986年以来发表的SCI收录论文数据,共计约185万条作为研究的基础数据。检索时间为2010年6 -7月,其中“PHYSICAL REVIEW B”的检索结果为大于10万条仅下载其较新的70 000条。
2.实验室相关数据检索及说明
对各实验室被收录及施引情况进行了初检索,修改校正检索及第三次检索,目的是通过对比分析,不断修正。2010年7月20日,进行了研究评价对象被SCI收录论文数据的第一轮检索; 2010年8月1日进行了第二轮检索,并对检索表达式进行了调整、改进与优化,并分别选取数据收录起始年为1997和1986进行了两次检索,数据分析表明各实验室自两个起始年份收录的论文数量无明显差异,基于本次评价基础数据的一致性考虑,同时考虑到实验室建设年份的不一致性,特别是个别实验室2000年以后才批准建设,本评价最终评价数据选择1997年为论文收录起始年。2010年8月10日,我们以1997年为起始年,对11个物理类国家重点实验室被SCI收录的论文和施引论文进行了最终检索,并全部下载。检索式及检索结果如表2所示。
表2 第三轮检索表达式及检索结果
3.其他检索结果
在第三轮检索的过程中,我们同时记录了11个物理类国家重点试验室的如下数据:收录起始年、施引论
文起始年、被引频次、评价被引频次以及h-index,详见表3。
表3 物理类国家重点室评价数据检索相关数据
(三)学科领域h指数
依据前述基础数据,经过统计共有228 732位作者(不只包含第一作者),并计量得出领域内作者的h指数值。统计结果表明,在228 732名作者中,h指数值大于或者等于25的作者仅占总数的0. 044% ;处于20~24区间的作者有239位,占总数0. 104% ;处于15~19区间的作者有892位,占总数0. 39% ;处于10~14区间的作者有4 248位,占总数1. 857% ;处于8~9区间的作者有5 202位,占总数2. 274% ;处于6~7区间的作者有11 391位,占总数4. 98% ;为5的作者有10 499位,占总数4. 590% ;为4的作者有16 717位,占总数7. 309% ;为3的作者有28 155位,占总数12. 309% ;为2的作者有53 305位,占总数23. 305% ;为1的作者有97 983位,占总数42. 837% (详细数据见表4)。
表4 物理领域内作者h指数值分布情况表
(四)评价结果分析
1.物理类国家重点实验室整体引荐水平高
以半导体超晶格国家重点实验室引用的3 899论文为基础,分析其引荐情况。在此我们仅分析作为第一作者被引荐的情况,设置引荐阙值为5,共有113位作者获得引荐,作者h指数值分布情况如表5第一行
所示。同样,对全部11个国家重点实验室的施引情况进行汇总,分别计算国家重点实验室引荐的作者的h指数值分布情况。
表5 物理类国家重点实验室室引用作者h指数值分布情况
整体上看,11个物理类国家重点实验室引荐的作者整体分布情况良好,其中9个实验室40%以上的引荐对象属于物理学领内域h指数值前3%的顶尖作者,对于物理学领域内h指数值前15%的优秀作者的引荐百分比分别达到:79. 65、82. 35、56. 60、94. 89、76. 92、61. 70、68. 97、67. 61、68. 42、75. 76、67. 44。特别是南京大学固体微结构物理国家重点实验室对顶尖作者的引荐占其总引荐量的79%,其对前15%的优秀作者的引荐百分比分别达到94. 89。
2.引荐结果与被引频次、h-index相关度不高
把11个国家重点实验室对于物理学领域内h指数值前15%的优秀作者的引荐百分比进行排序,对表3获得的检索结果中的评价被引频次以及h指数值进行排序,生成表6。
表6 物理类国家重点室三类排序情况比较表
通常情况下被引频次、机构h指数值是科研机构评价的重要指标,下面分析引荐评价指标与这两个评价指标之间的关系。从表6可以看出,11个实验室中,半导体超晶格、固体微结构物理、精密光谱科学与技术、人工微结构和介观物理共5个实验室的三类排序相对稳定,即相互间的排序差不超过1。非线性力学、核物
理与核技术、声场声信息、应用表面物理共4个实验室三类排序差较大,差值达到4或者以上。通过对三个评价指标做简单相关分析,得出三者皮尔森相关系数表(表7)。仅从相关系数的数值分析,引荐分析法用于评价与传统的科研机构评价结果相关度不高。可以初步认为,其用于机构评价的信度和效度有待从其他角度去研究和论证。
表7 三大评价结果序皮尔森相关系数表
从引用到引荐,其本质都是希望通过对已有成果的利用,通过施引者与被引者,引荐者与被引荐者的关系,来揭示他们的影响、认同、推荐关系。本应用研究的基本思想是:一流的科学家必然紧紧跟着学科前沿,其应用(引用)的文献也以其本身或者其他一流的科学家为主,并由此引申到一流的研究机构其研究成果也因该是对一流成果和顶尖作者的引用。研究的目的是为了从引荐的角度去验证中国物理学研究的顶尖机构——物理类国家重点实验室是否引荐了一流的作者,结果也证明了我们的假设。
本研究下载了大量的数据,进行了海量的计算,然而受时间和精力的限制,本研究在数据的完整性和数据的精准性方面还可以大幅提高。例如,中国物理类国家重点实验室室批准成立挂牌的时间本身就差异较大,缺少了对每一个实验室发展阶段的把握,对其研究成果的检索就存在一定的瑕疵。
[1]尤金•加菲尔德.引文索引法的理论及应用[M].侯汉清,等,译.北京:北京图书馆出版社,2004:233.
[2]叶继元.引文法既是定量又是定性的评价法[J].图书馆,2005( 1) :43 -45.
[3]周春雷.引荐分析法:一种新的引文分析法[J].情报学报,2010( 4) :671 -678.
[4]马凤,武夷山.引用认同——一个值得注意的概念[J].图书情报工作,2009,53( 16) :27 -30,115.
(责任编辑傅旭东)
Evaluation of state key laboratory in physics on citation recommendation analysis based on H-index
YIN Zhiming1,ZHOU Chunlei2
( 1. Administration Office of Jimei University,Xiamen 361021,P. R. China; 2. Department of Information,Zhengzhou University,Zhengzhou 450001,P. R. China)
Abstract:Citation Recommendation Analysis searches the peers of the high influence authors through analyzing their citation identity,and can reveal Academic status on Analysis on H-index. The paper analyzes physics state key laboratory with CRA,and proves that its status fits its position.
Key words:citation analysis; citation recommendation; H-index; state key laboratory; evaluation
作者简介:殷之明( 1974 - ),男,湖南宁乡人,集美大学副研究馆员,博士,主要从事教育管理与评价研究。
基金项目:ISTIC - THOMSON科学计量学联合实验室开放基金项目“国家重点实验室评价指标体系研究”( IT2009006) ;教育部人文社会科学研究项目“面向服务的高校图书馆绩效评价研究”( 11YJC870032)
doi:10. 11835/j. issn. 1008 -5831. 2015. 03. 013
中图分类号:C3
文献标志码:A
文章编号:1008-5831( 2015) 03-0108-06