基于h指数的专家引荐分析法与实例分析
——以我国物理类国家重点实验室评价为例

2013-03-22 02:07殷之明周春雷
中国科技资源导刊 2013年4期
关键词:指数值分析法检索

殷之明周春雷

(1.集美大学学校办公室,福建厦门 361021;2.郑州大学信息管理系,河南郑州 450001)

基于h指数的专家引荐分析法与实例分析
——以我国物理类国家重点实验室评价为例

殷之明1周春雷2

(1.集美大学学校办公室,福建厦门 361021;2.郑州大学信息管理系,河南郑州 450001)

引荐分析法(CRA)通过分析高影响力作者的施引列表来寻找该作者眼中的学界同行,通过对同行h指数的分析,可以揭示施引者本身的学术地位。论文通过对我国物理类国家重点实验的引荐分析,发现它们应用(引用)的文献来自其本身或其他的一流科学家,而一流的科学家必然紧紧跟学科前沿。研究认为,从某种意义上,我国物理类国家重点实验室已处在或基本处在世界一流物理类研究机构行列。

引文分析法;引荐分析法;h指数;国家重点实验室;实验室评价

美国著名情报学家尤金·加菲尔德(Gar f eld)认为引文是学者付给同行的硬币工资,引文测度能把一些有用的、客观的因素引入到评价过程中,而只涉及少量的使用调查技术的费用,是一种有效的同行专家评议方式[1]。叶继元也认为引文索引可以帮助确定知识或科学的结构,反映学科之间的渗透情况,可以从一个重要侧面评价被引用论文、刊载被引论文期刊以及学者、学者群体的影响程度和水平[2]。由于引文具有如此重要的价值,引文分析法自Gar f eld创立以来一直是一种经典的情报学分析方法,同时引文分析法也被发展成一种间接评价法,用以评价个人、团队、组织、机构的学术贡献。以此类推,对某机构学术成果的频繁施引,意味对对机构学术贡献的认同[3-5]。

1 概念

引荐分析法(Citation Recommendation Analysis,CRA)是一种新型的引文分析法,通过从施引作者入手,不断地寻找其领域同行、同行的同行来绘制整个研究领域的全景图。它融合了引文分析法、知识图谱分析等技术,为研究领域内的学术网络关系和学科结构提供了新的途径。所谓引荐(CR)是指同一施引者对某人的多次引用行为[6]。从施引者的引用行为可知,对同一作者多次引用,意味着施引者对被引者学术贡献的认可。为了消除引荐行为的偶然性,我们将引用的下限,即至少引用的次数,定义为引荐阈值(TCR)。只有超出引荐阈值的频繁施引才会被采信为一次有效引荐,而一旦引用次数超出引荐阈值则数值大小将是无差别的[6-8]。

与传统引文分析法不同的是,引荐分析法对施引者给予足够的关注。实际上,对于同一学术成果的引用,一般作者与领域专家的重要程度也是不一样的。马凤、武夷山认为,一篇文献被普通作者和知名作者引用,被粗略引用和详细引用是不一样的,高质量的著作常被知名作者多次引用,引用认同结合同行评议可以更全面客观地评价作者及其著作[9]。绝大多数低产作者对特定领域的学术兴趣很不稳定,其学术判断未必准确,而专家往往因在特定领域进行了长期深入研究,对相应问题的看法常具有超越普通作者的见识,其对某作者的频繁施引往往意味着对该作者学术贡献的重视。我们在研究h指数的过程中发现,高影响力作者的施引列表(其独著或合著论文的参考文献列表的汇总)蕴藏着很多有价值的信息。绝大多数高影响力作者或其所在团队引用最多的是高影响力作者自己,其次是一些研究高影响力的相关的同行[6-8]。

因此,我们在引荐分析中,通常通过h指数来遴选专家,故也称为基于h指数的引荐分析法(H-index Based Experts Citation Recommendation Analysis,简称HBECRA)。其实质是借鉴选举过程,借助学科专家的学术洞察力和引荐及时发现学界新秀、其他研究领域值得关注的学者以及国际上有影响力的学者,弥补了传统引文分析法对施引者关注不足的缺憾,为研究学科结构开辟了新的途径。如果将专家选择尺度进一步放宽,还可以勾勒更精细的学科结构图[6-8]。

同理,就一个机构而言,其研究成果经常引用普通作者和知名作者,其重要程度是不一样的。通常机构施引的作者越知名,次数越多,那么机构越紧跟国际研究前沿,其研究成果也越具有价值。

2 方法步骤

基于h指数的专家引荐法用于评价科研人员或机构时,通常需要实施如下8个步骤。

(1)选定学科或主题领域。一方面学科、主题划分的方法种类繁多,且相互间缺乏通用性;另一方面学科间的交叉、融合情况日益显著。这都给学科或主题领域的选择带来了困难。

(2)最大限度地收集领域成果。收集的难点是关于学科或领域主题的“全”和“准”。领域成果的收集关键在于当前的各种类别数据库,数据库收录回溯时间的长短,收录成果类型的多寡,都将对最终的评价结果产生一定的影响。

(3)计算与确定学科或主题作者h指数。依据h指数高低,遴选出学科或主题“h指数权威专家”。难点在于甄别同名作者,对于中文数据而言,通常可以通过机构加作者的方式识别,对于外文数据库,则通常困难重重。

(4)下载获得对评价对象(人员或机构)的全部研究成果施引记录。

(5)利用自编程序分析施引情况。

(6)分析“h指数权威专家”对被评价对象的“提名”情况。

(7)选定引荐阈值,获得被评价对象“引荐情况”。引荐阈值的设定需要经历多次的测试与检验,阈值太高的结果是引荐次数大幅减少,可能出现大多数被评价对象没有获得引荐的情况,从而无法实现评价比较的目标;阈值太低的结果,比如阈值为1时,导致评价的实质成了“h指数权威专家”引用评价法。

(8)分析“引荐情况”,得出评价结论。分析的角度可以拓展,引荐次数的高低是一个方面;而引荐专家的平均h指数高低是另外一个方面;同时,引荐分析法也可以与引用评价进行对比,并从二者的差异中发现问题。

3 实例分析

3.1 评价对象选择与确定

依据《中华人民共和国科学技术进步法》,国家科学技术部在2002年4月颁布的《国家重点实验室建设与管理暂行办法》中明确指出:“重点实验室是国家科技创新体系的重要组成部分,是国家组织高水平基础研究和应用基础研究、聚集和培养优秀科学家、开展学术交流的重要基地。[10]” 经过20多年的建设与发展,国家重点实验室作为我国基础性研究的“国家队”,已经成为我国国家科技创新体系的中坚力量。选择国家重点实验室,来实践和检验引荐分析法评价科研机构,具有较好的代表性。因此,我们的引荐分析法应用评价研究选择全部11个物理类国家重点实验(实验室相关信息见表1)。

3.2 数据来源及其处理方法

(1)基础数据来源及处理

依据JCR选取全部物理类期刊,剔除各大类别之间的重复期刊后,共计338种期刊,其中PHYSICS, APPLIED类88种;PHYSICS, ATOM IC, MOLECULAR & CHEM ICAL类30种;PHYSICS, CONDENSED MATTE类52种;PHYSICS, FLUIDS & PLASMAS类24种;PHYSICS, MATHEMATICAL类40种;PHYSICS, MULTIDISCIPLINARY类65种;PHYSICS, NUCLEAR类13种;PHYSICS, PARTICLES & FIELDS类26种。论文项目组先后利用ISTIC-THOMSON科学计量学联合实验室、武汉大学图书馆和厦门大学图书馆的数据资源,下载上述338种期刊自1986年以来发表的SCI收录论文数据,共计约185万条作为研究的基础数据。作为学科领域专家h指数测算基础数据(检索时间为2010年6-7月,其中刊物“PHYSICAL REVIEW B”的检索结果为大于10万条仅下载了其较新的7万条)。

(2)实验室相关数据检索及说明

对各实验室被收录及施引情况进行了初检索,修改校正检索及第三次检索,目的是通过对比分析,不断修正。2010年7月20日,进行了研究评价对象被SCI收录论文数据的第一轮检索;2010年8月1日进行了第二轮检索,并检索表达式进行了调整、改进与优化,并分别选取数据收录起始年为1997年和1986年进行了两次检索,数据分析表明各实验室自两个起始年份收录的论文数量无明显差异。基于本次评价基础数据的一致性考虑,同时考虑到实验室建设年份的不一致性,特别是个别实验室2000年以后才批准建设的,本评价最终评价数据选择1997年为论文收录起始年。2010年8月10日,我们以1997年为起始年,对11个物理类国家重点实验室被SCI收录的论文和施引论文进行了最终检索,并全部下载,检索式及检索结果如表2所示。

(3)其他检索结果

在第三轮检索的过程中,我们同时记录了11个物理类国家重点试验室的如下数据:收录起始年、施引论文起始年、被引频次、评价被引频次以及h-index,详见表3。

3.3 学科领域h指数

依据前述基础数据,经过统计共有228732位作者(不只包含第一作者),并计量得出领域内作者的h指数值。统计结果表明,在228732名作者中,h指数值大于或者等于25的作者仅占总数的0.044%;处于20~24区间的作者有239位,占总数0.104%;处于15~19区间的作者有892位,占总数0.39%;处于10~14区间的作者有4248位,占总数1.857%;处于8~9区间的作者有5202位,占总数2.274%;处于6~7区间的作者有11391位,占总数4.98%;为5的作者有10499位,占总数4.590%;为4的作者有16717位,占总数7.309%;为3的作者有28155位,占总数12.309%;为2的作者有53305位,占总数23.305%;为1的作者有97983位,占总数42.837%(表4)。

表1 物理类国家重点实验室名单

3.4 评价结果分析

(1)物理类国家重点实验室整体引荐水平高

以半导体超晶格国家重点实验室引用的3899篇论文为基础,分析其引荐情况。在此我们仅分析作为第一作者被引荐的情况,设置引荐阙值为5,共有113位作者获得引荐,作者h指数值分布情况如表5第一行所示。同样,对全部11个国家重点实验室的施引情况进行汇总,分别计算国家重点实验室引荐的作者的h指数值分布情况。

表2 第三轮检索表达式及检索结果

表3 物理类国家重点室评价数据检索相关数据

从整体上看,11个物理类国家重点实验室引荐的作者整体分布情况良好,其中9个实验室40%以上的引荐对象属于物理学领内域h指数值前3%的顶尖作者,对于物理学领域内h指数值前15%的优秀作者的引荐百分比分别达到:79.65%、82.35%、56.60%、94.89%、76.92%、61.70%、68.97%、 67.61%、68.42%、75.76%、67.44%。特别是南京大学固体微结构物理国家重点实验室其对顶尖作者的引荐占其总引荐量的79%,其对前15%的优秀作者的引荐百分比达到94.89%。

(2)引荐结果与被引频次、h指数相关度不高

把11个国家重点实验室对于物理学领域内h指数值前15%的优秀作者的引荐百分比进行排序,对表3获得的检索结果中的评价被引频次以及h指数值进行排序,生成表6。

通常情况下,被引频次、机构h指数值是科研机构评价的重要指标。下面分析引荐评价指标与这两个评价指标之间的关系。从表6可以看出,在11个实验室中,半导体超晶格、固体微结构物理、精密光谱科学与技术、人工微结构和介观物理5个实验室的三类排序相对稳定,即相互间的排序差不超过1。非线性力学、核物理与核技术、声场声信息、应用表面物理4个实验室三类排序差较大,差值达到4或者以上。通过对3个评价指标做简单相关分析,得出三者皮尔森相关系数表(表7)。仅从相关系数的数值分析,引荐分析法用于评价与传统的科研机构评价结果相关度不高。我们可以初步认为,其用于机构评价的信度和效度有待从其他角度去研究和论证。

表4 物理领域内作者h指数值分布情况表

表5 物理类国家重点实验室室引用作者h指数值分布情况

4 结语

从引用到引荐,其本质都是希望利用已有成果,通过分析施引者与被引者、引荐者与被引荐者的关系,揭示他们的影响、认同、推荐关系。本应用研究的基本思想是:一流的科学家必然紧紧跟着学科前沿,其应用(引用)的文献也以其本身或者其他一流的科学家为主,并由此引申到一流的研究机构。其研究成果也应该是对一流成果和顶尖作者的引用[11]。研究的目的是为了从引荐的角度去验证我国物理学研究的顶尖机构——物理类国家重点实验室是否引荐了一流的作者,结果也证明了我们的假设。

研究下载了大量的数据,进行了海量的计算,然而受时间和精力的限制,本研究在数据的完整性和数据的精准性方面都有较大幅度提高的空间。例如,我国物理类国家重点实验室室批准成立挂牌的时间本身就差异较大,缺少了对每一个实验室发展阶段的把握,对其研究成果的检索就存在一定的瑕疵。同时,就引荐分析法评价机构实践而言,其结果更多地能对现在状态进行验证评价,并不适合源评价。正如,一流的研究机构必然会引用一流研究机构的研究结果。反过来,不能认为,经常引用一流的研究机构成果的研究机构本身就是一流。

表6 物理类国家重点室三类排序情况比较表

表7 三大评价结果序皮尔森相关系数表

[1] 尤金·加菲尔德.引文索引法的理论及应用[M].侯汉清,等,译. 北京:北京图书馆出版社,2004:233.

[2] 叶继元.引文法既是定量又是定性的评价法[J].图书馆,2005(1):43-45.

[3] 高歌.基于引用认同的学科前沿热点研究[D].长春:吉林大学图书馆,2011.

[4] 吴志荣.对引文分析法地位的重新思考[J].图书馆杂志,2012,31(5):11-13,81.

[5] 罗宇辉,侯汉清.试论引文计量的不确定性——兼论引文计量的规范管理[J].情报理论与实践,2010,33 (12):8-11.

[6] 周春雷.引荐分析法:一种新的引文分析法[J].情报学报,2010(4):671-678.

[7] White H D.Authors as over Times[J].Journal of the American Society for Information Science and Technology,2001,52(2):87-108.

[8] 周春雷.领域内h指数及其应用研究[J].图书情报工作,2012,56(10):45-49.

[9] 马凤,武夷山.引用认同——一个值得注意的概念[J].图书情报工作,2009,53(16):27-30,115.

[10] 科学技术部,财政部.关于印发《国家重点实验室建设与运行管理办法》的通知[EB/OL].[2013-05-28]. http://www.most.gov.cn/fggw/zfw j/zfw j2008/200810/ t20081017_64389.htm.

[11] 周春雷.试论现行学术评价体系的运作机理[J].中国科技期刊研究,2012,23(6):1013-1016.

Expert Citation Recommendation Analysis and Exam p les Based on H-index

Yin Zhim ing1, Zhou Chunlei2
(1. Adm inistration Off ce of Jimei University, Xiamen 361021; 2. Information Department of Zhengzhou University, Zhengzhou 450001)

Citation Recomm endation Analysis is a new type of citation analysis m ethod that can be used for identifying peers of high influence authors by analyzing citing articles of those authors. It also can reveal citing authors’ academ ic status by analyzing peer H-index. This paper took the state key laboratories of Physics as an example. Results showed that the citing authors were in the same institutions or the first-class scientists, and the citing articles tailed to research frontiers of physics. The f rst-class scientists must tail to frontier discipline. In some sense, the results of this paper indicated that the Chinese state key laboratories of physics have been in the world f rstclass ranks of research institutes of Physics.

citation analysis, citation recommendation, H-index, state key laboratory, evaluation

G350

:ADOI:10.3772/j.issn.1674-1544.2013.04.009

殷之明(1974- ),男,副研究馆员,博士,主要研究方向:信息计量与评价。

ISTIC-THOMSON科学计量学联合实验室开放基金项目“国家重点实验室评价指标体系研究”(IT2009006);2011年教育部人文社会科学研究项目“面向服务的高校图书馆绩效评价研究”(11YJC870032)。

2013年4月2日。

猜你喜欢
指数值分析法检索
异步机传统分析法之困难及其克服
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
要控血糖,怎么吃水果才对对?
要控血糖,怎么吃水果才对
浅议专利检索质量的提升
层次分析法在生态系统健康评价指标体系中的应用
基于时间重叠分析法的同车倒卡逃费探析
中国·叠石桥家纺景气指数分析(2016年1-10月)
AHP和SWOT分析法在规划编制中的应用