基于Google Scholar Metrics中文期刊h 指数的比较研究

2015-04-10 08:09骆维花
湖南科技学院学报 2015年9期
关键词:差值百度学术

骆维花

(湖南农业大学 继续教育学院,湖南 长沙 410128)

一 问题的提出

2005 年11 月15 日,J.E.Hirsch 提出h 指数概念:发表Np 篇论文中有h 篇每篇至少被引h 次,其余Np-h 篇论文每篇被引均小于或等于h 次,即一位研究者的h 指数等于其至多发表了h 篇且每篇至少被引h 次的论文。[3]h 指数具有数学简单性、数值稳健性、结合产出与影响、数据容易获取等优点,[4]被应用到各领域的研究。2012 年4 月1 日,谷歌推出Google Scholar Metrics,即基于h 指数衍生了H-core、H-median。H-core 即h 核心,指高于h 指数的被引频次,H-median 即H-core 中位数,指基于H-core,涵盖的所有文章获得引用次数的中位值,用于H-core 核心论文评价。如某刊中5 篇论文被引频次分别为:17,9,6,3,2,其h 指数为3,H-core 为17,9,6,H-median 为9。[5]被引频次17,9 和6 的论文为h 核心论文,高于H-media 中位数9 的论文为核心中的核心,即被引频次17 的论文。2014 年6 月30 日,Google Scholar Metrics(以下简称谷歌)公布2009-2013年5 年间,英、中、葡等9 种语言h5 指数前100 名期刊和h5 中位数。用户点击任意h5 链接,可查阅构成该刊h5 核心论文题录、引用频次和排序、引用链接和发表年份等,访问网址http://scholar.wen.lu/,文献来源为期刊论文、部分计算机科学以及电子工程类的会议论文和部分预印本。[6]

科学、公正并合理评价期刊质量一直是业界热衷探讨的话题。国内外先后推出的科学引文索引(SCI)、社会科学引文索引(SSCI)、中文社会科学引文索引(CSSCI)、中国科学引文数据库(CSCD)等为筛选优质期刊提供了参考。2005 年,J.E.Hirsch提出用于评价个人研究成果的h 指数,很快应用到期刊、机构等领域并衍生了g 指数、hg 指数等h 型指数。2014 年6 月30日,Google Scholar Metrics 公布了2009-2013 年5 年间9 种语言期刊被引前100 的排名,即h5。[1][2]文章以此h5 排名前100中文期刊为样本,测算同一中文期刊在百度学术和CNKI 期刊h5,并分析三者之间差异性和关联性,以期为丰富中文期刊h指数研究提供实证资料,并在此基础上探讨学术搜索引擎引文分析存在的问题。

二 研究方法与数据来源

采用文献调研和对比分析的方法,首先从谷歌平台上,下载中文期刊前100 名的h5 指数导入excel。然后在CNKI、百度学术检索平台上,分别检索100 种中文刊名,时间2009-2013 年,检索出对应期刊论文被引频次按降序排列,根据h 指数定义,测算各期刊h5,并计算谷歌与CNKI、百度学术与CNKI 期刊h5 差值,输入excel。同时,探讨h5 与影响因子间(impact factor,IF)的关系,测算100 种期刊影响因子输入excel。谷歌h5 计为Gh,CNKI h5 计为Ch,百度学术h5 计为Bh,Gh与Ch 的差值计为G-C,Bh 与Ch 的差值计为B-C(为保证表达简洁性,文后出现的Gh、Ch、Bh、G-C、B-C、IF 简称均为以上含义,不再赘述)。最后,整理分析数据。

选择谷歌公布的h5 前100 名中文期刊为研究样本,以CNKI《中国引文数据库》(以下简称CNKI)测算得到的h5 作为中文期刊h5 比较依据,分析并评价谷歌h5 和百度学术h5(通过“百度学术搜索”测算所得,访问网址xueshu.baidu.com[7]),统计时间2009-2013 年(为保证数据可比性,CNKI 未被收录期刊暂不分析)。

三 统计结果

(一) Gh、Bh、Ch、G-C、B-C 及IF 统计结果

2014 年8 月20 日对Gh、Bh、Ch、G-C、B-C 及IF 进行统计并汇总(表1、表2)。

表1.中文期刊h 指数比较

*注:此处为Google Scholar Metrics2014 年公布的中文期刊前100 排序,Gh 为其公布的期刊h5。

(二)期刊排名前10 比较

Gh 前10 期刊为《经济研究》、《中华医院感染学杂志》、《中华护理杂志》、《电力系统自动化》、《会计研究》、《电网技术》、《新华文摘》、《管理世界》、《地理学报》、《农业工程学报》。Ch 前10 期刊为《经济研究》、《会计研究》、《管理世界》、《电力系统自动化》、《金融研究》、《电网技术》、《中国工业经济》、《中国社会科学》、《中国法学》、《数量经济技术经济研究》。Bh 前10 期刊为《经济研究》、《会计研究》、《管理世界》、《金融研究》、《电力系统自动化》、《生态学报》、《中国法学》、《中国社会科学》、《中国工业经济》、《中华医院感染学杂志》。《经济研究》在三者中均排第一。从期刊排名所属学科看,三者排名差异性不显著,学科分布涉及经济学、医药卫生和电力电信科技。

表2.中文期刊h 指数与IF 比较*

*注:此处排名是根据2013 年IF(即影响因子)计算实际值大小排序。计算公式IF=(该期刊前两年(2011、2012 年)发表论文在统计当年(2013 年)被引用总次数)/该刊在前两年内(2011、2012 年)发表的论文总数。

(三)期刊h5 前10“排名”差值比较

Gh 与Ch、Bh 与Ch 前10“排名”(根据排名差值比较)差值显示:所有期刊排名中,只有《经济研究》在三者中排名相同。《电网技术》Gh 与Ch 中排名相同(第6)。Bh 与Ch 排名相同的期刊有《会计研究》(第2)、《管理世界》(第3)。其它期刊在三者h5 排名差异性较大。

(四)期刊h5 差值比较

所有期刊h5 差值中,谷歌和CNKI 平均差值(即G-C 平均差值)为6.52(差值和652 与100 种期刊相除,以下同),百度和CNKI 平均差值(即B-C 平均差值)为3.95。期刊h5 差值整体差异性不大,但谷歌比百度差异性明显。Gh>Ch 期刊6 种,Gh<Ch 期刊70 种,18 种期刊Gh 与Ch 相同。这表明同一种期刊,70%以上期刊Gh 低于Ch。Bh>Ch 期刊有3种,Bh<Ch 期刊85 种,6 种期刊Bh 与Ch 相同。这表明同一种期刊,85%以上期刊Bh 低于Ch。

(五)期刊排名学科平均h5 分布

经济学科期刊7 种,平均h5(所有h5 值相加除期刊数,以下同)谷歌31.4,CNKI 46.5,百度学术43.2。医学类期刊17 种,平均h5 谷歌26.8,CNKI24.6,百度学术25.1。电子电信科技类期刊7 种,平均h5 值谷歌31,CNKI 41.1,百度学术38.3。图书情报类期刊7 种,平均h5 谷歌25,CNKI27.3,百度学术25.6。教育类期刊10 种,平均h5 谷歌27,CNKI32.4,百度学术28.4。从统计已有学科平均h5 分布看,除医学类期刊,CNKI 期刊平均h5 高于谷歌和百度学术期刊平均h5。学科平均h5 分布,百度学术差异性不大,CNKI 经济类、电子电信科技类平均h5 相差10 以上。学科内部引文规律不同使得期刊所属学科排名存在差异性。

(六)期刊h5 与期刊IF 对比分析

基于h 指数的某一期刊高被引频次反映了期刊的静态影响,而IF 反映了期刊被引频次的动态影响。从2013 年IF(表2)可知,一般来说,IF 与期刊学术价值、影响力正相关。

100 种期刊中,《经济研究》h5、IF 均排第一,再次说明该刊论文整体质量非常高。比较前10 种期刊h5、IF 排名可知,除《经济研究》、《会计研究》外,其余期刊排名差值在10 以上。实际上,90%以上期刊Gh 与IF 排名差值均在10 以上。影响原因有二。其一,高水平高被引文章可提升期刊h5,低被引文章影响期刊h5;其二,IF 不但受论文被引频次影响,还受论文发表数量影响。期刊出版周期短、刊载论文量高可影响期刊IF。《中华医院感染学杂志》属医学期刊,高被引论文多,2009-2013 年高被引论文47 篇以上达到了被引47 次(Gh 排第2),而2011-2012 年发表论文5310 篇,7284 次被引用在2013年。因此,论文基数大,影响该刊的平均IF(排第71)。

四 结论与分析

(一)Gh、Ch、Bh 特点

Gh、Ch、Bh 总排名中,《经济研究》都排第一,排名前10 的期刊所属学科基本为经济、医学和电力电信科技。这说明h5 排名情况反映了国家的研究热点和发展趋向,我国在这些领域研究突出、成果颇多。首先,我国处于改革攻坚、经济发展关键期,不论是微观的个量经济活动,还是宏观的市场机制调控,为政府、企业和经济部门决策、发展提供的各种经济主张一直是我国学术研究的热潮。生老病死虽是无法改变的生命运动规律,但是关注以治疗预防生理疾病、提高人体生理机体健康为目的的医学领域的研究,是大众普遍关心的话题。另外,涉及国计民生的电力电信科技领域研究也反映出了公众的呼声。相比之下,其它学科h5 不高,除与学科间差异有关外,也因为部分学科不注重创新使得学科活跃指数不高。

(二)Gh、Ch、Bh 学科分布

上文3.1.4 分析可知,三者平均h5,医学领域差异性最小,相关度最高。这是由于医学学科具体期刊Gh、Bh 和Ch 指数差值相对于其他学科小。而这又是由于数据源的影响。谷歌、百度学术的医学学科中引用数据来源除CNKI、维普等数据库的学术期刊,还包括大量开放存取资源。另外,也收录了一些政府医学信息中心等网站发布有关医学、健康领域报告的被引情况。涵盖大量的网页资源是谷歌、百度学术与专业数据库文献来源的不同之处。

(三)Gh、Ch、Bh 差异性分析

除《经济研究》外,Gh、Ch 和Bh 指数排名均不一致,差异性较大。Gh 和Ch 排名平均差值为6.52,Bh 和Ch 平均差值3.95。同一种期刊,70%以上Gh 低于Ch,85%以上期刊Bh 低于Ch。笔者认为,与专业引文数据库相比,谷歌和百度学术期刊论文引用次数偏低是主因。三方面因素造成这种主因出现。

第一,传统CNKI 作为中文专业数据库更新速度明显优于学术搜索引擎。以《软件学报》中,敖莉等人发表的“重复数据删除技术”一文为例,通过访问谷歌的《软件学报》h5 指数链接,得到该文被引频次为30,而测算CNKI 期刊h5 为83,百度学术h5 为64。逐一比较可知,周平等发表在2014 年第3 期《计算机工程与设计》的“基于两级分块的文件同步方法”一文引用该文情况,谷歌未计入被引数据统计,仅收录到了2014 年1 月份。百度学术被引频次提示虽为64,但不提供被引频次链接,故此处不具体分析。

第二,数据来源问题。CNKI 引文数据来源于CNKI 收录海量的期刊、博硕士学位论文、会议、专利等各种文献。引文分析只有保证了数据源,才能做到数据分析的准确性。以《图书馆学研究》中,林燕发表的“嵌入式馆员——图书馆用户服务新理念”一文为例,谷歌引文频次为25,CNKI 引文频次为27。逐一比较可知,25 篇均为期刊论文引用,CNKI 多出的2条 “泛在知识环境下数字图书馆服务研究”、“高校图书馆学科服务体系研究”均为硕士学位论文引用。百度学术虽提供检索结果被引频次排序功能,但部分不提供引文链接,故在此不具体分析。

(四)Gh、Ch、Bh 与IF 关联分析

结合h5 和IF,对期刊进行静态与动态相结合的分析,才能定性和定量并客观、公正的评价期刊学术价值和影响力。发表在具体期刊中高被引论文可提升期刊h 指数和IF,低被引论文影响h 指数和IF。《经济研究》2011 年-2012 年发表论文394篇,发表论文在2013 年被引达3265 次,测算IF 在100 种期刊中排名第一,h5 也排第一。高被引论文量影响h5,而论文发表量的多少对h5 影响不大,但对IF 的影响较大。《社会学研究》h5 排名靠后(第45),但IF 排第5(见表2)。究其原因,该刊为双月刊,整体2009-2013 年高被引论文(Gh27,Ch40,Bh36)不多,但2011-2012 年该刊发表论文149 篇,2013 年被引811 次。论文篇数低,被引频次高,IF 高。

100 种期刊中,h5 与IF 排名相差最大的3 种期刊《中华医院感染学杂志》(相差69,以下同)、《中国实用妇科与产科杂志》(58)、《护理研究》(57)。三者均是h5 排名靠前,但IF 排名靠后。因此,h5 是测度期刊论文中高被引频次论文的学术影响力,而IF 是以期刊所有论文平均被引频次为基础,是衡量论文的平均学术影响力。另外,h5 测算论文被引频次时间跨度2009 年-2013 年,IF 时间跨度为1 年。由表2 可知,h5 作为衡量期刊影响力评价指标存在不足,应与IF 综合来衡量期刊总体的学术影响力。

(五)Gh 与Bh 存在的不足

h5 整体偏低。Gh、Bh 整体低于Ch,这与其数据来源有重要关系。谷歌、百度学术收录文献资源类型有限,CNKI 收录期刊论文、学位论文、会议论文、专利等多种文献。文献源类型有限必然影响被引频次,进而影响h5。因此,谷歌、百度学术暂不可能取代专业引文检索工具。

h5 过于集中,h 值分布不均衡。Gh 跨度从59 到23(最高到最低相差36,以下同)、Bh 跨度从78 到24(54),相比Ch 跨度从85 到28(57)低。其中Bh 跨度又高于Ch。Gh 存在相同h 值情况颇多、分布不均衡,相比Ch 值跨度大,h 值分布均衡来说,Gh 和Bh 在h 指数跨度和h 值良好分布上不占优势。而CNKI 作为专业中文期刊引文评价工仍具有不可替代的地位。

h5 统计数据科学性。文献源影响h5 的统计分析。对于谷歌发布的中文期刊h5 以及通过测算百度学术期刊h5,均只能作为中文期刊h5 的参考。引文统计分析是基于严谨的文献源进行的科学统计活动。但谷歌在统计数据更新周期、数据不足上存在一定问题。百度学术根本不提供被引频次链接提示,科学性就更不足了。

h5 与IF 对被引频次分析存在差异性。在学术搜索引擎基础上,谷歌推出的Google Scholar Metrics 服务提供h5 以及通过百度学术h5 的测算,虽能静态反映中文期刊被引情况,但不能动态评价期刊平均被引率。h5 与IF 对被引频次分析存在明显差异性。因此,Gh、Bh 应与IF 结合,综合评价期刊。

Google Scholar Metrics 中文期刊h5 的权威性。为实现谷歌使命“整合全球信息,使人人都能访问并从中受益”[8],谷歌不断推陈出新,从早期的谷歌学术搜索、图书搜索,到现在的Google Scholar Metrics。引文分析作为严谨的科学活动,在不能最大范围保证中文文献数据源前提下,基于被引频次发布h5 指数的权威性值得思考。

2014 年,谷歌h5 发布与“百度学术搜索”上线发生在同一年同一月。不论是一种机缘巧合还是相互之间的默契,作为一种免费学术搜索引擎期刊评价工具,他们具有操作简单、使用方便的优点。但是,免费学术搜索取代传统专业检索工具,尤其是免费引文搜索取代传统的引文数据库仍然存在较多问题。作为多语种引文检索和分析的平台,Google Scholar Metrics仍具有重要的参考借鉴作用,但“百度学术搜索”则任重道远。

[1]Google scholar.Google Scholar Metrics[EB/OL].http://scholar.google.com.hk,2015-01-06.

[2]Google scholar metrics.Coverage of Publications[EB/OL].http://scholar.google.com.hk,2015-02-06.

[3]J.E.Hirsch.An index to quantify an individual’s scientific research output[J].Proceedings of the National Academy of Sciences of the USA,2005,(46):16569:16572.http://polymer.bu.edu,2015-02-07.

[4]叶鹰,唐健辉,赵星,等.H 指数及其变体[M].北京:科学出版社,2011:7.

[5]Google scholar metrics.Available Metrics[EB/OL].http://scholar.google.com.hk,2015-02-07.

[6]Coverage.Google Scholar Metrics[EB/OL].http://scholar.google.com.hk,2015-01-30.

[7]百度百科.百度学术[EB/OL].http://baike.baidu.com.2015-02-25.

[8]Google.Google 大全[EB/OL].https://google.com.hk.2015-02-20.

猜你喜欢
差值百度学术
学术是公器,不是公地
差值法巧求刚体转动惯量
Robust adaptive UKF based on SVR for inertial based integrated navigation
如何理解“Curator”:一个由翻译引发的学术思考
对学术造假重拳出击
百度年度热搜榜
枳壳及其炮制品色差值与化学成分的相关性
百度医生
百度“放卫星”,有没有可能?
2012年9月全国分省市焦炭产量