王嘉 孙谨芳 么鸿雁 刘剑君
·流行病学与统计学方法·
文献计量学定律及其在结核病防治领域的应用
王嘉 孙谨芳 么鸿雁 刘剑君
文献计量学是用来研究分析文献的一种重要的方法学理论。文献计量学的关键是定量,采用情报学与数学、统计学相结合的研究手段采集和处理数据,用定量化方法对文献特征进行分析处理。作者以结核病领域为例,通过实例介绍文献计量学的基本定律及发展规律。
文献计量学; 结核; 医学信息学应用
文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法,研究文献情报的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科[1]。文献计量学的关键是定量,采用情报学与数学、统计学相结合的研究手段采集和处理数据,用定量化方法对文献特征进行分析处理。笔者以结核病防控领域为例,对文献计量学基本定律和方法的应用加以综述。
(一)布拉福德定律
布拉福德定律是英国著名文献学家S.C.Bradford于1934年在Engineering杂志上发表的题为“Sourceofinformationonspecificsubjects”文章[2]中,率先提出的描述文献分散规律的定律。布拉德福定律是文献计量学的重要定律之一,它和洛特卡定律、齐普夫定律一起被并称为文献计量学的三大定律[3]。
该定律将科技期刊按其刊载专业论文的数量,以递减顺序排列,则可分出若干区域。其中,第一区域期刊中发表的文章数量占到全部文章发表数量的1/3。一般我们认为第一区域为核心期刊区域,所有在第一区域内的期刊为核心期刊。这是一种简便的确定该学术领域核心期刊的定律和方法。徐海琴等[4]发表的《我国肺结核10年文献计量学分析》中显示,2000—2009年我国共发表肺结核文献16 018篇,分布在1029种杂志中;其中,发文量大于100篇的杂志共计21种,发文4882篇,占全部发文的30.48%,此21种杂志为结核病文献发表的核心期刊。
学科内核心期刊的确定,有助于读者更有针对性的去阅读期刊,查询文献。但布拉福德定律使用有严格的限制条件:(1)论文的学科、专业领域或课题范围应当清晰划定;(2)被分析学科、领域或课题的期刊清单及对这些期刊中刊载的相关论文的统计应当充分;(3)被分析期刊的时间应当清晰限定,以保证有关文献数据统计的一致性。
(二)洛特卡定律
1926年,美国统计学家洛特卡在JournaloftheWashingtonAcademyofSciences上发表了题为“Thefrequencydistributionofscientificproductivity”的论文,提出“科学生产率”的概念,即指在一定时间内科学工作者在科学上所表现出的能力和工作效果,通常用其生产的科学文献数量来衡量[5]。该文首次揭示了科学论文作者与论文数量之间的关系,即写2篇论文的作者数量约为写1篇论文的作者数量的1/4;写3篇论文的作者数量约为写1篇论文作者数量的1/9;写n篇论文的作者数量约为写1篇论文作者数量的1/n2;而写1篇论文作者的数量约占所有作者数量的60%。洛特卡定律可用于确定核心作者群,而核心作者群是指发文量较多、影响较大的作者群体[6]。
作者是期刊实现可持续发展的坚实基础和无形资产,作者队伍的状况很大程度上决定了期刊的质量和学科的发展方向。而核心作者更是期刊质量稳固和持续发展的坚实基础,反映出期刊在某一学科研究上的持续影响和辐射强度[7]。
常用的确定核心作者的方式是选用基于普赖斯定律和综合指数法的测评方法,入选核心作者候选人的评价指标包括最低发文数和最低被引频次[8]。范永德等[9]分析发现,2004—2013年《中国防痨杂志》刊登论文第一作者共计1480名,其中核心作者群包括125名,发文426篇,占发文总数的20.37%(426/2091),核心作者发文被引3803次,占总被引频次的43.40%(3803/8762)。
还有一种比较简单的确认核心作者的方式,是通过统计作者发文数量来描述高产作者,在一定意义上也可以理解为核心作者。如王军芳[10]发表的《PubMed收录肺结核的放射诊断相关文献的计量学分析》显示,10 位作者发表5 篇以上的肺结核的放射诊断相关文献,他们是该领域的多产作者,也是最活跃的研究者。
(三)齐普夫定律
美国语言学家齐普夫(G.K.Zipf)于1935年研究发现了关于文献的词频分布规律。齐夫定律是以英语为基础的词频统计规律,是词频分析研究的理论基础。应用齐普夫定律及其参数,可以预测关键词的数量,计算各词汇的重要程度,通过对于某一领域某一时间段内关键词的检索及分析,可以确定该领域这一时间段内研究方向及热点。
云科等[11]发表的《HIV/AIDS合并结核研究热点的文献计量分析》显示,通过检索5875篇与TB/HIV 相关文献,统计出大于100的高频主题词35个,再通过对高频主题词的共词聚类分析,得出近10年TB/HIV领域研究热点集中在药物治疗、诊断、流行病学、防治及免疫学5个方面。徐海琴等[4]发表的《我国肺结核10年文献计量学分析》中显示,通过主题词频次表可以总结出肺结核诊断研究热点为:误诊、痰、影像学检查;并存病或伴发病研究热点为:糖尿病和HIV感染;治疗的研究热点为:药物耐药性;此外流行病学相关主题词出现频次较高。
(一)文献增长规律
随着科学的不断发展,科学文献的增长也成为一种客观的社会现象。文献增长研究广泛应用于知识度量与知识管理、科学评价、科技政策制定和科技管理、信息研究、信息管理当中。著名科学家与科学史学家普赖斯(D.Price)提出了科学文献的指数增长规律。普赖斯在其著作《巴比伦以来的科学》中考察统计了科学期刊的增长情况,发现科学期刊的数量大约每50年增长10倍。他以科技文献量为纵轴,以历史年代为横轴绘制曲线,发现不同年代的科技文献量的变化过程表现为一根光滑的曲线,这条曲线十分近似地展示了科技文献量指数增长的规律。就结核病防治领域文献发表情况来看,Ramos等[12]分析发现,1997—2006年结核病文献年均发表增长速率为4.7%。
(二)文献老化规律
科技文献发表之后,随着时间的推移,相对于科学技术的迅速发展,其内容会越来越“落伍”。文献的老化就在于其随“年龄”增长,会逐渐失去作为科技情报源的价值,利用率愈来愈低,甚至失去生命力。1958年,美国学者贝尔纳(J.D.Bernal)首先提出利用“半衰期”(half life)来衡量文献老化速度。文献老化的应用研究有助于指导文献信息源选择、采集,评价馆藏文献的老化程度,评价文献价值等。
么鸿雁等[13]发表的《1991—2002年〈中国防痨杂志〉的文献计量学分析》显示,将12年间《中国防痨杂志》778篇论著的3252条引用文献进行普赖斯指数分析(期刊所引用文献中近2年的文献所占的比例),共有1530 条是近5年内发表的。仲卫功[14]发表的《〈中华结核和呼吸杂志〉2001至2005年引文分析及评价》显示,《中华结核和呼吸杂志》文献引用峰值出现在文献发表后的第3~4年,引用半衰期为5.35年。
(三)文献引用规律
科学研究的过程中,必然要借鉴前人或他人的相关研究成果。因此,科学文献间也存在一种必然联系。这种相互联系突出表现为文献间的相互引用。文献引证关系分析是文献引用规律研究的基础,除了文献间的直接引用关系之外,引文分析理论还着重考察文献的其他最具代表性的间接引证关系,包括引文耦合(2篇或多篇文献同时引用1篇或多篇相同文章)、同被引(2篇或多篇文献共同被后来的1篇或多篇文献所引用)、自引(著者引用自己以前的著述)等,从而研究科学引文的分布结构和规律性。引文分析使用的主要工具是由美国著名的情报学家Eugene Garfield所创办,美国科学信息研究所编制出版的《科学引文索引》(science citation index, SCI)。
论文的影响力主要体现在是否被引用。被引频次的高低反映论文被同行重视的程度及论文在科学发展和学术交流中所起的作用和影响力。同时,也间接反映该论文的学术水平和价值。一般认为,被引频次与论文质量呈正相关。一篇论文被引频次越高,说明该论文受关注的程度越高,学术影响力越大。
么鸿雁等[13]发表的《1991—2002年〈中国防痨杂志〉的文献计量学分析》显示,《中国防痨杂志》的平均自引率为18.4%。期刊自引是指期刊在其刊载文献中,引用该刊以前所刊载的文献的现象。霍金荣[15]发表的《基于Web of Science的耐多药结核文献计量分析》显示,已发表的耐多药结核病文献中世界卫生组织发表的文献被引频率最高,达到41.24次,美国文献总量和总的被引频次均最高,而我国的耐多药结核病文献篇均被引频次为15.26次。
文献计量学作为一门独立的学科已日渐成熟。未来,文献计量学将从理论、方法和应用方面进一步加强学科体系的构建,同时,针对已有公式进行进一步的探讨,其发展也将逐步实业化和国际化。
同时,20世纪90年代中期,伴随着互联网技术的迅猛发展和网络信息资源的激增,基于文献计量学发展而来的一种新型的网络信息计量工具,即网络计量学也应运而生。网络计量学是采用数学、统计学等各种定量方法,对网上信息的组织、存贮、分布、传递、相互引证和开发利用等进行定量描述和统计分析,以便揭示其数量特征和内在规律的一门新兴分支学科[16]。目前,网络计量学比较常用的搜索引擎有Alta Vista、All the web、Google、Excite和ISI数据库等。利用这些搜索引擎,可以开展文献资料的网络影响因子分析、链接关系分析,以及网络计量学其他方面的研究。
[1] 国务院信息化工作办公室“政府信息资源开发利用政策研究课题组”. 加强我国政府信息资源开发利用的若干问题. 中国信息界, 2005, 4(2):44-45.
[2] Bradford SC. Sources of information on specific subjects.J Inf Sci, 1985, 10(4): 173-180.
[3] 袁军鹏.科学计量学高级教程. 北京:科学技术文献出版社, 2010.
[4] 徐海琴, 冯博, 徐世侠.我国肺结核10年文献计量学分析.中华临床医师杂志(电子版),2010,4(11):140-142.
[5] Lotka AJ. The frequency distribution of scientific productivity. J Wash Acad Sci, 1926, 16(12): 317-323.
[6] 徐红星.《中国科技期刊研究》2008—2012年核心作者群的分析研究. 中国科技期刊研究, 2013, 24(6): 1074-1078.
[7] 钟文娟. 从论文作者群统计看对外汉语期刊学术影响力——以《世界汉语教学》为例. 科技管理研究, 2011, 31(19): 64-68.
[8] 钟文娟. 基于普赖斯定律与综合指数法的核心作者测评——以《图书馆建设》为例. 科技管理研究, 2012, 32(2): 57-60.
[9] 范永德, 张晓进, 郭萌, 等. 《中国防痨杂志》近10年核心作者群及期刊主要评价指标变化情况分析. 中国防痨杂志, 2014, 36(9): 749-754.
[10] 王军方.PubMed 收录肺结核的放射诊断相关文献的计量学分析. 临床心身疾病杂志,2014, 20 (z1):72.
[11] 云科, 徐俊杰, 楚振兴, 等. HIV/AIDS合并结核研究热点的文献计量分析. 国际病毒学杂志,2010,17(4):125-128.
[12] Ramos JM, Padilla S, Masiá M, et al.A bibliometric analysis of tuberculosis research indexed in PubMed, 1997—2006. Int J Tuberc Lung Dis, 2008, 12(12):1461-1468.
[13] 么鸿雁, 施侣元.1991—2002年《中国防痨杂志》的文献计量学分析. 中国防痨杂志,2004,26(2):65-68.
[14] 仲卫功.《中华结核和呼吸杂志》2001至2005年引文分析及评价.中华结核和呼吸杂志, 2007, 30(1):48-51.
[15] 霍金荣.基于Web of Science的耐多药结核文献计量分析.中国防痨杂志,2009,31(11):628-632.
[16] 张洋, 邱均平. 网络信息计量学的兴起及其哲学思考. 情报杂志, 2005, 24(1):2-5.
(本文编辑:李敬文)
Laws of bibliometric and the application in tuberculosis prevention and cure
WANGJia,SUNJin-fang,YAOHong-yan,LIUJian-jun.
ChineseCenterforDiseaseControlandPrevention,Beijing102206,China
LIUJian-jun,Email:liujj@chinacdc.cn
Bibliometrics is an important methodology for literature study and analysis. Quantitative analysis is the key of bibliometrics. It combines information science, mathematics and statistics to collect and process the data, and use quantitative method to analyze the literature characteristics. We introduce the fundamental law and development of Bibliometrics, by applying it in the field of tuberculosis prevention and cure.
Bibliometrics; Tuberculosis; Medical information applications
10.3969/j.issn.1000-6621.2016.04.004
中国疾病预防控制中心青年科研基金课题(2015A204)
102206 北京,中国疾病预防控制中心
刘剑君,Email:liujj@chinacdc.cn
2016-03-07)