《图书情报工作》2000—2009年网络引文衰减规律实证研究

2012-04-29 00:44薛卫双,郑春厚,王娟
图书馆界 2012年1期
关键词:半衰期

薛卫双, 郑春厚, 王娟

[摘 要]通过对2000—2009年《图书情报工作》所载论文参考文献中网络引文的数量变化、网络引文衰减情况和半衰期、网络引文衰减原因、网络引文域名、网络引文深度等方面进行统计、分析来探寻该刊网络引文的衰减规律,为以后学者的网络引用行为提供一定的指导意见。

[关键词]网络引文;链接衰减;半衰期

[中图分类号]G250-3[文献标志码]B[文章编号]1005-6041(2012)01-0056-05

1 引 言

网络引文,又称网络(电子)参考文献、Web引文、Online Citations、Electronic References,是指学术论文后面所附的、其来源出处是互联网资源的参考文献,其突出特征是著录内容中含有网址。[1]

近年来,随着互联网技术的飞速发展以及网络信息资源的日益丰富,网络引文作为一种新型的引文文献类型逐渐被学者所认可和接受。与传统的文献引文不同,随着时间的推移网络引文会出现衰减的现象,即网络引文由原来的可链接变为不可到达。对网络引文的衰减规律进行研究,可以揭示目前期刊网络引文的概况以及网络引文的可靠性,为以后学者的网络引用行为提供一定的指导意见。本文以2000—2009年《图书情报工作》(以下简称《工作》)所刊载论文的网络引文为研究对象,分别从网络引文数量、网络引文衰减情况和半衰期、网络引文衰减原因、网络引文域名、网络引文深度等几方面进行统计、归纳和分析,试图找出我国图书情报学网络引文衰减的一般规律。

2 数据的获取及处理方法

本文采用南京大学中文社会科学引文索引系统,下载了《工作》所载论文的所有参考文献并从中提取所需要的网络引文,然后使用Remote Link Checker 软件进行URL的衰减测试,并自编程序对URL 进行近一步的处理,最后将测试结果导入到Excel表格中。

3 数据处理结果及分析

经统计,2000—2009年《工作》共刊载论文4 238篇(卷首语、贺信、书评、消息等除外),网络引文7 206个。

3.1 网络引文数量分析

由表1可以看出,《工作》近10年来网络引文量在总体上呈现递增的趋势,由2000年的125条上升到2009年的1 507条,增幅达到12倍。究其原因,一方面是由于从2009年开始《工作》由月刊改为半月刊,载文量大幅度增加;另一方面,这也与著者在撰写文章过程中参考文献数量越来越多有很大的关系。[2]

综合表1中不同时期的数据,我们可以将《工作》网络引文在2000—2009年的发展情况分为三个阶段:第一阶段为兴起时期,即2000—2003年。这三年《工作》的网络引文量比较低,仅占全部网络引文量的7.1%,网络引文作为一种新型的引文类型还没有受到学者的广泛关注。第二阶段是2003到2007年,为快速发展时期。这一时期《工作》的篇均网络引文量由1.23条上升到2.48条,呈现逐年递增的趋势。2007年《工作》的网络引文量达到1 098条,为2000年的8.8倍,发展势头强劲。这说明,随着我国计算机网络技术的发展,网络信息资源以其特有的优势受到学者的青睐。第三阶段是2008年到2009年,为调整时期。2008年《工作》的网络引文量由原来的1 098条下降到954条,2009年又上升到1 507条,这是由于刊物改版使其载文量大幅增加,平均每篇论文的网络引文量较2008年减少,2008年的篇均网络引文量为2.08条,2009年的篇均网络引文量下降到1.80条。这种下降趋势和国外的一些研究结果相似。Goh 和 Ng的研究显示,情报学期刊论文的网络引文量在2003年有所下降,Spinellis在研究计算机科学领域的论文时发现网络引文的数量在1999年也有下降的态势。[4]网络引文从兴起到经历一个快速自由发展的时期后受到了期刊编辑的关注。为了提高期刊论文的质量和网络引文的可靠性,期刊编辑对学者引用网络信息资源的行为进行了规范和限定,这就导致了网络引文量在一定程度上的下降。调整期过后,预计以后我国学者对网络信息资源的利用会越来越多,也会越来越规范。

3.2 网络引文衰减情况和半衰期分析

3.2.1 网络引文的衰减情况分析。网络引文的可链接率是指网络引文可链接的数目占网络引文总数的比例,其大小可以反映出网络引文衰减的快慢。笔者把《工作》在2000—2009年网络引文可链接率的年度变化情况用折线图表示出来(见图1)。

由图1可见,除2003年之外,随着时间的推移,网络引文的可链接率总体上呈递增的趋势。这表明,时间越往前回溯,网络引文越容易衰减。《工作》在2000年的可链接率为32.8%,2009年其可链接率上升到63.7%,比2000年增加了30.9个百分点。网络引文可链接率大幅度提高的原因有三:第一,近年来我国网络设备逐步完善,网站建设水平逐渐提高。第二,随着论文著者引用网络资源的意识增强,引用网络信息资源的行为越来越多,这就促使期刊编辑对这种引用行为予以充分的重视,在审核过程中使用了更加严格的标准。第三,网络信息资源具有很强的不稳定性。旧的信息不断地被新的信息所取代,因此时间越往前网络引文被查找到的可能性就越小。尽管2009年网络引文的可链接率提高到63.7%,但是仍然较低,读者通过网络引文查找相关信息以便进行深入研究存在较大的困难,因此网络引文的可链接率仍然亟待提高。

3.2.2 网络引文的半衰期分析。国外对网络信息半衰期测度的研究已经非常成熟,本文引用国外的经典测度模型对《工作》的网络引文历时半衰期进行精确的计算,测度模型为:th=[tl(0.5)]/[lW(t)- lW(0)][5]。该模型的各个参数为:W(0)——某个年份中某个期刊的网络引文总量,W(t)——经过t年时间,某个期刊在某个年份网络引文的可链接数量,th——所求的该年份期刊的网络引文的历时半衰期。

根据这个测度模型,我们可以计算出《工作》各个年份网络引文的历时半衰期,其平均值就是《工作》2000—2009[JP2]年的网络引文历时半衰期。例如,《工作》在2009年的网络引文总量为1 507条,到2011年仍然可以链接到的网络引文数量为960条,则《工作》在2009年的网络引文半衰期为[3*l(0.5)]/[ 1960-11507]=4.61(年)。

由表2可知,《工作》在2000—2009年的网络引文半衰期为6.16年,即约6.16年的时间,网络引文的一半即为不可用。这和国内的研究结果很相近,如朱莹研究的情报学期刊网络引文的半衰期为6年。与国外的研究结果相比则略长一些,如Goh 和Ng研究的英文情报学期刊网络引文的半衰期为5年,Spinellis研究的计算机科学期刊的网络引文半衰期为4.0年,Rumsey研究的法律期刊的网络引文半衰期为1.4年。产生这种差异的原因是国外的网络技术水平以及学科发展水平均高于国内,其网络信息的更新速度比较快。从表2可以看出,2004年以后《工作》的网络引文半衰期呈递减趋势,说明随着网络技术的发展和学科发展的进步,我国网络信息的更新速度也在加快,这将使我国的网络信息半衰期缩短。

3.3 网络引文的衰减原因分析

作为本次研究样本的7 206个网络引文中,已经衰减的有3 428个,占全部网络引文的47.5%。在对网络引文测试完毕后,每个网络引文都会根据其链接情况返回一个代码。在本次研究中衰减的网络引文返回的代码有21种,我们就选取数量排名前10位的代码进行统计与分析,统计结果见图2。对衰减的网络引文返回的代码进行分析,可以找出网络引文的衰减原因,从而为提高网络引文的可链接率提供依据。

代码404表示服务器找不到对应请求URL的任何资源。由图2可知,http代码404(Not Found)是网络引文衰减的最主要原因,占全部衰减网络引文的 62.34%,这与国内外的研究结果相近。国内朱莹所做的研究中,代码404所占的比例为53%;国外Spinellis的研究显示代码404的比例为60%,Huebsch的研究中其比例为56%。[6]产生404代码的原因不尽相同,有可能是DNS解析正确后却无法链接到目的主机,也可能是由于文件/目录名更改、文件移除或文件的重新定位而带来的网址的变化。

另外3个常见的错误代码是901、12029、403,其所占比例分别为19.46%、7.88%和5.11%。通常在网络设置方面出现问题时会返回http代码901(Name Unresolved),API代码12029(Cannot Connect)指的是无法连接到所需数据,http代码403(Forbidden)表示的是服务器能够理解用户的http请求却拒绝执行,这很可能是因为用户没有访问权限。

通过以上分析,我们可以将这4种常见错误分为网络问题和服务器问题。网络问题指的是访问主机时出现的问题,服务器问题指的是到达目的主机后却无法获取所需要的资源。代码901属于网络问题,所占比例为19.46%;代码404、12029和403属于服务器问题,所占比例为75.33%。由此可见,导致网络引文不可链接的主要原因是网络信息的持久性差,文件、网页甚至网站都较易消亡。[7]

3.4 网络引文的深度与衰减规律分析

首先我们对深度予以这样的解释:网址中每增加一个“/”,就认定其深度加1,若没有“/”或“/”在URL末尾,则深度为0。国外的相关研究表明:网络引文深度和网络引文的衰减有一定的相关性。网络引文的深度越大,网络引文的复杂性就增加,也就更容易衰减。笔者将《工作》中不同深度的网络引文的数目和衰减情况进行统计(深度大于6的网络引文的数目较少,统一放入其他一项中),统计结果见表3。

从表3可以看出,深度为2的网络引文数目最多,占总数的26.2%;其次是深度为3和4的网络引文,分别占总数的21.9%和15.1%,这3个深度的URL一共占了总数的63.2%。深度为0和1的URL占总数的比例分别为15.0%和14.1%。其他深度(5~10)的所占比例只有7.7%。可见,《工作》的作者对深度为2、3、4的网络信息资源的引用很高,对深度为0和1的网络引文的引用次之,对深度为5以上的网络引文的引用极少。这是因为由引文检索到全文文献的一般网址著录比较详细,这就使得深度为2、3、4的网络引文的引用高于深度为0和1的网络引文。随着网络引文深度的增加,网络引文包含的元素增多,其衰减的可能性就变大。因此,学者为了提高自己参考文献的可检索率,对深度为5以上的网路引文的引用就较少。

由表3还可以看出,不同深度的网络引文的衰减率在22.2%到59.5%之间。随着深度的增加,网络引文的衰减率呈现递增的趋势,深度为3的网络引文例外。深度为0的网络引文的衰减率明显低于其他深度的网络引文,仅为22.2%,但是随着深度的增加,这种衰减的趋势上升得并不明显。因此,本次研究虽然在一定程度上证实了网络引文深度和其可链接率之间有负相关关系,但这种负相关关系目前还没有证实在统计学意义上具有显著性,尚需进一步深入研究。

3.5 网络引文的域名分析

互联网地址是用域名来进行区分的。不同的域名代表不同的含义。本研究列入分析范畴的域名有:com(工、商、金融等企业)、edu(教育机构)、org(各种非盈利性的组织)、gov(政府部门)、net(互联网络、接入网络的信息中心和运行中心)、ac(科研机构),对于仅提供IP地址的URL全部放入else项。对网络引文的域名进行分析,可以了解网络引文的来源状况、分布的集中程度,可以得出学者们利用网络资源比较集中的域名类型信息。对不同域名的网络引文的可到达性进行统计、分析,可以得出何种类型的网络引文相对稳定,从而为学者的网络信息引用行为提供指导意见。

3.5.1 网络引文域名的数量分析

由表4可知,《工作》在这10年中含有6个顶级域名的网络引文数目为6 312条,占网络引文总数的87.6%,其他网域的网络引文仅占12.4%。在这6个顶级域名中,著者引用最多的是com网站的信息,其所占比例达到25.7%;其次为来源于org和edu网域的信息,所占比例分别为24.0%和17.4%;另外,gov、net、ac[KG*9]3个网域的信息被引用的比例分别为8.5%、5.6%和6.4%。由于com网站的信息以商业和娱乐信息居多,其所包含的学术信息不多,所以其引文量有下降的趋势。edu网站上的信息一般来源于教育网站,学术信息较多,但由于近年来学者获取信息的途径增多,很多相关信息可以在期刊论文中获得,这导致了edu信息引用量的大幅度下降。org和gov网站的信息与学术信息相关性比较大,尤其是包含一些权威机构提供的信息和统计数据,越来越受到学者的关注,因此org和gov的引文量是所有网域里增长最快的。net和ac的引文量比较稳定,在10年间没有太大的变化。上述现象表明,目前学术界用户对网络信息的利用是多元的,并不仅仅局限在教育或学术领域,而是涉及各种网域。

3.5.2 网络引文域名与衰减规律分析

在图3中,“Good”表示网络引文可链接,“Bad”表示网络引文已经衰减。图中所列的网络引文域名的可链接率在42.9%到57.9%之间。其中,com网域的信息可链接率最高,达到了57.9%;edu网域的信息可链接率最低,仅为42.9%。国外Goh 和Ng的研究显示,占全部网络引文数目61%的3种顶级域名(com、edu、org)中,org和com网域的信息的可链接率最高,分别为 78%和70%;edu网域的信息可链接率最低,为64%。从国内外这几个顶级域名的衰减比例可以看出,国外网络引文的可链接率远远高于国内,我国的网站建设和维护水平和国外相比还存在很大差距。

来源于com网域的网络引文可链接率最高,这是因为所有网站中以com类型的网站最多,据统计,2005年其比例已达到61.27%,很多类型的主体注册使用这类域名,例如大型企业、小公司、个体等。来源于org网域的网络引文可链接率仅次于com,这是因为注册使用org域名的主体一般是一些非盈利性组织,这类主体的性质和目标决定了其网站内容的稳定性。另外,使用org域名的很多组织(如联合国教科文组织、世界银行)在国际上发挥着关键作用,其提供的很多重要信息属于国际标准和规范,因此这些网站得到了很好的维护,其可链接率也就较高。作为本次研究的6个顶级域名中,edu域名的可链接率最低,这是由于使用这类域名的主体一般是高校和研究机构。虽然这些机构的网络基础设施比较完善,网络技术水平比较高,但这些网站的内容一般是教育或科研信息,当有新消息或新的科研成果出现的时候,旧信息就会被更新或删除,这就导致了顶级域名edu的网络引文的高衰减率。

4结 语

本研究旨在探寻图书情报学网络引文的衰减规律。通过以上对《工作》网络引文的分析,我们可以得出以下几点结论:1)网络引文作为一种新型的引文类型已日益被我国的科研人员接受和认可,并得到越来越广泛的应用。但与国外相比仍有很大差距,我国学者利用网络信息资源的意识和能力有待提高。2)由于服务器问题而导致网络信息的无法获得是网络引文衰减的最主要原因。为了降低网络引文的衰减率,需保障主机服务器、网络互联设备等各种网络硬件设施的质量,科学合理地管理各种网络设备。3)网络引文深度和其可链接率之间呈近似负相关关系,即随着深度的增加,网络引文的可链接率降低。学者在引用网络信息资源时应尽量避免使用较长的URL网络引用,因为较长的URL的网络引用更易衰减。4)大部分网络引文来源于com、edu、org类型的网站,其中com和org网域的信息比较稳定,可链接率较高。学者应该选择性引用网络信息,尽量引用比较稳定的网络信息资源。5)网络引文著录的不规范也会导致网络信息的不可到达。针对此问题,我国应积极探索网络引文的著录标准,出台相关的网络文献的著录规则。另外,学者应坚持严肃认真、一丝不苟的态度,规范自己的网络信息引用行为。

[参考文献]

[1] 邱均平.网络计量学[M].北京:科学出版社,2010:120—121.

[2] 龚 军.《情报杂志》2000~2004年网络引文的计量分析[J].情报探索,2006(8):5—8.

[3] Dion Hoe-Lian Goh & Peng Kin Ng. Link Decay in Leading Information Science Journals[J].Journal of the American Societh for Information Science and Technology,2007(58):15—24.

[4] Spinellis,D. .The decay and failures of Web references[J].Communications of the ACM,2003(46):1—77.

[5] 张 瑞.网络信息老化的理论与实证研究[D].上海:华东师范大学,2009:1—53.

[6] Huebsch,R.. How dead are dead links?[EB/OL].[ 2009-04-26].http://www.cs.berkeley.edu/~huebsch/cs294-3/project/project.pdf.

[7] 朱 莹,望俊成.情报学领域网络引文衰减规律研究——以三种核心期刊为例 [J].情报科学,2010,28(5):669—704.

猜你喜欢
半衰期
SSCI 收录图书情报学期刊2013—2017年被引半衰期变化及其影响因素研究
基于语言学中文学术图书的半衰期分析研究*
如何成为管理时间的高手
基于引用半衰期的我国五官学期刊文献老化研究
基于JCR®的国外临床医学学科半衰期
我国环境科学学科半衰期分析*
基于CNKI数据的历史学学科半衰期探究*
基于文献引证关系的我国宗教学学科半衰期分析*
高中化学试题中的半衰期
基于文献计量学的我国化学学科半衰期分析