刘筱敏 张建勇
摘要根据中国科学院国家科学图书馆构建的数字资源环境,以化学领域的15种电子期刊为统计分析样本,分析2003-2005年的全文下栽量。利用中国科学引文数据库中国科学院著者引用这15种期刊的引用数据,分析下载行为与引用行为相关的关系。通过数据的统计分析,可以看出数字资源对科学研究行为的影响:期刊全文的高下载量为持续状态;期刊下载行为与期刊引用行为的趋势基本一致;高下载量的期刊引用次数也比较高;下载量低的期刊引用量也比较低。以期刊下载量为自变量,期刊的引用量为因变量,进行线性相关分析。利用皮尔松Person相关系数公式计算证明了下载行为与引用行为存在正向相关关系。
关键词全文下载量期刊引用相关关系
当网络的发展和资源载体发生变化后,用户越来越远离实体的图书馆,获取资源的手段更多地依赖于网络,图书馆在资源构建中逐步从印本资源为主转而向电子资源倾斜,构成了以购买电子版全文资源为主的资源建设模式。电子资源成为图书馆的主要资源模式后,通过出版商提供的全文下载量的统计,图书馆员都能深刻地感叹于下载量之大,感到电子资源较印本资源在用户使用资源中产生的影响大,但下载量的巨大是占有性的下载还是有目的地下载,巨大的下载量是否对其科研活动产生了巨大的影响,则较难测度。
仔细分析科研人员研究成果的产生,可以总结出查找资源、分析、实践、创造的科学研究过程,客观地讲,科研人员在创造过程中,会将对其科研成果产生影响的信息列举出来,说明其研究的基础,这种列举行为的结果就是文后参考文献的构成。文后参考文献是在查找的信息资源集合中真正对科研产生影响的信息,因此利用全文的下载量和文献引用量的分析可以得到电子资源的影响情况。本文尝试使用电子全文的下载量与期刊的引用量做比较分析,说明电子资源对科研活动的影响。
1数据来源及统计方法
考虑到数据的可获得性和数据的比较,笔者从一个学科的角度出发进行下载行为与引用行为的对比分析。
在中科院国家科学图书馆订购的电子期刊全文数据库中,选择了15种化学类期刊作为统计对象。选择期刊的因素考虑到一是下载量大,二是不同出版集团,三是不同出版年代,四是尽可能体现化学类的各个分支。可以从下载量、出版社的品牌影响、经典期刊等方面做多角度的分析。15种期刊分布如表1。
下载量的统计来自于15种期刊涉及的出版社提供的全文下载数量统计报告,统计中科院科研人员在2003-2005年期间对15种期刊的全文下载的数量。
引用行为的数据来自于中国科学引文数据库(简称CSCD)。CSCD收录了我国出版的中、英文核心期刊1000余种,其中核心库选择646种期刊,涉及自然科学、医学和工程技术等学科领域,根据中科院发表论文集中在其核心库来源期刊的情况,本统计分析数据来自于CSCD646种核心期刊。为使引用数据与下载数据具有可比性,选取了发表论文的机构中有中国科学院署名并在2002年--2005年期间发表论文的文后参考文献作为统计对象,统计引用15种期刊的次数。
2数据分析
2.1全文下载数据分析
根据表2中年度全文下载量计算,2004年比2003年平均增长了83.78%,2005年比2004年增长了15.97%。全文下载量呈增长趋势。
依下载总量降序排列,下载总量前5种期刊中4种期刊为ACS出版的期刊,4种期刊的下载总量占15种期刊下载总量的76.29%,专业协会出版期刊的高下载量说明了专业学协会出版的期刊更受到相关学科用户的关注。
下载量与创刊年的比较发现,一般创刊时间长的期刊下载量比较大,而新创刊期刊的关注程度较低,J11为1897年创刊,下载量为15种期刊下载之首,J1、J7创刊年限不足10年,下载量最低。但也有例外,J6和J13的创刊时间不足20年和10年,下载量比较高,从期刊刊登内容范围来看,不能排除用户对学科热点的关注。但总体而言,期刊提供可使用的信息量在一定程度上会影响用户的下载量。
2.2引用数据分析
根据CSCD2002--2005年统计15种期刊的引用情况,我们会发现,2003年的总引用频次较2002年有比较大的增长,2003年的总引用频次是2002年总引用频次的2.3倍,2004年和2005年也为上涨状态,但引用频次上升幅度降低。
总引用频次的上升情况可以通过图4观测到从图4还可以看到在2002--2005年中的引文年代分布,期刊被引用频次提高的基础是不同引用各年代文献的次数均为上升状态,在2002年期刊引用统计中,单年度引用量仅209次,2003年期刊引用统计中,每年度引文量有飞速上升的表现,在2004--2005年中已经有单年度引用量在1000余次以上。这种现象的出现,不能不考虑到文献获取方便性的因素。
3全文下载量与引用量比较分析
将下载量与引用量进行比较可以发现,下载量量高的期刊,在引用行为中使用程度也比较高,在图2中可以观测到这个规律,下载量的分布状态与引用量的分布状态基本一致,15和J13两种期刊的下载量与引用量突破了一般规律,两者都呈反向状态,下载量与引用量不是正向比例关系,这种现象的出现需要详细分析其学科特点和下载量的用户流向。
回顾国家科学图书馆的资源结构,可以发现2002年以前,国家科学图书馆以印本文献为主,用户需要接受到馆服务,2002年以后,国家科学图书馆不仅构建了以数字资源为主体的资源组织,而且构成了电子资源的访问、下载等新的服务模式,使用户可以快速地获取信息。从这个角度就不难解释为什么2003年以后15种期刊的引用量激增,进一步说明了电子资源对科研工作有深刻影响。
虽然有下载量高则引用量高的表现,但下载量对引用量的影响到底如何呢?通过2002--2005年中科院发表论文中引用15种期刊的年代分布统计,可以观测到论文引用的峰值年分布,图4中展示的是引文年与出版年之间10年每年的引用次数分布,可以观测到引用峰值年的存在,并可以明显地看出2002年引用文献的峰值年为2000年和1999年;2003年引用文献的峰值年为2001年和2000年,2004年引用文献的峰值年为2002年和2001年,2005年引用文献的峰值年为2003年和2002年,这种峰值年的存在符合经典的引文年代分布规律。由于峰值年表示了作者阅读论文、撰写论文和发表论文的周期,因此峰值年与出版年之差可以理解为科研产出的周期年。
根据论文产生周期计算,可以推测2003年用户的检索行为可以在2005年发表的论文中得到体现,把2003年全文下载量与2005年引用频次进行相关性计算。以期刊下载量为自变量,期刊的引用为因变量,进行线性相关分析。利用皮尔松Pearson相关系数公式计算,相关系数为0.66,如果将2003年下载量与2004年引用量进行相关计算,得到相关系数为0.88,相比较而言,2003年下载量与2004年引用量更相关,是否有一些期刊发表论文的时限在缩短,形成了下载量与引用量的强相关关系出现在一年之内?原因还有待于深入研究分析。尝试将2003年与2004年下载量之和与2004年及2005年引用量之和之间进行相关计算,得到相关系数为0.81,说明下载量与引文量存在比较强的相关关系,同时也说明多年的下载量会影响多年的引用量,验证了论文下载与引文量的正相关关系。
4结论
通过15种期刊下载量、引用量及其两者的比较分析,可以看出电子资源的构建对用户获取行为的影响,大量的信息获取支持了科研的发展,期刊的引用量上升。
与综合性期刊全文数据库比较,用户更注重使用与自身研究领域紧密相关的专业学会办的期刊。
电子全文的下载量呈年度上升趋势,说明了电子资源在用户信息使用中的重要作用。
高下载量对用户科研论文的创作产生了一定的影响,形成了自电子资源构建以来的引用量的大幅度上升。
期刊下载量分布与同一期刊的引用比,呈正向关系,期刊的下载量大则引用量也大。
下载量与引用量的相关关系比较强,相关系数为0.81。
由于网络的发展,用户获取信息的渠道发生了重大的变化,电子资源的使用仅仅是用户获取信息的一个途径,在引文数据中,没有体现出用户获取资源的途径,因此如果要进一步分析电子资源在科研中的作用,还有待于获得更多的数据进行细致的分析。但通过以上结论说明,电子资源全文下载的统计与期刊引用量的分析可以对资源建设提供一些借鉴,分析资源构建的合理性,为优化资源建设提供量化测度数据,从而使图书馆资源建设优化,为用户提供良好的信息资源。