□杨鲁捷
在读者对期刊全文数据库依赖程度越来越高的大背景下,期刊全文数据库收录年限相符度的问题应引起图书馆工作者的关注。根据数据库官方网站提供的信息:清华大学主办的“中国学术期刊网络出版总库”(简称清华库)所收最早的期刊为1915年出版,部分期刊回溯到创刊[1];维普资讯的“中文科技期刊数据库”(简称维普库)从 1989年起收[2];万方数据的“万方学术期刊数据库”(简称万方库)从1998年开始收录[3]。使用“收录年限”、“收录期刊年限”作为检索词,在上述三库中检索得到 20篇左右的相关文献,这些论文[4-8]提到数据库收录年限问题时,除石光 2008年在《中文期刊全文数据库收录图书情报学期刊的比较研究》一文涉及收录年限完整性的问题外,其他文献总是直接引用数据库供应商的宣传,没有对数据库实际收录期刊年限进行调查,但石光的研究仅限于对图书情报类期刊收录完整性的比较,并不掌握期刊全文库收录年限相符度的整体情况。
仅根据数据库供应商提供的信息,往往会给很多用户造成这样一种印象——这些期刊全文数据库收录的成千上万种期刊,都是从某某年开始收录,非常完整,有了这些数据库就等于拥有了从某某年开始至今的全部期刊,一年都不会缺漏,印本期刊的管理就可以放松要求了……。但是一个众所周知的事实是——并非所有的期刊都是从1915年或 1989年创刊并一直存在,数据库收录某刊也未必能从该刊的创刊年开始收录。甚至还存在一种情况,某刊存在,同时也在数据库设定的收录范围内,但数据库却未收录。例如,1981年创刊的《大学图书馆学报》,清华、维普、万方三库分别从 1983年、1989年、1998年起收,而1992年创刊的《国家图书馆学刊》,清华、维普、万方三库实际起收年则为1992年、2000年和2001年。由此二例即可看出,期刊全文数据库的实际收录年限与其官方网站上提供的收录年限未必相符,在数据库中,与宣称的收录年限不符的期刊有多少,占收录期刊的多大比例,尚未有人作过统计,这正是本文研究的问题。
为了检验数据库收录年限的相符程度,笔者提出了“收录年限相符度”的概念,“收录年限相符度”(Indexed Year Match Degree)缩写为“IYMD” ,是指数据库收录期刊中与数据库公布的收录年限相符的刊种数(n)与数据库收录的全部刊种数(N)之比。后文均以“IYMD”代表该概念。“IYMD”需要实际统计才能获得,不可想当然地认为IYMD=100%。对于收录期刊种数众多的综合型数据库而言,更要使用抽样统计的方法进行计算。本文以三大中文期刊全文数据库为例对数据库的“IYMD”问题进行研究,并以实例演示“IYMD”的计算方法。
根据2009年10月份获得的三库期刊导航的数据,清华库收录期刊7531种[9],维普库收录期刊15870种[10],万方库收录期刊 6414种[11],由于涉及期刊种数众多,故本文采用了抽样统计的方法计算三库的“IYMD”,并对影响“IYMD”的重要因素进行分析。
图1 样本数量计算公式
上图所示公式是不重复抽样时,计算整体成数应抽样本数量的计算公式。成数是指一数为另一数的几成,泛指比例[12]。公式中:“n”为在一定的极限误差和置信度要求下,应抽取的样本数量,本次统计中极限误差设定为±5%,置信度要求是95%;“N”是总体数量;“Δ p”是统计项目允许的抽样误差范围;“z”是标准正态分布双侧临界值,该值与统计项目要求的概率置信度对应,在95%的置信度要求下 ,“z”值为 1.96;“ P” 是总体成 数,根据统计学 知识,如果过去进行过此方面调查,可取最大值,如果没有进行此方面调查 ,取 p=0.5;“Q”=1-P。
按该公式计算得到,考察三库“IYMD”需要抽取期刊的种数分别为:清华库366种,维普库376种,万方库362种。
具体的选刊和统计过程中分为三个阶段:阶段一,构建三库收录期刊数据表;阶段二,根据“成数样本容量计算公式”计算得到应抽取样本刊的种数,对三库收录期刊按刊名排序后进行等间隔抽样;阶段三,对抽样选取的期刊,逐刊检索并记录其在相应数据库中实际收录年限,记录完成后进行“IYMD”计算。
2.2.1 构建三库收录期刊数据库
根据三库期刊导航信息,将三库收录期刊目录导入数据库程序,可以构建三库收录期刊的数据表。由于涉及数据多,本文仅将三库收录期刊数据表的截图放在文中,如图2。本文采集数据的时间是2009年10月。
2.2.2 选择期刊、获取期刊收录年限数据
在数据库收录期刊表整理完毕后,先按期刊刊名首字母字顺排列,再按照一定的间隔选取期刊、核对其实际收录年份。间隔确定依据的公式是s=INT(N/n)-1,其中“s”代表间隔 ,“N”代表“数据库收录期刊种数”,“n”代表“应抽取期刊种数”,“INT”为将数值向下取整为最接近的整数。以清华库为例,清华库收录期刊按刊名拼音首字母排序后,等距选取期刊的间隔为19(19=INT(7531/366)-1)。将三库收录期刊均按此法选取对应种数的期刊后,逐一在数据库中检索并记录其实际收录年限,得到图3。
图2 三库收录期刊表截图
图3 三库选取期刊及收录年限记录表截图
经检索得到三库收录期刊的实际年限信息后,即可通过计算得到三库的“IYMD”,计算结果记录在表1中。刊的创刊年的检索、记录,比较三方面的关系,得到如图4所示三个数据表,以表中数据为依据,对各种关系类型的期刊比例进行统计,结果记录在表2中。
表1 数据库收录期刊年限相符度记录表
图4 三库收录年限、实际收录年、期刊创刊年关系比较过程截图
根据统计,可以得到如下结果:按照三库公布的收录时限,清华库的“IYMD”是 73.8%,维普库的“IYMD”是 31.7%。万方库如果按1998年为收录起始年,“IYMD”仅为7.5%,即使将万方库的起始年定为1999年,其“IYMD”也仅仅达到23.8%。
影响“IYMD”的主要因素有:①数据库收录年限、实际收录年份与期刊创刊年的关系;②数据库对更名刊的处理方式;③建库依据的印本资源;④其他可能因素。因素③是指建库过程中使用纸本期刊资源的完整性,由于三库分别以清华大学图书馆、中国科技情报所重庆分所、中国科学技术信息研究所的纸本期刊资源为依据,且三库均可使用国内开展的文献传递服务,因此三库可使用的印本期刊资源实际上是相同的,本文不作深究。其他可能的影响因素待后续工作进行研究,本文重点对第 1、第2两个因素进行研究。
3.2.1 数据库收录年限标准、实际收录年份、期刊创刊年关系比较
根据统计学的定义,统计数据库“收录年限”、“实际收录年份”与“期刊创刊时间”三方面各类型关系的比例也属于计算“成数”的范畴,因此获取三库三方面各关系类型信息所需抽取的期刊种数仍为366种、376种与 362种,本文仍使用统计“IYMD”时抽取的期刊为样本进行统计。通过对三库选取期
在获取了三库选定期刊的创刊时间、实际收录年限后,对比三库收录期刊的公示年限,本文对三库中不在公示年限的期刊,也就是“起收年晚于收录标准”的期刊作进一步分析。结果汇总在表3中。
通过对“收录年限”、“实际收录年份”与“期刊创刊年”三者关系的比较,发现三库都存在一定比例的“应收未收”的期刊,也就是期刊已经创刊并发行,在数据库应收录年限范围内,但数据库未收录的期刊。三库存在这种现象的期刊所占比例分别为9.8%、23.1%、80.1%。
表2 三库收录年限、实际收录年、期刊创刊年关系记录表
表3 不在收录公示年限的期刊比例
3.2.2 更名刊处理方式对收录年限的影响
为探讨数据库对更名刊处理方式的不同是否会对收录年限造成影响,笔者按统计学的要求,对三库共收的更名刊的处理方式以及不同处理方式所占的比例进行了统计,统计结果汇总在表4
表4 三库对更名刊的处理方式汇总表
总结三库对更名刊的处理方式,得到的结果是:清华库 93.9%的期刊使用了自动跳转功能,新、老刊名的检索结果指向的是同一条记录。维普库中能检索到的老刊名虽不自动跳转到新刊名,但新老刊名原文链接使用相同的记录。万方库收录年限较短,65.6%的更名刊仅收录了期刊更名后的部分,另外32.8%的期刊能跳转到新刊名,老刊名不独立列出。维普库和万方库均有个别期刊更名前后使用两条记录表示,但比例很小,均小于 1%。综合而言,更名刊处理方式对数据库判断期刊收录年限相符度影响不大。
(1)现有的中文期刊全文数据库收录年限相符度偏低的现象应引起图书馆工作者、尤其是期刊工作者的重视,万万不可主观地认为使用了期刊全文数据库就拥有了全部期刊文献,更不能因为购买了全文数据库就放松对印本期刊的收藏和管理,只有在可靠的经济、技术、法律保障前提下,才能考虑用数字化期刊完全替代印本期刊。
(2)图书馆用户对期刊全文数据库的依赖程度越来越高,因此提高数据库质量的要求日益紧迫,数据库开发商应义不容辞地对“应收未收”的期刊进行补全,以提高期刊全文数据库的收录质量。
(3)在本文研究过程中笔者注意到,不仅存在收录年限相符度问题,收录期刊的连续性也存在问题。也就说数据库中存在漏年、漏期现象,应引起重视。
1 中国学术期刊(光盘版)电子杂志社.“中国学术期刊网络出版总库”简介.[2009-10-01].http://epub.cnki.net/grid2008/jianjie/introduction.ashx?dbprefix=CJFQ
2 维普资讯.中文科技期刊数据库机构镜像版首页.[2009-10-01].http://202.197.191.202/index.asp
3 万方数据有限公司.万方数据知识服务平台——帮助中心.[2009-10-01].http://www.wanfangdata.com.cn/help/index.html
4 石光.中文期刊全文数据库收录图书情报学期刊的比较研究.农业图书情报学刊,2008(3):121-124
5 彭晓庆等.中国期刊网、万方数字化期刊与中文科技期刊数据库内容性能之比较.中国索引,2007(1):48-52
6 李树民,许静.中国三大全文数据库收录医药类专业期刊比较分析.农业图书情报学刊,2007(7):162-165
7 杜云祥等.国内5大中文生物医学期刊数据库文献收录比较研究.预防医学情报杂志,2006(2):162-166
8 顾立茵.网上三大中文期刊数据库特点功能比较.现代情报,2005(1):135-137
9 中国学术期刊(光盘版)电子杂志社.中国学术期刊网络出版总库期刊导航.[2009-10-02].http://acad.cnki.net/Kns55/oldnavi/n_Navi.aspx?NaviID=100
10 维普资讯.中文科技期刊数据库期刊导航.[2009-10-02].http://202.197.191.202/Visitnew.asp
11 万方数据有限公司.万方数据学术期刊期刊导航.[2009-10-02].http://c.wanfangdata.com.cn/periodical.aspx
12 范秀荣,苏继伟.统计学.成都:西南财经大学出版社,2007:206-209