赵晓黎 孙济庆 李楠
〔摘要〕本文从数字出版和知识服务技术的角度,对中外文献数据库进行比较分析,发现由于发展历程不同,导致中外文献数据库的特征形式不同,在资源和知识服务方面存在差异。
〔关键词〕中外文献数据库;文献资源;知识服务;技术服务
DOI:10.3969/j.issn.1008-0821.2016.08.001
〔中图分类号〕G25074〔文献标识码〕A〔文章编号〕1008-0821(2016)08-0003-07
〔Abstract〕This article compared and analysed the literature databases at home and abroad from the perspective of digital publishing and technology service.It was found that as the development history of the databases were different,the characteristics of Chinese and foreign literature database were different either.So there were differences in resources and knowledge service.
〔Key words〕chinese and foreign literature database;literature resources;knowledge service;technology service
对文献数据库的研究是专业领域关注的重点之一,其研究主要探讨数据库的检索功能、资源收录情况、检索效率与服务功能[1-5]。而文献数据库作为数字出版的具体产品形态之一,还缺乏从其原始出版的角度对其进行探究。本文拟以中外科技文献全文数据库为研究对象,选取国外SpringerLink数据库和ScienceDirect数据库,以及国内使用较为广泛的万方数据库和维普数据库,以数字出版为视角,探析中外科技期刊全文数据库资源的差异;通过研究对比知识服务技术方面的不同,探索技术应用前景;为相关领域的专业人员了解中外科技文献全文数据库、为国内数据库的深入发展提供借鉴。
1中外文献数据库的出版差异探析
11中外数据库发展历程
中外数据库的发展历程有较大的差异,形成了不同的特征。从国外文献数据库出版发展历程看,其与纸质文献具有很清晰的出版脉络。数据库出版的产品都以纸质文献出版为基础,主要文献数据库的出版商基本就是纸质文献的出版社。因此,凭借着深厚的内容资源,这些传统出版商根据自身的特点和优势,形成了文献资源规模大、品种稳定、文献更新速度快等特征。如,德国的施普林格集团以及荷兰的爱思唯尔集团,都是大型的数据库出版商。他们旗下的SpringerLink和ScienceDirect数据库是传统的出版集团进行数字化转型的成果之一。
同发达国家相比,我国数据库产业起步较晚,90年代进入市场化运作[6]。我国传统出版商规模较小,拥有的内容资源有限,因此缺乏进行数字化转型的动力。在我国,形成了一批第三方文献资源集成的数据库商。万方数据库和维普数据库都是由科技公司主导的文献资源集成的数字出版形态。他们将传统出版商或其他机构的内容资源集成在一起,形成一个专门提供各种类型电子文献资源的集成平台,而不是内容出版者。从出版的角度来讲,万方数据库和维普数据库并不是真正意义上的数字出版。其优势在于集成资源数量规模要大于国外文献数据库;但其内容更新速度受到出版社的阻碍,往往容易产生很多知识产权的纠纷,影响文献收录的稳定性。
12文献资源探析
内容资源是文献数据库的基础。中外全文数据库的发展历程不同,导致这些文献数据库的数据源也有很大不同。
121文献资源的数据源差异
国外文献数据库由出版集团主导,因此其数字资源大部分是出版集团自身的纸质出版物,他们是文献数据库的数字资源来源和基础。如ScienceDirect数据库将爱思唯尔出版社出版的2 500多种期刊和11 000多种图书数字化出版。而SpringerLink数据库的数字资源也大部分来自施普林格出版集团出版的2 000多种学术期刊和超过7 000多种图书数字出版产品。
相比之下,国内的主要文献数据库数字资源来源于对已出版的纸质文献进行二次加工,使之数字化。如万方数据库和维普数据库就是将纸质文献资源扫描后进行数字化处理,形成数字资源。
122文献的数量与品种差异
国外全文数据库收录的大部分都是出版集团出版的刊物,数量是有限的。而国内全文数据库属于集成平台,形成的期刊资源规模更大。
SpringerLink数据库是目前全球最大规模的电子图书数据库,目前可检索到图书约为210 000本。而ScienceDirect数据库包含34 000余种图书,且数量不断增长。国外数据库的电子图书更新速度也较快,2016年5月检索发现数据库中已经出现2016年出版的新图书。万方数据库中收录了约为48 000余种图书,但早在2013年12月6日停止更新,而维普数据库没有收录图书。
国内的集成平台收录的期刊资源规模比国外更大,如万方数据库,除了收录期刊论文,还收录了包括专利、报告、地方志等内容在内的多种资源。另外,国外数据库出版商同时出版的期刊和图书被收录在同一数据库,但国内数据库的电子期刊和电子图书是分开收录的。国内数据库的文献资源扩展取决于数据库商的版权谈判能力与规范化程度。
123数字资源时滞性的差异
由于数字资源与纸质资源形成方式不同,国内数据库文献具有明显的时滞性。而以数字出版为主体的国外数据库往往不存在时滞现象。笔者于2016年5月9日,在ScienceDirect数据库中,以爱思唯尔出版集团出版的期刊《Omega》为对象,查看其在数据库中的最近更新。检索发现:最新的文章于2016年4月30日以在编文章(article in press)的形式出现在ScienceDirect上,也就意味着《Omega》期刊已经录用该论文,同时分配有DOI号码,可以立即被引用。而在SpringerLink数据库中,以《Academic Psychiatry》期刊为例,检索到最新刊载的文献为2016年5月第2期40卷,另外,在线优先出版的文献更新到2016年5月8日。国外数据库均不存在数字文献的时滞现象。
排除掉国内全文数据库的优先出版情况,笔者以《情报理论与实践》及《情报杂志》两种期刊为例,于2016年3月8日,分别在万方数据库和维普数据库进行检索查询,发现:在万方数据库中,《情报理论与实践》的最新一期为2016年3月刊,而《情报杂志》的最新期刊则为2016年1月刊;维普数据库中,《情报理论与实践》最新一期为2016年3月刊,而《情报杂志》则为2015年2月刊。纸质期刊实际出版时间与网上电子资源出版时间的时间差至少为2个月。国内文献数据库的电子资源具有一定的时滞性。
中外文献数据库在时滞性上的差异,原因在于:
(1)由于是第三方集成,在版权交易过程中为了保护传统出版社的利益,保证纸质文献的经济效益,数据库中的电子文献必须晚于传统纸质出版物的发行;
(2)第三方集成平台将整合的各类文献资源数字化,并存储至数据库中需要一定时间,因此会出现一定的滞后性。
124OA期刊出版的差异
国外全文数据库在开放获取运动中扮演了重要的角色,在开放获取开始被学术界认识和利用的过程中,各大文献数据库出版商也积极出版OA期刊和论文,实现学术的无边界共享,推动了开放获取运动的发展[7]。
SpringerLink数据库包含了3个开放获取出版平台。以BioMed Central Group为例,在BMC出版的280多种经同行评议的开放获取期刊中,有近180种期刊被SCI收录,其中175种期刊获得影响因子。而在ScienceDirect中的3800多种电子期刊,有500多种是开放获取期刊。
国外全文文献数据库出版OA期刊的数量较多,占数据库期刊总量的比重也较大,这说明经过较长时间的发展,OA期刊在国外得到了一定的认可,发展态势良好。国外文献数据库中出版的OA期刊经过严格的同行评议制度,被SCI收录,具有较高的影响因子和学术影响力。
像万方和维普这类全文文献数据库,由于是第三方集成,没有出版权限,缺乏自行出版的OA期刊,只能提供OA期刊和论文的链接。目前我国提供OA期刊资源的平台主要有中国科技论文在线及中国科技期刊开放获取平台,这些平台支持OA期刊的出版,也整合各种中外的OA资源。万方数据库中提供约为270万篇OA论文的链接,这些OA论文主要来源于DOAJ、PubMed、SRP等平台。
2中外文献数据库知识服务技术探析
随着知识交流的加深,文献数据库除了提供大量优质、及时的文献资源,深化多元化的知识服务成为文献数据库技术新的发展方向。数据关联与计量可视化是知识服务技术应用的主要方向,本文拟从此角度对中外文献数据库开展知识服务作探析。
21文献数据库中的数据关联
文献数据之间的关联是文献数据库采用知识服务技术的主要方式,此类关联可分为文献外部特征关联与文献内容特征关联[8]。
211文献外部特征关联
文献外部特征的关联,是指通过文献作者、机构、刊名等文献外部特征数据相互之间的关联。从其特征分析这是一种浅层次的关联,主要通过文献固有的外部特征词的相互匹配。此类关联目前在中外文献数据库中具有普遍性,如作者关联。
数据库中的作者关联可以是同作者的文献关联,或是相关作者关联。
同作者的文献关联,即可反映某一作者所著的所有文献。这是作者关联中最常见的关联模式。通过这种关联,可以查阅到数据库收录的该作者的所著文献,从而了解某一作者的研究内容及研究现状。
有些数据库还提供同作者的信息关联,关联到作者的信息中,除了作者单位、联系方式等,还包括作者的H指数、总发文量、总被引量等信息。这些信息是判断作者影响力的直观指标。
相关作者关联,即关联到与某文献内容相关的其他文献的作者。这种相关性是基于合作、引证或内容相似等关系形成的。若两个或多个作者之间合著过文献,则认为该两个或多个作者存在合作相关关系;在相互引证的文献中,某些研究内容可能有相似或重合的部分,即可认为这些文献的作者存在着引证的相关关系;而内容相似则是从文献整体内容上,如果某两篇或多篇文献中包含相似或相同的主题特征词,则认为这些文献的作者存在关联。
以万方数据库为例,通过文献《当前阶段我国科技期刊数字出版盈利模式探析》一文,得到的结果页面显示“作者”可以实现跳转(见图1);任意点击某作者,显示出数据库中收录的该作者所有的文献(见图2)。另外,万方数据库中的“相关学者”为读者提供了与原文献作者相关的学者,这种相关性是通过原文献中前两个关键词的“或”关系得到的,“相关学者”数量较多。
作者关联是数据库常见的关联形式。通过这种关联可以很好地掌握某一作者的具体研究内容及关注点;通过“相关作者”了解在该研究领域内其他相关的研究人员,并可以继续了解这些学者的具体研究内容及关注点。通过这种循环往复的关联过程,使得以“作者”为中心的各种知识如网状铺开,知识的关联性得到加强,从而扩大了检索的范畴。
212文献内容特征关联
内容特征关联是基于文献内容主题领域之间的关联。根据不同的关联方法,笔者将其分为3个层次,内容关联由浅到深可分为:引文关联、特征词关联以及内容扩展关联。
(1)引文关联
引文虽然也可归属于文献的外部特征,但其却可以反映文献主题领域。引文关联是基于文献外部特征性质的浅层次的内容关联。通过引用和被引的角度,使得相关文献关联起来,形成文献知识链,不仅可以追溯到文献的知识源头,还可以掌握课题知识领域发展的脉络和方向[9]。
在现有的中外数据库中,包含了非常丰富的引文关系。在文献显示页面可以找到文献的引用文献及引证文献。通过这些引用和引证文献,还可以了解文献之间的共引关系及同被引关系等。
以ScienceDirect数据库为例,文献Digitisation of publishing:Exploration based on existing business models共69条参考文献,这其中能被ScienceDirect数据库收录或实现跳转的都可以直接关联(见图3)。除此之外,文献的引证文献(见图4)也被列出,点击每篇文献,则会跳转到具体的全文中,点击“view more articles”,则会跳转至Scopus数据库,显示出所有引证文献的题录信息。图3ScienceDirect数据库中的参考文献的关联
图4ScienceDirect数据库中引证文献的关联
中文数据库也有类似的引文关联功能。但中外数据库中最大的差异在于:提供具体引文信息的数据库有所不同。万方数据库和维普数据库得引文关联都是通过数据库内部提供,这是因为国内数据库是第三方集成平台,拥有大量的文献集成资源,这些关联的引文都收录于数据库内部。而国外的数据库是由出版商主导的数字出版,收录的文献包括本出版集团出版的文献、以及少数其他出版集团的文献;而一篇文献的引用文献或引证文献涉及的范围很广,同时被该数据库收录的可能性较小,因此需要跳转至其他数据库。如ScienceDirect数据库就是利用Scopus隶属同一家公司实现在ScienceDirect中引文关联,再由Scopus链接至具体文献的全文内容。
(2)特征词关联
特征词是文献中反映文献内容特征的词。在中外数据库中,普遍包含的特征词之间的关联,主要有关键词关联及相关词关联。
中文数据库中的关键词是作者对文献内容特征标引的词,是文献中客观存在的词。关键词往往反映了一篇文献的主要研究内容。国外数据库中的特征词包含了作者关键词和数据库标引词。在国内数据库中,关键词关联的主要形式是基于相同关键词的文献关联,即关联到其他以该关键词标引的文献。以维普数据库为例,点击具体的关键词,就会显示出所有以该关键词为标引的其他文献的题录信息(见图5)。图5维普数据库中关键词关联
相关词关联是另一种特征词关联的关联形式。中外数据库在此关联中略有差别。
如万方数据库中的相关词关联是指“相关检索词”关联。在万方数据库中,系统会推送出多个与该文献相关的检索词(见图6)。图6万方数据库中的相关词关联
在SpringerLink数据库中的相关词关联是指“相关概念”关联,文献中包含的某些概念或相似概念都会被列举出来。这些概念往往都经过规范化处理。读者通过相关概念词,可关联到该概念的其他文献。从一篇文献挖掘出一部分相关概念,再将这些概念融合到其他文献中,再通过其他文献发掘其他相关主题概念词,从而形成一种主题网络,了解主题之间的关系,查阅与研究有关的文献整体概貌,以提升数据库的知识服务水准。
(3)内容扩展关联
内容扩展关联属于深层次的内容特征关联。其主要是通过某一篇文献内容,分析该文献所属研究领域,提取具体研究内容概念,实现与类似研究文献之间的关联。
由于内容扩展关联技术难度较大,目前中文数据库对内容扩展关联功能应用处于起步阶段。相较之下,国外数据库的内容扩展关联有一定程度的应用。以SpringerLink数据库为例,该数据库提供某篇文献的研究主题以及所属行业领域(见图7)。这些主题及行业领域都是以主题词表进行规范化标引的,专业性较强。通过一篇文献,就可以清楚了解该文献研究包含的主题,了解该文献涉及的产业领域,通过这些关联,还可以找到该研究主题或产业领域的其他相关文献,从而扩展了原文献的内容。
从引文关联到特征词关联再到内容扩展关联,是中外数据库中内容关联由浅入深的关联。也是数据库知识服务技术应用由浅入深的具体表现,中外数据库都在利用各种技术进行深化数据库的知识服务。
22文献数据库中的计量与可视化
计量功能主要是应用文献进行计量分析与评价,从直观的数字形式来表达文献内涵的规律。可视化应用则是对图7SpringerLink中内容扩展关联
文献内涵的知识或计量的结果图形的形式表达,以更直观地表达出数据或知识之间的关系。
221数据库的计量功能
文献计量是中外数据库中的较为普遍采用的功能。从整体上分析,计量功能的应用主要分为两种:一是简单的计数统计。这种计量方式普遍存在于中外数据库中,如文献浏览量、下载量、学者发表的文献数量等,这些客观数据是反映用户行为,不经过模型计算,并且随时间的动态变化。
另一种计量是指特定模型下计量评价分析,提供的数据指标往往是经过计算过程的得出的,也是一种动态数据,其具备评价功能。如H指数,可评价学者的学术能力;影响因子可了解期刊的学术影响力等。
目前中文数据库都是采用数据库内部数据完成计量功能,而国外数据库则是利用外部计量工具完成计量,如利用bookmetrix,对SpringerLink数据库中的图书信息进行计量。
222数据库的可视化工具
为了增强用户体验,更直观表达数据之间的相互关系,可视化处理成为中外文献数据库重要的发展的趋势之一。可视化主要包括3种形式[10]:纵向可视化,用于表示某一特征的随时间变化的状态;横向可视化,用于表达在同一时间状态下不同特征之间的相互关系;交叉的可视化,则将纵向时间轴与横向特征轴相结合后的总体数据状态。
国内数据库对可视化运用较多,各种简单计数统计都可以用纵向或横向可视化表示。如在维普智立方中,以“文献数据库”为检索对象,则可分别进行横向与纵向图形展示;利用360°网络图,则可将多种横向分析进行交叉分析,得到包含如研究领域、机构、所属学科、作者、题名、期刊等文献特征的网络关系图,以此了解各个文献特征之间的关系及关联情况。图8万方数据库“文献数据库”的360°网络图
而国外数据库内部的图形展示有一定局限。如,SpringerLink数据库中,利用可视化功能可进行主题词关联,分析文献主题概念词之间的关联信息以及相关的文献信息。图9SpringerLink数据库中可视化关系图
由于可视化功能受到越来越多的重视,因而数据库商专门编辑出版了一些专业化的文献计量与可视化工具,如Citespace、HistCite等,这些工具可将从数据库中导出的文献数据进行分析并进行可视化处理。
3结语
本文从出版角度分析了中外文献数据库不同的发展历程,可以发现国外文献数据库是以数字出版为主,多以出版集团的出版物为主构成数据库的文献资源。由于出版机构有严格的同行评议制度,文献质量都能得到很好的控制。而国内文献数据库基本属于第三方文献集成的数据平台,汇集各类资源运用数据库技术提供服务,其并不拥有文献的版权。但由于集成的原因,导致数据源、文献时滞性和有关OA期刊的出版,都有很大的不确定性。
正是由于发展历程的不同,也导致了中外文献数据库在数据关联与计量可视化应用方面存在较大差异。国外数据库是出版集团主导的,因此更加注重数据库的内容资源的加工质量,引文关联、计量与可视化基本都是通过外部专业软件来进行的。而国内数据库以科技公司为主导,偏重技术层面,在内容加工方面缺乏经验;而在扩大数据库的使用功能,多样化各类文献的关联,开发计量和可视化功能等方面具有一定优势。
参考文献
[1]章亚娟.互联网上三种外文期刊数据库的文献检索比较研究[J].图书情报工作,2003,(5):77-79,86.
[2]袁小翠.网络信息搜集工具分析之CNKI与重庆维普的比较[J].科技广场,2012,(4):156-159.
[3]江洪,王微.国内外数据库平台用户信息服务功能比较研究[J].图书馆学研究,2014,15:72-77,83.
[4]谭捷,张李义,饶丽君.中文学术期刊数据库的比较研究[J].图书情报知识,2010,(4):4-13.
[5]王军辉,李丹亚,余希田,等.国内外部分文献数据库检索系统相关文献功能浅析[J].中华医学图书情报杂志,2010,(5):68-71.
[6]罗曼.数据库出版发展研究[D].武汉:武汉理工大学,2013.
[7]初景利,李麟.国内外开放获取的新发展[J].图书馆论坛,2009,29(6):83-88.
[8]王曰芬.面向知识服务的信息分析及应用研究——以文献数据库为来源[J].情报理论与实践,2011,(3):54-57,34.
[9]周健.网络文献数据库知识服务功能及其评价研究[D].郑州:郑州大学,2012.
[10]赵丹群.试论学术期刊文献数据库计量分析功能的开发[J].图书情报工作,2008,(10):45-47,96.
(本文责任编辑:马卓)