李慧芳
摘 要 比较资源发现系统和学术搜索引擎的功能异同,有助于优化图书馆发现服务。本文选取EDS和百度学术搜索为研究对象,通过文献述评与实验方法,从资源收录范围、数据来源与组织方式、检索功能、检索结果运用以及个性化服务等方面比较了两者异同。结果显示,在具体的功能上,两个系统各有优点。最后,本文从资源整合、信息素养教育、知识发现服务三个方面提出图书馆发现服务优化建议。
关键词 发现服务 资源发现系统 学术搜索 图书馆
分类号 G252.7
DOI 10.16810/j.cnki.1672-514X.2019.09.015
Comparative Study on the Functions of Resource Discovery System and Academic Search Engine: Taking EDS and Baidu Academic Search as an Example
Li Huifang
Abstract Comparing the functional similarities and differences between the resource discovery system and academic search engine willoptimize the library discovery service. EDS and Baidu Academic Search are selected as research objects in this paper. Through literature review and experimental methods, this paper compares them from the view of resource types, data source and organization mode, search function, search result application and personalized service.The results show that the two systems have their own advantages in specific functions. Finally, it puts forward optimization suggestions for library discovery service from three aspects: resource integration, information literacy education and knowledge discovery service.
Keywords Discovery service. Resource discovery system. Academic search. Library.
0 引言
近年來,几大搜索引擎公司为进一步方便学术用户获取学术资源,纷纷在其原有搜索引擎的基础上推出了学术搜索引擎。学术搜索引擎通过科学组织、管理和维护网络中的学术信息,使用户通过一个检索入口快速获取网络学术信息[1]。目前,该类型的搜索引擎主要有Google Scholar、Microsoft Academic Search以及百度学术搜索。同时,随着Google Scholar学术搜索的榜样效应,元数据索引服务开始进入图书馆界的视野,基于元数据仓储的资源发现系统面世,并在国内外图书馆中得到迅速而广泛的应用。资源发现系统是通过抽取、映射、收割、导入等手段对海量的来自异构资源的元数据和部分对象数据进行预收集,并通过归并映射到一个标准的表达式进行预聚合,形成统一的元数据索引,通过单一但功能强大的搜索引擎向终端用户提供基于本地分布或者远程中心平台的统一检索和服务的系统[2]。资源发现系统自2009年面世以后,发展很快,其中在国内被广泛应用的系统主要有ProQuest公司的Summon和Primo Central、EBSCO公司的EBSCO Discovery Service(EDS)以及超星发现系统。
目前,国内学者对学术搜索引擎以及资源发现系统分别做了大量的研究,也有少量的研究是分析比较了这两类系统的性能、特点,为用户选择和使用提供指导,为图书馆引进资源发现系统提供参考,但都没有涉及面对学术搜索的竞争,图书馆的发现服务该如何应对[3-6]。本文从资源收录范围、数据来源与组织方式、检索功能、 检索结果以及个性化服务等方面比较这两类系统的异同,明确各系统的特点,并根据比较结果对图书馆的发现服务提出优化建议。
1 研究对象与方法
1.1 研究对象
本文以EDS与百度学术搜索为研究对象。EDS是EBSCO公司2010年推出的网络级资源发现系统,利用EDS,读者只需使用单一检索框,即可在几秒钟之内检索到图书馆的各种电子和纸本馆藏,检索结果与本馆馆藏资源保持一致。百度学术搜索是百度旗下的学术资源搜索平台,提供海量中英文文献检索,涵盖了各类学术期刊、会议论文等资源,受到了教育和科研机构用户的广泛关注,成为科研工作者获取文献的利器。
1.2 研究方法
本文采用的研究方法主要有两种:一是文献调查方法,通过收集与资源发现系统相关的期刊论文、会议报告、产品说明书等,了解资源发现系统的评价指标,尤其是EDS和百度学术的发展历程与产品性能特征;二是实验方法,通过具体检索词的测试与分析,从系统收录的学术资源、检索性能、检索结果处理以及个性化功能等方面进行比较分析。
2 比较结果分析
2.1 学术资源
(1) 收录范围。EDS的收录范围相对明确,根据EBSCO公司最新数据,其收录了近10万家期刊和图书出版机构的资源,覆盖的资源类型丰富,包括图书、期刊、学位论文、会议论文、报纸、音频、乐谱等,但其资源以外文为主,在中文资源方面有所欠缺,目前可以索引到的中文期刊仅有重庆维普以及万方期刊。百度学术并没有明确资源收录的范围,从其具体的使用来看,资源类型少于EDS,仅仅包括期刊、学位论文、会议论文、图书、专利5种,资源语种包括中文和英文。
无论是百度学术还是EDS,均不支持空检索,因此,笔者随机选择几个检索词,对检索结果的中外文数量做了比较,具体结果见表1。由比较结果可看出,对于中文检索词,百度学术检索结果数量优势明显,对于英文检索词,EDS检索结果数量则遥遥领先,这也反映了这两个系统收录中英文资源的差异。
(2)资源来源。EDS和百度学术的资源来源具体如图1所示。
EDS资源主要来源于数据库资源、OA资源以及图书馆自建资源。对于数据库以及OA资源,主要通过和数据库商及出版社合作的方式获取;图书馆自建资源主要是指图书馆自建的书目数据库以及机构知识库等本地资源,本地资源是EDS知识库的重要组成部分,主要通过自动收割或人工导入的方式完成对本地资源数据的映射和上载工作。百度学术搜索的资源主要来源于数据库资源、OA资源以及网上的免费资源。网上免费资源是指来源于百度文库、豆丁网、爱学术等途径的资源,这部分资源以非传统的形式发布,未经过同行评审,因此会在质量和权威性方面存在差异。
(3)资源组织。EDS的资料团队会把不同来源的元数据整合在一起,经过一系列规范化的预处理形成EDS格式统一、内容丰富、结构清晰的元数据仓储。与资源发现系统的原理相似,百度学术搜索将各种分散的数据不分学科都集中到一个资源库,形成百度学术搜索后台超大规模元数据索引知识库。根据百度学术的声明,此知识库元数据来源途径有三种:题录数据,来自于数据商合作、OAI(Open Archives Initiative)协议收割、搜索引擎收录;引文数据,来源于OA(Open Access)集成;全文数据,来自于数据商合作、学术网站解析、PDF解析[7]。笔者在实际运用中发现,百度学术部分资源的元数据存在错误或不规范的现象,如在资源类型分类中,部分期刊论文、会议论文未能正确标引,在检索结果中被划分为其他类型等。笔者将这两个系统元数据的主要优势进行总结比较,具体见表2。
2.2 检索性能
检索性能的强弱是评价学术搜索引擎的重要指标,会直接影响用户体验效果。
(1)基本检索。百度学术搜索和EDS均提供基本检索和高级检索两种检索功能。基本检索界面,均为一框式检索,系统根据用户输入的关键词进行检索。不同的是,EDS除了以上功能外,还支持检索詞的位置限定功能,提供作者和标题两种位置限定。为进一步测试这两大检索系统的功能,笔者选择检索词“大数据”“中国”“temp*”“ols?n”,并对检索词“大数据”“中国”使用布尔逻辑检索词进行组配,结果发现,百度学术搜索和EDS均支持布尔逻辑检索。但对于截词符,EDS支持截词符“?”“*”检索,但百度学术搜索却不支持,关键词中的“*”或者“?”会被忽略掉。具体见表3所示。
(2)高级检索。EDS和百度学术搜索的高级检索功能比较相似,主要有以下两个方面:一是对检索词的限定,如检索词出现的位置,多个检索词之间的逻辑关系等;二是对检索结果的筛选,可从作者、出版物、发表时间、语言等方面对检索结果进行限定。具体比较见表3。相较于百度学术搜索,EDS在每一部分都提供了多而细致的检索字段,选项更加丰富。
(3)辅助检索功能。百度学术搜索和EDS均支持检索词自动补全功能、中英文互检功能(利用一个检索词可同时获取中文和英文资源)。除了以上常见辅助检索功能外,两个系统还具有其独特的智能化辅助检索功能。百度学术搜索提供相似文献、参考文献和引证文献的查看功能,从多个角度为用户提供相关信息;同时具有检索词纠错功能,对拼写有误的检索词进行指正、修改。
EDS的辅助检索功能主要有刊内检索功能和相关主题扩展检索。当检索词和刊名一致时,EDS将期刊作为第一条检索结果呈现,并提供检索框,用户可输入检索词,在此刊内检索,提升检索结果的相关度。EDS还提供“应用对等科目”功能,可根据用户输入的关键词,自动匹配出此关键词的不同表述方式,使检索结果更加完整。
2.3 检索结果
(1) 结果展示。检索结果页面展示的信息越详细,越有利于用户对资源内容的准确掌握,百度学术搜索和EDS均以列表的形式展示检索结果,且两者的检索结果信息较为相似,都包含了文献的题名、著者、关键词、出版物、摘要、出版日期等主要信息。具体比较见表4。“被引量”是百度学术搜索免费提供的增值功能,不仅可以免费搜索跟踪期刊文献的引证文献,还能搜索跟踪会议录、学位论文以及图书、专利的引证文献。EDS检索结果页面信息提供4种格式供用户选择:标准格式、仅限标题格式、简介格式和详细格式。选择的格式不同,检索结果页展示的信息详细程度也不同,本文以标准格式为例。“馆藏信息”是针对本馆书目信息资源独有的内容,可以查看该资源的馆藏地、流通状态等信息。“使用量”是与PlumX整合后具有的功能,查看检索结果被使用情况。
(2) 结果排序。百度学术搜索和EDS默认状态下均是按相关性对检索结果进行排序,最相关的文献排在最上方。时间的排序可帮助用户筛选出最新和最早的研究。按被引量排序依据了文献的影响力,引用量越高的资源排序越靠前。
(3) 分面精炼。分面是指事物的多维度属性,分面精炼是指通过事物的这些属性不断筛选、过滤检索结果的方法[8]。百度学术搜索和EDS提供多个分面,包括内容类型、主题、著者、出版时间、语言等等。利用这些分面,读者能够从不同的角度对检索结果进行归类整合、层层细化。这两个系统具体的分面比较见表4。通过比较发现,两个系统在具体的分面项设置上存在较大差别。对于文献类型分面,百度学术搜索仅能提供10个二级分面选项,而EDS提供的文献类型有20多个,且百度学术搜索只能从系统提供的期刊、学位论文、会议论文、专利等选项中选择一项,但EDS却可以选择多项;在出版时间这一分面项上,百度学术搜索可精确到年,而EDS可精确到月。
(4) 全文获取。EDS和百度学术都提供数据库的全文下载链接,如万方、Elsevier等,但这一功能的前提下实现的学校已经购买了这些数据库,具有全文访问权限,且在学校IP地址范围内访问;对于免费资源,则访问不受限制,如百度学术可提供百度文库、道客巴巴、豆丁网、爱学术等免费网络资源的获取途径,EDS也支持OA资源的不受限访问。