国内三大中文发现系统比较分析及评价

2017-01-04 06:07
图书馆研究 2016年6期
关键词:超星百度检索

(徐州工程学院图书馆,江苏徐州221008)

国内三大中文发现系统比较分析及评价

赵功群,王 恒

(徐州工程学院图书馆,江苏徐州221008)

从元数据资源整合、检索功能、数据挖掘服务、全文获取途径等几个方面,对中国知网学术搜索、超星发现系统、百度学术搜索三大中文发现系统的发现功能进行实证比较分析。通过数据比对,认为超星发现系统无论在资源整合还是数据挖掘等方面都具有明显的优势,其他的知识发现系统需要进一步的完善和优化,以提高知识发现系统的整体水平。

知识发现;超星发现系统;中国知网学术搜索;百度学术搜索

1 前言

大数据给图书馆带来丰富资源的同时也带来了数据冗余和信息孤岛效应。为应对大数据带来的问题,图书馆积极探索数字资源整合的途径和方法,但整合的结果较差。近年来,数据服务提供商与图书馆合作开发知识发现系统,为用户提供一个实现各类学术资源发现与获取的一站式解决方案,以提升用户利用资源的有效性与友好性。

知识发现系统是在日益增长的海量数字资源基础之上建立的,其宗旨在于打破以往的书刊目录、文献索引和部分文献全文利用的局限,为用户提供具有完善、高效的知识挖掘与数据分析功能的知识发现系统,从而实现从资源发现到知识发现的转变[1]。知识发现系统内建海量数据的元数据仓,整合各种图书馆资源,包括内部的、外部的、纸质的、电子的、自有的、许可的以及可自由获取的数据源,使用统一标引的数据格式,提供简单、单一的检索入口,通常是类似Google的“一框式”搜索,通过检索预先设定的元数据仓来快速返回结果,通过链接解析器链接到全文,提供分面和高级检索功能,在用户体验层面全面超越了联邦检索[2]。

2 国内三大中文发现系统的比较分析

目前,国内比较有代表性的知识发现系统主要有超星知识发现系统、中国知网学术搜索、百度学术搜索。通过在元数据整合、检索功能、数据挖掘服务、全文获取途径等方面的比较分析,全面考量上述三大知识发现系统对数据挖掘技术、学术研究及评价的积极作用。

2.1 收录数据

2.1.1 元数据资源整合

由于中国知网学术搜索和百度学术搜索不支持空检索,所以系统元数据总量无法核实。为了相对直观地进行比较,笔者随机选取“图书馆”“信息安全”“屠呦呦”作为检索关键词,语种限定为中文,检索时间为2016年4月8日,利用三个发现系统分别检索,并对检索结果进行比较,检索结果见表1。

表1 关键词抽查结果比较

从表1可看出,百度学术搜索收录的期刊总量远远大于超星知识发现系统和中国知网学术搜索,在会议文献和学位论文方面的收录数量低于超星知识发现系统。但百度学术搜索的图书检索总量为整数零,检索结果的准确性有待提高。以“中国图书馆学报”为检索词,通过百度学术搜索检索期刊结果显示为21 900条,但是通过手工统计结果仅为760条,远远低于系统显示条数。在商业数据库方面,超星知识发现系统无论在图书、期刊还是学位论文、会议论文,其数据量都远远大于中国知网学术搜索。中国知网学术搜索并没有统计检索数据所占每种类型的数量,需要手工统计,耗费时间。

2.1.2 元数据的类型

表2 元数据类型比较

如表2所示,三大发现系统都能保证期刊、学位论文和会议论文的收录。但从资源揭示的类型来看,超星知识发现系统和中国知网学术搜索还收录了报纸、专利、标准、科研项目等其他元数据,具备较为完善的文献资源类型,资源完备度高于百度学术搜索。另外,超星知识发现系统还收录了视频、科技成果等半结构化数据,数据资源更加丰富。这与超星公司在图书、视频资源以及期刊数据资源整合上的积累是分不开的。

2.2 检索功能

超星知识发现系统、中国知网学术搜索和百度学术搜索均能提供强大的检索功能,检索的交互性、个性化特点表明发现系统更加注重读者检索的愉悦性和可操作性。

表3 检索功能对比表

如表3所示,三大发现系统均提供基本检索功能,检索界面如搜索引擎一样简单直观,通过单一检索框实现关键词的统一检索。百度学术搜索不提供二次检索。超星知识发现系统、中国知网学术搜索均提供二次检索(在结果中检索)功能。

百度学术搜索的高级检索功能继承了百度搜索的简练界面,可以限定检索词为精确检索词、全部包含等,但是检索词的位置限定比较单一,只有全部和篇名。超星知识发现系统和中国知网学术搜索延续了商业数据库注重检索功能的多样性传统,在高级检索功能中提供布尔逻辑检索和可扩展的检索框,方便读者根据学术研究的需要增减检索词。另外,超星知识发现系统在保证题名、作者、关键词等主要检索途径的同时,还增加了ISBN号检索,每页显示条目以及馆藏纸质图书和电子图书的归类,极大地方便了读者的个性化检索。

聚类检索是发现系统为方便读者检索而设计的个性化程度最高的检索方式,以元数据资源为基础,以文献计量学和数据挖掘技术为手段,较好地解决了复杂异构数据的资源整合,通过分面聚类的方式实现高价值资源的发现。目前,百度学术搜索提供了期刊、学位论文、学术会议论文的聚类;中国知网学术搜索提供了期刊、学位论文、学术会议论文等10种资源的聚类检索;超星知识发现系统则提供图书、期刊、学位论文等9种资源的聚类检索。百度学术搜索、中国知网学术搜索和超星知识发现系统均提供了基于学科(领域)的分面筛选,而超星知识发现系统更为严格的参照了《中国图书馆图书分类法》的分类体系和标准,同时支持二级分类[3]。

2.3 数据挖掘服务

2.3.1 引证分析

图1 中国知网的引证关系

笔者以《图书馆2.0:构建新的图书馆服务》这篇图书馆领域引用率较高的学术论文作为样本,分别检索百度学术搜索、中国知网学术搜索和超星知识发现系统。百度学术搜索在检索出该文献后可以查看其对应的引证文献,包括全部文献、期刊、学位论文和会议文献,同时能揭示引证文献的所属的学科领域。中国知网学术搜索揭示的引证关系需要跳转到中国知网界面(见图1),引证文献显示期刊、学位论文和会议文献,同时可以揭示节点文献的共引文献、同被引文献等。超星知识发现系统的功能更加强大,除展示期刊、图书、学位论文、会议论文外,也支持共引文献、同被引文献(见图2),提供引证文献的EXCEL格式导出功能。超星知识发现系统是目前唯一能对图书的参考引证关系进行对比分析的系统。另外,超星知识发现系统还对该文发表的期刊在不同时期的影响因子进行了揭示(见图3)。

图2 超星知识发现系统的引证关系

图3 超星知识发现系统文章发表期刊的历年影响因子

2.3.2 图书信息对比分析

在文献信息源中,图书、期刊和专利并列为三大信息源,所以知识发现系统中图书信息的发现和揭示也是考量发现系统揭示的深度以及知识颗粒度细化的重要指标。以“信息系统与数据库技术”为例,百度学术搜索不提供图书的检索,中国知网学术搜索和超星知识发现系统的图书发现见图4和图5。

图4 中国知网学术搜索图书发现图

图5 超星知识发现系统图书发现图

用户不能每看一本图书就需要购买。如果用户只想看其中的一些章节,或是买到手发现可用的并不多,直接购买图书是很大的浪费,学术搜索平台能起到多大的作用呢?在这点上超星知识发现系统就比中国知网学术搜索服务更加人性化,可以为用户提供全文读取(图书馆已先期购置),如果用的内容少则没必要购买,超星知识发现系统提供图书的全部目录,用户可以根据实际需求选择试读或者通过文献传递方式获取所需的内容。

2.3.3 可视化对比分析

(1)相关性分析。百度学术搜索和中国知网学术搜索在每次搜索后都会推荐相关性搜索,包括相关性期刊、相关性作者等。超星知识发现系统提供可视化知识图谱,用户可以根据当前的检索词的相关词继续筛选所需要的内容,更精准的定位到检索内容,主要是给用户一个直接的提示作用,如知识点提示、作者提示、机构提示等,避免用户不知道精准的检索词信息而检索不出想要检索的图书期刊等(见图6)。

图6 相关性分析对比

(2)趋势图分析。学术趋势分析(Academic-trend Analysis)方法是在海量文献以及大量用户使用记录的基础上,提炼某一主题或关键词进行的时间序列统计。它可以为研究者掌握学术方向、了解学术前沿动态提供重要信息依据,尤其适合新涉足某一研究领域或致力于开发交叉学科新兴研究方向的研究人员。学术趋势分析可以比较直观地显示搜索主题每年的发文量并提供部分重要信息,研究者可利用该项功能把握搜索主题的研究生命周期及其发展前途[4]。在三大发现系统中,百度学术搜索和中国知网学术搜索均没有提供趋势分析图表,中国知网的平台下提供了基于学术热点的趋势分析。超星知识发现系统提供强大的学术趋势的深度分析,不仅对某个知识点的资源类型进行单独分析,还创建一个以时间为横轴、发文量为纵轴的涵盖图书、期刊等各类文献信息源的综合对比分析图(见图7)。用户可以查看检索内容近10年、20年或是30年各种内容类型的发展趋势,更直观地了解检索内容,便于分析选择。针对很多文献分类都有其发展分析,这里也给用户提供了一个很便捷的选择方式,用户只需点击某个类型的某个年份就可以直接定位到其选择内容中,并且最多可支持五个关键字的对比分析,也就是用户检索一个关键字还可以检索其他相关联或是无关联的关键字,一起展示它们之间的趋势分析,更直观地对比关键字之间的发展形势。

图7 超星知识发现系统各类型学术发展趋势曲线

(3)统计图分析。超星知识发现系统更直观地展示了每一部分占总的比例,可以清楚地知道图书检索数量,并且知道占总量的百分比(见图8)。从图8也可知道超星知识发现系统对于文献的分类是很全面的。

图8 超星知识发现系统资源检索量分布统计图

如果用户需要统计相关资料的分析,趋势图分析和统计图分析还提供了“导出excel文件”,用户可以直接使用,不需要再零散地找资料分析。而百度学术搜索和中国知网学术搜索则没有这方面的功能。

2.4 全文获取

百度学术搜索提供维普、万方、知网的全文下载链接,如果读者所在单位购买了相关资源,就可以直接下载。同时提供百度文库、道客巴巴、豆丁网等下载链接和文献互助。中国知网学术搜索依托中国知网对期刊资源强大的整合力,在平台上直接提供PDF和CAJ格式的论文下载,外文资源一般提供开放获取资源的链接。超星知识发现系统在“获得途径”处提供万方、知网、维普等电子资源供应商名称,点链接直接进入相应的数据库文摘页面进行在线阅读全文或下载,提供“邮箱接收全文”的文献传递获取方式。

3 结语

通过上述对元数据整合、检索功能、数据挖掘、全文获取等方面的对比分析,可以看出超星知识发现系统具备绝对的优势,超星知识发现系统以海量元数据为基础,利用数据仓储、资源整合、知识挖掘、数据分析、文献计量学模型等相关技术,较好地解决了复杂异构数据库群的集成整合以及高效、精准、统一的学术资源搜索,进而通过分面聚类、引文分析、知识关联分析等实现高价值学术文献发现、纵横结合的深度知识挖掘、可视化的全方位知识关联,帮助用户快速实现对相关知识和信息的结构性认识。

[1]刘江玲.面向大数据的知识发现系统研究[J].情报科学,2014(3):90-92,101.

[2]秦鸿,钱国富,钟远薪.三种发现服务系统的比较研究[J].大学图书馆学报,2012(5):5-11,17.

[3]覃燕梅.百度学术搜索与超星发现系统比较分析及评价[J].现代情报,2016(3):48-60.

[4]黎子辉.CNKI与万方的学术趋势分析简述与对比[J].现代情报,2013(1):142-144.

(编发:章忠平)

Comparative Analysis and Evaluation of the Three Major Domestic Chinese Discovery System

ZHAO Gong-qun,WANG Heng
(Library of Xuzhou Institute of Technology,Xuzhou 221008,China)

From the metadata resource integration,retrieval,data mining service,full text access method,this paper makes empirical comparative analysis on the discovery function of“CNKI SCHOALR”,“Superstar Discovery System”,“Baidu Academic Scholar”,considers that superstar discovery system has obvious advantages in terms of the integration of resources and data mining through data comparison,other knowledge discovery system need further improvement and optimization in order to improve the overall level of knowledge discovery systems.

knowledge discovery;Superstar Discovery System;CNKI Scholar;Baidu Academic Scholar

G252

G252

A

2095-5197(2016)06-0072-06

赵功群(1976-),男,副研究馆员,本科,研究方向:学科服务、信息素质教育;王恒(1983-),男,助理馆员,本科,研究方向:数据挖掘、信息系统与管理。

2016-08-29

猜你喜欢
超星百度检索
超星数据库录入证
Robust adaptive UKF based on SVR for inertial based integrated navigation
Rotation of dust vortex in a metal saw structure in dusty plasma
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
《上海预防医学》杂志全文手机阅读体验
超星二号维修基地
百度年度热搜榜
专利检索中“语义”的表现
百度医生