沈奎林
摘 要 信息技术、传播技术的飞速发展,带来了信息环境的变化。大数据、移动互联网、新媒体以及个性化定制和社交网络的蓬勃发展,加上学术分析、知识图谱的普及,给知识发现系统提出了新的更高的要求。论文在文献分析的基础上,分析了目前知识发现系统的现状和不足,以超星发现系统为例,提出了一些创新型的探索。
关键词 大数据 知识发现系统 新媒体 社交化网络知识图谱
分类号 G250.73
DOI 10.16810/j.cnki.1672-514X.2017.01.003
The Exploration of Innovation in Knowledge Discovery System Under the New Information Environment
Shen Kuilin
Abstract The fast development of information technology and communication technology brings the change of information environment. Big data, mobile Internet and new media as well as customization and social network, combine with academic analysis, the popularization of knowledge map, request new and higher requirements to the knowledge discovery system. This paper takes the superstar discovery system as an example, and puts forward some innovative exploration based on the analysis of literature review of the current knowledge discovery system.
Keywords Big data. Knowledge discovery system. New media. Social network knowledge map.
近几年来,随着图书馆纸本资源及电子图书、数据库资源的快速增长,从海量的资源里找到所需的文献成了读者的迫切需要,于是很多一站式检索系统应运而生,从最初的联邦检索到后来带有一定智能的知识(资源)发现系统,以及各种类似百度、谷歌的检索系统。2012年更是被称为“知识发现系统元年”,知识发现系统相关的研究成果频繁出现在各个学术期刊上,学界也召开了很多相关的会议,目前发现系统的发展处在一个胶着期,在新信息环境下如何让发现系统更实用、更能赢得用户的喜欢、与“互联网+”的概念更融合,是我们应该关注和研究的重要课题。
1 知识发现系统的研究和应用现状
在大数据、新媒体等新信息环境下,要研究和实现更好用的知识发现系统,就有必要对目前发现系统的发展现状从计量、图谱等方面分析研究图书情报界的研究主题,为后期的内容做梳理和支持。
1.1 國内知识发现系统的研究现状
在超星中文发现系统里面,选择高级检索功能,以“知识发现系统”或“资源发现系统”或“知识发现”进行精确匹配,选择载体类型为图书、期刊、会议论文、学位论文、报纸为来源,检索得到9896条相关信息,对这些文献进行分析,可以得出目前国内知识发现系统的研究和应用现状。
1.1.1 文献计量分析
根据超星发现系统的分析结果(见图1)来看,知识发现系统的研究文献自1996年始逐年上涨,虽然最近2年发展平稳,在2015年还略有下降趋势,但符合事物螺旋上升的发展规律。
根据期刊和相关学科以及相关知识的分析结果,从图2可以看出知识发现系统涉及到了很多学科,在技术方面,主要研究领域在计算机领域、图书情报领域,涉及到数据挖掘、人工智能、数据库、聚类、情报分析、知识分析、信息分析、检索、搜索引擎等概念,相关的发文高频学者也是这两个领域最多。
根据相关的地区数据统计来看(见图3),经济和文化发达的地区,有关知识发现系统研究的研究机构、学者和话题最多,这也是符合事物的发展规律的;另外一个相关因素是高校和名校,特别是计算机相关专业和图书情报专业发展比较迅速的高校,比如武汉就是因为武汉大学信息管理学院是图情相关领域研究和发展的排头兵。
图3 知识发现系统研究的地区分布
1.1.2 文献主题分析
1.1.2.1 关键文献内容分析
胡玮[1]调查985工程高校图书馆资源发现系统建设和应用现状,统计和分析了数量、系统名称、建设方式以及系统选择几个方面,认为要根据馆情选择系统。袁玉英[2]介绍了目前常用的四种资源发现系统,从功能性、可靠性、易用性、可移植性等角度对其进行分析比较,指出资源发现产品的不足和今后发展方向。王悦辰[3]从整合资源、发现知识、知识关联与预测、文献获取方便度以及个性化服务等方面,对国内四大发现系统“中国学术搜索”“超星发现系统”“智立方发现系统”“学知搜索”的中文资源发现功能进行了比较分析,认为“超星发现系统”在各方面都占据优势。朱前东[4]通过国外文献调研和网站调查,将国外资源发现系统评价策略归纳为三种,即系统功能评价、系统可用性评价和系统使用绩效评价。陈小磊[5]等人利用资源发现系统的特性研究了图书馆的学科服务内容。张为江[6]以用户需求为中心、从知识服务平台、用户知识行为分析平台、知识发现平台、数字图书馆资源等方面对数字图书馆知识发现系统进行了论述。王灏[7]从图情机构馆藏和服务的问题入手,介绍了资源发现系统的概念和技术路线,并以“中国学术搜索网”为例,介绍了该平台在资源发现服务中的总体设计、关键技术、核心功能和服务方式。张松岩和崔鹏[8]概述了发现系统的内涵和功能,对比国内常见的发现系统,提出发现系统引进和应用的措施。陈定权[9]等人介绍了WorldCat Local、EBSCO
Discovery Service、Summon、Primo四大具有集中索引仓储的Web级资源发现系统,从内容索引、系统特性、检索结果显示三个方面对它们进行比较分析,测定出未来的发展趋势。王海花和陆为国[10]在比较和评估发现系统的过程中,开展用户体验度量测试,结果表明,用户体验测试在一定程度上能够反映不同厂商发现系统的优势与缺陷,发现系统的信息质量影响着用户的满意度。窦天芳和姜爱蓉[11]介绍资源发现系统的产生背景、逻辑、结构、功能特点及体系框架,指出当前资源发现系统需要引起关注的两个问题,以清华探索实践为例,介绍使用经验,创新出数据驱动新思路。王天虹[12]对基于超星发现系统的高校图书馆中文资源发现服务进行了初步评估,并比较了其与国外发现系统的不同之处。谢含[13]以超星发现系统为原始数据统计源,对2010年至2013年江西中医药大学发表的国内论文进行统计分析,通过对论文中文学科分类情况、作者、文献类型、核心期刊、基金项目等项指标的统计分析,研究了大学学术发展状况以及影响力。
1.1.2.2 内容主题分析
从知识发现系统相关文献和系统的调查来看,目前图书情报界对知识发现系统领域的主要研究分为以下几个部分。(1)理论探索。这些文献主要在早期,主要以内容统一检索、一站式检索、联邦检索、元数据整合、系统可行性等方面的研究居多。(2)實践探索。主要内容是关于图书馆技术部门自身或联合相关技术公司共同开发适合于图书馆使用的知识发现系统,这部分多数是原型和框架结构的研究,还有部分试用型产品,能用于正式使用的系统并不多。(3)对国内外知识发现系统的介绍、比较、选型。这个类型的文献最多,主要是世界上三大发现系统的推广和使用,超星中文发现系统的研究和应用。这些产品的应用给图书馆带来了活力,也引发了一系列的讨论和对比研究。(4)知识发现系统评价类、综述类。主要是对发现系统本身的合理性、易用性等方面的研究。(5)利用知识发现系统对其他学科的分析。主要是基于国外三大发现系统、超星中文发现系统,利用系统本身的检索和汇聚功能对各自学科的研究热点、研究趋势等方面的研究。(6)对发现系统本身优点、缺点的研究和思考,以及对发现系统近几年来的使用效果的反思。(7)新信息环境下知识发现系统的更新和功能增强。这方面文献较少,可能更值得去关注和研究。
1.2 知识发现系统的欠缺之处
根据文献调研和浏览各厂商知识发现系统,可以看出,目前的知识分析系统已经做得非常实用,从功能、资源到使用友好度,都有了很大提高,但还有欠缺之处,其主要表现在以下几个方面。(1)产品的成熟度方面。元数据的深度整合和标准化处理流程、网络环境下的系统架构和智能化发现功能需要增强。(2)资源覆盖率不足。(3)图书馆资源信息安全隐患,如数据的流失。(4)个性化、社交化功能欠缺。(5)资源推荐、数据挖掘、知识分析等方面有待加强。(6)信息滞后问题,特别是和馆藏更新的匹配方面。
2 知识发现系统在新信息环境下的改进要求
目前,知识发现系统虽已在业界得到了一定的程度的研究和实践,数据库商、系统开发商主导开发的系统功能、用户体验、资源配置等方面都基本满足了需求,但整个开发进程当中图书馆员和读者参与度比较小,开发商不能及时了解用户的需求,使得系统和用户之间始终有一道隔膜,使用中也有很多不满意的地方。这就需要主导产品的开发商积极联系图书馆行业的专业人士、调研广大的读者,根据需求改进知识发现系统,使其成为用户喜爱的产品。
2.1 大数据环境对知识发现系统的要求
大数据(Big data或Megadata),或称巨量数据、海量数据,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。大数据复杂而无序,其内在的关联性是其价值所在。大数据的核心是从海量数据中抽取相关内容,形成有价值的信息[14]。知识发现系统产生的基础是资源的海量增长,目的是将书刊目录、二次文献、电子期刊、电子图书等文摘或全文有效地加以利用,为用户提供完善有效地知识挖掘、信息分析、趋势预测。发现系统的基础是大数据、全数据,发现系统包括结构化元数据和全文数据,更包括半结构化、非结构化的数据,建立关键词表、机构库、引文库、作者库、学科分类、刊种表、来源库、学术专业词库同义词表、单位产出库等,来建立数据资源基础。
2.2 新媒体环境对知识发现系统的启发
一般来说,新媒体可以看做是利用网络技术、数字和终端技术向用户提供信息、娱乐服务的传播形态[15]。一般包括数字杂志、报纸和广播,手机上的微信、微博、电视、网络以及桌面视窗、数字电视、数字电影、触摸媒体等。新媒体平台一般指的是微博、微信、各种APP、MOOC、播客、Wiki、RFID等等和传播、服务有关的载体或技术平台。知识发现系统应该跟进这些新媒体的发展,创新服务,做好用户体验,服务用户。
2.3 移动互联网、“互联网+”环境下知识发现系统的跟进
截止2015年12月,国内移动终端设备拥有8.99亿的活跃量,人均单日手机使用时长为2.36小时,人均单日启动手机应用频次为78次,在应用上微信和QQ处于领先地位[16]。任忠忠和胡德华[18]调查发现,大学生使用手机上网比较频繁,使用移动搜索的机会比较多,上网频率以“每天多次”为主,平均每天3次以上使用手机上网的用户占54%左右,有32%的用户使用手机上网的频率为每天1-3次,已是移动搜索的一个庞大的稳定消费群体。知识发现系统应该顺应移动互联网的需求,开发出基于微信或“手搜”APP之类的移动化服务,以好用、易用、有效为上,牢牢抓住年轻大学生的使用习惯。
2.4 社交化、个性化对知识发现系统的需求
社交化、个性化是Web2.0概念的核心产物,很多产品都是基于SNS理念将产品带上了盈利的道路。知识发现系统作为图书馆应用的重要产品,不应千人一面,应该结合本校系统的读者库,做到个性化服务、社交化服务。
3 知识发现系统功能改进的想法
在大数据、“互联网+”、新媒体乃至全媒体环境下,知识发现系统必须从功能和体验上改进,以便能在新环境下吸引用户来使用。根据文献和实践研究,笔者设计新环境下知识发现系统的结构如图4所示。从图中可以看出,知识发现系统核心是大数据处理、预测;新媒体的引入;社交化服务的引入;多终端个性化输出。
3.1 基本功能的完善
知识发现系统的基础功能是:提供类似谷歌、百度的简单搜索框,进行全文、全字段搜索,检索结果列表页包括相关结果(本馆馆藏书刊、电子图书、电子期刊、学位论文、会议论文等),提供分面检索(按文献类型、时间、作者、机构、期刊等类型精炼检索),提供检索结果的多个全文下载途径或者文献传递入口。在点开某个具体记录的结果页面中,提供相关文献推荐和文献的相关引文。
需要增强的相关功能:(1)检索结果最好能直接提供全文下载,将多个途径一一列出,区分开CNKI、维普、万方等数据库,避免有时候某个数据库暂时不能访问的问题;(2)严格检测检索结果重复条目,区分是数据库里面重复还是知识发现系统本身的问题;(3)馆藏纸本资源可分成纸本图书、纸本期刊,并且能用接口及时同步图书馆自动化管理系统中的书刊数据,本馆馆藏能显示馆藏地基本信息;(4)在搜索框中加入类似谷歌自动提示的功能,提高用户搜索体验;(5)对于用户输入错误能够智能纠错,如提示“你是否要搜索xxx”;(6)提供搜索推荐,如果读者未能找到自己想要的资料,在页面底部的检索建议栏目为读者提供更多选择,如谷歌、百度、读秀、e读等等,或让用户尝试“返回检索框,检查您的拼写、修改检索词或扩展检索条件”,或者转向咨询台去在线咨询或者留言;(7)收录要全、相关度排序更准确;(8)收集用户的搜索关键词,对热门搜索的关键词做成标签云图,对读者的搜索起到一个导向作用;(9)嵌入百科类产品、用户评论、网摘、系统或自定义标签等,将用户的搜索名词、地点等有定义和典故的显示出来,以众筹、众包模式来解决用户的问题,强化图书馆的知识交流中心功能,拉近用户与图书馆的距离;(10)吸收更多OA资源。
3.2 大数据功能的支持
大数据对知识发现系统要求集成海量资源、资源深度加工、超强计算能力、稳定的检索服务和优质的检索效果。
海量资源的高度集成及深度加工需要与世界知名内容提供商进行一对一合作,授权获取到最为全面、稳定、优质的题录数据。对于OA资源,利用OAI-PMH等协议收割数据,利用爬虫收录、解析、加工和处理长尾站点。这样就可能构建比较全面的元数据库。
大数据处理能力上,TB、PB以及EB等级别的数据,可以进行实时计算、更新,然后深加工为优质学者库、期刊库、会议库、机构库等,为用户提供更好的信息揭示服务。
检索系统要稳定快速,检索效果相关度要高,对此,可学习百度、谷歌的搜索技术,提供更好的检索体验。利用相关性计算,分析文献他引情况、作者影响、影响因子、时间等因素综合给出最为贴切的排序效果。
3.3 个性化、社交功能的引入
SNS社交网络是Web2.0、Web3.0的核心理念和应用。人们在网络上渴望交往和交流,喜欢记录自己的心得、评论,将人类生活的社交圈子无限扩展。六度分割理论、小世界网络理论、长尾理论是SNS的理论基础。
知识发现系统的核心对象是资源和读者,让读者活跃、让资源流动和被揭示是其重要作用。要想做到这点,引入个性化和社交化是必不可少的。以人为中心,把相关兴趣和学科的用户联系在一起;以资源为中心,把和此资源有关的书刊、电子资源、人推荐给使用者;提供检索结果、命中条目打分、评论、推荐、添加标签、认领成果等功能。图5和图6是基本功能示意图。
3.4 文献分析、知识分析的功能
知识发现系统中文献信息分析、知识分析和知识图谱的应用越来越多,将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,利用可视化图形形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构为学科研究提供切实的、有价值的参考[18]。以超星知识发现系统为例,目前,该系统已经能做到以下几方面。(1)知识相关链、作者相关链、作者机构相关链,将知识、作者、作者机构等立体关联,追溯、挖掘学科与文献信息的研究领域和研究方向。(2)学术发展现状、预测未来趋势。(3)提供同类主题、学科、领域等文献资源的知识发展方向分析,方便研究某一学科领域或者主题方向的知识发展;挖掘分析多个主题、学科、领域等文献资源的知识生长方向,便于发现不同学科领域或者主题之间的知识关联性;提供不同机构的学术文献生长方向分析,便于合理有效的利用和掌握机构的知识体系。(4)将检索结果根据关键词的类型、时间、作者、学科、学术价值等进行统计分析聚合,实现可视化查看统计结果。
但是,笔者在超星发现系统的“学术辅助分析系统”的实际操作中仍然发现一些需要改进之处。(1)在文献计量方面,发文趋势图上应直接标出每年的发文量,这样更直接和明晰。(2)在图表的展示上应使用统一、简洁风格(顏色、样式)。(3)应加强合作网络分析功能和作者、机构或者国家的合作网络分析。(4)应加强主题、关键词或WoS 分类的共现分析。(5)应加强文献的共被引分析、作者的共被引分析以及期刊的共被引分析。(6)应加强文献的耦合分析。(7)应支持聚类分析,探测文献突变,得出研究热点和趋势等功能。(8)应支持多种记录格式的导出,支持其他软件的分析,扩大超星发现系统的通用性和知名度。
参考文献:
[ 1 ] 胡玮.“985工程”高校图书馆资源发现系统现状分析和思考[J].图书馆学研究,2013(16):43-48.
[ 2 ] 袁玉英.常用几种资源发现系统对比分析研究[J].图书馆工作与研究,2015(9):38-41.
[ 3 ] 王悦辰.国内四大中文知识发现系统比较分析[J].图书馆工作与研究,2015(9):42-45.
[ 4 ] 朱前东.国外资源发现系统评价策略研究[J].图书与情报,2014(4):6-10.
[ 5 ] 陈小磊,季培培,王莉.基于高校图书馆学科服务的资源发现系统研究[J].农业图书情报学刊,2015,12(12):25-28.
[ 6 ] 张为江.基于用户需求分析的数字图书馆知识发现系统研究[J].图书馆理论与实践,2014(9):83-85.
[ 7 ] 王灏,张正锋,冯巍.图情资源发现系统的研究与实现[J].数字图书馆论坛,2013(6):51-56.
[ 8 ] 张松岩,崔鹏.图书馆知识发现系统建设与应用研究[J].图书馆工作与研究,2014(2):54-57.
[ 9 ] 陈定权,卢玉红,杨敏.图书馆资源发现系统的现状与趋势[J].图书情报工作,2012,56(7):44-48.
[10] 王海花,陆为国.学术资源发现系统的用户体验测试研究[J].新世纪图书馆,2015(11):48-51.
[11] 窦天芳,姜爱蓉.资源发现系统功能分析及应用前景[J].图书情报工作,2012,56(7):38-43.
[12] 王天虹.基于超星发现系统的高校图书馆中文资源发现服务[J].图书馆学刊,2014(8):72-74,78.
[13] 谢含.基于超星发现系统的数据分析:以江西中医
药大学国内论文为例[J].江西中医药大学学报,2015(3):95-98.
[14] 刘文远,李少雄,王晓敏,等.大数据知识发现[J].燕山大学学报,2014,38(9):377-379.
[15] 百度百科.新媒体[EB/OL].[2016-03-10].http://baike.baidu.com/subview/339017/5403053.htm.
[16] 新浪科技.2015年中国移动互联网研究报告[EB/OL].[2016-03-11].http://tech.sina.com.cn/2016-01-08/doc-ifxnkkuy7746197.shtml.
[17] 任忠忠,胡德華.大学生移动搜索特征研究[J].知识管理论坛,2014(3):45-52.
[18] 百度百科.知识图谱[EB/OL].[2016-03-14].http://baike.baidu.com/view/5361633.htm.