柳益君+何胜+熊太纯+冯新翎+武群辉
〔摘 要〕在当前“互联网+”背景下,应用大数据挖掘技术提高知识服务的智能化、个性化、自动化水平,实现智慧性的知识服务是图书馆服务的发展趋势。首先提出基于大数据挖掘的图书馆智慧服务模型,通过用户群挖掘、用户兴趣挖掘、学科和领域知识挖掘、业务关联挖掘来沟通大数据应用和智慧服务需求;然后提出基于Hadoop平台的图书馆大数据挖掘技术支撑体系,为智慧服务应用落地提供技术方案;最后探讨大数据挖掘支持下的场景化知识推荐服务和微知识自动问答服务。
〔关键词〕图书馆;智慧服务;大数据挖掘;场景化知识推荐;微知识自动问答
DOI:10.3969/j.issn.1008-0821.2017.11.013
〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-0821(2017)11-0081-06
The Smart Service of Library from the Perspective of Big Data Mining
——Model,Technology and Service
Liu Yijun1,3 He Sheng1,3 Xiong Taichun2 Feng Xinling1,3 Wu Qunhui2
(1.School of Computer Engineering,Jiangsu University of Technology,Changzhou 213001,China;
2.Library,Jiangsu University of Technology,Changzhou 213001,China;
3.Key Laboratory of Cloud Computing & Intelligent Information Processing of Changzhou City,
Changzhou 213001,China)
〔Abstract〕Under the current background of "Internet+",using the big data mining technology to promote the level of intellectualization,personalization and automation of knowledge service to realize the smart knowledge service is the development trend of library service.Firstly,the smart service model of library based on big data mining was proposed,and user group mining,user interest mining,subject and domain knowledge mining and business association mining were used to bridge the gap between the big data application and requirements of smart service.Then the technical support system of library big data mining based on Hadoop platform was suggested to provide technical solution for implementation of smart service applications.And finally,the scenario knowledge recommendation service and the automatic micro-knowledge Q&A service with the support of big data mining were discussed.
〔Key words〕library;smart service;big data mining;scenario knowledge recommendation;automatic micro-knowledge Q&A
1 大數据环境下图书馆智慧服务研究现状梳理
1.1 “智慧性”知识服务是图书馆智慧服务的核心
随着网络和信息技术的发展,图书馆服务在历经文献服务、信息服务、知识服务3个阶段后,正在智慧图书馆环境下迈入智慧服务阶段。图书馆智慧服务内涵丰富,而“智慧性”知识服务是其核心。芬兰学者Aittola M等[1]最早提出,智慧图书馆为用户提供一种可被感知的打破空间限制的移动图书馆服务。北京邮电大学董晓霞等[2]认为,智慧图书馆通过对物联网等感知数据的分析和处理,为用户提供泛在的智能化服务。黄幼菲[3-4]认为,公共智慧服务是知识服务的高级阶段,帮助用户“易知”、“易用”和“易悟”知识。陈远等[5]认为,智慧服务包含智慧的服务和为智慧而服务两个层面的含义,前者阐释了技术智慧和服务智慧,后者表达了智慧服务在“转知为慧”方面的作用,即激发用户的知识创新。李小涛等[6]指出,智慧服务具有个性化、智能化的特点,能让用户充分吸收、利用知识,实现知识创新与增值。武汉大学曾子明等[7]综合各方观点,提出智慧服务是提供“智慧性”的知识服务,具有泛在化、个性化、主动性需求,为用户解决问题提供新的知识理念、创造新的知识服务模式。
在图书馆智慧服务的实践方面也有诸多探索。陈臣[8]构建了基于读者行为大数据分析的图书馆个性化智慧服务体系。曾子明等[9]设计了融合情境的智慧图书馆个性化服务模型和体系,根据用户情境数据,如位置的实时变化,进行文献图书精准导航。Kiril Antevski等[10]提出了一种基于低功耗蓝牙和WiFi的混合定位系统,用于在智慧图书馆中创建学习群,使图书馆中有相同兴趣的用户可以一起学习讨论。endprint
1.2 大数据是图书馆智慧服务的重要资源
在当前“互联网+”背景下,大数据成为图书馆智慧服务的重要资源。南京大学苏新宁[11]认为图书馆建设应采用大数据思维,从大数据的角度考虑图书馆的各类问题及其解决方法,把数字图书馆作为“互联网+”的重要分子。陈卫静[12]探讨了智慧图书馆大数据的构成及其智慧分析,认为其大数据主要由用户行为数据、海量资源数据、自身业务流程数据三者构成。豆洪青等[13]探讨了“互联网+”给图书馆发展带来的变革,指出互联网+图书馆是以用户数据为驱动源,强调图书馆用户社区构建、线上线下服务的协同、用户的互动与分享、用户粘性与个性化场景服务。作为一种全新的互联网应用,社交网络具有强调分享和深度互动的特点,它被图书馆应用以拓展服务,吸引特定用户群,创建多面的个性化服务[14-15]。微信、QQ等丰富多彩的社交工具的应用产生了大量半结构化、非结构化数据。运用大数据思维,加强大数据建设能为图书馆改善服务和制定决策提供精确的数据支撑[16]。
1.3 大数据挖掘是图书馆服务“转知成智”、“转识成慧”的关键 在处理和分析数据量巨大、数据类型丰富、增长迅速的大数据时,数据挖掘技术的重要性日益凸显[17]。挖掘大数据蕴含的知识和价值成为图书馆实现智慧服务的关键。中国人民大学孙涛[18]提出,智慧化地提供知识服务,需要深入挖掘海量信息,进行知识发现与获取、组织与整合、开发与利用。储节旺等[19]讨论了智慧科技在智慧图书馆建设中的运用,指出数据挖掘技术是关键支撑组件之一,它将海量知识资源和用户大数据动态串联起来,最大程度地开发其价值。田梅[20]认为,智慧服务是基于对信息资源进行深度知识挖掘以及具有用户需求分析功能的专家系统服务。黄幼菲[3-4]认为,实现智慧服务需要注重知识挖掘工作,对文献资料知识进行深度挖掘,以促使用户对知识的应用、创新,“转知成智”、“转识成慧”。
2 基于大数据挖掘的图书馆智慧服务模型
综合学界观点,作者认为图书館智慧服务的核心服务模式至少有4方面:1)智慧性的群体知识共享,促使知识隐性到显性的转化、知识转移和传播,使知识“易知”;2)智慧性的知识推荐和推送,根据用户兴趣和需求,为用户提供泛在化、个性化、场景化的知识服务,使知识“易用”;3)智慧性的知识导航,为用户提供知识主题、热点、发展趋势、知识关联和拓展,使知识“易悟”。4)智慧性的图书馆业务优化,以用户需求为导向,开展阅读推广、讲座等活动。
互联网技术使图书馆资源之间、用户之间、用户和资源之间的互联和协同达到前所未有的广度和深度。特别是随着阅读终端的多样化和社交工具的广泛使用,形成了全方位、立体化的图书馆大数据。图书馆可用于满足智慧服务核心需求的重要大数据资源包括3大类:1)用户数据:用户行为数据,包括显式行为数据和隐式行为数据,终端感知数据、社交数据等;2)知识资源数据;3)业务流程数据。其构成见表1。
大数据挖掘是使图书馆大数据发挥作用的关键技术之一。本文提出图1所示的基于大数据挖掘的图书馆智慧服务模型,将大数据挖掘技术作为沟通图书馆大数据应用和智慧服务需求的桥梁。
1)用户群挖掘
挖掘用户群,实现群体知识共享。依据用户个人工作经历、科研方向等基础数据,以及微信、微博、论坛等社
交数据,构建大规模社会网络,应用分类、聚类、频繁模式发现等挖掘方法挖掘用户群社区或关键人物,研究隐性知识到显性知识的转化、知识的转移和传播,实现用户群知识共享。
2)用户兴趣挖掘
挖掘用户兴趣,实现个性化、场景化、泛在化的知识推荐和推送。分析用户显式和隐式行为大数据,以及手机、平板等阅读终端感知数据,挖掘用户深层需求,根据用户当前所处的特殊场景,分领域、分层次、分阶段向用户推荐各类资源,实现智慧性的知识推荐和推送。
3)学科和领域知识挖掘
挖掘学科和领域知识,实现自动知识导航。建立学科和领域知识语义网络,结合共词分析和聚类分析方法,依据关键词和关键字挖掘知识主题及主题关联,获得学科知识热点;加入时间纬度,可以表现学科研究动态变化、发展方向;挖掘学科知识图谱,使基于问答语料的生成式知识问答成为可能。
4)业务关联挖掘
挖掘业务关联,实现业务优化。对咨询数据、检索查新数据、资源采购数据等管理数据进行关联规则分析,发现用户需求相关的各种关联,如某时间段、某类用户与某种业务需求的关联等,优化图书馆业务流程;对流通数据与外部数据进行关联规则分析,发现如进馆人数与天气的关联、某时间节点或某事件与进馆人数的关联,为图书馆开展阅读推广、讲座等服务活动提供支持。
3 面向智慧服务的大数据挖掘技术体系
3.1 基于Hadoop的技术支撑体系
“互联网+”催生了图书馆大数据,海量数据的实时计算和挖掘成为图书馆大数据智慧服务应用真正落地的关键问题。江苏大学刘桂锋等[21]探讨了图书馆大数据知识服务生态体系构建,提出以目前流行的Hadoop大数据处理平台实现图书馆大数据管理系统。梁俊荣[22]设计了基于Hadoop的图书馆大数据存储系统。柳益君等[23]针对高校图书馆个性化服务需求设计了基于Hadoop的大数据挖掘方案。何胜等[24]在Hadoop平台上将用户行为本体建模和大数据挖掘技术相结合为用户提供个性化服务。智慧服务要求高实时性,面向智慧服务的图书馆大数据挖掘除了静态大数据,还需要考虑大流量动态数据,进行实时数据分析和动态整合,发现有价值的知识[25]。Hadoop本身并不是一个产品,而是由多个软件产品构成的一个生态系统,共同为大数据分析服务。本文构建了基于Hadoop的图书馆大数据挖掘技术支撑体系,以支持图书馆大数据的实时计算和挖掘,见图2。
3.2 图书馆大数据收集、存储和处理endprint
图2最底层是图书馆大数据收集。外部行业动态、行业新闻等信息可通过Nutch、Heritrix等开源网络爬虫系统从互联网上采集,而图书馆内部产生的数据则可以通过Cloudera提供的Flume系统进行采集。Flume是一个开源的分布式海量日志收集系统,安全可靠,可以将用户的访问日志定期传送并保存到分布式存储中,以供后续跟踪和分析。
在图2的图书馆大数据存储层,Hadoop的HDFS提供了最基本的持久化分布式文件系统。HDFS适于存储数据查询和处理要求不高的信息,例如图书情报学界近一年的重大新闻集合。对于高级应用开发,HBase和MongoDB则提供了类似关系型数据库的功能。HBase的列式存储便于数据定义的随时更改,且适于大规模本体数据、知识库和知识图谱的存储、查询。MongoDB的嵌入式文档则支持复杂的层级结构,为存储欠缺规范的社交文本大数据提供了更高的灵活性。应用开发者不必一开始就严格定义用户访问日志格式,而是可以随着应用需求的不断更新而变化。Redis、Berkeley DB和Memcached等支持非持久化的数据库则为HBase和MongoDB數据库提供了缓存机制,从而大幅度提升系统响应速度,降低持久化存储的压力。
在图2的图书馆大数据处理层,Hadoop的MapReduce和Spark Core核心组件皆是为批量处理而设计,使用映射和规约的思想可以进行海量数据的分析和操作。比如,可以统计最近行业新闻里发生的重大事件,近期用户检索文献产生的热门关键词。Spark SQL融合多数据源的不同格式结构化数据,为熟悉关系型SQL语言的使用者提供了捷径,他们可以对Spark数据执行类SQL查询。但是,为了提供泛在性、实时性的图书馆智慧服务,还需要进行大数据实时处理,例如,新闻和用户行为往往都是实时发生的,若批量处理则延迟太高。利用Kafka消息机制,可以将数据的变化及时推送到各个数据处理系统进行增量更新。Spark Streaming则在映射和规约的思想基础上提供流式计算框架,进一步提升处理的实时性。
3.3 大数据挖掘算法及其应用
大数据挖掘可以使图书馆大数据产生更大价值,展现出数据智慧。与大数据收集、存储和处理的3个基础设施相比,数据挖掘在过去的二三十年间已经得到了充分的发展。然而,在大数据时代,数据挖掘面临着新的挑战,传统的理论模型遇到海量数据后,单机无法应付,基于Hadoop的大数据计算框架为其分布实现提供了解决方案。在图2的图书馆大数据挖掘层,MLlib、Mahout、R皆是可以运行在Hadoop平台上的数据统计、挖掘和分析软件。其中,MLlib是Spark中可扩展的数据挖掘和机器学习库,不仅包括分类、回归、聚类、协同过滤等各类传统算法,还融入了新兴的深度学习算法。表2列出了MLlib库中主要大数据挖掘算法,以及它们在图书馆智慧服务大数据分析中的应用。
在图2所示的智慧服务应用层中,Lucene是Apache提出的一个开源全文搜索引擎工具包,Solr和Elasticsearch则是两个基于Lucene实现的搜索服务器,可以为检索、推荐、推送、知识导航、知识问答等应用提供实现基础。将大数据挖掘获得的数据智慧融入各种服务应用,为用户提供高质量的智慧性知识服务。
4 大数据挖掘支持的智慧服务探讨
应用大数据挖掘技术,使大数据展现数据智慧,进而为用户提供智慧服务是图书馆服务的发展趋势。本文对大数据挖掘支持下的场景化知识推荐和微知识自动问答两种智慧服务作简单探讨。
4.1 场景化知识推荐服务
图书馆场景化的知识推荐服务根据用户当前所处的特殊场景向其推荐知识资源。而区分标定当前特殊场景,需要利用所有与人机交互相关的情境信息[26]。在互联网+图书馆,图书馆随时随地接入的“3W”(Whoever,Whenever,Wherever)目标成为现实。智能手机、平板电脑等智能移动终端的应用不仅为用户提供便利,也为场景化知识推荐提供了丰富的情境信息。实时感知并挖掘移动情境数据,可以为用户提供实时动态的个性化推荐,使知识资源推荐与用户所处场景高度契合,更好地满足用户的需求,使知识易用。时间和位置是两种重要的移动情境信息,可以利用多种传感器收集,如全球定位系统GPS、WiFi、蓝牙等。移动情境的个性化推荐关键在于用户行为模式挖掘,通过分类与回归等挖掘算法,揭示用户个人偏好和生活规律,进而提升推荐效率。例如,通过分析用户的移动情境日志,发现某位学生在周六日上午10∶00左右,习惯于在自习教室内用平板电脑浏览计算机专业电子书籍,便可以根据该学生的行为规律,在该时间段向他集中推送最新计算机专业书籍、多媒体资源等,从而有效地提升用户体验,使用户更易接受推荐结果。
4.2 微知识自动问答服务
自动问答系统是一种新型智能检索系统,用户以自然语言查询作为输入,系统查找并返回答案。其特点是直接给出用户所需要的答案,而不是传统的排序文档。目前,一些高校图书馆,如清华大学、南京大学、哈尔滨工业大学的图书馆,已经引入自动问答系统为用户提供咨询服务[27-29],但是,这些问答系统主要提供信息咨询服务,比如向图书馆推荐购买新书、借阅书籍的超期费用、研修间预约等,在提供知识服务方面还有待深入。
作为一种语义网络,知识图谱表达了各类实体、概念及其之间的语义关系。可以通过对知识图谱的深度学习,挖掘其中的知识,最后以自然语言的形式将知识提供给用户。近年来,有学者将深度学习技术用于自动问答系统,取得了良好的效果[30-33]。Jun Yin等[30]应用卷积神经网络对知识图谱进行深度学习,构建了简单知识的问答系统。侯志江[34]提出了“微知识”的概念,微知识可以直接被用户使用,具有现成化、碎片化、通俗易懂化等特点,侯志江认为图书馆可以借鉴百度知道、新浪爱问、知乎等问答式网站的经验,打造开放、共建的微知识库,为用户提供微知识服务。作者认为,知识图谱和深度学习技术相融合的智能问答系统为图书馆自动微知识服务提供了可能性和可行性,可以使图书馆自动问答系统从信息服务上升到知识服务层次,以比问答式网站更主动、更智能的方式,为诸多高学历高水平用户提供专业性、权威性、本地性的微知识。随着知识图谱和深度学习技术的发展,微知识自动问答服务或将成为图书馆智慧服务新模式。endprint
5 结束语
在“互联网+”背景下,资源和数据的共享使数据量激增。应用大数据挖掘技术实施智能化、个性化、主动性的智慧服务,进而推进知识创新是图书馆服务发展的必然趋势。利用大数据挖掘方法发现图书馆大数据蕴含的知识和智慧,满足智慧性的群体知识共享、知识推荐、知识导航等智慧服务需求;基于Hadoop平台的图书馆大数据挖掘技术支撑体系可以完成大数据收集、存储和处理,实现图书馆大数据实时挖掘;在大数据挖掘的支持下,场景化知识推荐、微知识自动问答等智慧服务成为图书馆服务的新模式。本文的研究对图书馆应用大数据挖掘方法和技术实现智慧性知识服务有一定的借鉴意义。
参考文献
[1]Aittola M,Ryhanen T,Ojala T.Smart Library:Location-Aware Mobile Library Service[C].5th International Symposium on Human Computer Interaction with Mobile Devices and Services,2003:411-415.
[2]董晓霞,龚向阳,张若林,等.智慧图书馆的定义、设计以及实现[J].现代图书情报技术,2011,27(2):76-80.
[3]黄幼菲.公共智慧服务——图书馆知识服务的高级阶段[J].情报资料工作,2012,33(5):83-88.
[4]黄幼菲.图书馆知识服务的扬弃和“飞跃”:公共智慧服务[J].情报理论与实践,2013,36(2):26-30.
[5]陈远,许亮.面向用户泛在智慧服务的智慧图书馆构建[J].图书馆杂志,2015,34(8):4-9.
[6]李小涛,邱均平,余厚强,等.论智慧图书馆与知识可视化[J].情报资料工作,2014,35(1):6-11.
[7]曾子明,金鹏.智慧图书馆个性化推荐服务体系及模式研究[J].图书馆杂志,2015,34(12):16-22.
[8]陈臣.图书馆个性化智慧服务体系的构建[J].图书馆建设,2014,(11):37-45.
[9]曾子明,陈贝贝.公共智慧服务融合情境的智慧图书馆个性化服务研究[J].图书馆论坛,2016,(2):57-63.
[10]Kiril Antevski,Alessandro E.C.Redondi,Razvan Pitic.A Hybrid BLE and Wi-Fi Localization System for the Creation of Study Groups in Smart Libraries[C].9th IFIP Wireless and Mobile Networking Conference,2016:41-48.
[11]苏新宁.大数据时代数字图书馆面临的机遇和挑战[J].中国图书馆学报,2015,41 (6):4-12.
[12]陈卫静.智慧图书馆在大数据环境下的智慧分析[J].图书情报工作,2015,(S2):49-52.
[13]豆洪青,劉柏嵩.互联网+图书馆:要素、模型与服务[J].情报资料工作,2017,38(3):91-95.
[14]Doralyn Rossmann,Scott W.H.Young.Social Media Optimization:Making Library Content Shareable and Engaging[J].Library Hi Tech,2015,33(4):526-544.
[15]刘璇.图书馆领域社交网络应用研究述评与展望[J].中国图书馆学报,2016,42(6):102-116.
[16]陈远,蔡金奎,许亮.互联网思维环境下智慧图书馆发展的思考[J].现代情报,2015,35(11):38-42.
[17]洪亮,李雪思,周莉娜.领域跨越:数据挖掘的应用和发展趋势[J].图书情报知识,2017,(4):22-32.
[18]图书馆报.图书馆未来的样子——“智慧图书馆”(上)[EB/OL].图书馆报,https://748548.kuaizhan.com/14/37/p43627380073 aba,2017-06-05.
[19]储节旺,李安.智慧图书馆的建设及其对技术和馆员的要求[J].图书情报工作,2015,59(15):27-34.
[20]田梅.基于关联主义学习理论的智慧图书馆服务模式构建[J].图书馆学研究,2014,(19):64-67.
[21]刘桂锋,卢章平,化慧.图书馆大数据知识服务生态体系及其动力机制研究[J].国家图书馆学刊,2016,25(3):52-60.
[22]梁俊荣.基于Hadoop的图书馆复合大数据存储系统研究[J].现代情报,2017,37(2):63-67.
[23]柳益君,何胜,冯新翎,等.大数据挖掘在高校图书馆个性化服务中应用研究[J].图书馆工作与研究,2017,(5):23-29.
[24]何胜,冯新翎,武群辉,等.基于用户行为建模和大数据挖掘的图书馆个性化服务研究[J].图书情报工作,2017,61(1):40-46.
[25]Jian Ruan,Shengbin Wang.Study on Innovation of Smart Library Service Model in the Era of Big Data[C].4th International Conference on Electrical & Electronics Engineering and Computer Science,2016:1077-1081.endprint
[26]陈恩红,徐童,田继雷,等.移动情境感知的个性化推荐技术[J].中国计算机学会通讯,2013,9(3):18-24.
[27]Yao Fei,Chengyu Zhang,Wu Chen.Smart Talking Robot Xiaotu:Participatory Library Service based on Artificial Intelligence[J].Library Hi Tech,2015,33(2):245-260.
[28]沈奎林,邵波.智慧图书馆的研究与实践——以南京大学图书馆为例[J].新世纪图书馆,2015,(7):24-28.
[29]李雪婷,李莘.图书馆微信平台自动问答机器人语言体系研究[J].现代情报,2016,36(10):99-101.
[30]Jun Yin,Xin Jiang,Zhengdong Lu,Lifeng Shang,Hang Li,Xiaoming Li.Neural Generative Question Answering[C].Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence,2016:2972-2978.
[31]Minwei Feng,Bing Xiang,Michael R.Glass,Lidan Wang,Bowen Zhou.Applying Deep Learning to Answer Selection:A Study and an Open Task[C].IEEE Workshop on Automatic Speech Recognition and Understanding,2015:813-820.
[32]Liqiang Nie,Meng Wang,Luming Zhang,Shuicheng Yan,Bo Zhang,Tat-Seng Chua.Disease Inference from Health-Related Questions via Sparse Deep Learning[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(8):2107-2119.
[33]Zhenzhen Li,Jiuming Huang,Zhongcheng Zhou,Haoyu Zhang,Shoufeng Chang,Zhijie Huang.LSTM-based Deep Learning Models for Answer Ranking[C].IEEE First International Conference on Data Science in Cyberspace,2016:90-97.
[34]侯志江.微知識服务——问答式网站的启示[J].图书馆建设,2015,(3):77-79.endprint