胡勇祥
摘 要: 传统的智慧图书馆推送系统由于图书馆信息资源量过大,导致所需推送时间过长,为此设计一种基于大数据驱动的智慧图书馆推送系统。通过应用表示层、业务逻辑层和数据存储层完成系统总体架构设计。根据系统架构,通过用户终端、交换机、服务器和数据存储器等完成系统硬件设计;通过设计系统的功能模块,利用MapReduce分析计算用户信息、爬虫技术爬取与用户需求相关的图书馆信息,完成系统软件设计。至此,完成基于大数据驱动的智慧图书馆推送系统设计。实验结果表明,与传统的智慧图书馆推送系统相比,提出的基于大数据驱动的智慧图书馆推送系统能够更快速地为用户推送信息。
关键词: 智慧图书馆; 推送系统; 系统设计; 大数据驱动; 信息提取; 对比验证
中图分类号: TN919?34; TP39 文献标识码: A 文章编号: 1004?373X(2020)20?0102?03
Design of smart library push system based on big data driver
HU Yongxiang
(Huanggang Normal University, Huanggang 438000, China)
Abstract: As the traditional smart library push system takes too much push time due to the excessive amount of library information resources, a smart library push system based on big data driver is designed. The overall system architecture design is completed by the application of presentation layer, business logic layer and data storage layer. According to the system architecture, the system hardware design is completed by means of the user terminal, switch, server, data storage, etc. By designing the functional modules of the system, MapReduce is used to analyze and calculate user information, and crawler technology is used to crawl library information related to user needs, so as to complete the software design of system. Thus the design of smart library push system based on big data driver is completed. The experimental results show that, in comparison with the traditional smart library push system, the proposed smart library push system based on big data driver can push information for users more quickly.
Keywords: smart library; push system; system design; big data driver; information extraction; comparison validation
0 引 言
智慧圖书馆是将智能技术运用到图书馆建设中而形成的智能化图书馆[1?2]。在智慧图书馆的建设中,智慧图书馆推送系统是其中的核心系统之一,该系统通过感知和预测读者的需求,为读者提供智慧化的、高精准度的资源和服务[3?4]。随着互联网技术的发展,信息资源的数量也随之呈指数增长。面对海量的信息资源,图书馆读者需要快速、精准地获取自己需要的信息。要想为读者提供更为快速、精准的信息,就要感知和预测读者的需求,为读者提供智能化的推送服务。然而,现有的智慧图书馆推送系统在感知读者需求的方面,还存在推送精准度差、所需推送时间长等问题[5]。
近年来,在大数据环境下,物联网、云计算、人工智能等技术得到了广泛的应用[6?7]。根据上述分析,基于大数据驱动设计智慧图书馆推送系统,使智慧图书馆更加高效、智能地为读者提供智能化服务。
1 基于大数据驱动的智慧图书馆推送系统设计
采用大数据技术中的爬虫技术和MapReduce,基于大数据驱动,设计智慧图书馆推送系统。首先,设计智慧图书馆系统的总体架构,根据总体架构,通过用户终端、交换机、服务器和数据存储器等硬件完成系统的硬件设计,利用MapReduce对用户信息作分析计算,再利用爬虫技术爬取与用户需求相关的图书馆信息,完成系统的软件设计。
1.1 基于大数据驱动的智慧图书馆推送系统总体架构
智慧图书馆推送系统的总体架构由应用表示层、业务逻辑层、数据存储层3个层次组成。系统总体架构图如图1所示。
应用表示层为图书馆用户提供一个可视化的用户界面,是智慧图书馆推送系统的门户和功能接入口。用户通过访问Web登录智慧图书馆推送系统,实现与图书馆推送系统中应用程序的对话。在该层设有用户管理模块、用户定制管理模块、信息收集模块。在用户管理模块,用户可以执行注册登录、信息管理、权限管理等操作。在信息收集模块,可以收集用户操作记录等用户信息,并作出预处理设置。在用户定制管理模块,可以执行用户定制数据的录入、修改、保存、删除等操作。
业务逻辑层在应用表示层和数据存储层之间,是图书馆推送系统对用户的需求、系统的数据业务处理的部分,此层将应用表示层和数据存储层连接起来。在该层设有信息推送模块、综合查询管理模块。在综合查询管理模块,将其分为3个子模块,分别为综合查询、统计报表、打印输出。在信息推送模块,当用户在浏览图书馆网页时,该模块会提取用户操作记录的关键词等信息发送到后台,后台服务程序在接收到客户端提供的信息后,向用户推送与用户操作记录相关的信息。信息推送的流程如图2所示。
数据存储层用于存储用户的操作记录、浏览历史、图书馆图书等信息数据,同时,也是数据页和图书馆推送系统的缓冲区,是将图书馆推送系统中的各类数据统一实行管理的层面,所使用的数据库是SQL Server 2005。在该层设有数据库维护模块。
1.2 基于大数据驱动的智慧图书馆推送系统硬件设计
根据基于大数据驱动的智慧图书馆推送系统的总体架构,设计系统的硬件结构。在智慧图书馆系统中,图书馆存储器为NS8800D,其中的HDFS具有可扩展和容错存储性能,将存储的文件拆分为多个块(每个块的大小为64 MB或128 MB),复制在智慧图书馆推送系统中的多个节点上,因而具有非常大的容错性。此智慧图书馆推送系统中的HDFS,通过持续监视各个节点,以及各个节点所管理的块,以确保智慧图书馆推送系统中数据的可用性。各个块都受到HDFS的检查和控制,在对系统中的数据以块的形式读取后,确定系统中数据的正确性。MapReduce提供了并行计算功能,针对智慧图书馆推送系统中海量的数据,将其通过主节点分配给各个节点,再收集计算结果,以便快速、精确地为用户提供推送服务[8?9]。
1.3 基于大数据驱动的智慧图书馆推送系统软件设计
在硬件設计的基础上,设计智慧图书馆推送系统的软件。系统中主要功能模块如图4所示。智慧图书馆推送系统的开源软件选用Apache Hadoop,其支持分布式数据密集型应用程序和MapReduce计算,允许智慧图书馆推送系统对大量数据并行处理。
智慧图书馆数据推送系统的主要目的是在给定时间内,根据用户的操作记录等信息,将图书馆信息快速、高效地推送给用户,以满足用户需求。
在为用户推送相关信息时,先要采集用户操作记录的相关信息,要对关键词等文本信息进行统计和分析。利用统计量的大小比较,精准地获取用户操作记录的主要信息。统计量的计算公式如下:
[x2ti,Cj=NAD-CBA+CB+DA+BC+D] (1)
式中:[x2]为统计量;[N]为提取用户操作记录的文本个数;[ti]为用户操作记录特征;[Cj]为一个类别;[A]为[Cj]中具有特征[ti]的文本个数;[C]是[Cj]中不存在特征[ti]的文本个数;[B]是[Cj]外具有特征[ti]的文本个数;而[D]是[Cj]外不存在特征[ti]的文本个数[10?11]。根据式(1)确定提取的关键词信息。将一条操作记录看作是一个空间向量[Dt1,w1;t2,w2;…;tn,wn],利用向量之间的夹角[cos θ]值,获取与用户操作记录相似的文本信息,即计算文本相似度[SimD1,D2]:
[SimD1,D2=cos θ] (2)
[cos θ=k=1nw1k·w2kk=1nw21kk=1nw22k] (3)
式中:[D1]和[D2]为相比较的两个文本信息;[wi]为每个特征对文本内容表示的重要程度;[n]为比较次数[12?14]。通过式(2)和式(3),计算出文本相似度。智慧图书馆推送系统会根据文本相似度,利用MapReduce分析计算用户信息,再利用爬虫技术爬取与用户操作记录相关的信息,针对用户需求,为用户提供智能化推送服务。
综上,通过硬件和软件设计,完成基于大数据驱动的智慧图书馆推送系统设计。
2 实 验
为了验证提出的基于大数据驱动的智能图书馆推送系统能否更快速地为用户推送信息,将其与传统的智慧图书馆推送系统进行了对比实验。
2.1 实验过程
利用智慧图书馆推送系统,将推送文章数据量设为100篇、300篇、600篇、1 000篇和1 500篇,针对不同的智慧图书馆推送系统,测试其推送不同数量的文章所需推送时间的多少。
2.2 实验结果分析
本文提出的基于大数据驱动的智慧图书馆推送系统与传统推送系统所需推送时间对比结果如图5所示。
由图5可知,在3个智慧图书馆推送系统中,随着推送文章数量的增加,推送时间都随之变长。然而,在两个传统推送系统中,随着推送文章数量的增加,推送所需时间增长较多;而本文设计系统随着推送文章数量的增加,所需推送时间增长的并不多。
通过分析发现,采用大数据驱动的系统随着数据量的增多,对数据的分析、计算速度越快。因此,与传统的智慧图书馆推送系统相比,推送同样数量的文章,本文设计系统所需时间更少,表明其能够更高效地为用户提供推送服务。
3 结 语
针对传统智慧图书馆推送系统存在的推送时间长的问题,本文设计基于大数据驱动的智慧圖书馆推送系统。采用MapReduce、爬虫技术等完成硬件和软件设计,并将所设计系统与传统的智慧图书馆推送系统进行了对比实验。实验结果表明,提出的基于大数据驱动的智慧图书馆推送系统能够更为高效地为用户服务。
参考文献
[1] 陈臣.基于大数据挖掘与知识发现的智慧图书馆构建[J].现代情报,2017,37(8):85?91.
[2] 李欣.强关联规则挖掘在智慧图书馆个性化推送服务中的应用研究[J].情报科学,2018,36(4):95?99.
[3] 曹树金,刘慧云,王连喜.大数据驱动的图书馆精准服务研究[J].大学图书馆学报,2019,37(4):54?60.
[4] 常青,杨武健,龚景兴.智慧图书馆建设误区与建设策略[J].图书情报工作,2018,62(19):13?18.
[5] 张洁,袁辉.智慧图书馆系统支撑下的学科服务实践[J].图书馆论坛,2017,37(7):27?32.
[6] 许新龙,杨永霞.新一代智慧图书馆信息系统研究[J].国家图书馆学刊,2018,27(6):48?53.
[7] 杨妮.基于“互联网+”的高校智慧图书馆系统建设的思考[J].湖北函授大学学报,2017,30(9):49?50.
[8] 罗寰.论人工智能时代新一代智慧图书馆系统构建[J].中国中医药图书情报杂志,2019,43(1):1?3.
[9] 胡泰然,曹鹏彬,陈绪兵.基于RFID与XBEE的CIRCLE智慧图书馆的设计与开发[J].微型机与应用,2017,36(14):98?101.
[10] 于成龙.基于移动增强现实技术的图书馆文献推送系统的设计与实现[J].农业图书情报学刊,2017,29(2):65?68.
[11] 朱宁.构建智慧图书馆智能服务系统[J].办公自动化,2017,22(24):51?52.
[12] 高艳丽.大数据驱动的SOC设计平台IC?ONE[J].中国集成电路,2017,26(9):43?48.
[13] 张洁,汪俊亮,吕佑龙,等.大数据驱动的智能制造[J].中国机械工程,2019,30(2):127?133.
[14] 孙远芳,段翠华,张培颖.大数据驱动的未来网络:体系架构与应用场景[J].中国电子科学研究院学报,2017(5):25?30.