吴云
摘 要: 针对当前图书馆信息检索系统存在信息检索误差大、工作效率低等难题,为了获得理想图书馆信息检索结果,设计了一种基于大数据分析技术的图书馆信息检索系统。首先对图书馆信息检索系统的功能进行描述,建立了图书馆信息检索系统的总体框架;然后对图书馆信息检索的硬件子系统和软件子系统分别进行了详细设计,并重点描述了图书馆信息检索算法;最后在相同实验条件下,与其他图书馆信息检索系统做了仿真对比测试。测试结果表明,相对于其他图书馆信息检索系统,文中系统的图书馆信息检索精度得到了大幅度的提升,同时加快了图书馆信息检索速度,可以为学生快速、精确检测到真正需要的信息,可以应用于实际的高校图书馆管理中,具有较高的实际应用价值。
关键词: 大数据分析技术; 图书馆信息; 检索系统; 组件设计; 数据处理; 仿真实验
中图分类号: TN919.5?34; TP311 文献标识码: A 文章编号: 1004?373X(2020)19?0167?04
Abstract: The current library information retrieval system has some deficiencies, like big information retrieval error and low working efficiency. Therefore, a library information retrieval system based on big data analysis technology is proposed for ideal retrievals. The functions of the library information retrieval system is described, and the general framework is built. Then, its hardware subsystem and software subsystem are designed in detail. Moreover, the algorithm of the library information retrieval is described. Simulation test was performed to compare the proposed system and other systems under the same experimental conditions. The test results show that, in comparison with other library information retrieval systems, the retrieval accuracy of this system is greatly improved and the retrieval speed is accelerated, too. It can quickly and accurately detect the information that the students really need. Therefore, the system has a high practical application value in the practical management of university library.
Keywords: big data analysis technology; library information; retrieval system; component design; data processing; simulation experiment
0 引 言
隨着我国科学技术和现代通信技术不断发展的过程中,图书馆的精准检索对于创造数字用户知识具有一定的作用。将传统模式作为基础的图书馆,信息组织方式无法呈现信息内部组织关系和逻辑关系,只是以关键词层次信息检索,无法展现信息内部语义关联,不规范操作会导致系统结构不兼容,主要是因为图书馆检索结果偏离用户的实际需求,从而无法有效的检索。因此,就要利用全新技术对图书馆传统信息检索方式进行创新[1]。
为了获得理想图书馆信息检索结果,本文设计了一种基于大数据分析技术的图书馆信息检索系统。首先建立了图书馆信息检索系统的总体框架,然后对图书馆信息检索的硬件子系统和软件子系统分别进行了详细设计,最后与其他图书馆信息检索系统做了仿真对比测试,结果表明,本文系统的图书馆信息检索精度、速度得到提高,解决了共享使用中的问题。
1 图书馆信息检索系统的设计思想
在创建图书馆信息检索系统过程中,要基于拓展性、实用性、可用性、开放性和持久性,针对用户选择检索方式,确定大数据适用的范围和使用范围,通过相应算法,基于工程师和学科专家创建系统框架,从而创建大数据知识库,实现信息检索系统的创建[2]。图书馆信息检索系统的结构如图1所示。
2 图书馆信息检索系统具体设计
2.1 系统的硬件设计
传统教学信息检索的学习行为具备多因素性与繁琐性,并且检索信息目的性比较模糊,大量不确定性因素会导致半结构化的问题出现。基于统计学角度分析,传统教学多媒体信息无法创建检索模型,基于控制学角度,无法对图书信息精准跟踪。因此,基于大数据的图书馆信息检索系统硬件设计是非常有必要的[3]。
2.1.1 数据源追溯组件设计
基于大数据分析的图书馆信息检索硬件系统,数据源追踪设计主要是跟踪图书馆多媒体情况,及时收集用户行为特征数据。此数据源都来源于多媒体服务器终端备忘录系统,每隔3 min就会自动保存,所以数据收集误差小,对于数据源跟踪效果良好。
2.1.2 数据挖掘组件设计
信息检索系统设计的重点就是选择知识库,知识库为具备规则性集合体,使用基于数据熵的数据挖掘算法,能够对不同的有效数据进行挖掘[4]。
假设多媒体信息数据系统[N]为:
式中[a]指的是数据挖掘对象,如果:
那么,对象[p]就相当于[N]的数据挖掘信息:
式中:[H(N)]指的是[N]的信息熵;[Ha(N)]指的是数据挖掘对象[a]之后[N]的信息熵。
在数据挖掘不断深入的过程中,知识库会不断地添加全新的规则对系统智能性进行制约。基于数据熵多媒体信息挖掘设计不仅能够利用知识库方式进行展现,还能够对挖掘数据结果进行解析[5]。
2.1.3 系统预警组件设计
系统预警设计主要是针对用户在图书馆中的检索进度,利用设计的自动推理指标系统评价用户多媒体学习情况综合指标,判断用户检索教学多媒体信息情况。假如在某时间段中用戶进度低于标准值70%,就会出现警告信息[6]。
以上述三个组件实现检索系统设计,得到检索系统检索流程,如图2所示。
通过图2可以看出,用户利用图书馆检索图书,信息检索系统备忘录对用户查看图书情况进行记录,并且收集数据,数据通过预处理后对数据追踪组件进行传递,数据组件利用数据挖掘计算通过知识库方式充分展现,对挖掘后数据结果进行解析,最终使数据在系统报警装置中传输。如果用户查看图书进度落后,将警告系统启动,完成检索系统硬件设计[7]。
2.2 系统软件设计
2.2.1 数字资源本体管理模块
数字资源管理模块是创建图书馆多媒体信息系统的基础,主要的功能就是对图书馆信息资源进行组织和处理,满足用户使用需求。由技术工程师和专家,通过开发工具和本体语言实现知识信息概念空间的创建,从而创建领域本体。另外,通过领域本体关联文本信息内容,利用语义模型对信息概念相似度进行计算[8]。
2.2.2 用户输入和智能拓展
以用户使用自然语言在智能检索系统所输入的语句和关键词作为基础,对用户知识需求进行判断,从而设计用户输入和智能拓展模块,通过语义模型与领域概念逻辑关系提取关键词,寻找相应语句和关键词。通过图书馆信息资源的概念、属性、定义类等等级体系,根据领域知识进行推理和计算,对满足用户需求度的主要词汇进行选择,代替用户输入自然语言,创建扩展语义逻辑表达式,提交到智能检索模块中进行搜索[9]。
2.2.3 数据规范化处理
首先利用数据挖掘算法对数据进行集成处理,使数据满足规范化处理需求。数据规范化处理流程如图3所示。
在合成记录中,由于图书馆中自动化系统提供不同软件开发商,所以彼此缺少协调和沟通。实现用户信息挖掘的前提是规范化处理各个服务供应商系统数据库数据字段中不同的含义和格式,以处理后的数据作为唯一标识用户数字字段,实现用户行为数据集合。对于高校师生来说,图书借阅证是其使用图书馆资源成为连续用户在不同数据库中存储的连续标识符[10]。
数据规约中的网络日志与数据库信息记录存在的记录和标识方法不同,数据归约功能能够实现不同属性,但是相同含义的数据规范化处理使数据歧义得到降低,提高分析数据的精准性[11]。
数据清理通过数据归约和记录模块处理之后,相同用户在不同数据库记录在同个字段集中,此字段值具备重复记录作用,要将属性值保留,将重复属性值剔除。部分数据不全,针对遗漏数据信息要补充,跟踪错误数据。数据清理模块要将噪声数据、错误数据、污染数据进行清除。
不同数据分析和数据算法对于数据的要求不同,数据变换模块利用数据概化、平滑聚类等方法使数据转变成为满足数据挖掘算法需求的数据方式[12]。
2.2.4 创建索引模块
索引模块创建的过程为:通过Oracle数据库得到元数据,对元数据解析生成Field对象,以此创建Document对象,利用ES全文索引技术创建IndexWriter的索引。ES索引创建流程图如图4所示。
2.2.5 数据存储模块
云存储HDFS分布式文件系统使用4台Linux机器构成集群,每个块中保存3个副本。云作为基础设备,使图书馆不需要承担数据中心管理成本[13]。
元数据设计:针对学校自主资源,要创建自身元数据库、实现资源分类、编目标引、创建完整数据库。本文将DC元数据核心作为根据,以实际需求实现元素使用和扩展,构成满足高校图书馆需求的元数据结构。在创建系统元数据过程中,不仅要将元数据字段进行扩展,还要对其保留,包括文献被访问次数、文献被下载次数。
数据存储:图书馆文献资源存储主要包括文献元数据和附件的存储。其中,文献元数据添加filepath字段后在Oracle数据库中保存,存储路径为HDFS系统;附件的修改与删除需在HDFS系统中进行,修改附件对应元数据filepath字段,并将云存储原附件删除,上传修改后的新附件[14]。
2.2.6 信息分析模块
此模块通过移动信息、结构化数据和互联网日志等对用户群体需求进行分析。移动信息分析是利用虚拟人际关系开展信息求助,结构化数据分析模块利用技术手段,使用户利用咨询内容和反馈信息记载、数据仓库实现处理,互联网日志能够通过用户使用过程中的痕迹,分析用户网络信息行为。
另外,通过信息推送,实现用户群体定制信息,利用电子资源库和借阅馆藏书籍,使信息过滤[15],推送到用户接口,用户还能够通过馆藏资源信息服务实现相应信息的推送,以此实现基于大数据的图书馆主动推送的信息服务。
3 图书馆信息检索系统性能测试
本文选择中南大学图书馆中文文献资源作为测试数据,选择农业、工业、医学等方面32万份文献数据,测试检索词包括维生素、观察、胃镜、太空、汽车、遥控6个词,分别在单个ES数据库、Oracle数据库、ES集群数据库检索测试,并且进行对比。
统计采用本文系统在Oracle数据库内检索6个关键词的检索相关准确性,为直观展示本文系统的检索性能,将本文系统与云计算检索系统以及分布式检索系统进行对比,对比结果如图5所示。
统计采用本文系统在单个ES数据库内检索6个关键词的检索相关准确性,为直观展示本文系统的检索性能,将本文系统与云计算检索系统以及分布式检索系统对比,对比结果如图6所示。
统计采用本文系统在ES集群数据库内检索6个关键词的检索相关准确性,为直观展示本文系统的检索性能,将本文系统与云计算检索系统以及分布式检索系统对比,对比结果如图7所示。
通过图5~图7实验结果可以看出:采用本文系统在不同数据库内检索维生素、观察、胃镜等6个检索词的检索相关准确性均高于96%;而采用云计算检索系统以及分布式检索系统在不同数据库内检索维生素、观察、胃镜等6个检索词的检索相关准确性均低于96%。检索结果表明,本文系统在不同数据库内检索不同检索词的准确性均明显高于云计算检索系统以及分布式检索系统,有效验证了本文系统检索关键词的检索精度。
统计采用不同系统在Oracle数据库输入6个不同关键词的检索时间,对比结果如表1所示。
统计采用不同系统在单个ES数据库输入6个不同关键词的检索时间,对比结果如表2所示。
统计采用不同系统在ES集群数据库输入6个不同关键词的检索时间,对比结果如表3所示。
检索系统的实时性是评价检索性能高低的重要指标。通过表1~表3测试结果表明:本文系统检索不同检索词时间均低于20 ms,说明本文系统可符合不同数据库的不同检索需求,对于不同的数据库输入不同关键词均可保持较快的检索速度,且检索时间变化不大,验证了本文系统检索的鲁棒性;而云计算检索系统以及分布式检索系统对于不同的数据库输入不同关键词检索时间均高于50 ms,且检索时间变化较大。上述结果表明,本文设计的检索系统的检索速度比云计算检索系统以及分布式检索系统的速度快,满足实际使用需求。
4 结 语
网络的逐渐普及促进了大数据分析教育的发展,使用高精准率、强灵活性的智能化教育,是目前最流行的手段。信息检索系统设计的主要目的就是满足教育高效率、高信息、大规模、低成本的准则。基于大数据的图书馆信息检索系统的设计能够实现用户的信息跟踪,使用检索软件分析用户的检索情况。在系统不断完善的过程中,能够根据用户习惯与特点,实现精准信息资源的提供,从而能够实时反馈智能检索服务效果,以反馈的结果对系统的结构进行优化和调整,使检索效能得到提高。
参考文献
[1] 王平,李昭.高校图书馆信息公开现状调查与思考[J].数字图书馆论坛,2020(1):35?39.
[2] 朱光,丰米宁,张薇薇.激励机制下图书馆信息安全管理的投入意愿研究:基于演化博弈的视角[J].数据分析与知识发现,2018(6):13?24.
[3] 田华,鄢喜爱,杨金民.图书馆云存储系统中一种自适应容错策略[J].计算机工程与应用,2019,55(7):95?99.
[4] 王蕾.媒介融合语境下高校图书馆如何联合开展移动信息服务:评《大数据时代高校图书馆信息服务创新研究》[J].新闻爱好者,2018(1):115?116.
[5] 孙战彪.SOLOMO环境下图书馆信息资源协同建设研究[J].现代情报,2017,37(12):110?116.
[6] 谷参.基于分布式结构的图书馆信息检索服务系统研究[J].现代电子技术,2017,40(1):83?85.
[7] 叶小榕,邵晴.结合物联网和室内定位的手机图书馆推荐系统[J].科技导报,2016,34(23):127?136.
[8] 张静端.基于GIS技术的高校图书馆座位管理系统[J].东华大学学报(自然科学版),2016,42(2):242?247.
[9] 许磊,夏翠娟.第三代图书馆服务平台的元数据管理:以FOLIO的Codex方案为例[J].中国图书馆学报,2020,46(1):99?113.
[10] 谭龙江.基于读者活动的个性化图书馆推荐系统[J].系统工程,2015,33(8):154?158.
[11] 张凤霞.大数据环境下基于云计算的图书馆用户信息挖掘技术研究[J].現代电子技术,2019,42(21):36?40.
[12] 陆韡.面向OA资源的图书馆知识发现系统应用研究[J].图书馆工作与研究,2019(10):83?88.
[13] 侯欢欢,杨志萍,侯雪婷.可行能力视角下图书馆信息素养扶贫路径研究[J].图书馆学研究,2019(18):69?74.
[14] 王栋,袁伟,吴迪.基于WiFi物联网的图书馆环境监测系统[J].计算机科学,2018,45(z2):532?534.
[15] 李金.基于云计算的数字图书馆智能问答系统设计[J].制造业自动化,2019,41(8):136?140.