基于数据挖掘的图书馆海量信息快速检索方法

2020-06-22 14:58丁鹏

科学导报·学术 2020年72期

关键词：数据挖掘图书馆

丁鹏

【摘要】文章主要是分析了图书馆海量图书信息分类检索系统硬件设计，在此基础上讲解了数据挖掘技术在海量信息检索中的作用，最后探讨了数据挖掘的图书馆海量信息快速检索方法，望可以为有关人员提供到一定的参考和帮助。

【关键词】数据挖掘;图书馆;海量信息;快速检索方法

1、前言

当前信息化时代的到来，在一定程度上增加了人们检索信息的难度，为此如何能够有效探索出符合自身需求的相关信息成为可以当前有关研究人员应当思考的难题。

2、图书馆海量图书信息分类检索系统硬件设计

系统硬件设备与传统系统的最大区别是在传统系统硬件的基础上引入搜索引擎，搜索引擎是在互联网上搜索网络信息的搜索工具，主要集中在应用过程中收集的信息，并将收集到的网络资源构建到专门用于图书信息的知识库中，供查询库使用，并进行索引，通过输入，可以在搜索引擎中为要查询的内容指明关键字，搜索引擎可以在知识库当中查看与关键字相匹配的相关信息。搜索结果显示在屏幕上，并按照搜索结果选择并访问相关的网页。完整的搜索引擎由搜索器，搜索者和用户界面组成。搜索者主要负责收集和发现在线书籍信息资源，并通过使用蜘蛛或机器人计算机程序自动收集库网页，以及收集的网站中录制的网站网站的网站和所有公共区域总结为详细的库网络目录。此外，该检索还需要定期更新系统中收集的旧信息以避免无效链接。搜索设备将收集的Web信息发送到索引器，并且索引器分析Web地址信息，提取书籍信息索引项，并最终在文档索引表中表达它们，通常使用某种形式的Reversalable，记录书籍信息索引项的特定位置，这才能够方便到了搜索搜索器计算索引之间的距离关系。有两种方法可以信息索引项目：目标索引和内容索引。目标索引与书籍信息文档的语义内容是完全无关的，主要包括书籍信息的更新时间，书籍信息代码等。内容索引代表了例如，作为书籍信息的关键字，关键字等的关键字，索引器将从分析和理解发送到猎犬的信息。按照用户的书籍信息查询要求，将从分析和理解发送信息。快速查询知识库中的相关文档，评估文档与书籍信息之间的相关性和用户查询的信息，并可以按照到了相关性对输出查询结果进行了排序。搜索引擎的用户界面是输入图书信息并输出查询结果。按照信息查询方式的不同，搜索引擎主要分为三类：第一类是目录搜索引擎，它有着搜索信息准确率高、导航性好的优点，但缺点是人工干预，网络信息维护量大，更新不及时。第二类是机器人搜索引擎，其信息量大，网络信息编程程度高，但存在返回信息结果多、信息无效等缺点。元搜索引擎的优势在于它返回大而全面的结果，但缺点是它需要在搜索结果上进行更多筛选。结合系统开发的要求，本文选择了机器人搜索引擎。该策略针对图书馆的书籍信息检索，在互联网上搜索大规模的书籍信息，并分析，提取，组织和处理书籍信息，并可扮演书籍信息导航的作用，最终可以为用户提供高质量的书籍信息检索服务。

3、数据挖掘技术在海量信息检索中的作用

当前正在扩展数据挖掘技术的应用范围。以往传统的市场图书馆被打破，图书馆中的纸质书籍正在不断的减少，其中电子书越来越多，人们可以检索图书馆的信息，功能栏进入书籍关键词查找书的位置。在一定程度上，信息挖掘技术的信息效率得到改善，为图书馆建设提供到了一个新的导指方向，为工业发展提供了更多的开发空间。

4、图书馆海量信息快速检索方法

4.1、信息属性提取

在设计大规模信息之前，我们可以参考多维信息空间模型来提取信息数据的属性，在这个过程中，首先要明确数据的录入内容，将信息属性划分为数据字典、关键字、，按照习惯句的习惯检索方法，图书信息被认为是多用途计算机二进制算法，使用计算机二进制算法，图书馆中的大规模信息是用反向表达式来表达的，用图书馆自身的主体库代替用户检索到的信息关键字，描述图书馆中的大量信息。使用图书馆中的不同类型的书籍，測量和映射信息正在调查和映射信息。在处理过程中，可以通过建立列表来索引密钥信息，并且可以按照库的大规模信息的特征来映射资源信息。

4.2、快速检索的价值

基于上述相关工作，本文将基于在用户搜索行为中检索的信息量获得价值信息的重要性。在为可以进一步探索大规模数据的定律，将引入数据挖掘技术获取价值信息。在此过程中，Q表示大量信息，在行为搜索库用户的项目中，TT应该是主要值信息TT应该属于中间值。在Q信息中，T应该属于辅助值信息，组合当前相关的分析，本文被归类为图书馆的大规模信息。k是数据库中的大量信息，M是用户搜索项目中的关键数据的排列，这是满足快速搜索行为的时间，并且我是搜索的用户数。按照上述计算公式信息检索操作作为快速搜索控制标准执行，并且在完成搜索项目的最佳布置时执行。在本文中，搜索项目被随机选择为搜索行为的关键字以获得搜索行为的权重;基于库中的多资源信息的重叠区域，提取重叠区域的数据，并且按照小编的信息定律执行数据重叠，该信息被用作搜索库信息收集并完成的基础快速搜索库中的大规模信息。

5、对比实验

本实验中使用的计算机内存为8.0GB，其中其的运行内存为256MB且系统为Win10。在改进实验环境的前提下，传统信息快速检索方法和基于本文设计的数据挖掘的库大规模信息快速检索方法用于从上述网站提取信息，并使用召回速率实验的比较基础，分析不同检索行为下两种方法的信息查询精度。在完全相同的检索条件下，本文提出的检索方法可以从大量相关的无关信息中准确地检索出1000条有价值的信息，而传统的检索方法只能从大量信息中检索出600-800条数据，这在一定程度上造成了一定的信息损失。实验的最终结论是，与传统的快速检索方法相比，基于数据挖掘的海量信息检索方法在信息检索中有着较高的召回率，适合于市场上的数字图书馆建设。

6、结束语

上文主要是通过引入到数据挖掘技术，然后提出了一种全新的图书馆海量信息快速检索的方法，然后从几方面完成相关设计，此方法的应用能够有效满足到当前市场数字化图书馆的需求。

参考文献：

[1]李文，车立娟，张梦思. 基于数据挖掘方法研究中医药治疗小儿肠系膜淋巴结炎的药证规律[J]. 吉林中医药 2021年41卷1期，111-114页，ISTIC，2021.

[2]王波. 基于数据挖掘的图书馆文献资源供应商评价[J]. 电子设计工程，2020，v.28;No.444（22）：49-52+57.

[3]张登科. 基于数据挖掘技术的图书馆个性化系统设计[J]. 长春师范学院学报（自然科学版），2020，039（002）：75-79.

[4]叶肇恒，孟凡馨，宴金旭，等. 基于数据挖掘技术的防震减灾科普资源管理平台[J]. 华北地震科学，2020，v.38（01）：66-73.

[5]范云欢. 智慧环境下基于大数据挖掘的图书馆学习支持服务[J]. 情报探索，2020，No.271（05）：44-49.

[6]杨闪闪，张学智，叶晖，等. 基于数据挖掘的中药专利复方治疗慢性萎缩性胃炎的用药规律分析[J]. 中国中西医结合消化杂志，2020（8）：607-612.

（作者单位：湖南工业职业技术学院）