基于元搜索引擎的数字图书馆网络信息资源检索系统设计

2021-07-16 07:02王玉琼

南京工程学院学报（自然科学版） 2021年2期

王玉琼

(阜阳职业技术学院工程科技学院, 安徽阜阳 236001)

数字图书馆网络信息资源检索系统是图书馆图书资源与现代计算机信息化技术相结合的产物,可以向用户提供数字图书馆网络信息资源检索服务,目前，在国外部分国家已将数字图书馆网络信息资源检索系统应用到各大高校中,并且国外技术研发人员还研发出了相关配套技术,比如系统自动化更新、调试、安全保护等,国内数字图书馆网络信息资源检索系统仍处于初级发展阶段,虽然有些高校也引进了图书馆个性化服务系统,但在应用中还存在一些问题,比如系统响应较慢、检索效率较低等,传统系统已经无法满足数字图书馆网络信息资源检索需求,为此,本文设计一种基于元搜索引擎的数字图书馆网络信息资源检索系统.元搜索引擎是一种信息检索设备,其检索网络信息资源原理是:从种子URL数据集合开始,提取出种子URL在数字图书馆网络上内部链接的URL,在获取数字图书资源的过程中,不断从当前网络页面上抽取新的URL放入到URL种子集合,从URL种子集合中筛选出符合检索主题条件的URL并获取网络信息资源,一直如此循环下去,直至满足预先设定的检索深度为止.元搜索引擎会根据检索主题有针对性地获取网络上的信息资源,以此获取到与主题相关的网页信息[1].由于元搜索引擎具有检索效率高、精度高、对数据响应速度快等优点,已经得到了广泛应用,将元搜索引擎应用到数字图书馆网络信息资源检索系统中,可提高系统的响应性能,具有重要的现实意义.

1 系统硬件设计

在传统检索系统硬件设备基础上引用元搜索引擎作为数字图书馆网络信息资源检索系统的核心硬件,主要任务就是获取数字图书馆中的所有网络信息资源,并通过超链接的方式使网页与系统相对应,并且能够达到高效、快速、准确的应用效果[2].元搜索引擎主要有InfoSpace、Dogpile、Vivisimo三种.InfoSpace元搜索引擎是将多个单一独立的搜索引擎进行整合,利用计算机索引程序扫描网络信息资源中的所有文字数据,并且能够明确找到网络信息资源的位置;Dogpile元搜索引擎是一个独立的搜索引擎,特点是能够对图片信息资源进行搜索;Vivisimo元搜索引擎是一个分布式搜索引擎,主要是对音乐、视频等网络信息资源进行检索.

根据系统设计需求,选取InfoSpace元搜索引擎,该引擎具有云端全功能AI芯片,能够在100 W以上的功耗下达到200万亿次/s的运算速度,并且内存宽带达到了126 GB/s,可以有效提高系统的响应性能.此外,InfoSpace元搜索引擎还包括API接口检索数据、GUI接口下载数据、编写引擎程序下载数据三种数字图书馆网络信息资源检索途径,可分别用于检索不同种类的数据信息.1) API接口抓取数据用于检索对格式要求严格或复杂的数据,API是一种应用程序编程接口,该接口是通过预选定义的函数为应用程序提供例程能力[3],通过该接口可以快速的获取到所需要的数字图书馆网络信息资源,不需要了解元搜索引擎具体检索过程,用API接口直接下载数字图书馆网络信息数据,可以有效保证检索到的数据格式的完整性、数据结构的良好性;2) GUI接口下载数据用于检索图形类数据资源[4],GUI是一种图形接口,该接口具有强大的图形获取功能,元搜索引擎通过该接口完成图形网络资源的抓取,将获取到的网络信息资源以最直观的图形方式呈现出来,并且该途径不需要元搜索引擎记忆大量的检索命令,元搜索引擎只需要执行少量的选择命令、执行命令完成检索任务,该途径占用的网络资源较少,且具有较高的可靠性[5];3) 编写引擎程序下载数据用于对质量要求较高的资源进行检索,相对于前两种路径它具有高效、高质量等检索优点,使元搜索引擎可以在数字图书馆的公开数据获取中支持正则表达式操作[6],该路径具有强大的脚本语言系统得以支持引擎检索,可以精准地获取到与检索主题相关的数字图书馆网络信息数据,操作简单高效、接口稳定性良好.元搜索引擎搜索流程如图1所示.

图1 元搜索引擎搜索流程

2 系统软件设计

2.1 数字图书馆网络信息资源存储

利用数据库软件实现系统的数字图书馆网络信息资源存储功能.数据库的设计是数字图书馆网络信息资源检索系统在设计开发过程中非常重要的一个环节,并且数据库也是系统的核心软件,根据系统对网络信息资源存储的需求,此次采用Django数据库,该数据库是一个分布式数据库,可以自动将数字图书馆网络信息资源以表格的形式存储,方便资源管理与检索,为后续数据调用提供支持[7].Django采用OBS(object based storage)数据存储机制,能够自动生成数据表,无需再通过手动去创建表格,并且将所有的数字图书馆网络信息资源统一格式和进行分类,自动将资源添加到事先建立的数据表格中[8].Django数据库具有一个独立的接口与元搜索引擎相连接,可以实现快速的数据交换,提高系统的数据传输速度[9].信息资源存储部分代码如图2所示.

图2 资源存储部分代码

此外,Django数据库还设有用户权限,用户需要通过密匙进入数据库,可有效保证数据图书馆网络信息资源的存储安全.

2.2 数字图书馆网络信息资源检索

在建立数据库的基础上,利用Sphinx软件检索数据图书馆网络信息资源,Sphinx软件可以很好地与系统数据库和元搜索引擎集成,具有索引文件自动更新的功能,当面临海量数字图书馆网络信息资源时能够快速完成检索任务,具体检索流程如图3所示.

图3 数字图书馆网络信息资源检索流程图

Sphinx软件主要是利用Indexer、Searchd、APP(客户端程序)、Dctabast四个程序实现数字图书馆网络信息资源检索.Dctabast程序与系统数据库连接,由数据库为Sphinx软件提供数据源,Dctabast再将数据传输给Indexer程序[10]；Indexer是Sphinx软件的索引程序,其主要任务是对数据进行分词,并根据分词生产多个索引,当数据源数据量过大时,Indexer能够对索引进行自动更新,重新建立新的索引[11];Indexer建立完数据索引后将其传送给Searchd程序,Searchd利用索引快速处理系统接收查询服务,根据用户输入的关键词匹配到与其相符的索引[12];将检索结果传送给APP,由APP向用户展示最终检索到的数据图书馆网络信息资源,以此实现数字图书馆网络信息资源检索.

3 对比试验

3.1 试验设计

试验以检验本系统的更新处理时间、数据转换时间、数据传输时间为目标,并与传统系统进行对比.此次试验环境中共部署了5台R780机架式服务器,其中将3台服务器分配到系统Python集群,2台服务器分配到系统Storm集群,表1为5台服务器的部署情况.

表1 服务器配置参数

试验时分别向两个系统发送200个检索服务请求,记录此时两系统时间,当系统页面转跳到检索页面时,再记录此时系统的时间,当系统检索页面显示出最终的检索结果时,再对系统时间进行记录,最后将以上三个时间差作为系统响应性能的量化结果,对两个系统进行对比.

3.2 试验结果分析

试验设定两个系统对单个检索服务的响应时间在4 s之内,计算出200个检索服务系统的平均响应时间,将两个系统进行对比,试验结果如表2所示.

表2 两个系统响应时间对比

从表2可以看出,设计系统在响应时间方面的性能符合要求,并且响应时间比传统系统更快一些,证明本文设计系统可以满足数字图书馆网络信息资源检索效率要求.

4 结语

本文设计了基于元搜索引擎的数字图书馆网络信息资源检索系统,通过应用元搜索引擎,不但能够优化传统系统的检索方案,还能够完成传统系统所不能发挥的检索功能,有效提高了系统的检索效率,也提高了数字图书馆网络信息资源的利用率,具有一定的现实意义.