基于数据挖掘的数字图书馆交互服务系统开发

2021-06-04 03:09闵国锋

微型电脑应用 2021年5期

闵国锋

(沙洲职业工学院图书馆，江苏张家港 215600)

0 引言

随着信息技术的快速发展，传统的图书馆交互服务系统与读者的个性化交互服务需求的矛盾日益突出，系统的响应速度过慢，信息共享的能力较差，很大程度上影响了读者的使用体验[1-3]。为了解决这些问题，本文提出并设计了一种基于数据挖掘技术的数字图书馆交互服务系统。该系统在整体架构上对传统的交互服务系统进行了技术改进，基于数字挖掘技术通过对个性化交互信息的再处理提升了此类信息的价值，实现了数字化图书馆信息的广泛共享。系统围绕集成TQMA93RE7芯片的控制器搭建硬件平台，通过模块化程序的信息存储过程设计和决策树算法的构建实现了软件部分的设计，在强化了数据挖掘功能的同时大大提升了系统的响应速度。

1 系统硬件设计

1.1 总体结构

该系统的总体结构是在现有的数字图书馆交互服务系统结构上进行的改进设计，按照可靠性、安全性、经济性、时效性等原则，以个性化交互服务信息为主体，对其进行提取和分析，以实现信息的深入挖掘和广泛共享。改进后的系统总体结构如图1所示。

图1 数字图书馆交互服务系统总体结构图

由图1可知，系统的信息资源主要来自于互联网与校内网数据集，通过搜索器、集成器、分析器与服务器进行互联网个性化交互服务信息的挖掘与存储，从而扩展了信息的采集渠道，增加了图书馆的信息量。由此可见，图书馆交互服务系统的建设需要与互联网和校内网的建设紧密结合，在不同知识领域之间建立信息传输渠道，以此满足不同读者的信息需求，同时，通过信息反馈能够由外界获得更多有价值的信息，因而整体上提高了图书馆向读者所提供信息的质量。

1.2 控制器设计

本系统通过在硬件端口增设控制器的方式来应对海量数据的处理需求，提高系统的整体响应速度。TQMA93RE7是一种超高密度芯片[4]，改芯片以Crema-T1架构为内核，具有极强的数据处理能力，符合本系统控制器的技术要求。

芯片的半导体指令可以在两种状态间切换，即半导体供应状态和Thumb状态，前者代码宽度为32位，后者为16位。控制器处于半导体供应状态时，其所生成的指令均为32位代码，切换至Thumb状态后则只能生成16位代码指令。Crema-T1内核自带Thumb-1指令集，在保证能够进行高速信息处理的同时适当降低了指令代码的密度，使用和维护都非常简便。QMA93RE7芯片的引入，在硬件层面上提高了系统的信息挖掘能力和响应速度。

2 系统软件设计

2.1 信息存储过程设计

在本系统的设计中，信息存储的程序代码全部存储在数据库服务器内，因此数据信息的读取指令不需要通过网络进行传输，依靠信息分类来简化信息挖掘程序，降低网络延迟，避免出现程序卡滞，减小网络的数据载荷量。

基于程序的模块化可以实现快速存储过程的设计，在首次数据存储完成后，其后的同类操作可依照首次程序反复进行。若存储程序发生变动，则会在数据库服务器中另外创建对应的指令集。系统的信息存储流程如图2所示。

图2 系统的信息存储流程

由上图可见，在进行信息存储时，系统会首先判断数据是否符合挖掘规则，符合的数据系统会自动对其进行分类，之后判断数据是否已存在，根据判定结果决定是否存储该数据。

在上述设计流程中，系统会将典型的个性化交互服务提前封装成信息存储过程，即将编制完成的程序指令存放于数据库服务器中，使信息读取操作得以快速执行，进而在软件层面提高了系统的响应速度。

2.2 决策树算法的构建

决策树算法的构建过程就是从所有通过了系统验证的的个性化交互服务信息中提取出有价值的信息进行细化分类。在系统所构建的决策树中，一个节点对应一个单独的属性，单次测试的输出结果则用一个分支来表示。假设节点R用于存储一个C类别的信息集，系统会自动选择出具有最高细腻增益率的属性对R进行分裂。在这种条件下该个性化交互服务信息集所对应的期望信息，可表示为式(1)。

(1)

式中,Pi为C类信息集中某个信息可细化为Ci类信息的概率，在系统进行信息细化分类时可以通过|Ci,D|/|D|进行估算;Info(C)代表C的熵。

若个性化交互服务信息的属性A可用v个不同的值来表示，则C类信息集中具有A属性的信息所对应的期望信息,可表示为式(2)。

(2)

式中,InfoA(C)为C信息集依据属性A进行分类后所得到的期望信息，系统会自动采用最小值期望信息所对应的属性值对C进行分裂。

上述算法的构建流程，如图3所示。

图3 决策树算法的构建流程

由图3可知，在构建决策树过程的MAP阶段获取的是数据的行内容，而Reduce阶段获取的则是基于属性分裂信息集前的中间结果。

3 系统应用对比

系统测试环境包括硬件环境和软件环境两个部分，硬件部分由计算机CPU、内存、硬盘及系统控制器等设备组成;软件部分则主要由计算机操作系统和网络两部分组成。该系统为测试的实验系统，选取文献[5]数字图书馆交互服务系统为参照系统。测试步骤如下。

3.1 信息准确率对比测试

两个系统同时检索相同的内容，第一关键词：“区块链”;第二关键词：“区块链网络”;第三关键词：“区块链建立信任”。三个关键词依次搜索，来考察信息准确率的提升情况。测试过程中，本文系统和文献[5]系统检索三个关键词后所列出的图书信息条目分别为：第一关键词，125条和131条；第二关键词，77条和69条；第三关键词，21条和22条。由此看出，两个系统检索得到的信息条目差别不大，经过筛选得到信息准确率对比结果如图4所示。

图4 信息准确率对比结果

由图4可知，随着检索关键词的深入，两个系统的信息准确率均有所提升，这是因为数据挖掘技术的应用使得系统检索结果更加个性化和智能化。对比可知，本文系统检索后的信息准确率高于文献[5]系统，尤其是在第三个关键词检索时，其信息准确率远高于文献[5]系统，说明本系统应用的数据挖掘算法较好，能比较明显提升信息准确率。

3.2 响应时间对比测试

通过本系统和文献[5]系统分别重复50次测试程序，记录系统各界面的测试结果输出时间，具体结果图5所示。

图5 系统测试各界面响应时间

由图5可知，本文系统的登录操作平均响应时间为1 s，相较于参照系统的2 s，其响应速度提高了一倍；本系统信息收集界面、信息分析界面、信息服务界面以及系统管理界面的响应时间分别为0.6 s、0.8 s、0.8 s和1.1 s，远远低于参照系统对应界面的响应时间，通过计算可得，本文系统进行个性化交互服务信息挖掘的平均时间为0.8 s，参照系统的信息挖掘平均时间为3.23 s，即本文系统的响应时间较之于文献[5]数字图书馆交互服务系统缩短了2.43 s，由此可见本文系统在响应速度方面具有明显的优势。

3.3 系统稳定性测试

为了验证系统的稳定性，笔者通过部署两个系统，考察可支持最大用户并发数、CPU占用率和内存使用率，对比测试结果如表1所示。

表1 系统稳定性对比测试

由表1可知，随着用户并发数的增加，两个系统的CPU占用率和内存使用率逐渐增大，说明系统具有一定的稳定性。文献[5]系统的两个参数明显高于本系统，说明该系统性能较优。当用户并发数增加至3 000时，文献[5]系统内存使用率达到86%，CPU占用率也达到75%，而本系统两个参数还在70%以下。用户并发数的增加至4 000，文献[5]系统内存使用率达到100%，出现断机，而本系统仍可以正常运行。

4 总结

为了解决传统数字图书馆交互服务系统响应较慢、共享程度差的问题，本文设计了一种基于数字挖掘技术的数字图书馆个性化信息交互服务系统。介绍了基于传统系统进行改进后所设计的新系统架构，阐述了以TQMA93RE7超高密度芯片为核心的控制器设计以及模块化程序的信息存储过程设计，说明了决策树算法的构建依据和方式。通过与文献[5]数字图书馆交互服务系统的对比测试结果表明，本系统的数据挖掘平均响应时间、信息准确率和稳定性均优于其他系统，能够极大地提升图书馆用户的使用体验。