基于数据挖掘技术的图书馆借阅量估计模型

2020-06-15 06:42杨英

现代电子技术 2020年7期

杨英

摘要：当前图书馆借阅量估计模型存在误差大等难题，为了提高图书馆借阅量估计的准确性，提出基于数据挖掘技术的图书館借阅量估计模型。首先，对当前图书馆借阅量估计模型的国内外研究进展进行分析，并提取图书馆借阅量的数据;然后，采用RBF神经网络对图书馆借阅量数据进行学习，建立图书馆借阅量估计模型，并采用蚁群算法优化RBF神经网络的权值、阈值;最后，与其他图书馆借阅量估计模型进行对比实验。结果表明，所提模型可以获得高精度的图书馆借阅量估计结果，降低了图书馆借阅量估计误差，验证了所提图书馆借阅量估计模型的有效性和优越性。

关键词：估计模型; 借阅量历史数据; 数据挖掘技术; 蚁群算法; 图书馆管理; RBF神经网络

中图分类号： TN911.1?34; TP181 文献标识码： A 文章编号： 1004?373X（2020）07?0099?04

Library lending volume estimation model based on data mining technology

YANG Ying

（Langfang Normal University， Langfang 065000， China）

Abstract： Since big errors occur in the application of the current estimation models of library lending volume， an estimation model based on data mining technology is proposed to improve the estimation accuracy of library lending volume. Firstly， the research progress for the current library lending volume estimation models at home and abroad are analyzed， the data of library lending volume is extracted， and then the RBF neural network is used to learn the data of library lending volume for the establishment of the estimation model of library lending volume. In addition， the ant colony algorithm is used to optimize the weight and threshold of the RBF neural network. A contrast experiment was performed to compare the model proposed in this paper with other estimation models of library lending volume. The results show that the proposed model can obtain high?precision estimation results of library lending volume and reduce the estimation error of library lending volume， which verifies the effectiveness and superiority of the proposed model.

Keywords： estimation model; historical lending data; data mining technology; ant colony algorithm; library management; RBF neural network

0 引言

高校图书馆作为高校第二课堂，为高校教师和学生的课题研究提供了相应资料[1]。图书馆借阅量可体现高校师生规模、馆藏数量、管理质量等各项指标，还可体现图书馆文献利用情况。借阅量是评价图书馆业务的重要指标，评估图书馆借阅量对提升图书馆管理和服务质量具有指导意义[2]。图书馆借阅量作为非线性问题，受时间、馆藏数量和书本质量等各种因素影响，具有较大的估计难度。准确估计图书馆借阅量可为图书馆人员和设备管理等资源建设提供配备标准，实现图书馆的科学高效管理和监控[3]。

目前，我国应用于图书馆借阅量的估计模型主要有回归分析模型和灰色模型，以上两种模型均为基于线性时间序列的估计模型，而图书馆借阅量作为一种受多种因素影响的非线性动力学过程[4]，线性估计模型无法准确估计其内在运行规律，估计精准度较低。神经网络模型作为一种非线性估计模型，具有较强的非线性逼近能力，且鲁棒性较好，被广泛应用于非线性估计领域。比较常用的神经网络有BP神经网络和RBF神经网，RBF神经网络具有结构简单、运算速度快的优势[5]，但采用RBF神经网络实施非线性估计时，容易受输出权重、单元中心等参数影响。

为了提高图书馆借阅量估计的准确性，本文提出基于数据挖掘技术的图书馆借阅量估计模型，选取并行处理能力较强的蚁群算法优化RBF神经网络，有效避免了RBF神经网络在估计过程中过早收敛，有效提升了图书馆借阅量估计精准度。

1 数据挖掘技术的图书馆借阅量估计模型

1.1 RBF神经网络

RBF神经网络[6]通过输入数据利用隐含层转换至高维空间中，令线性不可分问题从低维空间转换至高维空间内并变为可分问题，RBF神经网络中径向基函数的公式为：

[hi=exp-x-ci2σ2i] （1）

式中[σi]与[ci]分别表示RBF神经网络隐单元节点宽度以及第[i]个RBF神经网络隐单元节点中心。

神经网络中权值、阈值的取值直接影响RBF神经网络性能[7]，因此需寻找最优权值、阈值，获取最准确的RBF神经网络估计结果。

蚁群算法为基于大自然中生物界的新仿生类算法。该算法源于蚂蚁行为特性，通过蚁群算法的搜索机制获取组合优化问题的解。蚁群算法已应用于分配问题、调度问题等问题中，并取得了良好的寻优结果。利用蚁群算法优化RBF神经网络，寻找最优参数，有效提升了RBF神经网络对图书馆借阅量的估计精准性。

1.2 蚁群算法

1.2.1 初始化蚁群位置和信息素

用[N]表示蚁群规模，将蚁群位置初始化[8]，依据RBF神经网络参数范围可得蚂蚁[i]的初始信息素如下：

[Δτi=exp-fxi] （2）

通过式（2）可知，信息素浓度在[fxi≥0]且接近无限大时趋于0，为提升估计精准性，需修正蚂蚁的适应度值[fxi]，蚂蚁适应度值修正公式如下：

[fxi=fxiavg， avg>avg0fxi， other ] （3）

式中：[fxi]表示修正前的适应度值;[fxi]表示修正后的适应度值;[avg]表示修正前适应度值的平均值。

1.2.2 路径选择规则

蚂蚁一次搜索结束后，依据选择规则选择下次搜索路径[9]，随机选取蚁群中数量为[k]的蚂蚁，从已选取的蚂蚁中抽取信息素浓度最大的个体并设置为转移目标[Xobj]。转移目标公式如下：

[Xobj=Xj， τXi

式中[Xbest]為上次迭代中获取的最优解。

当信息素浓度加大时，吸引蚂蚁的程度随之增大，因此，蚁群获取最优解的概率越大，蚂蚁依据式（5）聚集至目标位置：

[Xi=1-λXi+λXobj] （5）

搜索过程结束后，获取上次迭代中最优解的蚂蚁，继续在邻域中细致搜索，获取全局最优解公式如下：

[Xbest=X′i， fX′i

1.3 蚁群算法优化RBF神经网络权值和阈值

蚁群算法优化RBF神经网络的主要步骤为划分权值、阈值的定义域[10]，将整体神经网络分为数量为[n]的均匀子区域，子区域边界点即为备选权值。初始计算时，各边界点信息素中的元素相同，蚂蚁需穿过各权值的子区域，且每个子区域仅可穿过一次，穿过子区域的过程中需要记录相应标号，以上标号表示子区域组合作为神经网络的一组权值和阈值，依据输出样本获取误差值，并再次更新信息素[11]。

蚁群算法具有启发式搜索特点，通过蚁群算法优化RBF神经网络，可避免RBF神经网络寻找最优参数的过程中出现“过拟合”等现象。设神经网络中含有参数的数量为[m]，以上参数代表RBF神经网络的权值和阈值。设RBF神经网络的一组参数为[Pi]，且满足[1≤i≤m]。随机选取数量为[N]的非零值组成的集合[IPi]。

令每只蚂蚁在集合[IPi]内以及全部集合内选取一个权值以及一组神经网络权值。设蚂蚁数量为[h]，集合[IPi]内第[j]个元素的信息素含量为[τjIPi]。不同蚂蚁搜索过程中互不干扰。集合[IPi]为蚂蚁出发点，依据各节点信息量以及转移状态概率选取相应元素。当神经网络中所有元素均被蚂蚁选择后，符合食物源，调节集合内各元素信息量[12]。重复迭代以上过程，直至到达指定迭代次数或神经网络中进化趋势极小。

蚁群算法优化神经网络权值和阈值的具体步骤如下：

1）依据1.2.1节内容初始化蚁群位置和信息素，设时间为[t]，[t]时刻循环次数设置为0，用[Ncmax]表示最大循环次数，设置集合中各元素的信息量为[τjIPj=C]，满足[ΔτjIPj=C]，令所有蚂蚁集合于蚁穴中。

2）令所有蚂蚁从蚁穴出发，依据1.2.2节路径选择规则决定蚂蚁行动路径，蚂蚁[K]在集合[IPi]中计算状态转移概率，计算公式如下：

[PrτkjIPi=τkjIPig=1NτgIPi， k=1，2，…，h] （7）

3）重复步骤2），直至全部蚂蚁到达目的节点（食物源）。

4） [t←t+m];[Nc←Nc+1]，依据蚂蚁所选择权值计算神经网络的输出值和误差[13]，并统计目前最优解。单位时间经过数量为[m]时，蚂蚁从蚁穴抵达目标节点，神经网络中各节点信息素更新公式如下：

[τjIPit+m=1-ρτjIPjt+ΔτjIPj] （8）

式中[ρ]为信息素挥发系数。

[ΔτjIPj=k=1hΔτkjIPj] （9）

式中：[ΔτkjIPj=Qek，若第k只蚂蚁在本次循环中选择元素PjIPj0， other]

求解[ek]的公式如下：

[ek=O-Oq] （10）

式中[O]与[Oq]分别为RBF神经网络实际输出以及RBF神经网络期望输出。通过以上公式可知，相应的信息素随着误差[ek]值的变小而增多。

5）当循环次数[Nc≥Ncmax]或全部蚂蚁均可收敛至第一条路径时[14]，计算结束，输出最优权值、阈值，否则，跳转至步骤2）。

1.4 图书馆借阅量估计实现

采用蚁群算法优化RBF神经网络，实现图书馆借阅量估计流程图如图1所示。

1）收集图书馆借阅量原始数据，为提升估计准确性以及通用性，收集原始数据包括借阅者性别、年级、专业、借阅书籍类别等[15]。

2）原始数据归一化处理。为提升蚁群算法优化神经网络的运算速度和估计精度，采用归一化处理收集的原始数据公式如下：

[x′i=xi-xminxmax-xmin] （11）

式中：[xmax]表示原始借阅量的最大值;[xmin]表示原始借阅量最小值。

3）将归一化处理后的数据输入RBF神经网络中，利用蚁群算法重复迭代优化RBF神经网络的权值、阈值，直至获取RBF神经网络最优权值、阈值组合。

4）将待估计图书馆借阅量样本输入到具有最佳权值、阈值组合的优化后RBF神经网络中，依据待估计样本获取RBF神经网络中的最优权值、阈值。计算权值、阈值误差并更新，直至获取最精准的图书馆借阅量估计结果。

2 验证性实验

为检测本文模型估计图书馆借阅量的有效性，将某高校圖书馆作为实验对象，通过Microsoft Visual C++ 6.0软件编程本文模型。利用该高校借阅系统调取图书馆借阅量原始数据，收集2017年1月1日—12月31日间实际借阅数据，收集数据包括借阅者姓名、年龄、性别、专业、借阅书籍等数据。采用本文模型，利用收集的原始数据估计该高校2018年全年图书馆借阅量，如图2所示。

将采用本文模型估计的2018年该校图书馆借阅量与该校2018年实际图书馆借阅量对比，检测本文模型估计的准确性，估计误差结果如图3所示。通过图3实验结果可以看出，本文模型可有效估计该图书馆2018年各月份借阅量，且估计误差均在2.5%以下，说明该模型是一种有效的图书馆借阅量估计模型。

为检测本文模型估计图书馆内不同类别图书借阅量情况，采用本文模型估计2018年该校图书馆中各类图书的借阅量情况，估计结果如表1所示。通过表1统计结果可以看出，采用本文模型可准确估计该校图书馆内不同类别图书借阅量，且估计各类图书借阅量准确率较高，估计误差均在2.5%以内。

为进一步检测本文模型的估计性能，采用本文模型估计2018年不同类别读者在该校图书馆的借阅量，估计结果如图4所示。图4实验结果表明，本科生在该校图书馆借阅量中占比最高，而教职工和研究生在2018年该校图书馆总借阅量中占比居中，分别为25%以及14%，预科生在该校图书馆借阅量中占比最小，这是因为该校本科生人数较多，而预科生人数较少，本文模型估计图书馆借阅量结果与该校实际借阅情况相符。通过图4估计结果可以看出，采用本文模型可准确估计不同类别借阅者图书借阅量，实用性较强。

采用本文模型估计2018年该校本科各年级不同性别学生借阅图书情况，并与2018年实际各年级不同性别借阅量对比，对比结果如表2所示。通过表2实验结果可知，采用本文模型可准确估计该校本科各年级不同性别借阅量情况，且估计误差较低。分析表2中结果可得，2014级以及2018级学生借阅量明显低于2015、2016、2017年级学生借阅量，这是因为2014级学生仅2018年上半年在校，而2018级学生9月份开学后入校，以上两个年级2018年在校时间较短，因此借阅量明显低于2015、2016、2017年级;该校本科各年级女性借阅量明显高于男性借阅量，这与女同学在学习中付出精力普遍高于男同学有关，与实际情况相符。本文模型估计各年级不同性别学生借阅量误差较低，再次验证了本文模型估计的精准性。

3 结语

本文提出基于数据挖掘技术的图书馆借阅量估计模型，有效解决了图书馆借阅量非线性高维问题，且解决了神经网络容易收敛于局部极值问题，利用蚁群算法搜索RBF神经网络最优参数，获取最精准的图书馆借阅量估计结果。通过某高校图书馆借阅估计情况验证该模型估计图书馆借阅量的精准性，该模型不仅可估计图书馆总借阅量，还可估计不同类别图书、不同类别借阅者以及各年级学生的借阅量，具有较强的实用性，为图书馆的科学高效管理提供了有效依据。

参考文献

[1] 汪志莉，李欣，于亚秀.高校图书馆馆藏利用现状及对策数据评估：以华东师范大学图书馆为例[J].图书馆论坛，2017，37（3）：116?122.

[2] 吴佳慧.高校图书馆馆际借阅服务影响效应的实证测度：基于南京部分高校图书馆的调查数据[J].图书馆，2018（11）：103?109.

[3] 谢蓉，刘炜.数字学术与公众科学：数字图书馆新生态：第十三届数字图书馆前沿问题研讨班会议综述和思考[J].大学图书馆学报，2017，35（1）：6?10.

[4] 孟猛，朱庆华，袁勤俭，等.数字图书馆信息安全风险组合评估研究：基于非线性规划法[J].情报杂志，2017，36（6）：128?133.

[5] 夏爽，李丽宏.基于PSO?RBF神经网络在温室温度预测中的应用[J].计算机工程与设计，2017，38（3）：744?748.

[6] 姜雪莹，苏成利，施惠元，等.采用多变量RBF神经网络的非线性内部迭代预测控制[J].应用科学学报，2018，36（4）：136?148.

[7] 孙堂乐，李国辉.EEMD与RBF神经网络的太阳黑子月均值预测[J].计算机工程与应用，2017，53（24）：252?256.

[8] 柯余洋，杨训政，熊焰，等.基于递归神经网络和蚁群优化算法的发电环保调度[J].信息与控制，2017，46（4）：415?421.

[9] 张立毅，肖超，费腾.基于细菌觅食的改进蚁群算法[J].计算机工程与科学，2018，40（10）：170?177.

[10] 李昊，戴天虹，高丽娜.基于改进蚁群算法的WSN路由协议的研究[J].控制工程，2017，24（11）：2201?2205.

[11] 陈睿，赵志刚，张雁茹，等.基于改进粒子群蚁群算法的多目标双边匹配问题[J].计算机工程与设计，2017，38（1）：220?225.

[12] 赵章明，冯径，施恩，等.带启发信息的蚁群神经网络训练算法[J].计算机科学，2017，44（11）：284?288.

[13] 魏鹏，罗红波，赵康，等.基于蚁群算法的运动时间优化算法研究[J].四川大学学报（自然科学版），2018，55（6）：45?53.

[14] 许凯波，鲁海燕，程毕芸，等.求解TSP的改进信息素二次更新与局部优化蚁群算法[J].计算机应用，2017，37（6）：1686?1691.

[15] 关芳，张宁，林强.新媒体视阈下高校图书馆用户的个人信息管理影响因素研究[J].情报科学，2018，36（3）：39?45.