基于大数据的数字图书馆流量预测算法

2020-07-14 08:37杨思思王琢玉
现代电子技术 2020年11期
关键词:历史数据大数据分析数字图书馆

杨思思 王琢玉

摘  要: 数字图书馆流量预测是数字图书馆管理的基础,直接影响数字图书馆管理效率。当前数字图书馆流量预测算法存在预测精度低、时间长等局限性,为了提高数字图书馆流量预测结果,提出基于大数据的数字图书馆流量预测算法。收集数字图书馆流量历史数据,用大数据分析技术对数字图书馆流量历史数据进行建模,构建数字图书馆流量预测模型,并对数字图书馆流量预测模型的相关参数采用蚁群算法进行优化。在Matlab 2017平台上进行数字图书馆流量预测的仿真对比测试实验,结果表明,所提算法的数字图书馆流量预测精度超过95%,相较其他对比算法预测建模总时间最短。所提算法的数字图书馆流量预测精度、建模效率均得到了明显的提升,可以应用于实际数字图书馆管理系统中。

关键词: 大数据分析; 历史数据; 数字图书馆; 流量预测; 仿真测试; 执行效率

中图分类号: TN911.1?34; TP391                   文献标识码: A                    文章编号: 1004?373X(2020)11?0120?05

Digital library flow forecast algorithm based on big data

YANG Sisi1, WANG Zhuoyu2

(1. Library of Wuhan University of Science and Technology, Wuhan 430081, China;

2. Journalism and Information Communication School, Huazhong University of Science and Technology, Wuhan 430070, China)

Abstract: The flow forecast of digital library is the foundation of digital library management, which directly affects the management efficiency of digital library. The current digital library flow forecast algorithm has the limitations of low prediction accuracy and long prediction time. To improve the flow forecast result of digital library, the digital library flow forecast algorithm based on big data is proposed. The historical data of digital library flow are collected for modeling with big data analysis technology, so as to construct the flow prediction model of digital library. Furthermore, the relevant parameters of the flow prediction model of digital library are optimized with ant colony algorithm. The simulation comparison tests for digital library flow prediction is performed on the Matlab 2017 platform. The results show that the flow prediction accuracy of digital library of the proposed algorithm is above 95%. The total time for modeling is the shortest, compared with other algorithms. Both the prediction accuracy and modeling efficiency of the proposed algorithm have been significantly improved. Therefore, it can be applied to the actual digital library management system.

Keywords: big data analysis; historical data; digital library; flow prediction; simulation test; execution efficiency

0  引  言

隨着网络、通信技术及数字阅读技术的快速发展和不断融合,许多高校建立了自己的数字图书馆,学生可以通过数字图书馆搜索和找到自己需要的数字图书资源,如何对数字图书馆有效利用,提高数字图书馆的管理水平十分重要[1?3]。学生访问数字图书馆的时间点、时间长短都不一样,使得数字图书馆流量具有较大的时变性和随机性,数字图书馆流量的建模与预测可以帮助管理人员提前知道数字图书馆流量变化态势,从而更好地提升数字图书馆利用率,所以数字图书馆流量的预测成为当前高校数字图书馆中的一个重要研究方向[4?6]。

数字图书馆流量预测采用时间分析技术,认为数字图书馆流量之间具有一定的时间相关性,可以根据时间相关性发现数字图书馆变化规律。最初采用多元线性回归算法对数字图书馆流量进行建模与分析,根据数字图书馆流量历史数据找到预测模型的参数,从而对未来一段时间的数字图书馆流量进行估计,但是由于其是一种线性分析技术,局限性十分明显,如无法对数字图书馆流量的随机变化特点进行描述等,使得对于现代数字图书馆流量预测错误比较大[7?9]。

随后出现了基于人工神经网络的数字图书馆流量预测算法,相对于多元线性回归算法,人工神经网络的学习能力更强,可以更好地反映数字图书馆流量变化态势,使得数字图书馆流量预测效果得到了有效改善[10?11]。但是人工神经网络算法同样存在不足,如数字图书馆流量预测结果不稳定、预测精度时高时低、建模花费时间相当长、预测速度比较慢等。最近几年,出现了基于支持向量机的数字图书馆流量预测算法[11?14],其建模与预测的稳定性要优于人工神经网络,数字图书馆流量效果更优,但是其数字图书馆流量建模时参数优化是一个难题,当前还没有找到有效的解决方法,使数字图书馆流量结果有待进一步改善[15?17]。

为了提高数字图书馆流量预测结果,本文提出了基于大数据的数字图书馆流量预测算法,结果表明,本文算法的数字图书馆流量预测精度超过95%,而对比算法的数字图书馆流量预测错误率高,而且本文算法的数字图书馆流量预测建模总时间少,数字图书馆流量预测建模效率得到了明显的提升,具有更好的应用价值。

1  基于大数据的数字图书馆流量预测算法

1.1  数字图书馆流量历史数据的处理

数字图书馆流量的历史数据通常包括一些无效的数据,这些数据以噪声的形式出现,为此,本文采用去噪算法对数字图书馆流量的历史数据进行处理,去除其中的一些无用信息,从而改善数字图书馆流量的历史数据质量,有利于数字图书馆流量预测。

设[yt]表示数字图书馆流量的历史数据,那么连续小波变换可描述为:

[W(a,b)=1aytψt-badt] (1)

预处理后的数字图书馆流量的历史数据重構为:

[y′t=1Cψ0+∞-∞+∞W(a,b)aψt-badadb] (2)

在实际应用中,数字图书馆流量的历史数据具有一定离散性,因此引用离散形式的去噪技术,即:

[cj+1(m)=mh(m-2k)cj(m)] (3)

[dj+1(m)=mg(m-2k)cj(m)] (4)

1.2  数字图书馆流量历史数据的重构

当前数字图书馆流量建模沿用时间分析技术,而原始数字图书馆流量的历史数据为一维,无法直接对其进行建模与预测。结合数字图书馆流量的历史数据的随机性和混沌性,引入混沌算法将一维的数字图书馆流量的历史数据变为一个多变的数字图书馆流量的历史数据,更好地挖掘隐藏于数字图书馆流量的历史数据中的变化特点。原始数字图书馆流量的历史数据为:[xi,i=1,2,…,n],[n]表示数字图书馆流量的历史数据数量,通过引入混沌算法得到的多维数据为:

[Xt={xi,xi+τ,…,xi+m-1τ}] (5)

式中:[τ]为数字图书馆流量的历史数据延迟时间;[m]为数字图书馆流量的历史数据嵌入维。从式(5)可以看出,嵌入维和延迟时间决定了数字图书馆流量的历史数据重构好坏,它们具体确定步骤如下。

1.2.1  延迟时间的确定

延迟时间的确定步骤如下:

Step1:数字图书馆流量历史数据的相邻两个样本点为[X(i)]和[X(j)],两者的距离[rij(m)]为:

[rij(m)=X(i)-X(j)] (6)

Step2:重构后数字图书馆流量的历史数据为:[Xt={xi,xi+τ,…,xi+m-1τ}],其关联积分计算方式具体如下:

[C(m,N,r,τ)=2M(M-1)1≤i≤j≤MH(r-X(i)-X(j))] (7)

式中:[r]为邻域的半径;[M=(m-1)?τ]。

Step3:将全部数字图书馆流量的历史数据数量划分为[t]个子集,这样可以得到:

[S(m,r,τ)=1tl=1t{Cl(m,r,τ)-Cl(l,r,τ)m}] (8)

Step4:[S(m,r,τ)]极小值点计算公式为:

[ΔS(t)=14m=25max[S(m,rj,t)]-min[S(m,rj,t)]] (9)

Step5:当[ΔS(t)]达到最小值时,可以得到数字图书馆流量的历史数据的最优延迟时间值。

1.2.2  嵌入维的确定

嵌入维的确定步骤如下:

Step1:[Xi(m+1)]为重构后的数字图书馆流量的历史数据第[i]个样本,其距离最近的样本为[Xn(i,m)(m+1)],建立如下等式:

[α(i,m)=Xi(m+1)-Xn(i,m)(m+1)Xi(m)-Xn(i,m)(m)]   (10)

Step2:当[E(m)=1N-mτi=1N-mτα(i,m)]值达到最大时,可以得到数字图书馆流量的历史数据的最优嵌入维值。

1.3  数字图书馆流量预测算法设计

本文采用大数据分析技术中的最小二乘支持向量机作为数字图书馆流量预测算法,因为其建模速度要快于支持向量机,同时,建模精度要好于人工神经网络。对于数字图书馆流量历史数据,最小二乘支持向量机目标优化函数可以表示为:

[J1w,e=12wTw+12γi=1Ne2is.t.    yi=wTφxi+b+ei] (11)

式中[γ]表示正则化参数。

构造式(11)的拉格朗日函数,具体为:

[L=Jw,e-i=1NαiwTφxi+b+ei-yi] (12)

对式(11)求偏导,可以得到:

[?L?w=0→w=i=1Nαiφxi?L?b=0→i=1Nαi=0?L?ei=0→αi=γei?L?αi=0→wTφxi+b+ei-yi] (13)

消掉[w]和[e],得到一个线性方程,具体如下:

[01Tv1vΩ+1γIN×bα=0y] (14)

式中:[y=[y1,y2,…,yN]];[1v=1,…,1];[α=[α1,][α2,…,αN]];[Ω=φxφxi=Kx,xi]。

数字图书馆流量预测结果可以表示为:

[yx=i=1NαiKx,xi+b] (15)

其中:

[K(x,xi)=exp-x-xi2σ22]      (16)

式中[σ]表示核宽度参数。核宽度参数和正则化参数直接影响数字图书馆流量预测效果,为此,本文采用蚁群算法确定它们的最优值。

1.4  蚁群算法

有[m]只蚂蚁,[n]个节点,[dij]是节点[i]和[j]间的距离,[ηij]是节点[i]和[j]间边[(i,j)]的能见度,[τij]是[(i,j)]上的信息素强度,[Δτkij]是第[k]只蚂蚁在[(i,j)]上留下的信息素量,[pkij]为状态转移概率,其具体计算公式为:

[pkij=ταijtηβijts∈allowedkταijtηβijt,      j∈allowedk0,       otherwise]  (17)

式中[allowedk={0,1,2,…,n-1}]为没有经过的节点集合。

蚂蚁信息素增量的局部更新规则为:

[τij(t+1)=(1-ρ)τij(t)+Δτij(t,t+1)] (18)

[Δτij(t,t+1)=k=1mΔτkijt,t+1] (19)

式中:[ρ]为信息素衰减程度;[Δτkij]的计算公式为:

[Δτkij=QLk,      (i,j)∈Lk0,         其他] (20)

式中:[Q]为一常数;[Lk]为第[k]只蚂蚁爬行的长度。

1.5  大数据的数字图书馆流量预测算法工作原理

基于大数据的数字图书馆流量预测算法工作原理为:收集数字图书馆流量历史数据,引入去噪算法对其进行处理;采用混沌算法得到多维的图书馆流量历史数据;通过大数据分析技术对数字图书馆流量历史数据进行建模,构建数字图书馆流量预测模型,并对数字图书馆流量预测模型的相关参数采用蚁群算法进行优化,具体如图1所示。

2  数字图书馆流量预测算法性能测试与分析

2.1  数字图书馆流量的历史数据

为验证基于大数据的数字图书馆流量预测算法,选择10所高校的数字图书馆流量历史数据作为实验对象,将数字图书馆流量历史数据划分为两部分:一部分作为数字图书馆流量预测建模的训练样本集合;另一部分作为分析数字图书馆流量预测效果的验证样本集合。大数据的数字图书馆流量预测算法采用Matlab 2019编程实现,采用人工神经网络中的BP神经网络、支持向量机进行数字图书馆流量预测对照实验。10所高校的数字图书馆流量历史数据如表1所示。

2.2  混沌算法确定数字图书馆流量数据的延迟时间和嵌入维数

采用1.2节的方法确定10所高校的数字图书馆流量历史数据的延迟时间和嵌入维数,具体如表2所示。根据表2的结果得到相应的多维数字图书馆流量历史数据,用于后期数字图书馆流量建模与预测。

2.3  数字图书馆流量预测模型的参数

采用蚁群算法确定数字图书馆流量預测模型的核宽度参数和正则化参数,结果如表3所示。从表3可以看出,不同的高校数字图书馆流量历史数据,有不同的核宽度参数和正则化参数,这样建立的高校数字图书馆流量预测模型不一样,可以适合不同类型的高校数字图书馆流量建模。

2.4  高校数字图书馆流量的预测精度对比

所有数字图书馆流量预测算法的精度如图2所示。

从图2的实验结果可以得到如下结论:

1) BP神经网络的数字图书馆流量的预测精度最低,低于88%,其数字图书馆流量的预测错误差大于10%,无法满足数字图书馆管理的实际应用要求。这主要是由于BP神经网络的学习性能比较差,无法建立最优的数字图书馆流量的预测模型。

2) 支持向量机的数字图书馆流量的预测精度高于BP神经网络的数字图书馆流量的预测精度,预测精度处于90%左右,数字图书馆流量的预测错误率得到了降低。这主要是由于支持向量机的学习性能要优于BP神经网络,得到了更优的高校数字图书馆流量的预测模型。

3) 在所有算法中,本文算法的数字图书馆流量的预测精度最高,超过了95%,数字图书馆流量的预测错误率远小于BP神经网络和支持向量机,克服了BP神经网络和支持向量机在数字图书馆流量的预测过程中存在的局限性,建立了理想的数字图书馆流量预测模型。

2.5  高校数字图书馆流量的预测效率对比

为全面描述数字图书馆流量预测算法的性能,计算三种算法的数字图书馆流量预测建模时间,结果如图3所示。

对图3的数字图书馆流量建模时间进行对比和分析可以发现:支持向量机的数字图书馆流量预测建模时间最长,BP神经网络的数字图书馆流量预测建模时间次之,而本文的数字图书馆流量预测建模时间最短,这主要是由于最小二乘支持向量机的学习效率更高,而且对数字图书馆流量历史数据进行了去噪和混沌处理,提高了数字图书馆流量预测建模效率,可以用于大规模数字图书馆流量预测与建模,实际应用价值更高。

3  结  语

为了解决当前数字图书馆流量预测结果不稳定、建模时间长等缺陷,以获得更优的数字图书馆流量预测结果为目标,本文设计提出了基于大数据的数字图书馆流量预测算法。采用去噪算法对数字图书馆流量历史数据进行预处理,然后引入混沌算法重构数字图书馆流量历史数据,最后引入大数据分析技术构建数字图书馆流量预测模型,并采用蚁群算法确定图书馆流量预测模型的参数。在Matlab 2017平台上的数字图书馆流量预测的仿真测试实验结果表明,本文算法是一种精度高、速度快的数字图书馆流量预测算法,数字图书馆流量预测整体效率明显优于当前其他数字图书馆流量预测算法,具有更加广泛的实际应用范围。

参考文献

[1] 马东.高校图书馆网络异常流量分析与研究[J].现代情报,2012,32(12):149?151.

[2] 费巍,徐军.公共图书馆读者流量影响因素研究[J].山东图书馆学刊,2012(2):56?58.

[3] 王家胜,牟肖光.基于时间序列高校图书馆借阅流量分布统计分析[J].农业图书情报学刊,2011,23(4):72?75.

[4] 杨佳.以上海图书馆为例的到馆读者流量分析[J].图书馆界,2010(6):36?38.

[5] 夏玲,张扬.黄冈师范学院图书馆纸质图书流量统计分析[J].黄冈师范学院学报,2009,29(6):89?91.

[6] 王静,李丕仕.基于Lyapunov指数的高校图书馆图书借阅流量混沌预测[J].现代情报,2009,29(9):7?10.

[7] 吴红艳.高校数字图书馆图书流量的时间序列分布趋势及预测分析[J].中原工学院学报,2008(4):3?7.

[8] 钟克吟.图书馆数字资源访问流量统计分析系统的设计与实现[J].图书馆研究与工作,2007(4):25?28.

[9] 尹志强.基于数据挖掘的高校图书馆图书借阅流量建模与分析[J].微电子学与计算机,2018,35(11):95?99.

[10] 赵惠,刘芳.湖南图书馆网站访问流量分析研究报告[J].图书馆,2006(5):97?100.

[11] 左丽.基于大数据分解的数字图书馆访问流量预测[J].自动化技术与应用,2018,37(10):43?46.

[12] 周静晴.公共图书馆智能读者流量系统大數据分析研究:以深圳图书馆为例[J].图书馆研究,2018,48(4):116?122.

[13] 陈越华.神经网络在高校图书馆图书借阅流量预测中的应用[J].现代电子技术,2017,40(19):115?118.

[14] 张振华,梅江林.高校图书馆引进英文数据库的成本效益研究:以盐城工学院图书馆为例[J].盐城工学院学报(社会科学版),2016,29(4):85?88.

[15] 张岚.数字图书馆访问流量预测方法研究[J].河南科技,2014(12):280?281.

[16] 张明霞.GM(1,1)模型在大开间图书馆流量预测中的应用[J].数学的实践与认识,2013,43(23):80?84.

[17] 李静.基于蝙蝠算法优化LSSVM的图书馆访问流量预测[J].信息技术,2018,42(12):5?8.

[18] 杜慧敏.基于数据挖掘的读者流量与图书馆开放能力分析系统[J].情报探索,2009(7):30?32.

猜你喜欢
历史数据大数据分析数字图书馆
基于设备PF性能曲线和设备历史数据实现CBM的一个应用模型探讨
基于故障历史数据和BP神经网络的接地选线方案研究
基于Hadoop技术实现银行历史数据线上化研究
用好细节材料 提高课堂实效
面向大数据远程开放实验平台构建研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新
基于云计算的数字图书馆建设与服务模式研究
刍议数字图书馆计算机网络的安全技术及其防护策略