陈越华
摘 要: 由于高校图书馆图书借阅流量具有一定的非线性特性,传统的回归分析、灰色模型等方法难以处理这种非线性时间序列问题,影响了预测精度。为了提高预测精确度,提出粒子群优化RBF神经网络的图书借阅流量预测模型。该方法以图书馆图书借阅流量历史数据进行RBF神经网络建模,采用粒子群算法对RBF神经网络参数进行优化,最后建立了图书借阅流量动态响应模型。预测结果表明该模型预测结果合理,精度较高,为图书馆提高工作效率和服务质量提供了参考依据。
关键词: 图书借阅; 流量; 神经网络; 粒子群优化
中图分类号: TN911.1?34 文献标识码: A 文章编号: 1004?373X(2017)19?0115?04
Application of neural network in books borrowing flow forecasting for university library
CHEN Yuehua
(Library of Guangxi Teachers Education University, Nanning 530001, China)
Abstract: Since the university library borrowing traffic has a certain nonlinear characteristic, the traditional regression analysis, grey model and other methods are hard to deal with the nonlinear time series problem, which affects the prediction accuracy. In order to improve the prediction accuracy, a books borrowing flow prediction model based on RBF neural network optimized with particle swarm is proposed. The historical data of books borrowing traffic is used to model the RBF neural network. The particle swarm optimization algorithm is adopted to optimize the parameters of RBF neural network. The dynamic response model of books borrowing flow was established. The prediction results show that the model has reasonable prediction results and high prediction accuracy, which provides a reference for the improvement of working efficiency and service quality in library.
Keywords: books borrowing; flow; neural network; particle swarm optimization
0 引 言
高校图书馆在高校中扮演着很重要的角色,是高校的第二课堂,其主体职能就是为在校教师和学生学习研究提供资料查询与书本借阅[1]。高校图书的借阅流量反映在校的师生人数的规模、馆藏资源的数量和质量、种类、需求之间的变化情况,图书馆借阅流量反映了图书馆纸质文献与电子文献的利用情况[2]。进行图书借阅流量预测可以指导图书馆进行合理的人员和设备配置与资源建设,已引起图书馆管理和科研工作者的密切关注[3]。
图书借阅流量受到师生人数、不同时间、馆藏数量与质量、学校的学术氛围等多种因素的影响,具有一定的周期性与规律性,对借阅流量进行准确预测,可以对图书馆进行科学、高效的管理和监控[4]。目前国内对图书借阅流量预测研究多是运用回归分析和灰色模型,这种基于线性时间序列的建模方法自身存在固有的缺陷,由于图书馆借阅流量受到多种因素的影响,是一个复杂的非线性动力学过程,线性预测模型不能很好地揭示其内在运行规律,因此影响了其预测精度[5]。神经网络鲁棒性很强,有着强大的非线性逼近能力,在非线性时间预测领域得到了广泛的应用[6]。神经网络有很多种,其中用得较多的有BP神经网络与RBF神经网络,RBF神经网络结构简单,非线性逼近能力强,运算速度快,應用极为广泛[7]。但是RBF神经网络在进行非线性预测时,网络输出权重、隐单元中心和宽度等参数直接影响预测精度。为了更精确地预测高校图书馆图书借阅流量,在研究中利用粒子群优化算法(Particle Swarm Optimization,PSO)具有很强的并行处理能力,可以有效避免神经网络陷入早熟收敛,从而搜索到最优的RBF神经网络参数[8]。
针对传统线性方法在进行高校图书馆图书借阅流量预测中的不足,提出粒子群算法优化RBF神经网络的高校图书馆图书借阅流量预测方法(PSO?RBFNN)。结果表明,PSO?RBFNN提高了图书馆图书借阅流量预测精度,可以及时把握图书借阅流量的动态变化,对图书馆工作人员与设备配备动态管理、确定馆藏资源建设的重点和方向,提高工作效率和服务质量提供了参考依据。
1 粒子群优化神经网络
1.1 神经网络
RBF神经网络具有网络规模小、学习速度快等优点,可以依据具体的问题来确定网络的拓扑结构,通常包括输入层、隐含层和输出层,其学习速度和学习能力要优于应用最为广泛的BP神经网络[9]。RBF神经网络输入层由输入数据的维数决定,通过输入层使网络与外界进行联系;隐含层节点的基函数为高斯核函数,把输入数据从输入空间变换到隐含层空间;输出层节点是简单的线性函数,对输入模式做出响应。网络模型拓扑结构如图1所示。
设RBF神经网络有[n]个输入节点、[m]个隐层节点和p(p通常等于1)个输出节点,隐层节点是RBF函数。
RBF神经网络的映射关系由如下两部分组成:
(1) 从输入层到隐含层的非线性变换:
[hi=exp-x-ci2σ2i, i=1,2,…,m] (1)
式中:[x]表示[n]維输入向量;[ci]表示第[i]个RBF神经网络隐节点的变换中心;[σi]表示RBF神经网络隐节点非线性变换单元的宽度。
(2) 从隐含层到输入层的线性合并:
[f(x)=j=1mhi(x)ωi] (2)
式中:[m]表示隐含层节点;[ωi]表示第[i]个隐节点与输出节点的连接权重。
1.2 RBF神经网络映射机理
在RBF神经网络中,隐含层将输入数据从输入空间利用一种固定不变的非线性变换映射到一个新的高维特征空间内。隐节点的变换中心[ci]通常表现为一种局部敏感性,仅仅只对中心附近的输入数据敏感,而非线性变换单元的宽度[σi]决定了数据减小的快慢,[σi]越小,则数据减小的速度越快,反之,[σi]越大,则减小的速度越缓慢,非线性变换单元的输出需通过输出层的权值[ωi]进行调整,从而得到期望输出。由此可以看出,利用RBF神经网络预测高校图书馆图书借阅流量,预测的精度与网络的输出权重[ωi,]隐节点的变换中心[ci]及隐节点非线性变换单元的宽度[σi]的取值有着直接的关系,因此,要寻找出最优的[ωi,][ci,][σi]等参数。
在RBF神经网络中,对于训练样本,通常取均方误差[E]来评价神经网络的性能。
[E=12i=1Nyi-f(xi)2] (3)
式中:[N]表示预测数据的个数;[yi]表示原始数据;[f(xi)]表示预测值。
从上述分析可知,指标[E]是关于[ωi,][ci,][σi]的函数,RBF神经网络训练就是针对训练样本,使误差[E]趋于最小。
1.3 粒子群算法
在PSO中,将每一个个体视为高维特征空间的一个粒子,粒子们通过对最优粒子极值Pbest和全局极值Gbest进行跟踪,不断地进行迭代变换,最终找到自身的最优解。每一次迭代中,粒子均根据下列公式来更新自己的速度和位置:
[vid(i+1)=ω×vid(i)+c1×rand( )×Pbest-xid(i)+c2×rand( )×Gbest-xid(i)] (4)
[xid(i+1)=xid(i)+vid(i+1)] (5)
[ω=ωmax-(ωmax-ωmin)×NNmax] (6)
式中参数的意义具体见文献[10]。
1.4 PSO优化RBF神经网络参数过程
利用PSO优化RBF神经网络输出权重[ωi],隐节点的变换中心[ci]及隐节点非线性变换单元的宽度[σi,]具体步骤如下:
(1) 将RBF神经网络的参数[ωi,][ci]和[σi] 组合成一个粒子,并初始化粒子群;
(2) 将经过初始化的粒子群反编码成RBF神经网络参数,并对神经网络进行训练,得到均方误差[E;]
(3) 根据[E]对每个粒子的位置进行评价,并更新[ωi,][ci]和[σi;]
(4) 判断均方误差[E]是否最小,如果没有达到最小值,则返回步聚(3),继续进行迭代;如果误差[E]达到最小值,则表明找到最优参数,结束网络训练,建立最优的RBF神经网络模型。
PSO优化RBF神经网络参数的具体流程如图2所示。
2 PSO?RBF神经网络的图书借阅流量预测
利用粒子群算法对RBF神经网络进行参数寻优,获得更高的高校图书馆图书借阅流量预测精度,PSO?RBF神经网络的高校图书馆图书借阅流量预测流程如下:
(1) 以天为单位提取图书馆的图书借阅流量,计算模型的定阶指数,得到滞后阶数为7,这就意味着可以用前7天的图书借阅流量来预测第8天的图书借阅流量。
(2) 将采集的高校图书馆图书借阅流量的相关原始数据随机分成训练集和测试集,利用训练集对PSO?RBF神经网络进行训练,建立预测模型,利用测试集对建立的预测模型进行验证。
(3) 原始数据归一化处理。为了提高PSO?RBF神经网络模型的运算速度和预测精度,对采集到的原始数据进行归一化处理,处理公式如下:
[x′i=xi-xminxmax-xmin] (7)
式中:[xmin]和[xmax]分别表示指标的最小值和最大值。
(4) 采用训练集对RBF神经网络进行训练,在学习过程中采用PSO进行RBF神经网络参数寻优。
(5) 用训练后的PSO?RBF神经网络模型对高校图书馆图书借阅流量测试集进行预测,得到预测结果。
3 仿真试验
3.1 数据来源
以某高校图书馆图书借阅流量进行试验,从流通日志监测系统终端提取原始数据,收集到的原始数据时间区间为2014年1月1日—2015年12月31日的实测图书借阅流量。剔除了节假日,收集到的有效数据为610个,原始数据见图3。
3.2 PSO?RBF神经网络图书借阅流量预测
对收集到的610个原始数据进行归一化处理,然后将经过处理后的数据分为训练集与测试集,前500个数据作为PSO?RBF神经网络的训练集,对模型进行训练,利用PSO算法寻找出最优的RBF神经网络参数,然后利用后110个数据对模型的预测性能进行检测。为了考察PSO?RBF神经网络图书借阅流量预测模型的优劣,同时采用RBF神经网络、线性回归分析进行对比实验,以RMSE和MAPE作为图书预测模型的评价指标,RMSE和MAPE分别定义如下:
[RMSE=1ni=1nyi-yi2] (8)
[MAPE=1ni=1nyi-yiyi×100%] (9)
式中:[yi]为收集到的图书流量值;[yi]为图书流量预测值;[n]为预测样本总数。对于A模型与B模型,如果RMSE和MAPE均较小,则说明A模型的预测性能更好,预测精度更高。
3.3 结果与分析
分别利用PSO?RBF神经网络、RBF神经网络和线性回归分析对图书馆图书借阅流量进行预测,各模型的预测结果见图4。
从图4可知,PSO?RBF神经网络的预测结果与原始数据相差不大,而线性回归分析所获得的预测结果与原始数据之间存在较大的差距。为了避免主观观察的主观性,各模型的RMSE和MAPE值如表1所示。
由表1可知,线性回归模型的图书流量预测精度不高,主要是由于线性回归模型不能很好地捕捉出图书借阅流量数据的非线性特征;RBF神经网络精度同样不高,主要是由于RBF神经网络在训练时泛化能力较差,容易陷入局部极小值,难以找到全局最优值;PSO?RBF神经网络相对于对比模型,预测精度最高,这是由于PSO能够找到RBF神经网络的最优参数,从而提高预测精度。
4 结 论
高校图书馆图书借阅流量具有非线性特征,同时受到寒暑假、节假日等影响,还具有一定的周期性与混沌特性,用传统的线性模型进行预测,难以取得令人满意的预测精度,为了提高图书借阅流量预测精度,利用非线性能力强的RBF神经网络进行图书借阅流量预测,可以充分捕捉到图书借阅流量时间序列数据中的非线性特征。同时,针对RBF神经网络在训练时容易陷入局部极小值、难以找到最优参数的缺陷,利用寻优能力强的粒子群算法对RBF神经网络进行参数寻优,找到网络的最优参数,从而获得了令人满意的高校图书馆图书借阅流量的预测精度。
但是图书借阅量亦受到高校的学习氛围、寒暑假、节假日等因素的影响,本文在研究中没有考虑到这些因素,这是下一步重点关注的研究方向。
参考文献
[1] 王家胜,牟肖光.基于时间序列高校图书馆借阅流量分布统计分析[J].农业图书情报学刊,2011,23(4):72?75.
[2] 吴红艳.图书借阅流量行为季节预测模型[J].图书情报工作,2007,51(11):98?101.
[3] 王静,李丕仕.基于Lyapunov指数的高校图书馆图书借阅流量混沌预测[J].现代情报,2009,29(9):7?10.
[4] 段玮弘.基于灰色?马尔柯夫模型的图书借阅行为流量预测研究[J].鲁东大学学报(自然科学版),2011,27(3):207?212.
[5] 田梅.基于混沌时间序列模型的图书借阅流量预测研究[J].图书馆理论与实践,2013(7):1?4.
[6] 王刚刚,廖庆,徐玉蕊,等.改进型粒子群优化算法的BP神经网络全息图压缩[J].吉林大学学报(信息科学版),2016,34(1):147?151.
[7] 李瑞,张悟移.基于RBF神经网络的物流业能源需求预测[J].资源科学,2016,38(3):450?460.
[8] 姜建國,田旻,王向前,等.采用扰动加速因子的自适应粒子群优化算法[J].西安电子科技大学学报(自然科学版),2012,39(4):74?80.
[9] 赵宏伟,李圣普.基于粒子群算法和RBF神经网络的云计算资源调度方法研究[J].计算机科学,2016,43(3):113?118.
[10] 胥小波,郑康锋,李丹.新的混沌粒子群优化算法[J].通信学报,2012,33(1):24?30.