●李冬梅(福建农林大学图书馆,福州350002)
图书利用率的ARMA模型构建与预测实证分析
——以福建农林大学图书馆为例
●李冬梅(福建农林大学图书馆,福州350002)
图书利用率;ARMA模型;EⅤiews软件
ARMA模型是研究时间序列的重要方法,本文以福建农林大学图书馆2003~2011年22大类馆藏纸质图书利用率数据作为建模样本,在EⅤiews 6.0软件平台建立各类图书利用率的ARMA模型,经检验拟合效果较好。并对2012~2015年的各类图书利用率进行了预测,对未来图书馆图书采购、典藏管理有一定的现实意义。
图书利用率是馆藏质量及藏书利用情况的一项重要指标,反映了文献被读者利用的情况及完成社会功能的水平。时间序列分析是一种通过研究对象随时间变化的过程来反映其变化规律并进行预测和分析的定量分析方法。笔者利用维普、万方、清华同方数据库,用“时间序列*(文献+电子+资源+期刊+图书)*(利用+借阅)”进行检索,发现目前文献利用率的研究主要集中于理论的分析和探讨,[1,2]时间序列分析在高校图书馆预测领域的应用不多,少数作者将灰色系统理论、回归预测分析、时间序列分析等方法应用于图书馆借阅量的预测。[3-5]文章以福建农林大学图书馆2003~2011年22大类图书的馆藏纸质图书利用率数据为样本,构建ARMA模型,并进行实证分析拟合及预测。
1.1 ARMA模型
ARMA模型是研究时间序列的重要方法,由美国统计学家博克斯和英国统计学家詹金斯于20世纪70年代提出,ARMA模型的数学公式为:[6]
式中:φ1,φ2,……,φp为自回归系数;θ1,θ2,……θq为移动平均系数,都是模型的待估参数。此式为(p,q)阶的自回归移动平均模型。时间序列yt是自回归移动平均序列。
1.2 ARMA建模步骤
ARMA模型对于短期预测具有较高的精度。运用该模型预测既考虑到图书利用率在时间序列上的变化规律性,又考虑了随机波动的干扰性,故可较准确预测图书利用率的未来趋势。其建模步骤如下:[6,7]
(1)时间序列的识别和模型形式的选择;
(2)用EⅤiews 6.0统计软件进行模型参数估计;[8](3)模型的诊断检验。
2.1 序列平稳性检验和处理
以福建农林大学图书馆2003~2011年中图法22大类的图书利用率数据作为分析样本,分别计算出各大类图书在统计年限内的图书利用率,图书利用率公式[9]为:
22大类藏书利用率时间序列,如图1所示。
由图1可见,2007~2008年,图书利用率出现较大的飞跃,分析其主要原因是:为迎接本科评估,学校加大了图书购置经费的投入,馆藏图书极大丰富,吸引更多读者前来借阅;2008年,建筑面积达2.7万平方米的新馆投入使用,宽敞明亮的阅览和外借环境让更多读者流连驻足,借阅量随之大幅增长。然而2008年后图书利用率呈下降趋势。从整个时序图来看,具有非平稳性。
从图1还可以看到各类图书利用率排名情况,Ⅰ、H和B类在历年统计中都位居前三,K、E、J类相比于F类稍高。在自然科学中,O类最高,其次是Q、T、R和X类,Ⅴ类、P类、Z类排在倒数几位,图书利用率较低,这说明基础类或公共类学科受重视程度较高;反映农林特色的S类在2003~2011年间排名一直处于倒数第五或第六。
经ADF单位根检验,该22大类图书利用率时间序列均为非平稳序列,需要进行差分处理。经处理,样本自相关系数和偏自相关系数都迅速落入随机区间,各序列达到较好的平稳性,具体差分情况见表1。
图1 22大类图书利用率的时间序列
表1 22大类图书利用率时间序列的差分平稳序列
由表1可知,A、B、C、D、F、G、H、J、N、O、T、U、Ⅴ、X、Ⅰ、K序列1阶差分后即平稳,E、R、Q、S、Z类2阶差分后得到平稳序列,P类则进行了3阶差分。
2.2 ARMA模型的识别和建立
根据差分后得到的平稳序列自相关-偏自相关系数图,确定可能的p和q值,建立多个模型进行检验比较,根据AⅠC准则和SC准则评判拟合模型的优劣,选取最优的模型,结果如表2所示。
2.3 模型特征根检验和残差序列自相关检验
为诊断所选用的模型是否合适,需对模型特征根和残差序列自相关进行检验。若全部特征根的倒数都在单位圆以内,说明模型具有平稳性和可逆性。同时,残差对应的自相关和偏相关函数均在置信区间内,认为残差序列为白噪声序列,不存在自相关,模型通过检验可以用于实际预测。
结合之前已定阶数d可以得到原时间序列的ARⅠMA(p,d,q)模型(如表3所示)。
表2 22大类图书利用率时间序列的ARMA模型及AⅠC和SC值
表3 图书利用率时间序列ARⅠMA模型
2.4 预测分析
用所建22大类ARMA模型对2003~2015年各类图书的利用率进行拟合预测,结果如图2所示。从平均绝对百分误差、希尔不等系数、偏差率、方差率和协方差率等5个指标来考察各类图书的利用率模型的预测效果(如表4所示)。平均绝对百分误差一般在MAPE<10时,认为预测精度较高,表4中除F类和G类略高于10之外,大部分类别的MAPE值都小于3。希尔不等系数值越小,表示拟合值和真实值差异越小,从表4中可以看到22大类的希尔不等系数均较接近于0,说明其拟合值和真实值差异很小,拟合效果好。总体上衡量预测精度的各个指标均较为理想,各类图书利用率的ARMA模型拟合效果较好,对图书利用率的预测具有一定的实用性和可操作性。
由图2可见,22大类图书利用率从2012年后整体呈下降趋势,但突出农林特色的专业图书(Q、R、S、U、X类)的利用率一直呈上升趋势,甚至在2015年利用率较2011年翻了一番,F类图书的利用率在2012年小幅下降后,在未来4年总体利用率比较均衡。
表4 图书利用率预测效果指标
图2 2012~2015年图书利用率预测结果
3.1 小结
本研究利用ARMA模型,基于福建农林大学图书馆数据构建了图书利用率模型,通过实证分析,取得较好的拟合效果,反映了ARMA模型在图书利用率方面具有较强的指导意义。2003~2011年的时间序列图(图1)反映了该校学科特点及藏书建设情况。各类图书利用率在2007~2008年高峰后又逐渐下降,分析其中一个重要原因是由于网络信息资源的飞速发展,导致其借阅量下降,这给传统图书馆如何构建新的“供给-需求”服务模式提出了新课题。
福建农林大学近10年已从农科特色大学逐渐发展成综合性大学,Ⅰ、H、B、K、E、J、F、O类等基础、综合性知识利用率高,反映综合性大学特点;S、 Q、R和X类等反映农科、生物科学类的图书利用率较低,表明以农科优势学科为主的大学特点没有很好地体现。然而,从图2预测分析看,在具有农林特色的专业图书中,S和Q类图书利用率明显呈上升趋势,X类呈小幅平稳上升,表明该校图书馆在2011年后应加强农林特色学科建设的图书采购和优化配置。3.2建议
目前,纸质图书利用率仍是体现高校图书馆利用价值的重要指标,在网络信息时代,图书馆可以借助微博、微信等进一步拓宽服务的深度和广度,实现与用户实时互动,方便读者更好地利用图书馆纸质资源。同时,可以从本校实际出发,建立适合自己学科发展的图书利用率模型,更好地指导图书采购,实现资源最优利用。
[1]张晓艳.关于提高纸质期刊利用率的思考[J].图书馆学刊,2010(7):30-32.
[2]胡彦成.关于藏书利用率计算方法的探讨[J].图书馆理论与实践,1989(4):35-36.
[3]吴红艳.图书借阅流量行为季节预测模型[J].图书情报工作,2007(11):98-101.
[4]王春梅.图书流量预测模型[J].佳木斯大学学报(自然科学版),2005(7):431-433.
[5]刘琳.图书借阅预测的ARⅠMA乘积季节模型构建及实证分析[J].华北科技学院学报,2011(3):105-108.
[6]范玉妹,玄婧.ARMA算法在GDP预测中的应用[J].江南大学学报(自然科学版),2010,9(6):736-740.
[7]李良.Eviews软件在ARⅠMA模型中的应用研究——以苏州接待国内游客人数为例[J].安徽电子信息职业技术学院学报,2011,10(53):31-32,51.
[8]攸频,张晓峒.EⅤiews 6实用教程[M].北京:中国财政经济出版社,2008.
[9]陈洁薇.图书利用率的辩证分析[J].四川图书馆学报,2010(4):44-46.
G252.8;G253.5
A
1005-8214(2014)09-0016-03
李冬梅(1975-),女,硕士,福建农林大学图书馆办公室主任,馆员,已发表论文10余篇,研究方向:信息资源与信息服务。
2013-07-17[责任编辑]邵晋蓉