运用回归模型构建随书光盘共享平台

2015-12-15 15:31江苏师范大学图书馆江苏徐州221116
图书馆理论与实践 2015年9期
关键词:回归分析移动互联网

●王 冉(江苏师范大学图书馆,江苏 徐州 221116)



运用回归模型构建随书光盘共享平台

●王冉(江苏师范大学图书馆,江苏徐州221116)

[关键词]随书光盘;回归分析;移动互联网

[摘要]在移动互联网大环境下,随书光盘共享平台难以很好地为读者服务,改造虚拟光盘势在必行。采用多元回归分析模型,结合随书光盘相关数据,利用SPSS软件对随书光盘下载量的影响因素进行多元回归分析,建立预测模型。经检验,预测模型可以有效预测光盘下载量,有针对性地指导光盘改造工作。

1 前言

随书光盘作为纸本书籍的重要补充,是传统阅读向数字阅读过渡的中间环节。由于光盘本身的传播能力有限,且读者以独占方式借阅,使得随书光盘的利用效率受到影响。加之光盘易被磨损,由此可能导致数据读取失败,甚至部分或全部损坏。[1]因此,近几年,国内各大高校、机构纷纷将馆藏随书光盘压制为虚拟光盘镜像文件(*.ISO),建立随书光盘共享平台(系统),以期为读者提供更加便利的光盘检索、借阅服务。[2]随书光盘共享平台上线之初得到读者广泛认同,很多读者通过下载光盘镜像取代实体光盘借阅。[3]然而,近一两年来,光盘镜像下载量并不尽如人意,究其原因,主要有两点:其一,部分光盘存在信息陈旧、内容空泛等问题,不能满足读者的实际需要;其二,在现今所处的移动互联网时代,移动终端由于其便携性强,信息处理能力日益提高,读者更愿意使用智能手机、平板电脑等移动设备处理简单的工作和学习事务,而传统的随书光盘镜像文件主要运行平台是个人电脑和笔记本电脑尤其是个人电脑因其不够轻便、能耗高、整合性差、网络接入单一等,相当一部分读者弃之不用。耗费大量财力建立并需要不断投入人力、物力进行维护的随书光盘共享平台不能有效、高质地为读者服务的现状成为广大图书馆员面对的一个困局。

2 移动互联网时代随书光盘共享平台现状

在移动互联网时代大环境下,智能手机、平板电脑等轻量级设备难以支撑类似虚拟光盘镜像这类大容量文件。具体表现在:目前的移动终端所采用的操作系统多为android、ios、windows phone/RT、windows 8等。其中,除去windows 8作为桌面级操作系统可以无缝支持虚拟光盘的相关应用外,其余均受限于系统内核、文件系统以及CPU和其他硬件性能等因素,无法执行对iso文件的读取、解压等操作。唯有彻底打破虚拟光驱镜像文件(iso)的束缚,将光盘内容转换为移动平台可以支持的形式和格式,才能让移动设备正常使用随书光盘共享平台。因此,对现有随书光盘共享平台的改造势在必行。

随书光盘一般分为以下四大类:(1)数据、资料类,包含素材、源代码、电子书、影音文件、软件工具等;(2)视频、音频原盘,包含VCD、DVD、CD等;(3)纸本书籍配套的辅助应用,包含试题、练习、等交互式应用;(4)其他,包含以上未列举各类光盘。就改造而言,以上4类难度各异,具体改造方式见表1。

表1 随书光盘改造方式

目前,随书光盘共享平台中收藏了数以万计、不同领域、不同年代出版的虚拟光盘文件,一般占用存储空间多达数十T。同时,越来越多的纸本数据选择附带光盘出版,大量的新光盘不断被压制出来,导致光盘存储空间日益捉襟见肘。然而,在如此巨大的光盘资源中,尚有相当一部分并非读者经常使用,甚至几乎不被使用。从表1可知,光盘改造工作不同于对光盘的简单压制,需要耗费更多的人力、物力、财力。对现有所有光盘进行改造并不现实,也没必要。如能有针对性地选择多数读者急需的光盘进行改造,并在新书光盘压制时有预见性地选择改造,同时,对现有过于老旧且无人问津的虚拟光盘镜像实施剔旧,则可以在满足读者需要基础上,节省大量人力、财力、物力,减少随书光盘共享平台日益激增的存储量,从而使随书光盘共享平台在移动互联网时代高质量、高效率地为读者服务。

综上所述,如何选择和预测读者需要的光盘加以改造是亟待解决的问题。

3 运用回归模型预测光盘下载量确立改造重心

下载量是随书光盘受欢迎与否的重要指标,但考虑到部分光盘上线不久,下载量并不明显。单纯依据现有下载量判断光盘的重要性来选择对其进行改造,有失偏颇,会使很多重要光盘得不到改造,影响读者使用。同时,新书随书光盘尚未产生下载量,也无从有针对性地选择改造。

根据已有下载量数据,结合随书光盘和纸本书籍自身信息,并在横向上参考光盘所在中图分类中书籍随书附盘比重,建立预测模型,由此推断和预测随书光盘的受欢迎程度,有针对性、有重点地优先改造,是真正解决随书光盘共享平台在移动互联网时代困境的有效方法。借助统计学广泛使用的回归分析模型可以便捷、准确地实现这一需求。

3.1回归分析的含义和原理

回归分析(Regression Analysis)是通过研究一个或多个自变量X和因变量y之间是否相关、相关方向和强度,从而建立数学模型,以便通过特定自变量来预测因变量的一种统计学分析数据的方法。根据涉及自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的相关类型,可分为线性回归分析和非线性回归分析。[4]多元线性回归分析是利用最小二乘函数构建线性回归方程对多个自变量和因变量之间关系进行建模的一种回归分析。多元线性回归分析的数学原理是:当因变量y和自变量X1, X2,X3,…Xi存在线性关系时,利用最小二乘函数建立y和X1…Xi之间的关系模型为y=b0+b1X1+b2X2+b3X3+ …+biXi。其中,b0是回归常数,表示方程的截距,bi是偏回归系数,表示当其他自变量不变时,自变量Xi每改变1个单位时y的平均变化量。[5]

3.2回归参数选择和数据采集

根据随书光盘下载的实际情况,设计影响光盘下载量的因素有所在分类书籍附盘比重、光盘容量、改造成本、书籍含光盘价格、书籍页码。

设计自变量如下:附盘比重X1(%)、光盘容量X2(mb)、书籍(含光盘)价格X3(元)、书籍页码X4(页),由于网络环境等因素对模型无实际影响,故分析时不予考虑。则下载量模型为:

y=b0+b1X1+b2X2+b3X3+b4X4

考虑到随书光盘的时效性较强,同时随书光盘共享平台正式上线服务时间不长,近一两年新上线的随书光盘的下载量尚存在较大变化。故在2011年出版的随书光盘下载量中抽样选取数据既能保证数据足够成熟,又照顾到光盘的新鲜度。表2显示了从江苏师范大学随书光盘共享平台中随机抽取的44组2011年出版的随书光盘下载量。下面,将对前40组数据作回归分析,构建回归模型,用后4组数据检验回归模型的有效性。

表2 随书光盘下载量和相关参数

3.3多元线性回归分析

启动spss软件,建立变量并录入数据,执行回归分析,选择线性回归,在线性回归对话框中,将y设置为因变量,将变量X1到X5设置为自变量,设置回归方法为:“输入”;点击“Statistics”按钮,在统计对话框中选中“估计”、“模型拟合度”、“共线性诊断”。执行线性回归分析。[6]部分输出结果见表3~5。

表3 方差分析

表4 模型摘要

表5 系数

由表3可知,F统计量为747.945,显著性值为0.00,小于显著性水平0.05,因此判定模型有效,即因变量和自变量之间有显著线性关系。可决系数R2为复相关系数R的平方,由表4知R2为0.988,调整后的R2为0.987,较接近1,显示回归结果较好,模型拟合度比较理想。但根据表5数据,X4即页数自变量的偏回归系数是非显著的,说明其对因变量(下载量)影响并不显著。因此,模型中引入此变量没有实际意义。方差膨胀因子(VIF)最大值为1.767(通常VIF大于2就可能存在共线性问题),判断可能不存在共线性问题。[7]

为进一步避免出现共线性问题以及有效剔除非显著影响因子,可以采用逐步回归方法建立模型。逐步回归根据偏相关系数的大小次序将自变量逐次引入方程,并进行统计检验,将效应显著的自变量留在回归方程内,循此继续遴选下一个自变量。

重新执行spss线性回归分析,在线性回归对话框中,设置回归方法为逐步,得到分析结果见表6~8。

表6 逐步回归模型摘要

表7 逐步回归方差分析

表8 逐步回归系数

表6显示,模型3中复相关系数R=0.994,可决系数R2=0.988(非常接近1),调整后的R2=0.987,剩余标准差为4.688,显示因变量光盘下载量与所选3个自变量之间存在显著线性关系。由表7可知, F统计量为1025.226,显著性值为0.00小于显著性水平0.05,所建立的回归模型具有统计学意义。由表8可以看出,经过逐步回归最终选择建立模型的预测变量为:附盘比重X1(%)、光盘容量X2(mb)、书籍(含光盘)价格X3(元)。该模型回归系数显著,即对光盘下载量有显著影响。[8]B值即为方程截距和偏相关系数,据此建立回归方程为:

y=1.312X1-0.007X2+1.287X3-19.473

3.4模型检验

利用回归模型检验第41~44组数据,得到结果如表9所示。从表9可以看出,模型预测误差最小值为2.62%,最大值为7.84%,平均误差为4.91%。说明本模型有着较高的预测准确度,对光盘下载量有较好的揭示作用。

表9 模型预测结果和实际值对比

4 结束语

利用回归分析建立预测模型,运算分析过程较为简单,准确度较高,预测结果直观,可以直接指导随书光盘镜像的改造工作。根据现有随书光盘共享平台数据,进一步搜集和增加因变量的决定因素,完善自变量,优化模型结构,提高模型精度,及时推广回归分析模型并展开预测工作,可以让随书光盘改造工作具有针对性,以最小的投入成本获取最大限度的改造效果。同时,可以对老旧、无效资源进行剔旧,优化现有存储格局,提高硬件使用效率,让随书光盘这种数字媒体的“先驱”在移动互联网时代继续为读者提供优质、高效服务。

[参考文献]

[1]李永钢.关于建立随书光盘共享平台的思考[J].淮北师范大学学报(自然科学版),2011 (4):53-57.

[2]王妙娅.高校图书馆随书光盘网络化服务现状与问题调查分析[J].图书馆工作与研究,2013 (2):101-104.

[3]支崎.高校图书馆随书光盘管理模式比较研究[J].图书馆学研究,2004(10):8-9,15.

[4]陈永胜,宋立新.多元线性回归建模以及SPSS软件求解[J].通化师范学院学报,2007(12):8-9,12.

[5]王惠文,孟洁.多元线性回归的预测建模方法[J].北京航空航天大学学报,2007(4):500-504.

[6]史春薇,等.基于SPSS统计软件在多元线性回归校验数据中的应用[J].当代化工,2014(6):1112-1113.

[7]冯力.回归分析方法原理及SPSS实际操作[M].北京:中国金融出版社,2004.

[8]谢宇.回归分析[M].北京:社会科学文献出版社,2010.

[责任编辑]张雅妮

[收稿日期]2014-11-05

[作者简介]王冉(1981-),男,硕士,江苏师范大学图书馆馆员,研究方向:数字图书馆、随书光盘。

[基金项目]本文系江苏师范大学哲学社会科学基金项目“非书资料共享管理平台建设和实践研究”(项目编号:11XWB19)研究成果之一。

[文章编号]1005-8214(2015)09-0087-03

[文献标志码]B

[中图分类号]G255.75

猜你喜欢
回归分析移动互联网
中国经济发展状况与大学生就业情况的相关性研究
城乡居民医疗费用的相关性与回归分析
基于变形监测的金安桥水电站坝体稳定性分析
微美学
智能手机在大学生移动学习中的应用研究
基于Android的一键智能报警系统设计与实现 
O2O电子商务模式发展问题及对策研究
森林碳汇影响因素的计量模型研究
河北省城镇居民人均可支配收入与消费统计分析
大数据环境下基于移动客户端的传统媒体转型思路