孙娜 姬丹丹 吴婉红 郭磊
摘 要:本文旨在探究大学生个人行为与其图书馆借书数量之间的关系,得出最为影响其借书数量的因素,从而更具有针对性地培养大学生的日常行为习惯。根据某高校大学生一系列行为的数据,结合其两个月内借书信息记录,利用SPSS软件对借书数量的影响因素进行多元回归分析,建立回归方程来预测某学生未来的借书数量。结果表明,大学生的借书次数、续借本数、不同性别的活跃度、不同节俭程度的活跃度、周课时数这五个因素是影响其借书数量最显著的因素,本文的研究为教学建设等方面提供了重要参考。
关键词:学生行为数据;借书数量;SPSS;多元回归分析;借阅数量
中图分类号:G25 文献标志码:A 文章编号:1673-8454(2018)11-0073-05
图书馆作为学生的第二课堂,是学生学习课外知识、实现知识互补的主要来源,而借阅量是衡量学生利用图书馆和图书馆藏书质量的标准。通过对阅读量的分析,可以反映出学生在学习情况、课外活动活跃情况活跃度等方面的一系列问题。已有的研究大学生借阅数量的论文只着眼于图书馆的环境状况、设备、藏书量等,[1][2]比如布艳艳在《科技风》发表的文章从图书馆的角度对图书借阅量减少展开了分析,[3]而未考虑学生个人方面原因造成的借阅量的下降。很多学者以图书馆为切入点研究借阅量下降的影响因素,有文献在借阅量下降问题上进行了探究,分析并得出了互联网及电子设备的普及引起了纸质书借阅量的下降,并对图书馆的硬件环境设施提出了建议。[4-6]在《高校图书馆图书借阅量统计分析报告》中,作者分析得出,影响图书馆图书借阅量下降的主要原因是:电子资源的快速发展,馆藏结构不够合理。[7]除了这些外部环境的变化会导致图书馆借书量的波动,学生的个人行为因素,比如学生的成绩、参加课外活动的情况等也会影响其借书数量,从而对图书馆的整体借书量产生一定的影响。孙宝在《现代情报》中使用10年的读者数据用灰色系统模型实现了图书馆借阅量的预测,为预测图书馆借阅量提供了参考经验。[8]陈明通过一元线性回归模型,将学生数量作为自变量进行了图书借阅量的预测,并提出影响因变量图书借阅量的自变量因素不止一个,最主要的因素是学生人数。[9]如果考虑其他因素,这就涉及多元线性回归分析问题。
针对以上存在的问题,本文在已有研究工作的基础上,综合考虑学生个人行为数据、借阅数据,分析得出影响学生借阅量的关键因素。本文统计了山东某高校某学院大学生近两个月的借书信息,结合某学院大学生日常生活中的个人行为数据,分析是哪些变量引起的学生借阅数量的差异。通过分析我们发现,大学生的借书次数、续借本数、不同性别的活跃度、不同节俭程度的活跃度、周课时数这五个因素是影响学生借阅量的关键因素,同时实验结果表明,我们所采取的模型拟合优度高,实验效果显著。
一、基于多元线性回归的借书量影响因素确定
由于学生借书量受学生成绩、学生课时数等多个变量影响,因此需要用两个以上的影响因素作为自变量来解释因变量的变化,经过分析,这些因变量与自变量呈现明显的线性关系,因此本文采用多元线性回归模型进行借书量影响因素的提取。
1.数据处理
学生个人行为数据以及图书借阅数量数据皆从教务处系统数据库中导出,以文本文档的形式呈现。学生在图书馆的借阅数据,包括学生在被调查时间段内的借书次数、续借书的本数。学生的个人行为数据,主要有以下内容:反映学生学习情况的数据,包括学生在被调查学期的课时数、是否获得奖学金;反映学生贫富情况的数据,包括学生在餐厅内的消费情况、是否获得助学金;反映学生课外时间参与活动活跃度的数据,即学生的德育成绩;学生的基本信息数据,包括学生的性别、专业、班级。在获取了原始数据信息的基础上,根据客观情况,对数据进行了一系列的处理:[10]
(1)将学生的学习成绩和德育成绩按照以下标准进行等级划分:
成绩≤60等级为1,60<成绩≤70等级为2,70<成绩≤80等级为3,80<成绩≤90等级为4,90<成绩≤100等级为5;划分后学习情况的好坏用学习成绩等级来体现,学习成绩越好,其学习成绩等级越高。课外时间参加活动的情况用活跃度来体现,参加活动越多,其德育成绩等级越高。
(2)将学生的消费情况按照以下标准进行等级划分:
0<消费金额≤500等级为0,500<消费金额≤1000等级为1,1000<消费金额≤1500等级为2,1500<消费金额≤2000等级为3。划分后学生的贫富情况以节俭程度来体现,即消费金额越多,其消费等级越高,节俭程度也相对越低。
(3)根据节俭程度以及参加课外活动的活跃程度,建立了一个新的变量,即不同节俭程度的活跃度。本变量是由活跃度(即德育等级)与节俭程度这两个变量相加而成,即“不同节俭程度的活跃度=活跃度+节俭程度”。学生的贫富情况不同,因此平时课外生活的活跃度也不同,因此将学生的节俭程度与学生的活跃度两个变量相结合,以此来探究因为贫富情况不同而导致课外活动活跃度不同对学生借阅量的影响。
(4)根据学习成绩以及参加课外活动的活跃程度,建立一个新的变量,即不同学习成绩的活跃度。本变量是由成绩等级与活跃度这两个变量相减而成,即“不同学习成绩的活跃度=成绩等级-活跃度”。学生的活跃度不同,因此平时用在学习上的时间也就不同,因此将学生的活跃度与学生的学习成绩这两个变量相结合,以此来探究因为活跃度不同而导致学习成绩不同对学生借阅量的影响。
(5)根据学习成绩以及节俭程度,建立了一個新的变量,即不同节俭程度的学习成绩。本变量是由成绩等级与消费等级这两个变量相减而成,即“不同学习成绩的节俭程度=成绩等级-花费等级”。学生贫富情况不同,因此学习的用功努力程度可能不同(比如家庭困难的学生可能会努力学习争取奖学金),因此将学生的学习成绩与花费等级这两个变量相结合,以此来探究因为贫富情况不同而导致的学习成绩不同对学生借阅量的影响。
(6)根据学习成绩以及学生性别,建立了一个新的变量,即不同性别的学习成绩。本变量是由成绩等级与性别这两个变量相乘而成,即“不同性别的学习成绩=成绩等级×性别”(其中男生记为0,女生记为1)。学生性别不同,对学习的专注程度不同,因此将学生的学习成绩与学生性别两个变量相结合,由此探究学生性别不同导致的学习成绩不同对借阅量的影响。
(7)根据活跃度以及学生性别,建立了一个新的变量,即不同性别的活跃度。本变量是由成绩等级与性别这两个变量相乘而成,即“不同性别的活跃度=活跃度×性别”(其中男生记为0,女生记为1)。学生性别不同,因此对课外活动的时间安排不同(比如男生可能偏爱在宿舍中打游戏而不参与活动)。因此将学生的活跃度与学生性别两个变量相结合,由此探究学生性别不同导致的活跃度不同对借阅量的影响。
(8)根据节俭程度以及学生性别,建立了一个新的变量,即不同性别的节俭程度。本变量是由消费等级与性别这两个变量相乘而成,即“不同性别的节俭程度=活跃度×性别”(其中男生记为0,女生记为1)。学生性别不同,因此节俭程度不同。因此将学生的节俭程度与学生性别两个变量相结合,由此探究学生性别不同导致的节俭程度不同对借阅量的影响。
2.变量确定
从社会科学和心理学的角度出发,影响大学生借书量的因素主要有学生的学习成绩等级、重修课程数、课程数、周课时数、节俭程度、专业、班级、性别、奖学金、助学金、续借本数、借书次数、活跃度、不同节俭程度的活跃度、不同学习成绩的活跃度、不同节俭程度的学习成绩、不同性别的学习成绩、不同性别的活跃度、不同性别的节俭程度这19项。
因此将这些作为回归模型里的19个自变量,即:X1-学习成绩等级、X2-重修课程数、X3-课程数、X4-周课时数、X5-节俭程度、X6-专业、X7-班级、X8-性别、X9-奖学金、X10-助学金、X11-续借本数、X12-借书次数、X13-活跃度、X14-不同节俭程度的活跃度、X15-不同学习成绩的活跃度、X16-不同节俭程度的学习成绩、X17-不同性别的学习成绩、X18-不同性别的活跃度、X19-不同性别的节俭程度。
由于这些数据的量纲的影响,度量标准并不统一,因此需要将全部数据进行标准化之后再进行多元回归分析。
以下列多元线性回归的数学模型来表示y与Xi之间存在的非确定线性关系:
二、基于多元线性回归的借书量影响因素提取
首先将数据进行标准化,然后用输入法对数据进行多元线性回归分析,其中将借书数量作为因变量,其他因素作为自变量,最后对结果进行分析和共线性诊断。[11]以上过程皆利用SPSS软件完成,部分输出结果见表1-表4。
由表1可知,从模型的F检验结果来看,回归显著性检验的Sig值为0.000,即显著性概率值小于0.001,表明回归方程总的效果显著,即方程是有意义的。[12]
复相关系数R用来描述因变量与自变量之间的线性相关程度,R越大表明相关性越好。得到的模型摘要说明了回归方程的拟合情况。由表2可知,模型中复相关系数R=0.944,决定系数R2=0.891,表明自变量与因变量的相关性很好。[13]
但由表3可以看出,偏回归系数中有很多是非显著的,表明它们相应的自变量可能对借书数量没有显著影响,因此模型中引入这些变量没有实际意义。表3中,有7个自变量的VIF(方差膨胀因子)>10(通常VIF≥10,则说明自变量之间存在共线性情况),表4中,有2个自变量的条件指数>10(通常条件指数>10,[14]则说明自变量之间存在共线性情况),因此模型中存在多重共线问题。
采用逐步回归分析方法简化模型,部分输出结果见表5-表7。
表5显示,模型5复相关系数R=0.940,决定系数R2=0.884,调整后的决定系数R2=0.881,说明选择的因变量借书数量与所选的5个自变量之间存在非常密切的线性相关性。由表6可知,经逐步回归分析,最终确定对因变量借书数量有显著影响的自变量为借书次数、续借本数、不同性别的活跃度、不同节俭程度的活跃度、周课时数。其中,回归方程的显著性检验统计量F=251.670,检验p<0.05,回归系数至少1个不为0,所建立的回归模型具有统计学意义。[15]由表7可看出,由于自变量间存在多重共线,逐步回归方法最终选择借书次数、续借本数、不同性别的活跃度、不同节俭程度的活跃度、周课时数作为预测变量代替其他变量建立模型,回归系数均是显著的,即所选自变量都是对借书本数有显著影响的。B值即为偏相关系数,因此建立回归方程为:
y=0.876x12+0.136x11-0.126x18+0.103x14-0.06x4
三、验证与误差分析
采用我们建立的上述回归方程计算借书数量,再与实际的借书数量进行对比分析,如图1所示。从图1中我们可以看到,此回归分析预测值与实际值之间的误差很小,预测精度较高。
四、结论
影响借书数量的因素共有19个,通过共线性诊断发现自变量间存在多重共线问题,通过逐步回归分析最终选择借书次数、续借本数、不同性别的活跃度、不同节俭程度的活跃度、周课时数5个变量建立回归模型。从模型可以看出,对学生借阅量贡献最为明显的因子是借书次数,其次是续借本书和不同节俭程度的活跃度,周课时数和不同性别的活跃度对借阅量的影响最小。
虽然预测学生借阅量的方法可以多种多样,但本文利用spss多元回归分析方法进行预测对数据要求较小,建模过程简单,预测精度较高,预测值十分接近真实值,拟合效果很好。所以用该方法预测学生借阅量是一种十分可行有效的方法。
同时本文的研究存在一定的局限性。首先,本研究的數据来源仅限于山东省某高校的某学院,受该学院个性化因素影响较大。仅研究某个学院的数据不具有代表性和权威性,无法形成对比,进而得到更准确的结论,因此由该研究得出的结论是否适用于其他学院、其他学校还需要进一步的研究验证。其次,研究所用的各项数据并不全面,无法反映学生的各种背景信息,如学习习惯、独立学习倾向、学科偏好等,研究无法根据全面详细的信息展开,因此具有一定的局限性。
参考文献:
[1]张莉.如何提高高职图书馆的借阅量:读者服务升级计划的实践与启示[J].大学图书馆学报,2010(2):41-44.
[2]陶媛.高职院校图书馆借阅基础数据统计与分析——以某交通类高职院图书馆数据为例[J].科教文汇(下旬刊),2017(9):96-97.
[3]布艳艳.高校图书馆纸质图书借书量减少原因及对策浅析[J].科技风,2015(6):252.
[4]邹梅.图书借阅量下降原因及对策[J].吉林工程技术师范学院学报,2013(7):54-55.
[5]李化明.对近几年高校图书館借阅量下降之分析[J].农业图书情报学刊,2014(9):105-108.
[6]郑锦辉.如何提高独立学院图书馆的图书借阅量[J].黑龙江教育学院学报,2013(4):184-186.
[7]李桂梅,谭小华.高校图书馆图书借阅量统计分析报告[J].中外企业家,2009(14):215-216.
[8]孙宝,王志丽,刘琳.基于GM的高校图书馆借阅量预测模型研究[J].现代情报,2008(4):186-188.
[9]陈明.一元线性回归模型预测图书借阅量[J].大学教育,2016(5):111-112.
[10]凌茹,刘家望.多元线性回归构建湖南省县医院卫生人力和床位预测模型[J].中南大学学报(医学版),2011(12):1206-1212.
[11]于曦.基于Unicorn和SPSS的图书借阅量周期性分析及预测[J].山东图书馆学刊,2011(1):52-56.
[12]周永生,肖玉欢,黄润生.基于多元线性回归的广西粮食产量预测[J].南方农业学报,2011(9):1165-1167.
[13]房艳焱,余锦凤.SPSS在数字图书馆用户数据分析中的应用[J].图书情报工作,2005(12):89-92.
[14]毕建武,贾进章,刘丹.基于SPSS多元回归分析的回采工作面瓦斯涌出量预测[J].安全与环境学报,2013(5):183-186.
[15]陈希镇,曹慧珍.判别分析和SPSS的使用[J].科学技术与工程,2008(13):3567-3571.
(编辑:王天鹏)