基于系统日志的高校图书馆研究间用户利用行为分析

2018-01-10 07:09尹相权李书宁弓建华
现代情报 2018年1期
关键词:奖学金违规研究生

尹相权 李书宁 弓建华

(北京师范大学图书馆,北京 100875)

·业务研究·

基于系统日志的高校图书馆研究间用户利用行为分析

尹相权 李书宁 弓建华

(北京师范大学图书馆,北京 100875)

[目的/意义]挖掘高校图书馆研究间的用户行为规律特征,为研究间设施改进、精准服务提供数据支撑。[方法/过程]利用北京师范大学图书馆研究间系统日志数据,参考用户画像的研究思路,对数据进行多维度行为建模,探索影响用户行为的主要因素,并建立用户原型。[结果/结论]行为分析发现,学科特点因素和学生年级是影响研究间使用的重要因素;研究间预约热度与采光条件和相对位置显著相关;研究间违规使用行为与用户所在年级和学科有一定的关联;研究间预约与绩效之间存在一定相关性。多维度行为分析可为改进设施、建立用户原型提供数据支撑。

数据挖掘;研究间;关联分析;多维度;用户行为分析;用户画像

近年来,图书馆空间规划与利用研究已成为国际图书馆界的热点话题之一,美国哥伦比亚大学2010-2013年图书馆规划中提出,“发展多功能的、有吸引力的图书馆空间是图书馆未来发展的关键因素”[1],《地平线报告·图书馆(2017版)》预测大学图书馆未来3~5年内将迎来空间改造的热潮[2]。同济大学的一项调研结果表明,现今大学生认为最缺乏的学习空间大都集中在“沉思、独处的空间”和“小规模学习研究的场所”[3]。从国内已有实践来看,设立和优化研究间已成为图书馆空间改造的重要内容,研究间也已成为深受师生欢迎的学习研究场所[4]。

从笔者们对国内图书馆研究间建设和管理实践电话访谈(含他馆实地和电话对我馆情况的调查)来看,国内图书馆研究间建设和管理正面临相当多的困惑:预开设研究间的图书馆对设立研究间的必要性、在图书馆建筑内的哪些位置设置研究间、如何处理个人研究间和多人研究间的关系等困惑;已经建有研究间图书馆面临研究间使用量不均衡、研究间配置不足或不合理等困惑。这些困惑的解决不能依靠“拍脑袋”的直观感觉,需要跟踪用户研究间利用行为,借助于相关数据的定量分析,用户正常使用行为和违规行为的行为特征进行分析,揭示用户对研究间的使用规律,促进更合理的资源配置。此外,依托大数据技术,将多源数据充分地进行融合和深入分析,挖掘出数据背后的用户行为规律特征,将其概括为抽象的用户行为长期跟踪服务模型,进而实现图书馆对用户个人的精准定位与服务,这将对图书馆信息服务能力的提升具有重大意义[5]。

从相关研究成果来看,虽然国内外有大量研究工作基于系统日志对用户行为进行分析[6-8],但尚无工作对研究间系统进行系统的用户行为分析。

北京师范大学图书馆自2010年新馆启动时,就在国内较早的引进杭州联创信息技术有限公司的IC学习空间管理系统(目前国内采用该系统进行研究间管理的高校图书馆已有近70所)实现研究间预约和管理,积累了丰富的平台管理经验和用户利用数据,本文利用北京师范大学图书馆研究间的日志数据,采用统计分析、聚类分析、可视化等方法,基于多维度用户类型,分析用户利用行为规律,以解决上述研究间建设管理过程遇到的困惑问题,也期待本文所采用相关方法对其他采用该系统的高校图书馆开展数据分析和研究有所启迪。

1 研究方法与数据

1.1 基于“用户画像”的研究间行为分析技术路线

用户画像(Personas)的概念最早由Alan Cooper提出:“用户画像是目标用户的一个具体代表”,即用户原型是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型[9]。通过用户调研或用户行为数据去了解用户,根据他们的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片以及一些人口统计学要素、场景等描述,就形成了一个用户原型[10]。通过用户画像,可以描绘应用的主要用户群;表达和聚焦主要用户群的主要需求和期望;清晰描绘用户的期望以及使用习惯;辅助发现通用特征和功能等。已有工作利用用户画像进行数字图书馆知识社区关联模型构建,为数字图书馆社区用户描述提供参考[11-12]。参考用户画像的研究思路,可以通过用户日志数据,对研究间用户的使用数据划分为多个维度并分别进行行为建模,然后在行为建模的基础上,构建用户画像,为提升研究间资源配置提供数据基础。

图1 研究间用户利用行为分析技术路线

如图1所示,第一步,进行基础的数据收集工作,包括用户预约数据,用户违规数据,用户基础数据(学院,入学年度,类型等)以及用户绩效数据(部分学院的研究生奖学金名单)。第二步,在数据收集的基础上进行探索性数据分析,包括,聚集用户预约数据与用户基础数据;把部分主要数据项进行概念化分层,例如,把学生分为硕士和博士,并进一步按照入学年度进行分层,把学生所在学院概念化分层,比如划分为文史、理工、教育和艺体4类;根据概念化分层的数据,对研究间的热度进行多维度分析,并考察用户违规行为;根据用户绩效数据和用户行为数据的关联分析,探索用户预约行为与绩效产出之间的关联。第三步,根据行为建模结果,选择代表性用户,构建用户画像。

在探索性数据分析中,首先要了解不同年级的预约行为差异、不同学科的预约行为差异,构建一个基本的研究间用户描述信息,进而进行细化分析,根据聚类分析,探索研究间设置与研究间人气之间的关联。之后,基于违规记录的分布,考察研究间违规宣传教育的成效,并抽取了部分数据,根据交叉列联表分析以及独立性分析,探索研究间预约行为与研究生绩效之间的相关性。

1.2 研究间系统日志数据

出于计算分析方便且不失代表性,本文所使用的日志数据为北师大图书馆2016年1月1日至2016年12月31日1年中48间研究间预约数据(研究间预约日志格式参见表1),共包含60 163条记录。其中,硕士记录47 876条,博士记录11 591条,教职工记录696条。考虑到该校研究间预约系统只面向研究生和教职工,由于教职工的数据相对较少,本文只分析研究生数据。依据各学院的学科设置特点,本文将学生分为文史、理工、教育和艺体四大类。

表1 研究间预约日志格式

2 用户利用行为规律分析

2.1 年级与学科分类角度的研究生预约行为

本文根据入学年度,把硕士和博士的预约记录分开统计,统计结果如表2所示。硕士和博士共计58 938条,其中硕士47 327,博士11 567,留学生44,硕士研究生是研究间预约用户的主体。

表2 研究间研究生预约行为统计表

从表2可以看出:①文史类研究生对研究间的利用显著高于理工类研究生,且文史类博士研究生对比理工类博士研究生差异更为显著,文史类硕士生约为理工类的5倍,文史类博士生约为理工类的6倍;②总体而言,研究生年级越高对研究间的利用量越高(这里只考虑正常在校学习的研究生,2013级及以前延期毕业的研究生因群体人数不完整不予考虑),2014级硕士和2014级博士分别占比最高,其次为2015级硕士和2015级博士,符合研究生科研行为量随入学时间逐年递增的规律,但是学科专业特点对此影响比较大,比如教育类专业对研究间的利用二年级研究生是主体,明显高于三年级,可能跟该类研究生三年级需要实习有关。

表3 不同学科类型研究生人均预约数

考虑到不同类型、不同入学年度的研究生总数不同,本文调研了北京师范大学各学年各专业的实际录取人数,用于计算不同类型研究生按照入学年度的人均预约数,如表3所示,文史类研究生是研究间利用的主体,其人均预约数显著高于其他三类,其次为教育类,理工类的人均预约数与艺体类较为相似。在各入学年度数据中,二年级研究生(2015级)是研究间利用的主体,其人均预约数高于三年级(2014级)和一年级(2016级)。一年级研究生(2016级)的预约行为在各个学科类别中相对比较均衡,说明各类型的一年级研究生新生在入学的第一个学期中尚没有显著的预约行为差异。

2.2 空间位置和入学年度角度研究间人气分析

在读者的预约行为中,是否对不同研究间具有一定的选择偏好?带着这个问题,本文首先总体统计了各个研究间的预约情况,并进一步细化统计项,按照入学年度,观察不同亚群读者对研究间的偏好。这些分析可以为管理人员改造热门研究间的服务设施提供参考,例如把部分位置的单人间改为4人间,或者参考人气高的研究间的温度等环境因素,改善其他研究间的使用环境等。在总体统计分析的基础上,根据入学年度分析各个研究间的预约情况,一方面可以方便管理人员改善研究间的服务设施;另一方面,可为用户预约研究间时的个性化推荐提供数据支撑。由于硕博连读生以及博士延期学生的比例偏低,本文选择2013年、2014年、2015年和2016年4个年度作为统计分析对象。

图2 研究间预约总计对比图

北京师范大学图书馆的不同楼层的研究间具有统一的编号规则。本文分别对比了四楼和五楼各研究间的预约总数,如图2所示。从该图可以看出,除了个别研究间(比如419和519)楼层之间预约量差异较大外,四楼和五楼对应位置的研究间预约热度较为相似。不管四楼还是五楼,05~12研究间普遍比其他研究间预约热度高,多人研究间显然比单人研究间更受欢迎,其地理位置以及显著预约热度如图3所示。

备注:蓝色—白色—红色,表示热度从低到高,矩形代表四楼研究间热度,三角形代表五楼研究间热度,Z代表楼层。图3 研究间地理位置分布及显著热度

总体说来,南侧研究间的利用普遍比北侧更高,由于建筑原因,西南侧的自然采光条件最好,其利用率也最高,北侧采光条件较好的位置利用率也比较高,显然,自然采光条件是用户选择研究间非常关键的影响因素;到达便利性和使用方便性也是影响用户利用非常重要的因素,靠近电梯和洗手间又并非正对洗手间(正对洗手间的04最低,519利用最低后排查是硬件设施原因造成)的研究间更被用户青睐;环境安静则是另一个影响用户利用的重要因素,图3中21~23研究间就是这样的位置。当然影响用户选择利用的不是其中的一个因素,而是综合各方面因素的结果。

备注:蓝色—白色—红色表示热度从低到高图4 研究间人气热力图(入学年度)

图4为研究间根据入学年度的聚类结果。如图4所示,2014年入学的研究生和2016年入学的研究生对研究间的喜好更为相近,各个年级的学生的“人气研究间”具有一定共性和差异性。人气最高的研究间(2013级:411、412、506、511、512;2014级:408、409、506、509;2015级:406、416、508、509、510;2016级:405、407、408、410、411、412、505),除了416研究间,其他均为4人间,且表现出了一定地理位置偏好。例如,楼层西南角的研究间(09~12),在各个年级的人气研究间中至少有两次出现,在13级研究生中,甚至占到了4/5。2016级的研究生明显对四楼的研究间更感兴趣。

个人研究间的选择可能更能代表个人对研究见的选择倾向。各年级研究生对个人研究间的偏好差异较大,2013级:520,2015级:416、518,2016级:414、415,从数据上看,低年级的研究生(2015级和2016级)更倾向于选择四楼西北角的较安静的位置(414、415、416),高年级的研究生(2013级)则更倾向于比较开放的位置(520)。

2.3 研究间预约违规行为分析

在所有违规记录中,扣除管理员取消的违规记录以及教职工的违规记录,共有777条研究生违规记录。其中,173个违规原因为使用人数不达标(未按规定人数使用是指多人间使用人数不足),604个为预约不来。如表4和表5所示。在预约不来和使用人数不达标的记录中,人数不达标率显著高于预约不来率,高年级的违规率明显低于低年级;文史类人数不达标记录占文史类预约总数的比例为0.9%,在4个学科类型中最低。经独立性检验,学生年级与预约违规类型的卡方值为744,P值为0.199(大于0.05),学科类型与预约违规类型的卡方值为775,P值为0.135(大于0.05),说明年级、学科类型与违规类型具有一定的相关性,总体来说,对研究间利用率越高的群体违规率越低。此外,在所有的违规记录中,没有出现同一个学生重复违规的情况,也没有出现同一个学生有不同类型违规的情况,即预约不来记录和人数不达标记录没有交集,说明研究间预约违规规范相对简单,容易被理解,也能起到了良好的约束作用。

表4 各年级违规记录

表5 各学科类型违规记录

2.4 研究生预约行为与绩效关联分析

研究表明,学生的学业科研与图书馆利用具有较强的相关性[13-14]。是否可以假设,获得奖学金的学生具有较多的研究间预约行为。为此,本文选择3个有代表性且有奖学金公开信息的学院(教育学部,经济与资源管理研究院和心理学院),将其2016年度国家奖学金、学业奖学金及专项奖学金名单作为研究生的绩效信息,考察研究生预约行为与绩效之间的关联。其中,教育学部仅有国家奖学金信息,经济与资源管理学院和心理学院有国家奖学金、学业奖学金及专项奖学金信息。

如表6所示,据统计,在215名奖学金获得者中,有62名同学预约过研究间。其中,经济与资源管理研究院的奖学金获得者的预约比例最高(40.4%),心理学院最低(22.6%),同时,经济与资源管理研究院的奖学金获得者预约人中,博硕比最高。这3个学院的预约行为覆盖了近30%的奖学金名单,显著高于奖学金获得者占所有研究生的比例,以教育学部为例,其2014级、2015级、2016级硕士共计招生658名,而国家奖学金获得者仅为22名,国家奖学金获得者仅占所有硕士生的3.3%,说明研究生研究间预约行为与研究生奖学金之间具有一定相关性。

表6 2016年预约行为与2016年度奖学金

同时,我们也注意到,学院不同,绩效与研究间使用的相关性不一,例如心理学院,其奖学金获得者的预约行占总预约行为的比例相对教育学院偏低。为此,我们进一步根据表6的数据,把各个学院的预约数据分为奖学金获得者预约人数,奖学金获得者无预约人数,进行了奖学金获得者使用研究间情况与其所在学院之间独立性检验,卡方检验结果如下:卡方值为215,P值为0.028(小于0.05),说明二者相互独立,即奖学金获得者的预约行为与其所在学院无关。

2.5 用户画像

基于以上的探索性数据分析,可以根据不同的需求来抽取用户原型。例如图书馆需要一个研究间用户代表,根据研究间研究生预约行为统计表(表3)和研究间人气热力图(入学年度)(图4),可以选取2014级文史类硕士,2014级研究生对研究间的偏好分析,定位到研究间408、409、506、509,并进一步统计法学院在该4个研究间预约次数最多的2014级硕士生的行为轨迹,作为用户原型的行为特征,预约次数最高的学生,在该4个研究间总计预约次数为168次,我们抽取其在2016年度所有的预约行为,如图5所示,小结如下:在48间研究间中,共计预约过16间,其中,四楼和五楼的4人间预约次数最多,更倾向于使用五楼的4人研究间,单人间更倾向于四楼的420~424,均位于四楼的东北角。通过多个用户原型,可为预约服务提供个性化推荐,在预约界面提供“您可能最喜欢的研究间”推荐服务,提高用户的预约体验。

此外,基于以上探索性分析结果,还可以为研究间的配置提供数据参考。例如,若计算个人研究间与4人研究间的优化配比,计划通过定向抽样调查问卷来执行,参加调研的学生,可以参考人气热力图中获取的学院、入学年度以及学生类型。

图5 北师大研究间用户原型研究间预约分布

3 结 语

本文参考用户画像的研究思路,对北京师范大学图书馆研究间系统日志数据进行了多维度探索性数据分析,探讨了研究间预约行为在学院以及研究生年级层次上的特性,发现:

1)二年级研究生为研究间最主要的使用群体,其次是三年级的研究生,一年级研究生对研究间利用需求不是特别明显;

2)学科特点因素是影响研究间使用的重要因素,文史类研究生对研究间利用率最高,教育类研究生次之,理工和艺体类研究生利用率较低;

3)不同年级在研究间选择时具有不同偏好,且偏好具有一定地理位置对称性(不同层的相同位置以及相邻研究间);

4)研究间违规使用行为与用户所在年级和学科有一定的关联,使用率越高的群体,违规的几率越小;

5)研究间采光条件、距离厕所和电梯的位置、安静程度都是影响用户研究间选择的重要因素;

6)经过研究间与奖学金之间的关联分析,发现研究间预约与绩效之间存在一定相关性,奖学金获得者的预约行为与其所在学院关系不大。

基于以上研究间用户行为特征规律分析结果,对图书馆改进研究间服务的重要启示如下:

1)研究间采光条件、距离厕所和电梯的位置、安静程度都是影响用户研究间选择的重要因素,在改进研究间服务设施时,应重点考虑以上因素,通过改变研究间门的朝向等措施,尽可能优化研究间的硬件条件。

2)不同年级、不同学科类型的行为特征具有明显差异,参考各个群体的行为规律,图书馆应根据学科类型特点和年级,分别提供个性化推荐数据。

3)加强研究间在新生群体的宣传,进一步加强对新生的研究间使用培训教育,在吸引新生充分使用研究间的同时,减少新生的违规率。

4)在开展研究间服务调研或获取特定研究目的抽样数据时,可以参考不同年级、不同学科类别的预约比例做相应调整。例如,在抽样调查时,适当增加二、三年级的学生的比例,更多选择文史类和教育类学生。

5)根据挖掘出的多维度用户行为规律特征,可从大数据中概括出抽象的用户行为模型,辅助实现图书馆对用户个人的精准定位与服务。

另外需要注意的是,考虑到研究间资源相对比较紧张,本文分析结果可能并不能独立反映用户的主动选择倾向,在进行研究间相关决策之前,可辅以重点用户调查,以便使相关决策更加科学。

[1]冯东,于沛.近20年来图书馆馆库空间变化研究[J].图书馆学研究,2011,(22):2-6.

[2]Adams Becker,S.,Cummins,M.,Davis,A.,Freeman,A.,etc.NMC Horizon Report:2017 Library Edition[R].Austin,Texas:The New Media Consortium,2017.

[3]沈天清.高校自主学习空间的研究[D].合肥:合肥工业大学,2004.

[4]刘孝文,和艳会.图书馆研究间的调查与分析[J].图书馆杂志,2013,32(8):42-45.

[5]王捷.基于用户行为数据分析的高校图书馆信息服务平台研究[J].现代情报,2017,37(1):127-130.

[6]余慧佳,刘奕群,张敏,等.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114.

[7]童国平,孙建军.基于搜索日志的用户行为分析[J].现代图书情报技术,2015,31(z1):80-88.

[8]Minami T,Kim E.Seat Usage Data Analysis and Its Application for Library Marketing[C]// International Conference on Intelligent Information and Database Systems.Springer-Verlag,2011:238-247.

[9]Cooper A.The Inmates are Running the Asylum[M].Macmillan Publishing Co.Inc.1999,53(vember):17.

[10]Cooper A.The Origin of Personas[EB/OL].https://www.cooper.com/journal/2008/05/the_origin_of_personas?[2017-08-17.

[11]胡媛,毛宁.基于用户画像的数字图书馆知识社区用户模型构建[J].图书馆理论与实践,2017,(4):82-85.

[12]刘速.浅议数字图书馆知识发现系统中的用户画像——以天津图书馆为例[J].图书馆理论与实践,2017,(6):103-106.

[13]Stone G,Ramsden B.Library Impact Data Project:Looking for the Link between Library Usage and Student Attainment[J].College & Research Libraries,2013,74(6):546-559.

[14]吴英梅,何璨.高校图书馆对学生学业科研影响的实证研究——以北京师范大学为例[J].图书情报工作,2014,(20):73-77.

SystemLogsBasedUserBehaviorAnalysisofStudyRoomsinUniversityLibrary

Yin Xiangquan Li Shuning Gong Jianhua

(Library,Beijing Normal University,Beijing 100875,China)

[Purpose/ Significance]This paper aimed to provide data support to improve facilities and precise services of study rooms in university library by analyzing user behaviors.[Method/Process]System log of Beijing Normal University Library was collected,and further analyzed with Persona related technique to get multi-dimensional modeling results,to analyze major factors affecting user behaviors and to build user prototypes.[Results/Conclusions]Via the behavior analysis,it showed that the utility of study rooms was related to classes of disciplines and the grades of students,the popularity of study rooms was related to their lighting conditions and relative locations,noncompliance with requirements was related to both the grade and discipline factors,and that reservation data was somewhat related to scholarships.The multi-dimensional user behavior analysis method may provide data for improving facilities and building user prototypes.

data mining;study rooms;association analysis;multi-dimensional;user behavior analysis;persona

10.3969/j.issn.1008-0821.2018.01.016

G250.7

A

1008-0821(2018)01-0115-06

2017-10-11

尹相权(1982-),男,馆员,硕士,研究方向:图书馆学,图书馆新技术应用,数据挖掘等。李书宁(1976-),男,副研究馆员,博士,硕士生导师,研究方向:数字图书馆技术、用户研究等。弓建华(1981-),女,馆员,硕士,研究方向:图书馆学、图书馆管理等。

郭沫含)

猜你喜欢
奖学金违规研究生
违规借调的多重“算计”
学成必有为 不忘桑梓情——写在“谈智隽奖学金”第二十七次颁奖大会后
“啄木鸟”专吃“违规虫”
打电子游戏是浪费时间?对那些获得电竞奖学金的人来说并不是
违规逆行之后
论研究生创新人才的培养
清退超时研究生是必要之举
研究生“逃课”需标本兼治
感恩的心——20名获得康世恩专项奖学金学生的来信摘录
幸福院里出了个研究生