基于用户行为数据的图书馆电子资源使用分析

2017-07-24 17:20:25秦艳姣
湖北第二师范学院学报 2017年4期
关键词:类型数据库

秦艳姣

(湖北第二师范学院 图书馆,武汉 430205)

基于用户行为数据的图书馆电子资源使用分析

秦艳姣

(湖北第二师范学院 图书馆,武汉 430205)

在大数据时代,高校图书馆作为全校的信息资源共享中心,积累了海量的用户行为数据, 通过对这些大量繁杂且分散的数据信息进行分析、挖掘,可得到隐藏在数据中的有价值信息。本文以实例说明通过数据挖掘技术对用户行为数据分析的方法,提出图书馆电子资源使用分析的意义。

大数据;数据挖掘;用户行为数据;电子资源

近年来,随着计算机的广泛应用以及云计算、物联网技术的飞速发展,数据的种类和规模都在急剧增大,这些数据正在以异常惊人的速度为人们收集并存储,全球步入“大数据”时代。如何在大数据时代下将这些海量数据转换成对自身有价值的信息和知识是社会各部门普遍关注的问题。随着网络化时代的发展和数字化图书馆的提出,作为向广大师生传播文化知识的图书馆也面临着大数据的冲击。如何顺应大数据时代发展趋势,对大量数据进行分析处理,向广大师生提供高质量的、具有本校特色的服务信息是现代图书馆建设中的重要课题。

一、大数据时代下的高校网络用户行为数据

在网络世界里,人与网络之间的互动、人与人之间的互动构成了网络用户行为。网络用户行为是指“用户在上网过程中表现出来的有意识的活动或者使用网络资源时所呈现出的规律”。从其范畴上讲,分为狭义的和广义的两种理解。狭义的网络用户行为包含网络用户在上网过程中进行的正常活动,如浏览网页、下载文件、观看视频、电子交易等;从广义的角度上讲,还包括用户异常的网络活动,如扫描,攻击等。

网络用户上网行为通过网络日志(Web日志)记录。网络日志记录了客户端每一次请求的细节,如:请求资源,请求时间,客户IP,服务器IP,发送字节数,接收字符数等等。当用户在网络上浏览页面时,都需要向服务器发出请求,把所请求页面发送到用户计算机。每当站点上的一个页面文件被访问一次时,服务器的日志文件中就会增加一条相应的记录(包括不成功记录),这些记录数据反映了多个用户(可能同时)对WEB 站点的存取行为。

随着社会的发展,特别是通信和计算机技术的不断进步,电子资源的数量和需求不断增加,目前,市场上可获取的电子资源上万种,国内有几百种,形式多样。高校是各种电子资源需求最大的单位,高校图书馆作为高校的文献信息保障部门,在资源采购是应该如何有理有据地采购电子资源,采购什么样的电子资源才符合读者需求和教学科研需要的问题日益突出。特别是地方中小院校,由于资金紧缺,更需要研究和考虑该问题,使有限的经费投入发挥最大的使用效益。

在大数据时代,高校图书馆作为全校的信息资源共享中心,积累了海量的用户行为数据,如用户查询电子资源生成的访问日志、用户访问电子资源时留下的评语以及用户收藏电子资源情况等。通过这些大量繁杂且分散的数据信息进行分析、挖掘,可得到隐藏在数据中的有价值信息,发现能满足图书馆读者真正需求且最适合本校实际的特色电子资源,开展高校图书馆电子资源服务建设。

二、通过数据挖掘技术对用户行为数据分析的方法

本文以某高校图书馆为例,挖掘读者使用电子资源的行为数据,为图书馆提供客观、真实且遵循同一标准的电子资源访问日志,便于图书馆对电子资源的使用价值进行客观分析评估,从而为图书馆采购决策工作、挖掘读者使用需求、图书馆服务方向等方面提供支持。

具体做法为从校园网络出口采集机构范围内访问电子资源的底层非结构化的Web日志,对数据进行清洗、会话识别及分析。实现对数字资源使用数据的获取,并进行统一的统计和分析,将图书馆购买的数字资源的使用情况在同一平台展现和对比,可以了解各电子资源的使用和效用情况。参与本次测试数据库共4个,测试数据库如下:CNKI、万方、读秀知识库(属于超星厂家)、超星数据库。采集数据时间段为20天,采集的网络设备为校园网1000人上网的出口交换机。本次参与测试没有涵盖校园网所有用户,旨在通过这部分网络用户行为数据的分析,揭示出一种分析方法,进而用这种方法去分析校园网所有的网络日志。

从产品各个模块功能对数据库使用情况进行展示,展示内容主要有:测试数据库单日下载量排名、测试数据库各类资源单日下载量排名、测试数据库检索词排名、测试数据库单篇文献下载排名、测试数据库期刊下载排名、测试数据库不同IP下载排名、测试数据库单IP使用详情展示。

1.数据库使用分析

数据库使用单日报表:

通过图1,可以了解当日下载次数排名数据库依次为CNKI、万方、读秀知识库、超星。此外,也可以对单日下载量进行浏览次数的排序。

用同样的方法,也可以得出数据库使用月度报表、数据库使用年度报表。

2.资源统计分析

通过该项分析,可查看和分析各种资源的使用数据及不同资源在不同时间段的使用量,可以对资源的使用进行年度、月度、单日分析。

资源使用统计分析单日报表:

通过图2,可以了解单日期刊资源下载次数排名数据库依次有CNKI、万方、读秀知识库等,此外还可以对数据库资源的浏览次数排序。

图书馆官员还可选取若干资源,对其单日下载量生成柱状图。

3.检索词使用统计分析

查看不同数据库在不同时间段的热点检索词排名及频次,同时还可以通过绑定院系IP,查看不同院系在不同时间段的热点检索排名及频次。

对某高校图书馆检索词使用量进行排名。其效果图为:

通过图3可以比较直观的看出热门检索词有“幼儿+问题”、“cognition+linguistics”、“cognitive+linguistics”、“商务英语口语”、“Westminster abbey”、“多义词教学”、“metaphor”、“language and society”、“华盛顿欧文”、“社会语言学视角下的 英语性别差异”。

4.下载浏览分析

可从篇名下载、篇名浏览、期刊下载、期刊浏览这四个方面对读者使用情况进行分析。

图1 数据库单日使用报表

图2 资源单日使用报表

图3 检索词统计分析报表

图4 篇名下载分析报表

篇名下载分析:

期刊下载分析:

通过图5可以了解在选定期间的期刊下载的排名,可以对应到具体的期刊名称,以及下载的人数。

5.读者使用行为分析

读者使用整体统计:

根据IP 展示不同读者的使用数据包括访问次数、检索次数、浏览次数、下载次数等使用数据,通过图可以了解下载次数最多的IP 是125.220.64.228.

读者使用详情日志查询:

通过图7可以了解用户检索的URL,题名/关键词,数据库,类型,使用时间等详细信息。

图5 期刊下载分析报表

图6 读者使用整体统计

图7 读者使用详情日志查询

三、图书馆电子资源使用分析的意义

1.指导电子资源的采购。利用数据挖掘技术对现有数据库及电子资源的使用日志进行分析、挖掘,获得电子资源使用评估报告,同时可以对新增电子资源在试用期间的访问日志进行分析,获得试用电子资源的使用分析报告。通过数据库访问次数、下载次数、单篇下载成本、访问院系分布等一系列量化指标评估电子资源的利用率以及学科覆盖率,指导图书馆电子资源采购决策的制定,使用量较大、访问次数频繁的数据库或电子资源优先购买,使用量一般的可以根据资金情况统筹安排购买,使用量较少或基本不使用的数据库可以不购买或按照用户数采购而不是包库采购,使用量上升较快的建议增订。

2.引导电子资源的推广培训。结合学校的学院分布以及学科设置,通过数据挖掘技术获得电子资源使用的学院、学科分布情况,从而了解各学院对电子资源的利用率。对资源利用率明显偏低的学院,可以从资源宣传力度、学科馆员深入院系开展服务等方式加大电子资源的推广培训,提升电子资源的整体利用率。

3.为图书馆开展嵌入式服务指引方向。将图书馆服务无缝地、动态地、融入用户知识过程中,是图书馆未来发展的必然选择。嵌入式服务以用户为中心,通过融入用户的工作学习生活空间,提供个性化服务,使用户处于图书馆服务无处不在、无时不有的环境当中。通过数据挖掘技术对电子资源的使用日志进行分析,了解具体用户习惯使用的数据库、期刊资源,以及更细化的篇名下载分析、检索词统计,可以精准的定位用户的需求。围绕具体用户的资源需求,图书馆馆员可以将服务主动推送给用户。同时,通过关键词统计等分析结果,图书馆可以得出某段时间用户比较关注的共性需求,可以围绕这些共性需求,图书馆可以针对性的开展资源检索服务或使用培训。

4.为师生评价提供数据参考依据。通过读者使用情况分析,可以清晰的了解用户在某时间段使用图书馆电子资源的整体情况,可以分析哪些教师在某一时期或经常性使用电子资源,对教师的工作考核以及科研完成情况提供某种程度的参考。可以分析哪些学生较多自主利用电子资源学习,为学生的评优提供某种程度的参考。

四、结语

大数据环境下高校图书馆电子资源使用分析采用数据挖掘技术,通过对网络上用户使用电子资源访问日志、下载信息、搜索关键词等进行深入挖掘,感知本校师生用户对电子资源的使用统计以及信息需求,进而量化高校电子资源使用情况,达到合理制定采购计划、开展电子资源推广培训、指引图书馆嵌入式服务以及帮助师生评价等作用。

[1]李硕.大数据时代图书馆电子资源特色化服务研究 [J].互联网,2015,(10):123-124.

[2]高建辉,钟卫.地方高校图书馆电子资源优化配置方案研究 [J]. 雄楚师范学院学报,2015,(3):81-86.

[3]谢守美,黄萍莉,龚主杰.图书馆嵌入式服务的理论基础、模式和途径 [J]. 图书与情报,2012,(4):33-38.

[4]候力铁.泛在环境下图书馆嵌入式服务创新路径研究 [J]. 河南图书馆学刊,2013,(7):110-112.

[5]杜杰.基于校园网海量访问日志的用户行为分析 [DB/OL].中国优秀硕士学位论文全文数据库,2012,(6).

责任编辑:彭雷生

Analysis of Library Electronic Resources Based on User Behavior Data

QIN Yan-jiao

(Library, Hubei University of Education, Wuhan 430205, China)

In the era of big data, the university library, as the information resource sharing center of the whole school, could accumulate massive user behavior data. Through the analysis and mining of these big and complicated data, we can get valuable information hidden in the data. This particle illustrates the method of analyzing the behavior of users by means of data mining technology, and puts forward the significance of library electronic resource analysis.

big data; data mining; user behavior data; electronic resources

2017-03-15

秦艳姣(1982-),女,湖北红安人,高级工程师,硕士,研究方向为网络教学。

G250.73

:A

:1674-344X(2017)4-0128-05

猜你喜欢
类型数据库
数据库
财经(2017年15期)2017-07-03 22:40:49
数据库
财经(2017年2期)2017-03-10 14:35:35
肾小球滤过率下降与脑卒中类型及预后关系探讨
我国高职院校实训基地主要类型及其存在价值初论
职教论坛(2016年24期)2016-11-14 09:02:16
C语言教学探讨
人名中不应该使用生僻字
人间(2016年27期)2016-11-11 17:29:11
“逗”孩子行为的危害及破解对策
南北桥(2016年10期)2016-11-10 17:33:00
利用野花组合营造花海景观的技术研究
现代园艺(2016年17期)2016-10-17 08:18:46
数据库
财经(2016年15期)2016-06-03 07:38:02
数据库
财经(2016年3期)2016-03-07 07:44:46