基于Web日志的用户信息行为研究

2015-11-22 03:00贾凤旭
鞍山师范学院学报 2015年2期
关键词:访问量鞍山师范学院

贾凤旭

(鞍山师范学院图书馆,辽宁鞍山114007)

信息资源建设的目的是为了更好地提供增值服务,面向用户的信息资源开发整合和服务是关键环节,是信息资源发展进程中必须着力解决的问题.为了提高服务质量,就必须对用户进行研究,而网络技术为这种研究提供了便利条件.Web日志是用户访问网页服务器时留下的访问记录,它包括用户访问服务器的IP地址、访问时间、来源路径和网络流量等原始的交互信息.Web日志是一种真实记录用户访问信息的文件,它不受任何因素的影响,能够真实反映用户的行为特征,通过对其进行分析,可以了解用户的信息活动,得出用户的访问模式和访问兴趣,从而以此为依据,改进Web站点的知识门户结构和优化资源配置,更好地为用户提供信息资源服务.

1 实证研究

1.1 研究样本、方法和工具

本文选取鞍山师范学院图书馆主页服务器2014年3月的Web日志作为研究样本,采用日志分析法和统计分析法.因为样本日志为服务器存储数据,所以利用具有离线分析功能优势的国际流行日志分析软件Awstats是最为合适的[1],统计分析软件采用社科类科学研究中的权威统计软件SPSS[2],两者配合进行描述性分析和推断性统计分析,得出丰富、详实的结果,让论证关系更具科学性.

1.2 日志数据的预处理

服务器保存的原始日志文件是一种半结构化的数据,包含了大量的有缺陷的、冗余数据和代码,要提高分析结果的准确性,就需要对源数据进行再加工,检查数据的完整性及数据的一致性,采用JAVA程序、Excel等软件对其中的噪音数据进行平滑、识别、补充等步骤处理[3,4],并辅以手工干预,整理、筛选出主机地址、访问时间、访问方法、访问资源和访问路径等字段[5~7],把最终形成的Log文件导入Awstats软件进行分析处理,形成一系列结果报表,再输入SPSS软件进行描述性统计分析.

1.3 日志数据的统计分析

1.3.1 鞍山师范学院图书馆用户信息行为的描述性统计分析 描述性统计分析是研究随机变量变化特征的重要方法,最终以图表的形式表示出来[8,9].本文利用以月为尺度的用户访问量、页面浏览量、点击量、网络流量进行分析,具体数值见表1.

表1 鞍山师范学院图书馆用户信息行为描述性分析摘要表

从表1中看到,鞍山师范学院图书馆2014年3月服务器访问量、浏览页面量、点击量、网络流量均值分别是426人次、983页、1 137次、26 GB.从最后一列标准差中可以看到,浏览页面量、点击量和访问量的变化幅度不大,而网络流量的幅度较大,从中可以看出每个用户在单位时间内的访问行为基本相同,资源下载量比较大,反映了高校图书馆用户是以科研、学术型检索、下载资源为主的群体.访问量与浏览页面量差值幅度较小,说明鞍山师范学院图书馆用户数量和网络性能的稳定性.

1.3.2鞍山师范学院图书馆用户信息行为的度量分析 本文的样本数据利用Awstats软件以小时、星期、月为尺度进行统计、汇总,了解图书馆用户的信息行为偏好,便于对页面调整、数据维护等管理事务做出合理安排.

(1)图1为以月为尺度的用户信息行为分布图,从中可以看到这样的规律:图书馆2014年3月点击量和浏览页面量在第5,12,19,26天分别达到最高峰;第1,9,15,23,30天降到最低值.这种周期一般为6~7天左右,在低谷之后2~4天能够达到一个周期的最高峰.

(2)图2为以星期为尺度的用户信息行为分布图,从中可以看出点击量和浏览页面量在每星期三最为频繁,星期五开始下行,星期六和星期天最不活跃,星期一开始上行,又开始了一个周期的上行趋势.

(3)图3是以24 h为尺度的用户信息行为分布图,从中可以看到非常明显的特点,每天10,14,19时左右3次达到点击量和浏览页面量的高峰值,均超过120次.这种现象与学生为主体的用户群体作息时间是密不可分的,这3个时段基本为课余自修时间段.1.3.3 用户行为持续时间分布 Awstats软件按时间维度统计结果如图4所示,从中看到,89%用户访问时间超过30 min以上,这些用户中的86%超过60min以上,结合网页浏览量和日志数据分析,74%用户的页面浏览量和网络流量差值变化较大,为检索和下载图书馆的论文、电子书等数字资源;其它的26%用户为浏览视频教学、讲座等媒体资源.而另外的11%用户访问时间在30min之内,探索其原因,大多是浏览与检索系统的简单操作,或者是对网页兴趣不足而没有进一步操作.

表2 鞍山师范学院图书馆用户访问路径表

1.3.4 用户访问行为的偏好分析

(1)访问路径.表2是鞍山师范学院图书馆用户访问路径的统计情况,80%以上用户是直接输入网址访问,这是图书馆近年加强对主页的宣传力度成果的反映.其它不到20%的用户通过百度、360、搜狗等搜索图书馆网址之后点击过来的.

(2)访问资源.表3为用户喜爱的资源网页排名,本文选取访问量前8名的资源网页,分别是:图书馆主页、CNKI、万方数据、VipExam试题资源库、馆藏书目检索系统、维普资讯、国道外文数据库、网上报告厅.

从表3中看到,图书馆主页占据85.6%的比例,说明多数用户是通过图书馆主页而依次到达所需的具体资源页面,另外不到15%用户是通过直接键入资源网址而进入的.图书馆数字资源占访问量的98.2%,可以明确用户主要目的是检索、浏览图书馆的各项数字资源,这与高校用户群体的特征是相符的.而具体到各项数字资源使用比重,影响因素包括以下几个方面:①资源所包括的学科范围;②资源检索的方便程度;③资源下载的速度;④资源文件的格式;⑤资源宣传的力度;⑥资源数据更新的及时性.

表3 图书馆用户访问资源网页排名表

1.3.5 用户行为研究推断性分析 本文以2014年3月的日志数据作为样本进行分析,对于总体情况需要利用推断性分析法,利用SPSS的置信区间差分功能来推断样本与总体是否相符的正态分布.

表4是31天用户访问量与浏览页面量单样本分析表,在差分95%置信区间下日访问量在131.69至 720.31 人之间,浏览页面量在 378.43 到 1 587.56 个之间,上述推断.sig 显著性水平为 0<0.05,表明样本和总体分布状态相一致,推断的数据量也显示鞍山师范学院图书馆日访问量和每日用户数量与图书馆读者数量相比较而显得较少.

表4 鞍山师范学院图书馆用户访问量与浏览页面量单样本分析表

表5得出鞍山师范学院图书馆用户点击量、访问量与网络流量的相关分析.点击量与网络流量的相关性为0.765,双侧检验值为0<0.05,表明二者显著相关联.访问量与网络流量相关系数为0.217,双侧检验值为0.121>0.05,说明鞍山师范学院图书馆的网络流量与访问量不直接相关联.

表5 点击量、访问量与网络流量相关分析表

2 鞍山师范学院图书馆用户信息行为存在问题分析

2.1 用户使用数字资源频率较低

截止到2014年底,鞍山师范学院图书馆主页读者访问次数和有效读者分别是581 372次和21 102人,而根据表4差分95%置信区间的访问量显示,日均访问量仅为131~720人之间,这是不相称的,造成这种现象的原因有:

(1)图书馆宣传力度不足.没有主动将网站系统的功能详细介绍给读者,很多读者仅知道去外借部门检索、查找和借阅书籍,不知道网上的书目检索,也不甚了解网上可以浏览、下载相关的数字资源.

(2)缺乏相关培训.近几年因学校教学时间紧张而没有开设信息资源检索课程,对于数字资源的种类、检索等没有一个系统的传授方式.

(3)图书馆主页栏目设置不当或功能欠缺,使得用户访问兴趣降低.而数字资源因版权的限制,只能限于校内访问,也制约了图书馆数字资源的使用频率.

2.2 用户行为方式单一

从日志中用户访问资源方式来看,图书馆用户操作行为多数集中在浏览和下载资源,读者的网络上行交流行为很少,仅仅局限在馆藏书目检索一项.图书馆主页上缺少互动专栏,没有设置对用户其它需求予以解决沟通的渠道,造成用户的浏览和下载资源的单一目的.

2.3 访问效率方面的问题

本文对用户访问效率的考察主要是访问资源的成功率,从表1用户行为摘要表中看出,用户访问失败数占总访问量的比率也比较高,信息资源检索和获取的失败行为在日志中有较高体现,究其原因:第一,日志中大量堆积错误提示数据.这样的错误经常在某一时段大量存在,究其原因,是资源服务网站因维护但没有及时告知用户,导致用户大量点击却无法访问而造成的.不但影响服务器的正常工作,也影响用户检索查找资源的效率.第二,因服务器设置或局域网中的数据堵塞而导致不能正常浏览和下载资源.要时常检查服务器和网络设备的运行情况,及时排除隐患,保证网络的畅通无阻.

3 鞍山师范学院图书馆用户行为相关问题的对策分析

3.1 加强宣传力度,辅助培训指导

根据以上用户信息行为的分析,首先,访问资源与访问路径等问题是由于宣传和引导不到位造成的.宣传应该突出重点和层次,把现有资源以及未来资源的实用性和科研优势等方面着重推荐给用户,加强图书馆网址及各方面功能的宣传力度,优化访问路径和渠道.其次,充分利用QQ、微信等网络即时交流工具,发布最新讯息,让用户及时掌握图书馆最新动态,树立高效、周到的服务机制.另外,图书馆可以采取多种形式的培训和辅导,也可以把图书馆各项信息资源的简介、使用说明及访问方法制作成视频文件,供用户自行下载学习,通过以上措施,从根本上提升图书馆用户信息行为能力.

3.2 加强信息资源建设,优化资源配置

图书馆的宗旨就是向用户提供优质的信息资源服务.以用户需求为导向,加强信息资源建设,以馆藏文献和数字资源并重为原则,开展对现有资源的开发利用,针对学校重点、经典学科的文献进行整理,建立相关特色资源数据库,提高现有资源的利用率.同时,开展网上信息资源收集、整理,以DC元数据标准进行处理构建可检索的数据库,并不断根据用户研究方向加以优化配置信息资源,夯实图书馆的信息资源基础.

3.3 优化网络设备,提升访问效率

数字信息服务的基础来自稳定高效的网络设备,近年来,鞍山师范学院图书馆快速发展,各种服务器、终端等设备的配置,极大地提升了图书馆的信息自动化水平,为信息服务奠定了坚实的基础.然而,从分析结果中反映的错误率较高现象,需要不断完善管理机制和服务举措:首先,制定合理安全措施,配置防火墙、访问规则来抵御入侵,做好后台记录的完整存储,以备查找问题所在.其次,可以利用实时日志分析软件,随时掌握用户信息行为,以此规划资源结构和数据维护,更加合理地为用户提供优质服务.

4 结语

在信息化的背景下,图书馆的信息服务转变为以用户需求为导向的主动型服务,借助于相关软件对Web日志加以分析和推断,从用户信息行为的角度研究如何提升图书馆的信息服务具有极高的现实价值.本文以鞍山师范学院图书馆2014年3月的Web日志文件为样本,通过Awstats与SPSS两个软件协同进行描述性和推断性分析,得出了图书馆信息服务中存在的问题,并根据推断性分析提出了相应的对策.虽然样本数据的时间段有限,软件分析功能的局限性,但就研究过程来看,只要样本选取得当,细致分析,理论联系实际,以此得出的结论,对于提升图书馆服务质量,推动信息文化的传播具有重要意义.

[1]王彬,崔萌.Awstats日志分析软件的部署与运行[J].中国教育网络,2013(2):102-104.

[2]龚江,石培春,李春燕.使用SPSS软件进行多因素方差分析[J].农业网络信息,2012(4):31-33.

[3]毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.

[4]贾丙静,吴长勤,王传安,等.Web日志预处理技术探析[J].电脑知识与技术,2011(10):2222-2223.

[5]李祝启,陆和健,申林.政府网络舆情日志大数据挖掘实证研究[J].情报科学,2014(11):58-61,132.

[6]郑喜文,郑昌兴,王文龙,等.构建数据仓库过程中的数据清洗研究[J].图书与情报,2013(5):22-28.

[7]孙海军.基于云计算的Web数据挖掘的研究[J].智能计算机与应用,2014(5):103-104.

[8]李书宁.网络用户信息行为研究[J].图书馆学研究,2004(7):82-84.

[9]房艳焱,余锦凤.SPSS在数字图书馆用户数据分析中的应用[J].图书情报工作,2005(12):89-92.

猜你喜欢
访问量鞍山师范学院
遵义师范学院作品
通化师范学院美术学院作品选登
鞍山嘉阳重工科技有限公司
鞍山地区不可移动文物保护工作的思考
鞍山烈士纪念馆
洛阳师范学院
寻找最美校园 牡丹江师范学院
等比数列前n项和(一)教学纪实
高职院校图书馆电子资源中数据库的使用情况分析
如何做好搜索引擎优化(SEO)提高新闻网站访问量