面向科研的高校图书馆电子资源使用统计模式研究

2017-11-22 11:42武群辉何胜冯新翎柳益君周兵
新世纪图书馆 2017年11期
关键词:电子资源高校图书馆

武群辉+何胜+冯新翎+柳益君+周兵

摘 要 高校图书馆电子资源使用统计对于科研个性化服务、统计数据共享以及科研决策具有重要意义,图书馆基于“实名认证”和“IP映射”并结合旁路镜像方法采集用户访问电子资源的行为数据、在Hadoop云平台上进行挖掘和分析,为科研用户提供大数据环境下的个性化服务,为科研团体和管理部门提供宏观层面的数据分析结果。

关键词 高校图书馆 电子资源 科研服务

分类号 G250.73

DOI 10.16810/j.cnki.1672-514X.2017.11.011

Research on the Scientific Research Oriented Usage Statistic Pattern of Electronic Resource in University Libraries

Wu Qunhui, He Sheng, Feng Xinling, Liu Yijun, Zhou Bing

Abstract The usage statistic of university librarys electronic resource has important significance in personalized service of scientific research, statistical data sharing and scientific research decision. The library collects the users behavior data of accessing to electronic resource, analyzes and mines the data on the Hadoop cloud platform based on real-name authentication, IP mapping and bypass mirror to offer personalized service for researchers in the big data environment and the macro level results of data analysis to the scientific groups and administrators.Keywords University library. Electronic resource. Scientific service.

随着教育部有关建设“双一流”大学纲领性文件的发布,为科研人员和管理机构提供科研资源服务的图书馆已然成为支撑高校科研的关键部门之一[1]。

大数据环境下,高校图书馆的电子资源无疑发挥了巨大的作用和价值。同时,电子资源使用设计数据也不容小觑,其价值也将对高校科研产生了影响和价值[2],然而来自于不同客户端的用户日志以及各类以数据库为主的电子资源的数据呈现来源分散、格式多样、增长迅速和体量庞大的特征,给数据采集、分析统计和科研决策带来诸多困难;另外,当前以数据商统一提供的基于Counter標准[3](Counting Online Usage of Networked Electronic Resources,在线网络电子资源使用统计) 的电子资源统计数据的方式也存在诸多缺陷[4],无法满足新形势下科研服务的要求。本文拟针对国内外相关领域的研究现状,密切结合大数据环境下高校科研需求,提出一种电子资源使用统计新模式。

1.1 图书馆电子资源使用统计研究现状

国内外专家学者对图书馆电子资源使用统计进行了多角度的研究和应用尝试。当前国外基于Counter标准的电子资源使用统计数据获取主要依赖于数据库商,如ScholarlyStas、360 Counter等系统都是基于数据库商的数据进行分析统计[5-6];A. Coyners认为基于电子资源统计数据的分析能够帮助提升用户服务质量和水平[7];通过对电子资源统计指标的分析,J.C.Bertot着重探讨了电子资源的质量、被访问的次数与用户科研领域和偏好等个性特征之间的关系[8]。国内学者的研究主要集中在应用领域。钟克吟利用ASP技术开发图书馆电子资源读者访问流量统计分析系统来提高数字资源服务效益[9];王政军等人提出基于旁路监听技术的图书馆数字资源绩效分析的设计思路和方案,通过记录用户对电子资源的访问下载情况而实施资源访问监控 [10];周欣等提出基于用户日志进行数据采集和数据挖掘的方法,构建用户行为分析系统模型[11]。

总体看来,国内外学界的研究主要集中在两个方面:一是从理论上探讨基于Counter标准的统计报告提供用户服务的方式和方法,尤其偏重从宏观上分析图书馆使用电子资源的绩效及其评价问题;二是从实践角度探讨如何从基于Counter标准的统计数据(如电子资源的访问、点击和下载次数等) 中分析用户访问行为并设计相关技术方案,但是鲜见以高校科研需求为立足点,并结合大数据复杂环境,提出针对当前科研服务问题的电子资源使用统计的综合性方案。

1.2 高校科研的电子资源使用统计需求

一般而言,与高校科研密切相关的用户有三种,一是科研用户,即科研一线的研究人员,往往面临着繁重的科研任务,长期从事撰写论文和完成研究课题等科研活动,需要及时、精准查询和下载科研相关电子资源;二是与科研相关的团体,如科研人员所在的团队(院系) 和提供科研服务的图书馆,科研团队领导需要及时了解各成员的研究进展、研究状态以及某领域的科研前沿等,因此经常需要共享能反映团队科研状况的统计信息。图书馆的学科馆员希望能通过技术手段依据科研用户的日志分析科研人员动态、多变的科研需求,及时为用户提供满意的个性化信息服务;三是科研管理部门,需要及时了解电子资源的使用动态和使用效率,对电子资源的采购提出建议并进行决策。endprint

2.1 电子资源使用统计模式总体框架

当前,图书馆拥有的电子资源主要包括数据商的专业数据资源、互联网免费资源以及图书馆自建资源,呈现数据异构、多类型和体量庞大的大数据特征,图书馆如何从海量数据中采集日志数据,并进行挖掘和分析以支持科研用户的个性化服务,以及为相关科研团体和管理部门提供知识共享和高效决策支持是高校图书馆电子资源统计服务面临的重大任务。为了能全面服务高校科研,本文提出一种面向科研用户、科研团体和科研管理部门的电子资源使用统计模式。模式框架如图1所示,(1) 图书馆基于“实名认证”和“IP映射”并结合旁路镜像方法,自主采集用户访问电子资源的行为日志,采用大数据技术挖掘和分析后,为科研用户提供个性化服务;(2) 对来源于数据商的基于Counter标准的电子资源统计报告进行融合和汇总分析,为科研团体和管理部门提供宏观层面的数据服务和决策支撑。

3 电子资源使用数据采集模式

电子资源使用数据的采集模式包括两种方式,即由图书馆自主采集科研用户的使用日志和数据库商统一提供的电子资源使用统计报告,以满足不同用户的需求。

3.1 基于实名认证和IP绑定并结合旁路镜像监听采集用户行为日志

如图2所示,电子资源访问包括远程和本地两种形式,而用户类型有校内、校外和手机用户三种。除了校内用户访问本地电子资源是通过IP授权方式以外,其他各类访问都是采用实名认证的方式。因此,对于实名认证方式,可以针对科研用户的实名帐号从校园网络出口(用于远程电子资源) 和校内交换机(用于本地资源) 的网络流量中精准抓取用户访问日志[12];对于IP授权方式,需要将科研用户的帐号和IP映射后绑定,以获取科研用户个体的日志数据。

采集技术主要应用旁路镜像监听方法,如图3所示,利用校园网出口或校园网内交换机端口的镜像功能,将采集设备以旁路方式连接加以采集:依据相关采集参数(数据库名、资源URL和IP地址、科研用户帐号等) 过滤网络镜像数据流,将结果传输到数据统计服务器上。这种旁路方式的优点是在不改变校园网的原始架构和不影响校园网络速度和性能的基础上,得到真实有效的用户日志数据。由于各数据库的多源、异构以及采集过程中难以避免的错误,这些日志数据一定程度上含有噪音,需要进行清洗,即使用相关工具(如Extraction Transformation and Loading,抽取、轉化和装载工具) 检查数据并除去数据中所有明显的重复、错误和不一致[13]。

3.2 基于Counter规范由各数据库商统一提供远程电子资源使用的统计报告

为帮助图书馆获取可靠、一致和兼容的电子资源统计标准,Counter项目组自2002年以来发布了《Counter期刊和数据库实施规范》,目前已经升级到第四版(Counter R4),该规范明确定义了包含在线期刊、数据库、在线图书及多媒体等电子资源使用的统计规范,例如规定统计的关键指标应包含“登陆次数、检索次数、全文下载量和拒绝访问量”等[14]。Counter规范目前获得了大部分国际著名数据库商的支持,图书馆在使用这些外文数据库时,可以通过标准的收割接口SUSHI(Standardized Usage Statistics Harvesting Initiative) 获取统计报告。

Counter采用统一的指标和规范提供面向宏观层面的统计报告,如某用户(指购买该资源的图书馆所在高校的所有用户集合) 在某一时间段访问该数据库的请求量、全文下载(被拒) 量等,有利于科研团体或管理部门掌握宏观统计数据。但Counter也存在缺点,主要在于:①只能获取各数据库商提供的统计报告,而对各图书馆的馆藏资源和免费资源的使用情况无能为力;②Counter报告只能从宏观上给出所有用户访问该数据商资源的统计数据,无法提交面向科研个体的细致的“内容级/用户级”的报告,用于满足用户个性化的要求;③另外国内的数据库商基本不支持Counter 计量标准[4]。

由于采用“实名认证”和“IP绑定”方法,图书馆能够方便地采集包含国内外各种类型资源以及面向用户个体的用户日志,能够弥补Counter规范的上述缺点,因此将上述两种方法结合起来,即以图书馆自行采集数据服务于科研用户,以数据库商的统计报告服务于科研团体的共享需要和管理部门的宏观决策,可以全面满足各级科研用户的需求。

4 数据分析和统计模式

4.1 设计关键数据表

为方便对用户日志挖掘、分析和统计,需要设计结构化的数据表格,如表1所示。其中“科研用户身份信息表”描述各类科研用户实名认证信息;“科研用户访问电子资源日志表”描述科研用户访问电子资源的个性化行为,存放清洗后的用户日志用于“内容级/用户级”的分析和挖掘;“电子资源访问日志汇总表”来源于各数据库商的统计数据,存放融合和集成后的宏观统计信息。

4.2 用户使用行为日志数据的统计和分析

对上述表格以设定的键值关联连接后的海量日志数据,应用Hadoop云平台和MapReduce分析框架进行统计分析,形成“内容级/用户级”的分析结果,主要包括:用户单位时间内(按年、月、日或自定义时间)访问的数据库(电子资源)的名称;自定义时间段内访问电子资源的排名;各电子资源的访问次数排名,访问频度分析,数据全文下载量(被拒率);检索词类型,检索词学科分布情况,检索的命中率;以及按用户部门、职称、身份类型等条件分组的用户群使用电子资源的统计数据等。通过聚类算法和关联规则算法(如Apriori和FP-Tree算法等) 发现潜在的科研团队群体、新的科研热点以及某一学科的科研主题的演化路径和规律等。

4.3 来自于数据商的电子资源访问日志统计和分析

应用SUSHI接口从各数据商收割到的Counter R4规范的统计数据一般以XML文件和报表的形式存在,由于数据商来源不同,这些数据需要基于XML和元数据技术融合和汇总,以服务于科研团体和管理部门。主要表现在统计电子资源的利用方面,如各数据库单位时间内(或自定义时间)被访问次数,被下载全文的篇数以及按数据库利用率排序(检索次数、下载全文篇数)以及购置经费排名等,以图、表等数据可视化形式展现。endprint

5 电子资源使用统计系统服务平台功能

建构于数据分析和统计基础之上的系统服务平台是科研用户进行数据消费的主要接口,提供以下功能。

(1) 科研用户个性化服务。基于用户行为分析的个性化服务是当前大数据环境下缓解“信息过载”的有效手段。科研用户可以主动获取个性化的信息检索和资源推送信息,查看本人电子资源使用记录、相关的检索词、下载量等统计数据;另外,系统通过对科研用户使用电子资源的数据进行跟踪、比对、分析和预测,结合每位科研用户个性化特征和科研需求,实施学科知识和资源信息的主动推送,提供个性化和人性化的科研信息服务[15],达到提高科研效益的目的。

(2)统计数据共享和科研决策服务。高校图书馆、各科研团体和管理部门是科研活动的深度参与者,在科研支持、组织和决策等方面发挥着主要作用。因此在系统中设定包括图书馆、各科研团体、科研管理多部门和多级别(用户/管理员)的数据共享权限,最大程度发挥电子资源使用统计的作用。具体表现在:图书馆利用统计系统的数据共享功能,掌握电子资源采集、分析、统计、推送等统计数据,并对各数据库进行评估,结合学校学科发展的特点和趋势,优化电子资源建设;科研团体和管理部门可以实时获取分析各部门、各学科、各级职称人员使用电子资源的对比数据,以此为基础调整科研资源分配、制定相关科研政策,从而达到优化高校科研环境,提升高校的科研水平的目的。

参考文献:

1黄红华,韩秋明.澳大利亚大学图书馆科研支持服务研究[J].图书馆建设,2016(3):55-60.

2曾尔雷.电子资源使用统计的应用实例研究[J].图书馆杂志,2007(6):26-29. Counter. Release 1 of the counter code of practice for books and reference works[EB/OL].[2014-08-29].http://www.projectCounter.org/cop/books/cop_books_ref.pdf.

3朱玲,崔海媛.高校圖书馆电子资源使用监控与统计系统数据获取质量评估方法探讨[J].图书情报工作,2016(5):51-57.Counter code of practice[EB/OL].[2012-02-05].http://www.projectcounter.org/.

About ScholarlyStats[EB/OL].[2012-03-15].http://www.Scholarlystats.com/sstats/default.htm.

CONYERS A. Building on sand:using statistical measures to assess the impact of electronic services[J].Performance Measurement and Metrics,2006,7(1):37-44.

BERTOT J C. E-metrics and performance、 indicators: availability and use[M]//Planning and Evaluating Library Networked Services and Resources. Westport: Libraries Unlimited Inc, 2004: 94-126.

4钟克吟.图书馆数字资源访问流量统计分析系统的设计与实现[J].现代图书情报技术, 2008(1):91-94.

5王政军,董晓梅,俞小怡.基于旁路监听的数字资源评估系统的设计与实现[J].图书情报工作,2015(9):52-57.

6周欣,陆康.基于图书馆数字资源访问系统的读者行为数据挖掘研究[J].现代情报,2016(1):51-56.

7韩佳.基于用户使用行为分析的数字资源管理评估系统[J].图书馆学研究,2016(3):19-23.

8王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013(6):1125-1138.

Counter.Release 4 of the counter code of practice for e-resources[EB/OL].[2014-08-29].http://www.projectCounter.org/r4/COPR4.pdf.

9袁红军.学科服务中学科馆员的知识流动模型构建[J].图书馆学研究,2016(10):66-70.endprint

猜你喜欢
电子资源高校图书馆
关于少数民族师生数据库利用情况调查研究
图书馆数字资源评价指标权重赋值方法概述
图书馆纸质资源与电子资源最优配置研究
高校图书馆阅读推广案例分析
微信公众平台在高校图书馆信息服务中的应用研究
高校图书馆阅读推广活动研究
试论高校图书馆在网络环境冲击下的人文建设
高校图书馆阅读推广实践探讨
高校图书馆电子资源的宣传与推广
河南省本科院校电子资源建设与利用状况研究