任党利
(西安建筑科技大学图书馆 陕西西安 710055)
在大数据环境驱动下,高校数字图书馆、智慧图书馆蓬勃发展,高校图书馆在日常文献资源服务及学科服务过程中,产生了大量的馆藏数据、业务数据、用户信息数据、用户行为数据、使用数据及管理数据等。这些数据对于图书馆深入了解自身馆藏建设、空间资源、用户信息与用户行为、馆员工作效率、图书馆系统运行情况等具有重要的实证价值。高校图书馆通过解析和提炼这些原始数据,能够获取大量有深度、有价值的数据信息,以这些指标数据为指导,能够实现“数据驱动”下资源建设结构的优化、空间服务质量的改善、个性化服务的精准性提高,也能够为图书馆进行功能转换设置、服务模式调整、创新服务的未来分析与发展规划提供数据支撑。
经文献研读,目前国外高校图书馆对于数据管理研究主要集中在以下方面:①高校图书馆数据管理馆员的素质和技能培养;②高校图书馆数据管理与分析在实践中的应用、决策支持和数据服务;③高校图书馆数据管理与分析平台的技术构建、技术指标等。
学者Renwick等人研究指出:管理研究数据已经成为许多大学的一个问题。在加勒比海地区,西印度群岛大学圣奥古斯丁校区的图书馆在这方面非常支持研究人员,目的是找出目前管理校园研究数据的做法,并确定校园图书馆可能发挥的作用[1]。学者Kim JiHyun研究分析了北美121个大学图书馆中51所提供的记录数据管理(Research Data Management,RDM)培训项目的内容,并从结果中得出数据馆员培训的方法、教程和期望达到的效果[2]。学者Kim Seonghun等人进一步指出,RDM服务中考虑的关键因素应该包括以下因素,即研究服务与研究数据管理服务之间的联系;国家、大学、机构之间的协议;元数据输入人员和所需要素;提供专业人员的战略;通过用户需求分析选择主要服务领域;效果研究数据与研究成果之间的相互联系;与用户及相关组织密切合作[3]。学者Lassi Monica等人进行了一项探索性的研究,研究人员在两所瑞典大学进行有效的研究数据管理,以便为研究数据服务的持续发展提供信息,关于主题元数据的附加问题表明了指导研究人员用足够的元数据描述其数据集的服务需要[4]。学者Lai MeiChi等人开发了一套将数字数据转换成信息的系统,提出了基准论和基于知识的系统的集成框架,包括数据库管理子系统、模型库子系统、知识获取子系统和对话子系统。在模型库中使用DEA模型,包括CCR和BCC模型,以期对图书馆的运作效率有准确认知,对图书馆发展方向和决策作出指导[5]。在实践方面,休斯顿大学数字图书馆2015年成立了一个数字资产管理系统(Digital Asset Management System,DAMS)实施工作组,在系统安装、数据迁移和接口开发方面做了深度研究,以探索、评估、测试、推荐和实施一个更强大的数字资产管理系统。这个系统可扩展和互操作,推动了数据间的无缝访问,扩展了数据管理[6]。
经文献梳理,国内高校图书馆数据管理研究主要有以下方面:①大数据技术和数据挖掘技术在高校图书馆数据管理及数据分析中的应用;②综述国外数据管理与数据分析实例,对国内高校的启示;③高校图书馆数据管理馆员的培养、数据分析及数据服务。马晓亭构建了采用多层次系统结构的图书馆大数据资源整合平台的框架[7]。国内学者Chen Min等人探讨了图书馆大数据如何存储、数据如何挖掘及如何实现个性化服务等具体技术,提出“Hadoop+MapReduce”并行架构的大数据存储和应用方案[8]。周晓燕、尹亚丽通过调研国外高校图书馆具体数据服务人才招聘岗位的数据,分析社会对科研数据服务人员的知识结构和技能的最真实需求和要求,从而总结出大数据时代国外高校图书馆科研数据服务人员的知识结构和岗位职责[9]。司莉、曾粤亮通过分析国外高校科研数据管理领域关注的课题,针对我国目前研究现状,认为未来高校图书馆数据管理的研究重点应关注机构科研数据知识库(Institutional Research Data Repository,IRDR)理论研究的系统化、平台的建设与管理、面向科研人员服务的开展、知识产权研究及联盟机制的深入探索[10]。在实践方面,国家图书馆2016年建成基于读者与资源核心业务系统的图书馆大数据平台,应用该平台采集数据,并通过一系列分析法,对国家图书馆的用户群体、服务方向、资源利用情况进行数据分析[11]。
高校图书馆数据按照数据源可分为:①用户数据。用户数据是指用户在图书馆集成系统里注册的个人信息等。②资源数据。资源数据包括馆藏纸质图书资源、纸质期刊资源、光盘、报纸等有形资源及数字化资源。数字化资源包括引进的电子图书、期刊等资源;还包括空间资源、座位资源、设备资源。③业务数据。业务数据包括图书馆员在图书管理集成系统里的所有操作流程数据,如图书和期刊的征订、编目、典藏等,以及数据库采购、发布数据等。④使用数据。使用数据包括高校图书馆用户借阅图书、还回图书、委托图书等数据;用户在图书馆OPAC(Online Public Access Catalog,联机公共检索目录)、图书馆微信公众号、图书馆微博产生的图书荐购等数据;用户访问图书馆主页产生的访问、浏览数据;用户使用图书馆空间产生的入馆、座位预约、选座、研讨空间使用数据等;用户使用图书馆数字资源产生的访问、检索等数据。⑤管理数据。管理数据包括图书馆内部的人员数据、财务数据、资产数据等。各类型的数据来源如表1所示。
表1 高校图书馆数据类型及数据来源
从表1看出,高校图书馆数据具有3个显著特点。
(1)数据类型具多源异构性。高校图书馆馆藏资源种类和形式丰富,每种载体的文献有不同标准的数据统计方式。数字资源来源于各个不同的数据库商,使用数据统计的标准和方式各有不同。高校图书馆集成管理系统子系统众多,业务精细繁琐,操作会产生大量的业务数据和日志数据。由此可见,高校图书馆产生的数据既有结构化数据,也有日志文件、XML文件等半结构化数据,还有很多文本类非结构化数据。
(2)数据量庞大繁琐。高校图书馆工作是一个日积月累的过程。经过多年的资源建设、业务管理、信息服务,每个高校图书馆都拥有大量的馆藏资源数据、业务运行数据、用户信息数据、用户行为数据、资源使用数据、系统日志数据、科研数据、管理数据等。这些数据量庞大繁琐,需要进行统一的管理。
(3)数据量增长迅速。随着数字图书馆的广泛应用和发展,高校图书馆对数字资源愈加重视。基于物联网、移动技术的资源在线访问、下载,以及基于社交网络的信息服务和学科服务的开展,高校图书馆资源数据、业务数据、使用数据成倍增长,贡献了大量在线、实时数据,加速了图书馆各类数据的生成[12]。
高校图书馆的数据具有类型多源异构、数据量庞大繁琐、增长迅速的特点,这呈现出大数据的部分特征,可以利用大数据一些专业技术手段进行管理。本文尝试以BI(business intelligence,商业智能)技术搭建数据管理与分析平台,系统架构如图1所示。高校图书馆可以利用数据管理与分析平台链接各数据库、数据仓库,管控、整合、清洗高校图书馆工作中产生的数据。高校图书馆要抓取有价值的数据,必须先梳理数据源,确定核心数据采集点,进行数据的有效采集。数据采集后需先进行数据整合,多维筛选,聚类分析。利用BI技术搭建的数据分析结构平台针对不同的用户需求(初级数据分析用户、深度数据分析用户、查看数据分析结果的用户)提供各个层面的数据,这样能在很大程度上提高工作效率,优化协作方式,深层次挖掘数据的价值,并能针对不同的用户层次提供不同层次的数据。
图1 数据管理与分析平台架构图
2016年,借鉴耶鲁医学图书馆期刊数据管理实践经验,西安建筑科技大学图书馆(以下简称“我馆”)对历年来积累的中文电子期刊和中文纸质期刊的资源数据、用户数据、使用数据等进行数据采集和数据整理,试图通过数据分析和数据挖掘,对我馆期刊工作做一些调整,建立新的期刊资源建设体系。
期刊的数据采集主要从我馆应用的汇文图书集成管理系统以及我馆引进的电子期刊数据库CNKI、万方以及维普进行数据源收集,核心数据来源及数据采集内容如表2所示。根据表2将所有期刊数据源逐一梳理,采集我馆目前所有的馆藏纸质期刊数据、引进的电子期刊数据、用户信息数据,并按照年度量和总量分为纵向和横向数据,分别进行汇总。整理的数据如表3所示。
我馆成立了一个期刊数据管理与数据分析小组,借助利用BI技术搭建的数据管理与分析平台,将同类数据进行比对,深度挖掘数据价值,分别分析用户信息、用户行为信息、纸质期刊和电子期刊的投入以及产出效益、空间效益等。根据数据分析结果对我馆期刊工作做了极大的调整,从以下方面优化了我馆期刊工作,取得了良好的效果和收益。
2016年,我馆针对目前使用广泛的CNKI中国学术期刊(网络版)、万方中文期刊、维普中文期刊作了各项技术指标数据的比对和分析,分别从期刊收录数量、期刊回溯年限、期刊学科分类、全文文献数量、重复期刊数量、收录核心期刊的种数、核心期刊的收录年限、拥有独家授权期刊数量、拥有优先出版期刊数量等进行了数据分析,并结合2013—2016年我校用户对各数据库的访问数据和下载数据,我馆调整了中文电子期刊采访策略,只订购更适合我校用户使用的CNKI中国学术期刊(网络版),这极大改善了我馆电子期刊重复建设问题。
我馆对纸质期刊和电子期刊资源种类和收藏年限进行了数据分析,发现学术期刊方面,电子期刊已经完全囊括了纸质期刊馆藏。通过用户数据分析,入馆阅览期刊的89.1%为本科学生,且阅读方向集中在基础学科学习、文学文艺类期刊,专业学术期刊的需求很低。而对于硕博士研究生和教职工而言,面对教学和科研压力,他们更习惯通过数字图书馆获取学术期刊。以用户需求和期刊效益为依据,我馆在纸质期刊采购方面调整了策略,结合西安建筑科技大学学科布局、教学安排等核心因素,调整期刊组成结构,突出重点学科和一流专业,筛选具有本馆特色和利用率高的纸质期刊继续订购,停订了987种纸电同步、借阅及复印率低的纸质期刊。这在很大程度上节约了资源经费,避免了资源重复建设,并释放了大量的物理空间和存储空间。
表2 期刊数据来源
表3 采集的期刊数据表
在期刊管理工作中,实现电子期刊和纸质期刊从概念到实体的整合工作,向学生展示我馆纸质期刊征订目录和电子期刊征订目录。期刊阅览室安放电子设备和打印机,学生可以在这里阅览纸质期刊,也可随时浏览电子期刊和图书馆其他资源,还可以进行多人协作式网上学习,方便了期刊资源的使用,充分利用了空间资源。
我馆经过期刊数据管理和分析,对纸质期刊不再做装订成册处理工作。如果用户对过期期刊有需求,工作人员可以协助其下载电子资源或通过文献传递获取资源。这项举措释放了很大一部分劳动力,节约了馆内经费,消除了僵死资源,避免了资源重复建设,加快了期刊流动,提高了期刊的利用率。
我馆通过培训、筛选,推行学科馆员制度和数据馆员制度,进行学科嵌入式服务和个性化服务[13]。对图书馆产生的数据进行分类管理、分析、深度挖掘工作,定期以分析报告和报表的形式呈现数据成果,为馆里重大决策提供数据支撑,为图书馆的资源建设优化提供数据支持,为学校的学科建设和科研教学提供数据服务。