高校图书馆对于编目数据的规范和分类有着较多的研究和实践应用,传统概念中的图书馆数据也以编目数据为主要内容。随着计算机和网络技术越来越多的应用于高校图书馆,高校图书馆的各类业务系统越来越多,数字化资源越来越多,各类业务系统产生和积累的数据量越来越大,数据类型越来越多,早已远远超出编目数据所能覆盖的范围和规模;尤其是近年来随着大数据理论发展和应用范围的不断扩大,高校图书馆也在不断探索和应用大数据来提高服务水平和扩大服务范围,不少高校图书馆已经在提供年度的数据报告,馆内业务的发展和馆外服务需求的多元化都对图书馆数据的规范化和标准化管理及应用提出了更高的要求。
数据已成为当今社会发展进程中最重要资源的之一。高等院校图书馆理应抓住技术发展的契机,挖掘数据价值,让数据红利最大限度的释放出来,从沉淀的数据中发现有价值的信息,深入挖掘、综合利用、转化为知识,才是信息系统真正价值的体现,而这方面可拓展的空间几乎是不可限量的[1]。
高校图书馆日常工作与读者服务中产生的各种数据,已经成为其转型、创新的最为可靠的信息源和决策依据之一。网络信息技术的飞速进步以及其不断深入的融入图书馆各类业务中,既增加了高校图书馆数据的存储量也加快了数据流动的速度,给图书馆的数据管理和统计等工作增加了的难度。门禁数据属于图书馆的基础数据之一,门禁数据中的读者进出馆记录是读者到访图书馆最直观的反映,而进馆人次、进馆人数以及在馆时长则可以反映图书馆的利用效率和读者喜爱图书馆的程度[2]。对这个海量数据进行不同维度的统计分析,将对图书馆服务策略的制定有很大的指导意义[3]。
2019 年度,开馆共358 天合计5 370 小时(开馆时间7:00-22:00),有26 127 位读者2 083 731 次入馆,入馆读者类型分布情况如图1 所示,本科生占了入馆读者的80%以上。
图1 入馆读者类型分布
林大图书馆每天开馆时间为7:00-22:00(实际运行过程中,每天7:00 以前就开馆,闭馆也在22:00 之后),以平均数来衡量,如表1 所示(每个整点指的是此后一个小时的时间,比如6 指的是6:00-7:00 之间,其他以此类推),每天的7 点至9点、12 点至13 点和17 点至19 点为入馆高峰时间段,每天的10 点至11 点、16 点至17 点和21 点至22点为入馆的人次最少的时间段,就不同类型的读者而言,本科生读者的入馆时间分布与以上规律完全吻合,而研究生入馆的高峰时间段则更为集中,相对而言,教工读者入馆在每个时间段都比较少,对每个时间段的入馆总人数几乎没什么影响。
表1 每小时入馆人次统计表
在入馆高峰时间段,考验着门禁系统和设备的可靠性,也考验着图书馆的容纳能力和服务能力;在高峰时间段,人员配备上要有所侧重,一旦出现突发状况要及时处理;对于入馆读者而言,如果时间上没有要求,可以选择入馆人次少的时间段。
如图2 所示,一周中周五是本科生入馆最少的一天,而研究生和教工则是在周末入馆最少。除去入馆最少的一天,其余时间各类读者每天入馆人次较为均衡。
图2 一周内每天入馆人次统计
如图3 所示,各类型读者以月度入馆情况来看,有着明显的不同,本科生在11 月入馆人次最多,研究生入馆人次最多的月份是3 月,教工读者入馆最多月份在9 月,相对而言,寒暑假对教工读者入馆的影响没有学生读者那么明显。
图3 每月入馆人次统计
按年级统计,本科生15-19 级入馆人次分别是:202 017(上半年),752 491,411 132,233 925,125 222(下半年),高年级入馆人次明显更多一些,按月份统计,各年级入馆情况又有所不同,如图4 所示,毕业生(16 级)入馆高峰月份是9 月和11 月,而其他年级则是从9 月开始,每月逐步增多(10 月由于国庆假期影响,入馆总人次略有下降),到12 月达到最高峰,另外,6 月也是入馆高峰月。
图4 本科生各年级每月入馆人次统计
如图5 所示,经济管理学院的本科生入馆人次最多,其次是园林学院和工学院,马克思主义学院和草学院由于最近几年才成立,在校学生数量少,入馆人次也明显少。
图5 各学院本科生每月入馆人次统计
根据不同类型的读者在各时间段的入馆数据的统计结果,本科生、研究生和教工在一天内入馆时间分布基本相似;如果按照一周内的每天的入馆数据来观察,则本科生和研究生及教工有所不同,研究生和教工在周末入馆较少,而本科生则不然;按月份来观察,本科生、研究生和教工入馆高峰月份各不相同。
就本科生而言,越高的年级入馆人次越多,学院之间入馆人次差别比较大。
对读者入馆数据进行多种维度的统计和分析,会得到关于读者入馆的较为全面的数据和信息,将多维度的数据和信息进行更加深入的融合、处理和分析,将会为图书馆在提高服务质量、精准服务等方面提供良好的决策辅助支持。入馆数据信息除了可以应用在图书馆自身发展和完善方面之外,如果把更多类别的数据比如教务数据、一卡通数据等多种信息和入馆数据结合起来进行数据挖掘,将可以得到更多更有价值的数据规律和信息,为学校的长远规划和发展策略制订提供数据和信息支持。
要以数据为依托去规划和计划高校图书馆未来和业务,或者说在充分掌握和分析数据的基础上去考虑图书馆的业务和服务;无论拓展什么业务、提供什么资源、创新什么服务,要有数据依据,要考虑到数据的存储、处理和融合,要在大数据环境下进行思考、规划和行动。
图书馆的数据存在于不同的平台,依附于不同的业务流程,数据的标准、格式、类型、表现形式和存储结构千差万别。在现有技术条件下,完全收集、整理和处理这些数据是一件非常困难的事情[4]。宜制定合适的数据价值评估标准,将不同的数据赋予不同的权重,再按照其重要性进行排序与分类,将数据价值进行合理分布,也有利于收集核心数据。更方便后续收集、存储和利用数据。通常来说,图书馆的大数据采集要涵盖资源、读者、服务等主题,每个主题要有不同的属性特征。此外,要从大数据的角度出发,根据实际需求确定需要哪些数据、缺少哪些数据、哪些数据的精度还不符合具体实施的要求,主动地协同相关部门或者厂商来补充和生产这些数据,形成一个循环可持续发展的数据体系。
大数据背景下,图书馆的管理方式、工作方式发生了翻天覆地的变化,这要求馆员要能够在海量的信息中发现有价值的信息,对数字资源进行筛选、评估、判断、处理,同时也要求馆员具有一定的管理能力以及创新思维,这对图书馆馆员,特别是对于非图情专业人员来说,是一个巨大的挑战[5]。
在大数据时代,高校图书馆普遍面临的问题就是如何建设一支兼具数据管理能力和管理能力的馆员队伍,具体来说就是如何实现对具有传统知识结构的馆员进行全面的业务能力和素质提升。大多数高校图书馆不具备对馆员进行数据管理方面知识培训的设施及能力,对普通馆员而言,学习交流和深造的机会也比不多。
目前同时具备主动服务意识、数据处理和分析能力、开发隐性知识的能力、基本的专业学科知识、开拓创新能力的馆员少之又少,数据方面的高精尖人才相当匮乏;国内一些高校已经开展了多年的大数据硕士和博士的培养,高校图书馆应采取有力措施加强这类专门人才的引进;增强对高层次的专业人才、复合型人的吸引力,要加强这方面人才的培养和储备,不断加强人力资源建设,为高校图书馆的转型打下有力基础。
各高校图书馆的数据组成不完全相同,但有很多数据是属于高校图书馆都拥有的,比如数目数据、读者数据、电子资源数据、入馆数据等,对于这一类数据,各高校图书馆宜加强协作,形成统一的标准和规范,有利于数据的共享和利用,也有利于馆际之间横向比较,更利于各高校图书馆深度挖掘分析数据,制定符合本馆实际的发展策略。
要在具体业务和工作中运用大数据技术面临着不少的挑战,比如数据源、数据处理和分析的技术与人才,以及支撑大数据运行的设备、设施等,依靠本馆的力量来完成,对很多高校图书馆来说是非常困难的,即便图书馆联合起来,完成某些大数据的应用也有相当大的难度。所以不仅业内要联合,还要积极和技术厂商合作,不能仅仅局限与购买厂商的技术和设备,而是高校图书馆要积极参与其中,双方各自发挥优势来为读者提供更好的服务。另外,要和本校的相关部门加强合作,如教务处、科研处、研究生学院、学生处、规划处等等,多部门共享数据,协作共赢。
大数据的出现,彻底改变了我们对数据的传统看法与认识,很多有价值的信息和规律隐含在数据之中,通过对大数据的整理、提炼、分析、转化、应用,我们会找到隐藏在大量数据背后的世界,从而指导我们各项工作的努力方向,大数据的应用是多种技术和方法的高度集成应用,需要人工智能、数学算法、商业智能、自然语言理解、信息技术等多个跨学科领域的知识和技术。只有在实践中不断的摸索其发展规律、不断的积累分析,方能真正的挖掘出其隐藏的价值。
高校图书馆作为技术敏感度很高的机构,应持续关注技术发展,积极思考并尝试利用最新的信息技术尤其是数据技术来解决图书馆信息服务和资源发现中的各类问题,全面掌握和读者的行为数据,理解和发现读者的信息需求,以期获得新突破,完成高校图书馆从管理型图书馆向服务型图书馆的转型升级。
大数据时代一个显著的特点是开放性,在这个大平台上,数据是开放式的,资源也是开放式的,通过数据共享,图书馆可以确保其资源得到最大限度的利用,价值实现最大化,但同时,最大的安全隐患便是个人隐私受到了严重威胁[6]。
高校图书馆获取或者存储的所有与读者身份、读者行为相关的数据,一切以为读者提供更好的服务为目的,这也是唯一的目的,必须保障数据的完整性和安全性;图书馆在提供各种服务时,要充分考虑不同类型用户对隐私信息保护的不同诉求,为保护用户隐私提供安全、稳定和持续性的、可信的有力措施。