吴长征
(安徽警官职业学院图书馆 安徽 合肥 230031)
信息化时代,复杂多样、海量的数据正在扩展其规模,分析处理数据信息存在愈来愈高的难度。近年来,大数据技术的兴起引发各领域的密切关注与深入研究。针对图书馆来说,对已有的与刚产生的信息数据进行分析存储,并将有用的或有价值的信息提取出来,最大限度地满足用户的信息需求与知识需求,直接关系到图书馆的生存发展。为适应社会信息生态的发展变化、提高图书馆的核心竞争力,需为挖掘处理数据提供一个强大的技术支撑,这就是大数据技术[1-4]。将大数据技术运用于图书馆中,能在很大程度上对图书馆所提供的服务内容进行延伸拓展,对图书馆的服务有效性进行强化,并提升用户满意度[2]。
图书馆中的数据大体上包括资源数据、用户数据、业务工作数据与其他数据。其中资源数据可分为采购数据库、纸质文献、电子文献、光盘等;用户数据除了用户的基本信息外,还有图书馆资源使用数据,比如书刊的借阅、浏览网页的痕迹、数字图书馆使用记录,以及参加图书馆开展的活动后所产生的数据;业务工作数据指的是在业务培训、采编、咨询等工作方面产生的信息数据;监控、网络监测、电子终端设备等所产生的数据也是图书馆数据的一部分。大数据技术作为分析、处理与应用数据的重要手段,其在图书馆中的应用逻辑架构大致分为以下几层:数据采集与预处理、数据存储、数据计算与挖掘、数据检索与利用。
数据的来源是多种多样的,故数据格式或存在形式也有所不同,大致分为结构化数据、非结构化数据、半结构化数据[3]。(1)结构化数据。其是整齐格式化的数据,可用二维表结构进行逻辑表达,可被放入表格或者电子表格中,由关系数据库进行存储和保管,而且使用结构化查询语言(SQL)可搜索到这些数据,便于被人们运用。对于这一数据类型,可以运用批量采集的方法,比如用户的信息等。(2)非结构化数据。非结构化数据不易格式化、字段可变,是不符合统一模式的数据,不能用二维表进行表达,由非关系数据库进行存储,而且需使用非结构化查询语言(NoSQL)来查询。在所有的数据中,非结构化数据所占比例可达90%,比如图像、声音、视频以及用户社交信息等。对于这一数据类型,可采用实时采集的方法。(3)半结构化数据。半结构化数据尽管具有结构,但不便于模式化,没有关系性,可被存储于某个指定的关系数据库。这种类型数据包括XML、JSON等,对其可用实时采集的方法。一般来说,计算机系统会自动部署采集图书馆中的各类型数据,然后将采集的原始数据进行预处理,通过加工、转换、集成的方式,使数据变得适于分析与挖掘,比如针对通过实时采集方法获得的数据,可用Flume进行预处理。
也就是通过云存储、HBase等手段将预处理后的数据进行存储。对于图书馆来说,确保数据得到有效存储是能提供给用户信息服务的前提。以列式HBase存储方式为例,这种存储方式能将同列数据保存在一起,当用户想要读取数据库中的几列数据时,不必从全部数据中进行查询,而是以列为索引来查找数据即可。这种存储方式多用于存储非结构化数据和半结构化数据。由于图书馆中的数据量非常庞大,为实现对数据快速高效的查找,列式HBase分布数据库具有明显的优势。
图书馆中的数据具有多样化的形态,故分析计算的方式各异,且有待我们深入探究。比如可通过MapReduce分布式并行计算框架或者Spark基于内存的分布式计算框架实现对静态数据的分析处理,通过Pregel图计算框架实现对图结构数据的分析处理,通过Storm流计算框架实现对网络监测流数据的分析处理等。目前数据网络挖掘、特异群组挖掘等数据挖掘技术以及大数据融合技术还有待进一步开发。对数据进行分析、挖掘与提取的整个过程,是在集群分布式监控下完成的。
对于处理好的、有用的信息数据,用户可通过搜索界面来获取,从而解决信息、知识等方面的问题。
结合图书馆的发展规划与学科专业需求,可运用大数据技术准确、科学地制定一套采购计划,促进图书利用率的提升。了解已有的馆藏资源,对服务器中的用户请求数据信息进行收集,并且获取其他图书馆借阅书目的信息,以及销售商的图书销售情况,从而提前列出图书采购清单。然后将订购的图书送到样本库,分析统计图书的查找率与借阅率,再针对图书的流通情况推断用户需求量,进而明确增订图书复本,从而避免图书资源的浪费,加快图书的流通,也在很大程度上提高图书馆采购经费的使用效益,并为给用户提供更好地服务奠定良好的基础。
基于图书、用户与知识等三个层面,通过大数据技术分析用户的服务需求、知识需求等,从而精准地预测图书馆的未来走向。从图书的角度出发,图书馆通过收集用户的访问查找数据、历史借阅信息、系统日志数据以及阅读习惯等形成建模,对用户的潜在阅读需求进行深入挖掘,对其阅读偏好进行准确的分析推测,然后向用户推送相关书籍及馆藏信息。倘若有的用户没有偏好记录,则可有针对性地推荐给用户所需书目。从用户的角度出发,图书馆可利用大数据技术建立用户分类模型,形成一个可描述读者各方面情况的数据库,从中提取用户群体的属性,并按照年龄、性别、知识背景、受教育程度、专业特点、职业等因素进行细分,然后对不同层次用户的需求进行分析,且采用定向服务,使用户获得精确地结果,从而提高图书馆服务效率。此外,还可结合用户的图书借阅历史的重合度,利用推荐系统寻找相关性读者,并根据相关读者的阅读偏好来推荐书籍。从知识的角度出发,推荐系统通过分析用户的借阅数据,推测某一图书与用户需求之间的关系,从而获取用户在某研究领域的潜在的专业知识需求。比如对于科研人员来说,大数据技术可以帮助其分析出该领域与相关领域的研究进展情况,以及最新的科研成果与科研发展方向,从而使科研人员做出正确的科研决策。
大数据技术可使用户的咨询避免受到时间和空间的影响,实现用户与图书馆员之间的个性化互动,这样便深化了参考咨询服务的层次。总体分为三种情况:一是用户可以在图书馆咨询平台中直接提问,平台将用户请求的信息传递给图书馆员,然后图书馆员会通过微信微博等途径来回答用户的问题,从而实现有针对性地、高效的实时咨询服务。二是将多个图书馆的人力资源、文献资源进行整合,形成一个体系,倘若其中一个图书馆不能解答用户提出的问题,图书馆平台对关联的其他图书馆进行搜索,并寻找帮助,从而实现联合式的参考咨询服务。三是图书馆会提前对某些问题的解答进行整合与收录,用户可借助服务平台进行搜索,平台会对各种问题进行筛选,直至用户找到所需答案,这样便实现了用户与图书馆员之间的非即时性互动。即使用户不满意所获得的答案,也能以电话、电子邮件的形式咨询图书馆员。
随着科学技术的更新与飞速发展,大数据技术的出现为图书馆发展带来了新的契机。大数据技术可以帮助图书馆有效存储庞大的信息数据量,从海量信息中挖掘、提取出有价值的信息数据,同时可以深入了解用户需求,强化对用户的针对性、个性化服务,对知识分享的方式方法进行优化,从而为图书馆未来发展指引方向,提升图书馆的综合实力。