张 谦
(南阳理工学院 图书馆,河南 南阳 473004)
略论大数据时代下图书馆的发展趋势
张 谦
(南阳理工学院 图书馆,河南 南阳 473004)
分析了大数据时代下图书馆的数据资源采集、数据存储与分析、大数据应用等内容。认为大数据时代下图书馆服务在时空上将产生变革,打破时间和空间的限制,提供终年无休的全天候移动微服务。在服务形态上将实现从数据服务、信息服务、知识服务到智慧服务的变革。
大数据;图书馆;数据服务
大数据时代的到来极大地改变了以往图书馆的数据管理方式,在数据产生方式、数据组织、数据存储和利用等环节都发生了较大的改变。需要运用无偏性、关联性、开放性大数据思维构建图书馆大数据架构。要把大数据作为一系统工程来考虑,从数据采集,数据存储到数据处理,数据分析及数据应用等方面考虑,构成图书馆大数据架构。
2.1 图书馆数字化资源
在数字化建设过程中产生了多种多样的各种电子资源,如,学术资源数据库、电子书刊、图书馆数据库中的书目信息、多媒体电子资源等,给图书馆提供了海量数据。
在大数据环境下,图书馆应该重视新型资源的收集。特别是基于读者访问图书馆资源时留存下来的信息行为和社交网络时代产生和出现的大量半结构化和非结构化数据。图书馆的MARC(Machine Readable Catalogue,机器可读目录)数据,用户查询书目产生的OPAC日志,读者位置、读者的借阅记录,电子数据库的检索、浏览、下载记录等可以是大数据或者说将可能成为大数据。构建在web2.0技术上的、允许用户创建交换信息内容的社会化媒体资源成为大数据的一个重要资源类型,包括合作项目(如维基百科)、内容社区(如YouTube)、博客、虚拟游戏世界、虚拟社会世界、社交网站等。另外,图书馆与学校部门、学生团体、社会团体、出版社产生一定的联系。由此会产生活动开展、场地租借、广告承载、新书出版等具有一定潜在商业价值的信息[1。大数据环境下的图书馆将会更加重视利用这类信息结合其他类型的数据,形成新的信息情报研究服务领域。
2.2 数据资源共建共享与数据开放
图书馆大数据环境具有数据采集源单一、资源总量偏少、价值密度低、公信力差的问题。因此,如何破除大数据环境中原有的利益格局,实现图书馆内部系统、政府部门、合作服务商和社会团体大数据资源的全面开放与共享,是增强图书馆大数据资源的可用性、可控性、可检索性、可解释性、可再利用性、可被引用性、可管理与保存时效性的关键[2。为用户建立上传资源的通道,建立论坛、社区等馆员与用户、用户与用户之间的交互式共享平台。
大数据背景下需要图书馆改进存储技术,不断扩大存储容量、提高传输速率和增强计算能力。数据存储上采用能够适应数据量大和模式不固定的数据存储的分布式存储方式。
大数据时代下,数据处理面临着数据集成,大数据的统一及融合的问题。图书馆的数据已经具有大数据特点、其数据环境规模庞大、平台结构复杂,大数据分布在各个不同网络节点中。在大数据产生后面临着如何使各种数据和信息规范、统一的表示及和融合,构建文献与数字资源体系的问题。因此,要研究通过对海量的,来自异构资源的数据和各种对象数据进行抽取、映射、收割、导入等手段进行预收集,形成格式统一、内容丰富、结构清晰的数据,灵活构建各种分类和界面,按照知识本体进行组织和揭示,进而保障强大高效的检索能力和良好的结果相关度排序。在处理数据时,对平台的选择将从Oracle 、DB2 和SQL Server三大主流关系数据库转向能够处理复杂的结构化数据和非结构化数据的Hadoop 等平台。
现代图书馆除了提供文献借阅、信息咨询等传统服务,还开展了大量的讲座、培训、展览、学术交流、读者沙龙等活动。大数据时代下,图书馆需要综合运用广大图书情报界所熟知的聚类分析、数据挖掘、网络分析、可视化分析、数据融合与数据集成等技术[3。对这些活动中产生的大数据进行处理和分析,寻找读者的偏好信息,做到精确化管理策略以及更精确的个性化信息推送。
4.1 提供“一站式”全功能检索
面对庞大、复杂、异构化的数据,读者需要的是“一站式”全功能的数据检索平台。图书馆需要在信息集成和数据融合的基础上提供强大的可靠的、具有数据过滤和去重功能、拥有智能、自动化的数据搜索能力的搜索引擎。如陈臣设计的图书馆大数据搜索引擎(图1),由爬虫与索引器、查询器、HDFS (Hadoop Distributed File System)、Hbase、搜索管理平台五部分组成。具备快速响应和复杂查询、分析的能力。同时,可支持不同的大数据平台系统结构,具有较高的容错性、可扩展性和较低搜索延迟,数据接口开放并向下兼容性[4]。
图1 图书馆大数据搜索引擎
4.2 在信息传播方式上将依托物联网、互联网和移动通信
大数据时代下,各种移动终端的出现和被利用,人们能够在各种时间、各种地点获得收集信息,这需要依托融合的物联网、移动通信网以及互联网络进行信息传播,最终实现为用户提供电视、电脑、手机等多种终端的接收。并以人为本,依托技术在移动服务上进行创新。大数据对传统的移动服务带来巨大的冲击,这种冲击不是“量”上的普通叠加,而是“质”的飞跃,它从用户群的整合、数据的重构、服务模式的挖掘、检索方式的变化等方面,深深地影响了图书馆传统的移动服务。大数据下的图书馆移动服务将在以下几个方面进行创新,丰富多样的数据信息源整合、智慧化的移动服务门户、全功能的个性化服务展示、“一站式”的全功能检索、用户增值体验和推荐式的知识获取[5]。
4.3 主动提供针对不同读者的个性化推送服务
大数据时代下,读者的阅读行为、浏览内容和论坛及博客的评论等信息都能反映出其爱好习惯、阅读社会关系等等。而读者也有着快速获得精准信息的需求,因此,图书馆在大数据时代需要改变原有的发布统一的通知信息的推送服务方式,改善信息推送的针对性。图书馆提供个性化服务需要掌握用户自身的特点、不同阅读偏好和习惯模式等,进行用户群的精准划分和用户阅读情感定位,加强用户需求的研究。针对每一个用户的实际或潜在需求而得出图书馆应该推荐什么样的内容、匹配什么样的信息服务等,创建满足用户的个性化信息环境和反馈机制,把最合适的内容、以及未曾检索的近似资源,分层次地推送给用户,供其选择,并随其需求变化和馆藏资源的更新,把信息推送给用户,从而提升服务层次。这不仅加大了用户选择的余地, 也使用户在检索或浏览资源时不断发现新的信息[6]。如针对不同读者推送其感兴趣的新书、数据库、期刊等活动。
4.4 提供研究动向以及研究热点的变化
大数据时代下,图书馆通过对读者行为信息数据的采集、处理,然后进行大数据分析,可以在宏观上分析相关领域科研热点的动向,为科研人员、科研部门的决策者提供服务,让他们更快的了解学科最新的科研走向,以及相关研究领域其他科研人员的研究进展。可以说通过大数据的分析,提升了图书馆在科研领域中的作用,为科研工作者提供了更多有价值的信息[7]。
4.5 利用大数据精准图书馆管理决策
大数据时代下,图书馆数据的收集更加全面,可以改善抽样分析带来的偏差,能够得到更加精准的结论,为图书馆的管理决策提供依据。如,为图书馆的采编部门和数据库采购部门提供资源评价意见。通过采集、挖掘、处理和分析读者个人信息和网络社交行为中产生的非结构数据,分析出读者阅读兴趣偏好,读者多样化、个性化的需求以及需求的变化趋势,评估读者对各种资源的使用情况,预测读者对各种资源的需求情况,使图书馆读者决策采购产生最好的效果。
4.6 提供可视化服务,利用可视化分析技术
通过可视化分析技术实现数据中心运营复杂数据的分析,并以可视化形式全面、完整、准确和清晰地展示出来,是图书馆有效发现数据中心运营数据中隐藏的价值、明确服务系统运营状况、准确定位系统故障和优化系统综合服务能力的关键[8]。图书馆对大数据进行采集、存储、处理、分析之后利用时间轴、地域轴等知识图谱可视化展示方式将资源呈现给用户。并且,利用可视化分析工具,如视觉触摸热图,追踪用户行为,从用户角度评估自己的产品和服务。
[1]裴 昱.大数据时代图书馆用户行为信息的利用方式[J]. 图书馆学刊,2013(8):44~46.
[2]马晓亭,尚庆生.大数据时代图书馆开放数据服务平台与开放数据服务模式研究[J].图书馆理论与实践,2015(5):72~75,102.
[3]叶少青.探讨大数据环境下图书馆数据分析与实现[J].内蒙古科技与经济,2015(1):117~119,121.
[4]陈 臣.大数据时代基于个性化服务的数字图书馆数据搜索引擎设计[J].图书馆理论与实践,2015(4):91~94.
[5]陈 茫,周力青,吕艳娥.大数据时代下的图书馆移动服务创新研究[J].图书与情报,2014(1):117~121.
[6]王 捷.大数据时代下图书馆开展信息服务的对策[J].现代情报,2013(3):81~83.
[7]姜 山,王 刚.大数据对图书馆的启示[J].图书馆工作与研究,2013(4):52~54,79.
[8]杨利军,高 军.图书馆个性化服务中的大数据可视化分析与应用研究[J].现代情报,2015(7):68~72.
2015-11-08
张 谦(1972—),女,主要从事图书馆管理工作。
G253
A
1674-9944(2015)12-0306-03