刘文钊 郭家康 王卫丹
(中国气象局气象干部培训学院 北京市 100081)
随着移动互联网技术的快速发展,大数据与云计算等技术的先后出现极大地带动了信息产业的转变,尤其是以“互联网+”为代表的新技术,为整个社会带来了变革。2016年5月,国家发展改革委牵头印发了《“互联网+”人工智能三年行动实施方案》,随后2017年有关部门又印发了《新一代人工智能发展规划》和《世界互联网发展报告》,均指出互联网等新型网络技术已初具规模,其在科研领域和应用推广等方面发挥的作用已经显而易见。[1]
新时代背景下党中央高度重视领导干部教育培训工作,2019年出台了《2018-2022年全国干部教育培训规划》,对当前和今后一个时期干部教育培训工作做出全面部署。中国气象局气象干部培训学院(中共中国气象局党校)是培养气象系统和其他部委党员干部进行教育培训的主要场所。中国气象局图书馆(以下简称图书馆)作为干部学院的组成部分承载着众多纸质资源和海量数字资源,信息资源的建设与应用是其信息化中的重要一环。图书馆应加强党校的文献资料中心属性,为党员领导干部素质提高、辅助领导决策和学习型政党建设提供必要的信息资源和服务。
在新时代环境下,图书馆要顺应时代发展重新审视、研究党校的教学需求,加快图书馆信息化建设与大数据相互融合的发展速度,通过打造高水平的图书馆信息化服务平台,更好地为党校提供服务。[2]
大数据的处理过程主要分为以下四个方面:数据采集与预处理;数据集成与提取;数据分析与挖掘;数据展示与解读。大数据处理流程及相关技术如图1所示。
(1)数据采集与预处理。利用传感器网络、社交媒体等数据库,对各种类型的结构化数据、半结构化数据和非结构化数据进行查询和数据操作。目前现有的技术方法主要有射频识别技术(RFID)、单点登录、关系型数据库和智能识别等。大数据采集过程中的主要挑战是并发用户数量高。因而不仅需要在采集端平台配备大量的数据库资源、传输资源和物联网资源,而且要深入研究如何进行数据信息负载的均衡和分配。
数据预处理即数据清洗、数据变换和数据存储等。数据清洗用来去掉噪声数据和异常数据,以保证数据的质量和可靠性;数据变换在于改进涉及距离度量的挖掘算法的精度和有效性,进行数据的归一化处理,进而提高数据分析的效率和速度。面对海量数据,大数据时代的数据存储技术包括并行存储体系架构、高性能对象存储技术、并行I/O 访问技术、数据保护与安全体系等。使用MPP来存储和管理高质量的结构化数据;采用MPP 并行数据库集群与Hadoop 集群混合,实现对PB、EB 级数据的存储和管理。
图1:大数据处理流程及相关技术
图2:读者个性化服务平台框架
(2)数据集成与提取。为了对数据进行集中处理,需要将零散的数据库聚集为一个综合型的分布式数据库。众所周知,大数据的类型多种多样,数据集成后需要利用聚类分析、关联性分析等方法根据用户的需要和数据特征进行后续处理,将不同的数据结构和复杂的数据类型转变为类型或结构相对简单的数据。
图3:用户在互联网行为分析
(3)数据分析与挖掘。数据分析是大数据技术中尤为重要的环节,主要对不同信息源获取到的信息进行分析与处理。数据挖掘是在数据分析的基础之上通过算法挖掘出数据背后更为深层的关联关系。数据分析时主要利用分析工具对存储在分布式数据库中的数据进行并行计算,以此来满足常见的分析需求。
图书馆中的大数据技术主要体现在对因信息来源不同、结构类型不同,海量信息资源进行快速处理,从而完成相关分析、分类、储存和使用等功能,借助现代化的智能检索系统为读者提供一站式的服务模式。通过对读者信息资源的检索、浏览记录、下载内容等信息进行深度挖掘,能够预测出特定学科的研究热点。大数据技术可以提供用户画像、特色资源和相关数据库之间的信息网络,为读者提供更加精准的学科知识服务,个性化服务平台框架如图2所示。[3]
大数据技术还可以运用可视化技术把无法可视化的、模糊的抽象数据进行语义分析,从而帮助用户理解信息之后的潜在内容。借助大数据技术可以构建基于Hadoop 的图书馆数字化分析平台,通过用户在互联网上的浏览行为和网页信息,对用户输入的关键词进行再分析,其分析流程如图3所示。
大数据在图书馆的发展过程中,将图书馆从传统的“信息匮乏”逐步转变为“信息过剩”,这便需要对数据重新进行整理、保存、利用,深化对复杂数据的再分析,推进图书馆网站中各服务平台的创新和功能拓展,借助大数据技术加快推进图书馆服务的转型和升级。
近些年,图书馆数字化建设不断加大投入,不论是通过购买或是采用自建的方式,目前已掌握了众多的数字资源。虽然现有的数据量尚没有达到大数据的级别,但随着技术的发展,服务方式和理念正发生着重要变化,例如网络信息,微信公众号等服务载体,每时每刻都在产生着巨大的非结构化数据。同时,因为图书馆中的数据类型多种多样,也决定了我们必须使用大数据技术手段对数据进行分析和处理。[4]
图书馆的主要职责是为党校教师和在校学员提供教学辅助。近年来,随着领导干部的年轻化,大多数学员均熟练地掌握了一种或是多种文献查询和检索本领,对文献的获取途径也能非常熟练。现在学员所遇到的问题也不再是到哪里获取信息,而是转变为如何更加高效快捷地获得有价值的文献。像以前把未经加工过的文章直接摆在学员面前已经根本无法满足学员的需求,也就失去了图书馆对读者的吸引力。借助大数据技术中的知识可视化、知识图谱和信息推送等技术能够很好地弥补之前的技术缺陷。
党校是党员领导干部参加培训的主阵地。学员要在培训期间查阅大量相关文献,而学员在互联网上查阅文献信息的浏览记录对于图书馆来说是一项非常重要的财富。通过跟踪学员在校期间的阅读书目和阅读行为,馆员经过大数据的深度分析可以在一定程度上掌握学员的阅读爱好和迫切关心的问题,以便更好地为学员接下来的学习提供更加精准的服务。同时也为教师在接下来培训计划的制定提供更具体的授课内容。这对党校做好干部教育培训,提升教学水平都具有重要意义。[5]
大数据时代下图书馆的数字化建设是提高图书馆服务水平的必经之路,对于其自身的发展与发挥自身功能具有重要意义。[6]所以,图书馆必须重视数字化建设的广度和深度,在思想上转变意识形态。同时要加大数字化资源建设的投入,推进图书馆的智能化和网络化建设,并根据自身特色,建设具有本馆特色的数据库,不断完善人才管理队伍,全面推进图书馆的可持续发展。