基于大数据平台架构的智慧图书馆研究

2021-04-04 11:32:54任风贤
信息记录材料 2021年11期
关键词:可视化智慧图书馆

任风贤

(运城职业技术大学 山西 运城 044000)

1 引言

近年来,信息化技术取得了快速发展。智慧图书馆能够合理运用信息化技术打通各自动化系统的信息壁垒,建立图书馆信息中心。并且根据图书馆业务目标,使用数据挖掘算法和工具对海量图书馆行为数据展开分析挖掘。由于我国已经正式迈入了大数据时代,近几年很多高校都陆续提出了智慧图书馆的项目建设,但是高校智慧图书馆仍然处于初级阶段。因此,想要进一步促进智慧图书馆的建立,应该清晰了解相关技术,合理构建基于大数据的智慧图书馆平台。

2 大数据平台架构的相关技术

2.1 Hadoop生态圈介绍

Hadoop前身是Apache的Nutch,具有数据收集和数据存储功能。在当前阶段Hadoop已经成了一个较为规范庞大的体系。体系里面包含了HDFS、MapReduce、Yarn、Hive、Zookeeper等,能够为系统提供分布式的数据存储、并行计算、集群管理以及数据传输等功能,其中较为核心的内容是HDFS、MapReduce、Yarn三者。

HDFS使用了主从架构,一个HDFS集群通常是由多个DataNode与单个NameNode组合而成。其中NameNode在这个过程中是作为管理文件系统命名空间的主服务器,并且可以调节客户端运行过程中访问的文件。而DataNode则是进行管理对接节点存储,一般情况下会在一个服务器当中部署一个DataNode。将一整个文件划分成多个数据模块,将这些数据模块分别存储在不同的DataNode当中。NameNode则是被用来操作文件系统的命名空间,例如在运行过程中打开、关闭或者重命名文件。在这个过程中,呈现出数据块与DataNode之间的映射关系。此时,DataNode会对数据的读写请求展开处理,同时创建数据块,删除来源于NameNode中的复制命令。NameNode与DataNode都是为了在普通服务器进行运行,这些服务器一般情况下都是采用了GUN/Linux操作系统。由于HDES是由JAVA语言构建而成,所以任何能够支持JAVA语言的服务器都可以进行DataNode与NameNode两项服务。这种运用具有一种典型的部署方式,那就是在一台服务器中单独运行NameNode,集群的其他每台服务器都可以开启DataNode。在这个过程中,集群采用了NameNode能够有效简化系统整体架构,成为集群仲裁者和全部HDFS元数据的信息存储库。MapReduce是整个Haddoop的核心计算模块,属于性能优越的分布式编程模式,具有一定的扩展性和一致性,并且展现出并行抽象度,在处理庞大的数据时具有明显的优势。在运行过程中,会将一个庞大的数据划分成多个小规模的数据map任务,将这些任务输送至集群中的不同节点,这些节点可以同时完成下达的任务。在完成了相应的任务后,会利用Reduce调整最后的分析结果,将其上传至HDFS进行存储。在使用MapReduce处理数据之前需要保证一项基本条件,那就是需要进行处理的大规模数据集能够被划分成不同的小数据集,并且这些小数据集能够进行独立并行处理。Yarn是一项新推出的Hadoop资源管理器,属于一种较为通用的资源管理系统,能够为上层带来统一的资源管理和调度。合理运用Yarn能够有效提升集群的利用率,带来更好的服务,为资源统一管理和数据共享提供便利[1]。

2.2 大数据可视化相关技术

大数据可视化主要是利用可视化方法来分析和挖掘大数据中具有价值的潜在信息。可视分析的目标主要是针对大规模、动态、模糊、不一致数据集进行分析。在当前的数据可视化技术中,主要是运用计算机图形学和图像处理技术,将各类数据转化成可以在屏幕上显示的图形或图像,对其进行交叉处理的理论和技术。通俗来讲,就是将看似毫无意义、没有利用价值的数据信息转换成一种容易被理解和利用的视觉方式展现在眼前,这样能够更好地进行数据的观察和分析。大数据可视化可以在进行数据分析挖掘的过程中利用用户界面和人机交互技术,使计算机的计算能力与人的认知能力进行融合。这样能够有效提升针对大规模复杂数据集的分析能力,提高数据分析的效果。大数据可视化将计算机强大的计算能力与人对事物精确的认知能力进行巧妙结合,进而有效提升了数据分析和数据观察的整体能力[2]。

3 基于大数据平台的智慧图书馆构建

3.1 智慧图书馆总体架构

基于Hadoop的分层架构设计,利用这项技术建立智慧图书馆大数据平台,不仅可以将图书馆的数据囊括其中,还可以将教学数据、读者的消费数据包含在内。由于大数据平台中会包含众多的数据,因此可以在大数据平台的基础上展开数据的存储、分析和应用展示。为了满足不同业务多样化的需求,在构建平台的过程中,需要根据逻辑分层方法进行设计。基本上分为4层架构,分别为数据采集层、数据存储层、数据服务层以及数据应用层。

数据采集层:数据采集层会囊括数据系统以及对元数据的抽取。数据中不仅会包括图书馆当前已有的各类数据,还会包括图书馆的数字资源数据。智慧图书馆作为智慧校园中重要组成内容,所以智慧图书馆大数据平台不是单独存在的,还需要与学生的教学数据、学生的基础信息和学生的消费数据保持一定的关系。数据采集就是针对学生的各种信息进行抽取、清洗、转化和加载,将各类数据转化成统一的格式、使其能够为数据存储层做准备。

数据存储层:各类数据的存储是大数据平台重要的工作内容,因此数据存储是整个智慧图书馆大数据平台中的重要部分。平台所有的业务和展示都需要数据存储层给予配合。一般情况下,智慧图书馆大数据平台中的数据存储层会采用传统关系型数据库以及分布式文件系统的混搭方式。关系型数据在学校的内部主要被用来集成学校现在已有的业务系统数据,为各类数据进行清洗和转化提供中间表,与此同时存储数据并挖掘数据背后隐藏的信息。分布式文件系统是大数据存储层主要的存储方式,具有结构化数据和非结构化数据两种,是整个数据分析挖掘中的主体。

数据服务层:服务层在整个系统平台中承担着数据存储层和应用层之间的连接,可以定义相对应的接口,将平台中不同的服务进行关联,为上一层的应用提供良好的访问接口。数据分析服务需要建立在Hadoop平台上,从业务需求出发,使用大数据平台良好的计算能力完成数据的转换、抽取、分析挖掘等功能。

数据应用层:主要是进行数据分析、挖掘以及业务整合的展示。在这一层中具体的应用包括决策支持系统、图书馆报告、个人读书报告、移动客户端等。

3.2 数据标准的建立

为了保证智慧图书馆大数据平台的顺利建设,促进智慧图书馆数据分析挖掘的良好运行,需要建立统一的数据标准,对原数据进行抽取、清洗、转化等工作。由于元数据来自不同的自动化系统,各个自动化系统数据的存储结构都是根据相应的业务需求进行设计的,逻辑关系较为复杂。所以数据库的类型和数据结构都存在明显的差异,因此想要保障相关工作顺利进行,在进行数据采集工作之前,应当构建统一的数据标准,为后续的数据分析和挖掘工作提供良好的基础数据,保障工作效果[3]。

在数据存储架构设计设置云端数据存储模块,主要是为了满足大量结构化与非结构化数据的存储需求。与此同时,又需要保证相关数据存储的安全性以及数据访问使用的高效性。一般情况下会选取HDFS进行存储,主要是因为运用HDFS进行存储具有强大的数据处理能力,能够利用备份功能使相关数据保持较高的可用性以及系统容错能力。HDFS作为Hadoop生态系统中重要的组成部分,大部分并行计算框架都能够支持高效读取存储在HDFS上的数据。由于云端存储会包括多个业务系统的数据,因此为了更好地进行数据分析,应当根据存储目录将不同的业务类型和信息维度进行划分,保障存储的规范性。

3.3 ETL数据采集清洗

这项技术的合理应用有利于实现校园网内部数据的集成,这个模块可以根据不同服务需求选择合理的抽取方法。将大数据平台中所需的各项数据从业务系统中进行抽取,并将抽取出的元数据在中间层进行清洗、转化、集成。在完成以上步骤之后,将其汇聚到目标数据库当中,这项技术在数据的采集过程中具有非常关键的作用。

数据抽取是构建智慧图书馆大数据平台数据采集的重要步骤,在进行这项步骤之前,需要对数据库类型、数据类型进行充分的调查和了解。在第一次进行数据采集的过程中,由于会包含很多业务数据,所以在进行第一次数据采集过程中属于全量抽取。在此后的数据采集工作中,需要将此作为基础进行增量抽取。在工作中需要确定合理的抽取频率,由于不同的业务数据类型具有不同的特点,所以需要根据实际情况设定相应的抽取频率。例如图书借阅产生的数据可以进行1天1次抽取或者更短时间内进行抽取,如果是针对读者信息进行抽取,则可以将抽取频率延长设定为半年1次或者一学期1次。在完成了数据的采集和抽取之后,需要对采集到的数据进行清洗。进行数据清洗是为了删除不必要、不可利用的相关数据,主要是针对缺失重要字段的不完整数据或者存在明显错误的数据以及具有重复信息的数据。在进行数据清洗过程中,应当建立合理的数据清洗标准,根据数据清洗标准利用SQL代码查找相应的字段进行Delete操作。

4 结语

为了促进基础大数据平台智慧图书馆的顺利构建,需要合理运用相关技术,革新自己的理念。在合理构建大数据技术智慧图书馆架构之后,采用相应的技术手段,保障智慧图书馆的效果和工作效率,充分了解各项关键技术、服务层的作用与意义,使运行系统保持稳定的运行,展现出基础大数据平台智慧图书馆的优势。

猜你喜欢
可视化智慧图书馆
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
传媒评论(2019年4期)2019-07-13 05:49:14
图书馆
小太阳画报(2018年1期)2018-05-14 17:19:25
飞跃图书馆
有智慧的羊
去图书馆
智慧派
智慧与创想(2013年7期)2013-11-18 08:06:04
智慧决定成败
网球俱乐部(2009年9期)2009-07-16 09:33:54