基于大数据的科技管理数据集成平台探讨

2022-12-27 06:02程思博
科技风 2022年35期
关键词:分布式组件模块

程思博

华电电力科学研究院有限公司 北京 100039

在科技管理数据的具体应用中,为有效避免数据孤岛的形成,相关单位和技术人员应注重其数据的集成化研究与发展。良好的数据集成不仅可实现科技管理数据访问效率的提升,同时也可以让数据的分析及其管理更加科学便利。将大数据作为基础,进行科技管理数据的集成化平台建设,便可实现科技管理数据的良好集成。相比较传统形式的数据集成平台而言,该平台不仅在架构部署方面更加简单便捷,同时也具备更高的处理效率、更好的容错性和可拓展性。因此,相关单位和技术人员应加强此类平台的研究,使其在科技管理数据集成中发挥出应有的作用与优势。

一、大数据与科技管理

(一)大数据概述

大数据又叫做巨量资料,它是指涉及的数据资料具有非常宏大的规模,不可能在合理的时间内通过人的大脑或者是传统软件工具进行处理的海量资讯。其主要特征是数据量庞大、数据种类繁多、实时性强、蕴藏价值大等。当今的每个行业领域中都有大数据存在,因此,各个行业领域都需要通过相应的技术来进行大数据的处理、分析、归纳与总结,从而实现所需资讯的获取与蕴藏价值的挖掘。在这样的情况下,大数据技术也应运而生,比如数据采集技术、数据挖掘技术、数据处理技术、数据集成技术等。通过这些技术的应用,使得大数据背景条件下的各个行业信息化发展具有了更大动力。

(二)科技管理概述

所谓科技管理,就是通过管理学的合理应用,让各种的科技资源得到优化整合,并对其进行管理的一种行为。这里的科技主要包括低等科技、中等科技、高等科技、新兴科技、新科技、有形科技、无形科技以及适当科技等。就短期意义来看,科技管理可改良科技产品品质、提升科技发展效率;就长期意义来看,科技管理可为科技的发展提供整体性和策略性的规划,从而实现一个整体、长期的竞争利基创造。

(三)大数据在科技管理数据集成中的主要应用优势

对于科技管理数据的集成而言,大数据不仅可将传统的科技管理数据分散模式打破,让数据之间达到良好的整合与贯通效果;同时也可以让科技管理数据具有更高的应用效率,从而使其数据效能得以充分发挥;且能够实现科技管理数据的全局展现,为科技决策提供良好服务[1]。由此可见,大数据在科技管理数据的集成中具有非常显著的应用优势,将大数据合理应用到科技管理数据集成中,将会为科技发展及其服务质量提升提供有力支持。

二、以大数据为基础的科技管理数据集成平台分析

(一)总体平台框架分析

在以大数据为基础所建立的科技管理数据集成平台中,其主要的组成模块有四个,第一是云平台模块,该模块在整体平台中具有基础性作用,其主要功能是分布式资源的调度与管理,且能够进行容器编排,从而实现多用户空间资源的良好隔离与分配。第二是大数据基础能力模块,该模块的主要作用是对各种大数据组件进行集成,对来自云平台中的资源加以利用,将各种必备工具提供给科技管理数据以及上层应用。第三是数据集成模块,它是整个平台中的工作中心,通过大数据基础能力模块中提供工具的合理利用,可对科技管理数据平台中的各种资源数据进行采集、分析、处理、计算与转换等操作,从而将相应的数据服务提供给应用服务模块。第四是应用服务模块,该模块可将数据形成模块处理之后的数据作为基础,将各种类型的服务提供给相应的应用场景,比如风险分析、研究关系分析以及数据可视化等服务,同时也可以对云平台模块中的统一调度与管理体系加以利用,从而实现应用的容器化管理。下图是以大数据为基础的科技管理数据集成平台总体框架结构示意图:

以大数据为基础的科技管理数据集成平台总体框架结构示意图

(二)云平台模块分析

在云平台模块中,集群分布式管理系统主要通过Mesos技术进行建设,其主要功能是对集群资源进行分配,其中包括网络资源、储存资源、内存资源以及CPU资源等。而在Mesos集群中,Hive、Kafka、Spark、Hadoop以及Marathon等的很多种框架都可以运行。因为Mesos的功能只有资源分配,不能实现任务调度以及资源储存等的功能,所以在集群分布式管理系统的建设中,Mesos需要与其他系统或软件进行配合。比如,可将Mesos技术和HDFS、Zookeeper、Marathon/Chronos以及Docker相结合,便可组成一个完整的集群分布式系统,该系统可分别对资源分配、文件系统、进程之间通信、任务调度以及进程管理负责[2]。在云平台模块中,主要的应用功能包括以下几点:

第一是集群分布式管理,它可以为物理机以及虚拟机中的服务器同时提供支持,且能够实现动态扩容,从而为系统应用过程中的自动容错以及弹性化自动扩容提供支持。

第二是监控告警管理,它可以实现网络、内存、硬盘、CPU等各种硬件资源数据的定时采集,对资源消耗以及实例数量等各种状态数据的服务与应用进行监控,同时也可以对文件分布式储存系统的具体储存状态以及其中的文件数量进行监控。对于发现的状态异常,该模块将会立即发出告警提示。

第三是日志文件管理,其主要功能是为日志的收集、分析及其查询提供一个统一框架,其中有日志采集的标准化接口,可对应用程序中的日志采集进行配置与管理,同时也可以为用户提供一种可视化形式的日志查看器,用户可按照应用类型以及服务器节点等来进行日志的查询与分析。

第四是权限管理,对不同用户组以及用户在平台中的应用权限进行设置,让多用户形式的大数据平台权限得到良好控制,防止非授权用户在平台中实施不当操作。

第五是负载均衡管理,借助于HAProxy技术对系统负载进行均衡管理,以此来实现特定任务向多个服务器的分发,让平台具备更好的业务处理能力,以此来实现其可用性的进一步提升。

(三)大数据基础能力模块分析

在该平台中,大数据基础能力模块属于能力框架,它可以对各种大数据主流组件进行快速集成,为上一层数据采集、储存及其处理等各种业务需求的实现提供合理的工具。该模块中的全部组件都可以对云平台模块所提供的各种分布式储存以及计算资源进行高效、合理的运用。除了与数据储存有关的组建之外,其他大部分组件都可以通过容器化的形式进行资源发布,在该模块的管理中,其调度管理机制可由云平台模块统一提供。在该模块中,主要的组件及其功能包括以下几个方面:

第一是数据采集组件,此类组件是将分布式采集平台作为基础,让各种主流数据库、网络服务接口和本地文件系统之间达到良好的兼容效果,具备有效的恢复和容错机制,可让数据采集以及数据传输服务更具可靠性和可用性。就目前来看,Flume以及Kafka是常用的数据采集组件。

第二是数据储存组件,此类组件可以对非结构化、半结构化以及结构化形式的科技管理数据进行分布式储存,并实现各种数据的快速查询与检索。就目前来看,Redis、Elasticsearch、HBase、MPP以及HDFS等是常用的数据储存组件[3]。

第三是计算引擎组件,其中的大部分组件都是分布式的计算框架,可为科技管理数据的大规模批量处理提供支持,从而实现数据集成及其运算效率的显著提升。就目前来看,Spark以及Map Reduce是常用的计算引擎组件。

第四是数据处理组件,其主要功能是数据查询以及数据仓库分析,同时也可以对HDFS、HBase以及MySQL中的数据文件进行加载、抽取和转换。就目前来看,Spark ETL以及Hive是常用的数据处理组件。

(四)数据集成模块分析

该模块在整体平台中具有核心性作用,将ETL技术作为基础,在各个来源中进行原始科技管理数据的抽取,通过预定义数据模型进行原始数据转换,再将转换的数据加载至数据湖。这里的原始数据主要包括多场景、多维度以及多时间的科研数据、信息化服务记录以及管理数据等,这些数据将以数据资产的形式存在于平台中。在该模块对科技管理数据进行集成的过程中,其主要流程包括三个方面:

第一是数据抽取,其抽取对象是科技项目整个生命周期中所涉及的申请、评审、立项、执行以及验收等数据,比如文献数据、财务数据、信用数据、成果数据、专家数据、项目数据以及指南数据等。在新建项目或者是新发布的指南数据集成中,便可采用Data X或Sqoop等的组建在文件、数据或其他业务系统中进行原始数据的完整抽取。对于原始项目中的数据修改和新增情况,则可借助于增量法对数据进行抽取,通过Flume等的工具对源数据变化情况进行实时监控,并通过定量或定时的形式进行变化数据的抽取。通过这样的方式,便可实现数据集成平台压力的有效降低,以此来确保其良好运行。

第二是数据转换,其主要工具是ETL引擎。该引擎中含有很多的数据转换组件,可让数据拆分、数据合并、数据加密、数据解密、数据验证、数据替换、数据过滤等的各种操作自动实现,同时也严格规范了数据的格式、访问接口及其传输方式。通过该功能的应用,可实现平台中科技管理数据的及时转换,将脏数据及时清除,并实现关联数据的有效组织。

第三是数据加载,其主要的数据湖加载方式有三种,不同加载方式所适用的场景也存在不同。其一是完全刷新,在该加载方式中,数据湖内仅仅存在最新数据,在每一次加载前,数据抽取程序都会对源数据内的全部记录进行抽取,然后清空目标数据表,最后将集成厚的新数据加载到数据湖中。其二是镜像增量,虽然源数据记录会定期更新,但其中所含有的记录时间字段却被储存到了数据历史记录里,借助于ETL,便可将历史记录时间作为依据,在源数据中进行增量数据的抽取,然后再通过附加的形式将这些数据加载至数据湖,而数据历史记录也会在数据湖中保留。其三是镜像比较,数据库每天都会对记录进行更新,且历史记录不会被保留,但是在数据湖中,所有的数据都具备生效日期字段、记录变化以及更新时间,因此在数据加载的过程中,只需要对新的镜像数据和上一次加载数据作比较,便可将变更部分找出,并对其进行更新,在此过程中,数据的生效日期也会随之更新。

该模块中的所有数据操作方式均为容器化形式,通过这样的操作,不仅可以让云平台模块中的容器化调度编排功能得以充分利用,同时也可以让各个数据集成处理中的流水线得到隔离管理,以此来为各个过程的监控提供足够便利,使各个过程中存在的问题得以及时发现,并让不同过程之间达到互不干扰的效果。通过这样的方式,便可让平台中资源抢占导致的冲突问题得以有效降低。

(五)应用服务模块分析

在完成了科技管理数据的集成化处理之后,便可将数据集成模块中所提供出的各种服务API作为基础来进行应用平台的搭建,比如机器学习平台、统计分析平台以及数据可视化平台等,从而为用户提供所需服务,满足其个性化应用需求。比如,在机器学习这一应用平台中,在将同一科技专项中的所有报告或申报书资料进行集成之后,便可通过CFR条件随机场景模型或者是RNN循环神经网络来对其领域进行分析。

在传统形式的信息化科技管理系统中,如果需要进行新业务的上线,或者是进行旧业务的升级,通常都需要重新进行系统配置、环境依赖调整以及项目编译等的众多复杂操作,且稍有不慎便会引发系统故障,对其高效稳定运行产生很大程度的不良影响。但是在该平台的应用中,通过各个功能模块的应用,便可将敏捷开发理念作为依据,对各种的业务进行分布式协同开发,并达到良好的测试与部署效果,让各个业务都以容器化的形式运行在应用服务模块中,从而有效解决传统科技管理数据信息化系统应用中的诸多问题,在确保业务升级与更新效果的同时实现系统运行效果的良好保障[4]。

结语

综上所述,科学技术的发展推动了社会的进步,大数据时代已经到来。而在大数据时代背景下,科技管理数据的集成也在传统基础上实现了进一步更新与发展。将大数据技术合理应用到此类集成平台中,通过各种储存、计算以及控制等的大数据技术组件应用,便可实现平台稳定性、容错性和可维护性的显著提升。将此类集成平台应用到海量科技管理数据的应用服务中,便可实现各种数据的有机集成,从而为科技管理数据的有效利用奠定坚实的技术基础,并为科技管理方面的综合统筹及其决策提供重要支撑。因此,在对科技管理数据进行集成应用的过程中,相关单位与工作人员一定要加强大数据及其关键技术的应用研究,然后以此为基础,对先进的集成平台加以科学建立。这样才可以让科技管理数据应用符合当今时代发展,从而为用户提供满意且具个性化的服务。

猜你喜欢
分布式组件模块
28通道收发处理模块设计
“选修3—3”模块的复习备考
无人机智能巡检在光伏电站组件诊断中的应用
新型碎边剪刀盘组件
U盾外壳组件注塑模具设计
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
基于DDS的分布式三维协同仿真研究
风起新一代光伏组件膜层:SSG纳米自清洁膜层
西门子 分布式I/O Simatic ET 200AL