面向水电大数据的数据采集与存储系统设计

2023-01-17 08:25:46段美前邓真平刘晓云
重庆电力高等专科学校学报 2022年5期
关键词:存储系统时序结构化

段美前,李 胜,邓真平,刘晓云,谢 军

(1.重庆大唐国际彭水水电开发有限公司,重庆 409600;2.重庆市科源能源技术发展有限公司,重庆 401147)

传感器、物联网、大数据等技术的发展为集成电力生产系统各环节多源数据的采集、传输、存储提供了技术支撑,并在电力系统设备运维检修、故障分析及预警等方面发挥了重要作用[1-3]。在发电领域,数据依据其类型总体可划分为3类[4-6]:第一类是机组、辅机等设备在运行过程中通过计算机监控系统、机组状态监测系统等采集的时序数据,数据时效性较高;第二类是涵盖管理、经营、销售、财务等主题域的结构化数据,通常采用结构化数据库进行存储和管理;第三类是非结构化数据,例如可携带文档格式(portable document format,PDF)文件、电子表格,以及各类音视频文件、图片等。

在应用系统的数据库选型上,一般根据数据存储类型及对数据库的读写性能、拓展性、稳定性等方面的需求,采用Oracle、MySQL、SQL Server等主流数据库。该类数据库对结构化数据存储具有比较好的操作性,但在面对海量数据时,也存在扩展性、高并发读写性能不足等问题。Hadoop、HBase、Hive等[7-8]大数据存储技术的发展和应用,为解决传统业务架构存在的数据存储能力不足、数据处理能力低下等问题提供了解决途径,也为全面提高企业数据整合、治理能力,发挥企业数据资产价值奠定了基础[9-11]。然而,在具体实践层面,采用何种数据采集和存储架构才能满足生产和管理的需要,还需要根据业务建设需求和未来数据规划进行合理选型。基于此,本文结合彭水水电公司大数据平台的建设,对数据采集和存储系统的设计进行探讨。

1 水电大数据采集与存储需求

1.1 数据采集的完备性需求

随着电力企业信息化建设的不断推进,各类服务于安全生产、经营管理、优化调度等业务的应用系统推陈出新[12-13]。此类信息系统不仅要求业务流程贴合管理需要,对支撑其运行的数据来源也提出了更高的要求,要求数据统一来源,全面涵盖设备、水情、大坝、地灾等相关数据主题。目前,水电生产领域中,生产管理系统、水调自动化系统、大坝监测系统、安全管控系统、地灾监测系统、设备状态监测与预警系统、计算机监控系统、机组状态监测系统等存在海量的结构化数据和实时数据,为应急指挥中心系统、智慧经营分析系统、全息展示平台等智慧电厂业务系统的建设提供了基础的数据来源。

因此,为实现设备运行监测数据和生产管理数据的完备性采集,需建立一套完备的数据采集系统,汇集生产管理、机组在线监测、大坝监测、水情水调、地灾预警等各类型数据。以数据应用为导向,建设统一的数据管理规范,为数据共享和挖掘应用奠定基础。

1.2 数据存取的高效性需求

随着彭水水电公司智慧电厂试点建设的不断推进,高效运营管理与高质量发展的要求不断提高,电厂对数据用于分析和决策支持的时效性要求也越来越高。数据存储层作为大数据平台的核心层级,目的是有效管理全量数据,实现统一存储、高效访问。特别是分布式大数据存储技术所具备的数据管理、弹性扩展、存储优化能力,为实现数据的高效存取提供了有力的支撑,能够满足智慧电厂建设中的智慧经营、智慧安全、智慧运行、智慧检修等业务对海量数据的快速响应需求,实现了服务电厂生产管理的海量、多源、高维度数据的采集、存储,并为后续数据服务提供底座支撑能力。

1.3 数据存储的可扩展需求

水电企业对数据的汇聚需求涵盖时序数据、结构化数据等不同类型数据。传统的数据存储架构面对海量数据的存储和扩展需求,存在支持数据类型单一、扩展性差、数据处理效率低下等问题,无法满足全类型数据高速增长的存储要求,也难以满足未来海量数据的弹性扩展需求[14-15]。因此,针对数据存储资源的可扩展需求,平台需要提供与之对应的资源扩展与释放功能,并能根据负载情况对计算和存储资源自动分配和管理,实现弹性存储,在存储动态扩展的同时保持数据的分布均衡,在计算资源动态扩展的同时保证计算的负载均衡。因此在数据存储层面,需要充分考虑采用分布式文件存储系统、分布式数据库等存储技术,来实现数据的弹性存储,以应对海量数据的增量存储需求。

1.4 数据存取的安全性需求

场站到数据平台之间的数据传输,主要基于IEC 104、TCP等协议,数据在平台端通过消息队列、ETL方式入库存储。为防止数据在采集、传输、存储、共享过程被非法访问,采集和存储系统应严格遵从电力安全防护规定,具备针对信息内外网的接入控制、网络地址安全、网络审计、网络防攻击、漏洞检测、网络隔离等能力。同时,系统需要根据不同的数据类型及业务部署情况,采用有效的防护手段确保数据传输安全。在获取数据服务时,系统需根据数据敏感程度的不同,采取明示用途、数据加密、访问控制、业务隔离、接入认证、数据脱敏等多种防护措施,这些措施覆盖数据收集、传输、存储、处理等在内的全生命周期的各个环节。

2 水电大数据采集与存储系统设计

2.1 采集与存储系统总体架构

实时数据主要用于实时监屏、实时计算和高级模型训练,生产管理类数据主要用于生产管理类的前端应用和辅助实时数据做高级应用。其余的非结构化数据主要包括文档、图片、音视频等,主要供全文检索使用。因此,在功能设计上需考虑不同类型数据接入和存储的需求。水电数据采集和存储系统总体架构如图1所示。

图1 水电大数据采集与存储系统总体架构

在数据采集层,水情水调系统、大坝监测系统等结构化系统数据,计算机监控系统、机组状态监测系统等时序系统数据,以及文档等非结构化数据经数据集成采集工具进入数据存储层。数据建模模块提供基本通信结构(basic communication structure,BCS)编码、设备KKS编码等维护功能,以设备树形式直观展示全电厂的设备信息,包括设备的工作票、操作票、缺陷、实时测点值等数据。数据质量模块具备数据质量校验及依照特定策略对校验结果进行处理的功能,以保证数据的一致性、完整性、冗余性、合理性及合规性。元数据管理模块在统一数据视图上进行全领域的指标一致性分析,可对关键业务的监控规则进行设置和管理,是数据质量管理的基础。在采集和存储系统中,元数据被划分为结构化数据元数据、非结构化数据元数据、实时数据元数据3类。

2.2 采集与存储系统数据架构视图

数据存储层包括分布式文件系统HDFS、列式数据库HBase、数据仓库GreenPlum等,共同支撑大数据平台海量历史数据存储。通过各类数据库提供的服务,可实现大数据平台及应用的数据采集、计算与存储。其中,水调自动化系统、大坝监测系统、生产管理信息系统、地灾监测与风险预警系统、设备远程监测与故障预警系统、安全管控中心系统的数据在源端分别存于Oracle、MySQL、SQL Server等关系型数据库中,数据平台的ETL工具将数据采集后存放到GreenPlum数据仓库。技术文档、管理文档等非结构化数据经文件采集工具抽取后在MongoDB和HDFS中进行存储。机组状态监测系统和计算机监控系统的数据通过TCP或IEC104协议传送到前置机,然后经过中心端防火墙进入大数据平台Kafka数据采集队列。水电大数据数据采集与存储系统的数据架构视图如图2所示。

图2 水电大数据采集与存储系统数据架构视图

为兼顾不同业务场景中海量时序数据的存储和查询效率,时序数据按照时间维度划分为热数据库、近线数据库、历史数据库,以满足不同类型业务应用对数据的访问需求。其中,热数据库采用Redis,仅保存时序数据最新数据,直接存储时序测点ID、测点值及测点时间。近线数据库采用InfluxDB数据库,存储最近3个月的时序数据。在构建采集任务时,在InfluxDB数据库中创建相应的库表,库表与场站维度之间的关系为一对一关系。历史数据库采用HBase数据仓库保存时序数据的全量数据,并按照场站维度分表存储。

2.3 采集与存储系统技术架构

水电大数据采集和存储系统在技术架构上针对实时数据、结构化数据、非结构化数据采集的差异性,使用不同的采集技术。针对计算机监控、机组状态监测等系统的实时数据,消息队列采用Kafka进行支持,时序数据采集控制引擎采用Spark Stream进行支持,实现时序数据的采集传输,并按照存储时间需求接入到平台对应的时序库中。由于设备种类和属性繁多,为了满足上层应用需求,实时数据库存储设备测点信息时要符合BCS标准,建立时序测点和BCS编码之间的映射关系。对于日志文本等数据文件,文档采集引擎采用FTP、Quartz支持。对于传统结构化数据,通过结构化采集引擎Quartz、Spark实现平台对该类型数据的采集。水电大数据采集与存储系统技术架构如图3所示。

图3 水电大数据采集与存储系统技术架构

大数据平台针对不同类型的数据提供多样化的存储方式,平台部署了高效的数据缓存组件Redis,该组件是一个支持多种数据类型的Key-Value,即键值对型的数据存储系统,具有开源、高性能、多种开发语言支持的优势,提供基于计算机内存的数据高速缓存功能。时序数据的存储采用InfluxDB和HBase进行支持。针对非结构化数据,平台底层基于Hadoop技术构建,将数据以文件的形式存储于HDFS分布式文件系统之上。小文件对象存储引擎采用MongoDB进行支持。结构化数据仓库采用Greenplum,利用大规模并行处理(massively parallel processing,MPP)技术进行海量数据管理,支持同步高并发查询。安全平台保障在以数据为核心进行共享、存取、交换等过程中数据的安全性。

3 系统应用成效

依托彭水水电公司大数据平台试点建设,数据采集与存储系统累计创建结构化数据采集任务和时序数据采集任务50余个,完成了对安全生产管理、大坝监测、计算机监控、机组状态监测等核心业务系统数据的接入、存储,累计接入数据总量达到1.5 TB。在数据采集和治理的基础上,平台通过统一的数据共享服务接口和数据权限管理,为全息展示平台、应急指挥系统、智慧经营分析系统、生产辅助决策系统等业务系统提供数据共享服务,累计为业务应用创建数据服务指标(表)200余个,累计响应结构化数据请求和时序数据请求服务1 200万余次,较好地发挥了数据“采、存、管、用”一体化应用价值。

4 结语

大数据平台作为智慧电厂建设的核心组成部分,在汇聚海量、多源、异构数据方面发挥了重要作用。本文围绕大数据平台数据采集和存储的需求,对采集和存储系统的总体架构、数据架构、技术架构进行了分析,也在实际建设中取得了一定的建设成效。未来还需要在业务应用和工程实践中,进一步对数据接入系统进行优化,以提高数据接入的可靠性,以及数据存取的高效性。

猜你喜欢
存储系统时序结构化
基于时序Sentinel-2数据的马铃薯遥感识别研究
基于Sentinel-2时序NDVI的麦冬识别研究
促进知识结构化的主题式复习初探
分布式存储系统在企业档案管理中的应用
哈尔滨轴承(2020年2期)2020-11-06 09:22:36
结构化面试方法在研究生复试中的应用
计算机教育(2020年5期)2020-07-24 08:53:00
天河超算存储系统在美创佳绩
一种毫米波放大器时序直流电源的设计
电子制作(2016年15期)2017-01-15 13:39:08
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统
基于图模型的通用半结构化数据检索
计算机工程(2015年8期)2015-07-03 12:20:35
一种基于STM32的具有断电保护机制的采集存储系统设计