基于云边协同的实时数据采集架构设计和关键技术的研究

2024-01-02 13:02李夏光张美然朱旻
互联网周刊 2023年24期
关键词:数据存储数据传输数据采集

李夏光 张美然 朱旻

摘要:随着云计算和大数据技术的快速发展,实时数据采集、存储、处理及应用已经成为能源企业信息化建设的重要组成部分。本文针对云边协同的实时数据的采集和应用提出了一种架构设计及关键技术研究方案。首先,设计了一套基于云邊结合的数据采集系统,边缘侧进行实时采集和处理,传输到云端进行集中存储和管理。其次,对实时数据的数据采集、数据传输、数据存储以及数据处理和分析等关键技术进行深入研究。最后,通过实际案例,说明所提出的架构设计和关键技术能够有效解决实时数据采集问题,具有较高的实用性和可行性。本研究提供了一种有效的云边协同的实时数据采集架构设计方法。

关键词:实时数据;云边协同;数据采集;数据传输;数据存储

引言

随着“云大物移智链”等新兴技术的蓬勃发展,大型能源企业在物联网技术的基础上,融合人工智能、云边协同技术等,构建云、边、端协同的一体化平台,实现边缘侧实时数据的统一采集、云端汇聚、加工、计算和分析,支撑各类智能化应用的建设,如组态监测画面、热点数据即时发布、基于模型和算法等的预测分析、故障预警、数字孪生应用等[1]。当前常见的实时数据采集架构主要关注采集、传输和汇聚,缺少可以提供实时数据“采存算管用”全过程的完整架构设计,存在的问题如下。

(1)前期投入较高。前期包含采集设备、采集终端、数据汇聚机、数据传输链路、数据采集传输软件等的建设成本较高。这些成本既包含软硬件成本,也包含边缘侧实施的成本,如采集设备的调试、测点的校对和核验对点、采集链路和软件的调试和本地化集成等。

(2)数据治理难度大。要确保实时数据的准确有效,需要专业人员定期或及时地对测点或设备信息进行更新维护,并且确保测点及设备信息与采集汇聚端的信息一致。此外,对于设备故障、网络中断、软件程序出问题等情况,需要采用数据校验、数据断点续传以及链路监控等技术手段,确保数据完整、准确地采集、传输和存储。

(3)数据存储和处理要求高。对于数据汇聚端,由于可能需要同时对接并汇聚几十、上百个边缘侧数据采集节点的数据,每个边缘侧数据采集节点,如火电厂可能具有十几万测点,这些节点均集中传输并汇聚在中心节点,这就需要数据汇聚端具有海量数据的传输、处理、存储和加工计算能力,对计算机性能、存储容量、架构的合理性提出了更高的要求。

开展实时数据采集架构的研究,对于实时数据的及时性、准确性、完整性、预见性和可追溯性等方面都具有重要的意义。

1. 总体架构

1.1 架构设计的要点

实时数据采集架构的设计要点为:总体技术架构向边缘智能、云边协同发展。通过技术标准化,管理规范化,硬件通用化实现统一、规范、降低成本。通过软件定义边缘设备实现软硬件解耦,提供更灵活、更强的服务能力。通过对实时数据测点元数据的管理和治理,确保数据的准确性、有效性[2]。包括以下几个方面。

(1)边缘智能和云边协同。边缘计算既靠近执行单元,也是云端所需高价值数据的采集和初步处理单元,可以更好地支撑云端应用;反之,云端可以通过大数据分析优化输出的业务规则或模型可以下发到边缘侧,边缘计算基于新的业务规则或模型运行。基于云边协同的实时数据采集,可以将实时数据的测点元数据统一到云端进行标准化规范化管理和维护,通过云边协同,将测点元数据信息按照边缘节点下发到对应的边缘节点的采集程序中,由其完成采集和与元数据的绑定。

(2)软件定义边缘设备。边缘节点的实时数据采集,一般均需要在边缘节点部署硬件服务器,在服务器上安装部署采集程序、数据处理程序和数据汇聚上传程序。一个大型能源企业可能有几十至几百家这样的边缘节点,综合起来,硬件等设备的投入是一笔很大的支出。因此,可以采用软件定义边缘设备的方法,一方面可以充分利用旧边缘侧已有的服务器资源;另一方面,可以更灵活地提供边缘节点的采集服务器,通过软件定义的方式,采集服务器不仅承担数据采集汇聚等功能,还可以为边缘计算等各类应用提供服务。相比传统的虚拟化和单独的程序设计,软件定义的方式更加注重模块化的应用程序开发方法。同时,软件定义的边缘设备可以根据应用程序的需求自动调整资源,提供更好的性能和可靠性。

(3)基于云边协同的测点元数据管理和治理。可以采用制定统一逻辑测点元数据标准,边缘侧对点的方法。逻辑测点可以消除实际机组、设备等的个性化差异。通过数据治理工具平台进行逻辑测点的对点实施工作,各个边缘节点由设备测点管理人员将实际测点信息关联到逻辑测点。

1.2 实时数据采集架构

实时数据采集架构如图1所示,整体的实时数据采集架构由云端和边缘侧组成。云和边之间通过应用协同、数据协同和资源协同进行连接。边缘侧分散建设,节点位置靠近用户,就近计算,可用于处理局部性、高实时、短周期、安全敏感性高的数据[3]。云端集约建设,计算节点能力较强,集中计算,承载通用业务,实现全局性、非实时、长周期的大数据处理与分析。

对于大型能源企业的生产单位,如火电业务的电厂、化工业务的化工厂、煤炭业务的煤矿、新能源的区域集控中心等单位均定位为边缘侧;云端主要是企业的云数据中心。

(1)数据采集:在边缘侧实现设备运行数据的采集、集成和设备的自动化控制,控制的指令来源于边缘计算,在靠近设备和数据源端,以毫秒甚至纳秒级的数据采集、计算,智能地发出控制指令。边缘层整体上需要满足实时数据源数据接入、协议转换、数据按照时延的上传、边缘数据处理等要求。边缘侧采集数据,根据云端上行接口规范将边缘侧数据经过压缩、加密、序列化后,上传至云端汇集。

(2)云边协同:在边缘侧与云端之间通过云边协同合理分配中心云计算与边缘云计算任务,处理协同工作和数据交互。边缘设备可以处理实时数据,减少数据传输延迟和带宽占用。边缘设备也可以支持更复杂的计算任务和大规模的数据处理,即将处理后的数据发送到云端进行进一步的分析和存储。云边协同过程中,从不同边缘感知终端向前接入边缘云节点,在本地算力基础上实现业务处理和输出,对于本地无法处理的数据和业务,则通过边云协同汇入中心云节点,实现业务协同。

(3)数据接入:边缘侧将采集的实时数据进行汇聚、序列化、压缩、加密,然后发送给云端。云端汇集机接收到边缘侧传输的实时数据后,对数据进行解密、解压缩、反序列化,然后写入分布式消息队列。

(4)数据处理及存储:云端的消息队列獲取边缘侧上报的实时数据后,可将数据保存在云端实时数据的历史数据存储模块和热点数据存储模块。

(5)数据加工计算:可根据数据治理对于实时数据处理规则对实时数据进行加工计算。

(6)数据管理:提供实时数据测点管理、测点数据查询等查询服务;实时数据的测点元数据统一在云端的数据治理平台中管理维护;通过云边协同下发给边缘侧采集汇聚程序以及云端实时数据汇聚程序。

(7)数据服务:云端提供统一的数据接口服务,支持跨平台、多语言、多协议、多种序列化等服务方式;满足海量实时数据访问要求,提供海量实时数据流处理、交互式查询和批处理数据服务。

2. 关键技术

2.1 数据采集技术

数据采集主要包括数据格式制定、采集集群搭建、数据缓冲和数据处理等。数据采集的部署,根据测点数量以及网络限制等,可以采用单机或集群化部署。数据采集应基于高效、稳定、高可用性、可扩展性的原则,保证采集服务7×24小时可用,实现数据采集过程中数据堆积量可控,单台服务宕机不影响数据正常传输,整个传输过程无单点故障;同时将当前时刻最新的实时数据存储在内存数据库中,满足监控类应用的快速响应需求;数据通信采用TCP协议,断点重连机制依靠心跳和接收端的负载均衡策略,保证整个采集架构的高可用;采用流数据处理技术,实时监测数据质量,具体架构如图2所示。

数据采集应满足多业务源异构数据采集:支持数据库API接口、OPC协议、IEC/TCP/UDP/RTU/FTP等通信规约、WEBAPI、定制接口开发等多种数据源的采集;实现普通维护人员易用配置便利采集;提供对采集的数据进行过滤、加密、压缩、缓存、断点续传、统计计算、异常数据分析判断等优化处理。

2.2 数据传输技术

实时数据的传输一般要求在网络带宽有限的情况下,更高效、更快速、更灵活地处理数据流。因此,可以采用PROTOBUF序列化的方法,将数据进行序列化处理,在云端接收后,再进行反序列化处理,具体流程图如图3所示。

传输数据的压缩,为了使传输的数据量尽可能地小,可以采用数据压缩的方式对实时数据进行处理,压缩算法可以采用DEFLATE算法,减少传输的数据量。

传输数据的加解密,为了保证传输数据的安全性,可以采用3DES加解密算法对数据进行加解密处理。

数据在云端接收后,存储到时序数据库或者列式存储数据库之前,为了进一步降低占用的存储容量,可以再次进行压缩,可以采用旋转门压缩(SDT)的方式压缩数据。因为实时数据的特点是数据量大,数据临近度高,采用旋转门压缩,利用其线性拟合算法,具有效率高、压缩比高、实现简单、误差可控制的优点。

数据的断点续传,边缘侧和云端的数据通信采用TCP协议,断点重连机制依靠心跳和接收端的负载均衡策略,保证整个采集架构的高可用。主要通过心跳机制、断点重连机制和负载均衡策略这三方面保证数据传输没有单点故障,单点故障后数据不丢失。数据中断后,边缘侧会有缓存中未发送成功的数据,待网络连接成功后会继续发送当前的数据,并在发现连接成功后启动新的数据发送线程,向特定的历史数据处理服务器端口发送数据,保证历史数据不丢失,且当前数据能保证稳定发送。

2.3 数据存储技术

实时数据的存储,主要解决海量实时和历史数据高吞吐量及高容错的集中存储的需求,实时数据的存储一般采用的是混合架构,以传统关系型数据库、键值数据库、列式数据库、时序数据库及分布式文件系统为主。实时数据的存储需要具备数据分级存储的能力,可以将一定期限内的数据看作热数据,保存在高性能存储介质上,以支持即时、高效分析查询的需要;而将访问相对不太频繁且时效性要求不高的数据,存放至相对低成本的如对象存储等介质上;将几乎不会访问的数据以归档存储的形式存放到最低成本的归档存储介质上,在保证尽可能低成本的前提下,满足数据的存储时长要求,具体架构如图4所示。

2.4 数据处理和分析技术

数据处理和分析主要包括实时数据处理、数据分析计算等,如图5所示。

(1)实时数据处理:采用实时计算技术,依据数据范围、数据阈值、数据变化区间等设计的数据质量校验模型,实时监测数据质量。对于没有通过校验的数据,记录为异常数据;已预设处理逻辑的,按照处理逻辑流程进行处理;没有预设处理逻辑的,由人工核查处理。为了更高效地对海量实时数据进行处理,通过数据特征预处理模型,在接收实时数据时,进行数据质量校验后,为数据打上时间、空间、物理维度等特征标记,便于后续数据分析时,依据这些特征标记进行分类。

(2)数据分析计算:根据业务需要,基于典型业务应用场景进行如优化运行、异常预警、故障诊断、安全、环保等基于模型的数据分析计算处理,为主题分析、要素画像等提供数据支撑。在进行数据分析计算之前,还可以通过大数据仓库或者分析型数据库,如Hive或者ClickHouse等,对存储的数据进行数据汇聚,形成更便于分析计算使用的主题数据。

结语

云边协同的实时数据采集架构和关键技术研究,建立了一套完整的实时数据的“采存算管用”技术架构,实现实时数据的及时、准确和有效采集、汇聚及应用,在大型能源企业中进行了实践应用,在3个月时间内,实现了20多家省级公司、近150家电厂的将近400台机组约15万个测点的火电实时数据采集工作。实现了全集团火电实时数据的统一、标准、规范地采集和存储,为各类火电智能化应用和设备诊断分析等提供实时数据支撑服务。未来的云边协同的实时数据采集架构,可以在以下几个方面进一步开展研究和深化应用。

(1)加强研究软件定义机器、虚拟化、容器、分布式计算等边缘计算关键技术;研发设计适合于边缘节点,占用少量计算资源和存储资源的轻量级算法、程序库、并行编程模型、开发框架和工具包。

(2)研究制定边缘侧节点的架构模型、部署方式、南北向数据接口(用于云端协同)东西向数据接口(用于节点间协同)等相关技术标准。

(3)研究实时数据治理方式,针对测点和设备损坏、更换、维修等情况,通过实时数据治理及时、动态、准确地更新元数据、数据质量校验规则等,确保传输的实时数据的准确性和有效性。

参考文献:

[1]柳美,李夏光,高伟.基于数据底座的生产运营协同调度统计分析系统架构设计[J].电子技术与软件工程,2022(12):226-229.

[2]孔令娜,郭会明,焦函.一种面向数据采集任务的云边协同计算框架[J].数字技术与应用,2021,39(2):165-167.

[3]招景明,张捷,宋鹏,等.一种高效的基于云边端协同的电力数据采集系统[J].电网与清洁能源,2022,38(5):49-55.

作者简介:李夏光,本科,研究方向:系统架构。

猜你喜欢
数据存储数据传输数据采集
基于Ad Hoc的微震监测数据传输系统设计
开源数据库数据存储的实现路径分析
基于Android开发的APP数据存储研究
哈希算法在物联网数据存储中的应用
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
基于开源系统的综合业务数据采集系统的开发研究
GPRS DTU的应用经验浅析