工控类数据采集系统可靠性优化设计方法

2021-12-01 12:00王登峰李铮李魁雨刘丕洲张少波
科学与信息化 2021年27期
关键词:工控前置可靠性

王登峰 李铮 李魁雨 刘丕洲 张少波

1. 国网宁夏电力有限公司 宁夏 银川 750001;

2. 深圳市国电科技通信有限公司 广东 深圳 518019

引言

工业控制系统通常使用于电力,水利,石油和天然气等行业,数据采集是工控系统一种应用类别,相关功能一般可包括可视化的报表定义、审核关系的定义、报表的审批和发布、数据填报、数据预处理、数据评审、综合查询统计等。随着目前物联网技术不断发展,工控类数据量不断增多,对数据处理的时效性要求不断提高,同时工控系统作为底层数据获取入口,又支撑了大量高级应用系统,是实现物联网应用的基础性系统,因此保障工控类数据采集系统的可靠运行尤为重要。但目前工控类数据采集系统仍普遍采用传统信息系统建设方式进行系统建设,对系统可靠性研究不够深入,可靠性保障手段仍有所不足,主要体现在:①没有筛选出系统中关键节点设备并对不同设备采用不同可靠性策略;②系统的软、硬件架构容错能力较差,当工控类数据采集系统出现故障时,难以及时恢复;③在系统出现处理压力过高而不能提供全部服务时,无法及时断开部分业务或对业务进行降级处理,以减轻系统压力,保证核心业务不间断。

工业控制系统涵盖多种类型的控制系统,包括监控和数据采集系统,分布式控制系统等;针对数据采集类系统,数据在终端设备生成,通过公网或专网传至通信前置服务器,后通过采集前置服务器、数据库服务器、应用服务器等完成数据采集入库和数据应用过程。承载各功能的服务器及网络设备视为系统的逻辑节点,基于逻辑节点的系统可靠性改造设计,遵照保障业务不间断运行的原则,不考虑系统受攻击以及安全设计等内容,分为高可靠性保障、一般可靠性保障共两个级别。将生产库集群、应用库集群、接口库集群、接口服务器、Web应用服务器、数据挖掘库集群等设备中可靠性要求高的设备节点,采用高可靠性保障策略,中低要求的设备节点,采用一般可靠性保障策略。对于一般可靠性保障要求设备,可根据系统状况自定义可靠性保障策略;对于高可靠性保障要求设备,从节点可靠性及相关节点自适应两方面进行设计。

系统经优化后,所提升的能力包括:防止网络局部拥塞、防止信息网络瘫痪、防止业务数据丢失、保证数据存储的可靠性,防止关键节点冗余过低、防止单点故障、防止服务器负载过高、防止服务器时差过大,以确保系统服务不间断运行。

1 系统可靠性分析

1.1 系统逻辑结构

承载各功能的服务器及网络设备视为系统的逻辑节点,主要逻辑节点描述如下:

1.1.1 通信前置:通信前置集群是前置系统的重要组成部分,用于与终端保持连接和通信,负责与终端设备之间的通信链路管理和原始通讯报文的收发,处理终端的登录与心跳报文。

1.1.2 采集前置:采集前置集群负责处理通信前置机接收到的原始数据,实现对原始数据的解析和数据加工并完成将采集数据写入系统数据库。

1.1.3 主站密码机:主站密码机为终端设备通信提供加密和证书服务,只允许采集前置服务器访问。

1.1.4 任务服务器:负责发起和执行系统各类型的数据采集功能,如日采集数据任务、月采集数据任务。

1.1.5 数据库:数据采集系统一般使用Oracle数据库,根据数据存储及业务开展情况,将数据库分为生产库、应用库、数据挖掘库、接口库。

1.1.6 Web应用服务。数据采集数据采集是工控系统一种应用类别,相关功能一般可包括可视化的报表定义、审核关系的定义、报表的审批和发布、数据填报、数据预处理、数据评审、综合查询统计等。

1.1.7 统一接口服务。接口区实现与其他系统交互的管理,承担系统统一接口服务平台任务。承担系统发布数据接入、数据发布、数据订阅等应用[1]。

1.2 数据业务分析

系统数据包括采集类、设置类、控制类和数据应用类四大类数据业务。

1.2.1 采集类占据绝大多数,具有数据量大、频度高、实时性低等特点,涉及每日、每周定时或不定时采集回来的基础工控数据等多方面。

1.2.2 设置类主要涉及新装设备的投入设置、终端设备运行参数设置等方面。

1.2.3 控制类具有实时性高、单点操作等特点,对于终端进行远程关闭、重启等控制操作。

1.2.4 数据应用类主要是统计分析、报表及数据发布等方面。

1.3 节点重要性分析

1.3.1 通信前置出现故障时,影响定时任务、事件采集、人工发起数据采集任务、参数设置、对时指令、控制数据采集设备、控制数据中转设备等业务的开展,造成数据缺失等重要业务中断,故可靠性要求为高。

1.3.2 采集前置出现故障时,影响报文解析、定时任务、事件采集、参数设置、对时指令、控制数据采集设备、控制数据中转设备等业务的开展,造成数据缺失等重要业务中断,故可靠性要求为高。

1.3.3 任务服务器出现故障时,影响定时任务、事件采集、人工发起数据采集任务、参数设置、对时指令、控制数据采集设备、控制数据中转设备、统计计算、报表查询、数据发布等业务的开展,不影响核心业务,故可靠性要求为中。

1.3.4 Web应用服务器出现故障时,影响人工发起数据采集任务、参数设置、对时指令、控制数据采集设备、统计计算、报表查询等业务的开展,造成业务人员无法进行数据查询、数据录入、终端设备故障消缺、采集数据分析等业务,不影响核心业务,故可靠性要求为中。

1.3.5 密码机出现故障时,影响参数设置、对时指令、控制数据采集设备、控制数据中转设备等业务的开展,造成设备通信等重要工作无法执行,故可靠性要求为高。

1.3.6 接口服务器出现故障时,影响参数设置、控制数据采集设备、控制数据中转设备等业务的开展,影响高层级系统实时通过数据采集系统进行的一些实时性、可靠性要求较高的业务,故可靠性要求为高。

1.3.7 接口库出现故障时,影响高层级系统实时通过数据采集系统进行的一些实时性、可靠性要求较高的业务,故可靠性要求为高[2]。

2 工控类数据采集系统可靠性优化设计

2.1 节点可靠性优化

节点可靠性:对于某一设备节点,使用动态负载均衡的,采用n+2原则(n为满足正常业务开展至少需使用设备台数),适度增加冗余设备;或使用集群等高可用技术,实现故障设备自动切换或业务自动接管。

2.1.1 通信前置服务器。采用动态算法进行动态负载均衡的部署方式,服务器采用N+2原则进行冗余。计算公式如下:通信前置机数量=全覆盖终端总量(万台) /单台接入量(万台)+ 2(2台冗余)。

2.1.2 采集前置服务器。采用动态算法进行动态负载均衡的部署方式,服务器采用N+2原则进行冗余。计算公式如下:采集前置机数量=每秒需要处理报文业务总量 /单台秒处理量+2(2台冗余)。

2.1.3 数据库服务器。生产库、应用库、数据挖掘库、接口库均为2节点集群部署,各数据库使用独立存储。应用库进行热备,当数据丢失时,使用上述备份策略产生的备份文件进行数据恢复,可保证数据库恢复到任意时间点。

2.1.4 Web应用服务器。采用weblogic集群部署,通过F5进行负载均衡。也可以用双集群部署,每个服务器上可部署2个受管节点,对应部署2个管理节点,做Weblogic双集群处理,部署完成后可用的受管节点为服务器数量的2倍,可有效利用资源。服务器采用N+1原则进行冗余。计算公式如下:Web服务器数量=最大用户登录数 /单台会话处理量 + 1(1台冗余)。

2.1.5 接口服务器。部署方式:负载均衡集群部署,接口服务器集群部署,所有接口请求经由负载均衡服务器派工至接口服务器处理。

2.2 节点自适应优化

相关节点自适应:主要通过相关节点自主调整业务来实现。通过对节点运行的各项业务预先进行分类分级,在节点性能压力较大时,采用延迟甚至暂停部分低级别业务以保证更高级别业务正常运行的策略[3]。

2.2.1 应用库异常。应用库发生异常时,采用以下几种方式纵向减小应用库的压力。

降低来自生产库的压力。当来自生产库的数据同步压力较大时,可以暂停来自生产库的数据同步工作,减少数据写入,减轻应用库的负荷。

降低来自应用服务的压力。当来自应用服务的压力较大时,可以通过以下几种方式减轻应用库压力:①限制部分重要性等级较低的角色登录系统;②限制较大批量数据库查询功能;③以上两种方式不足以缓解生产库压力时,可以考虑暂停应用服务,从而减轻应用库压力。

降低来自接口服务的压力。当来自接口服务的压力较大时,可以临时停止数据发布,减少数据查询,从而减轻应用库压力。

降低来自计算服务的压力。当来自计算服务的压力较大时,在可以临时停止数据计算业务,减少数据查询和写入,从而减轻应用库压力。

2.2.2 生产库异常。发生生产库异常时,可考虑采用以下几种方式纵向减少生产库的压力。

降低来自应用库的压力。当来自应用库的数据同步压力较大时,可以暂停来自应用库的数据同步工作,减少数据写入,从而减轻生产库压力。

降低来自入库服务的压力。当来自入库服务的压力较大时,可以通过以下几种方式减轻应用库压力:①进行业务数据限制,根据重要性筛选,不进行非重要数据的生产库存储,从而减轻生产库压力。②进行数据缓存,将数据先缓存到文件或者内存数据库中,待生产库恢复之后再进行存储,减少生产库在异常阶段的压力。

降低来自调度服务、采集服务、通信服务的压力。当来自这三个服务的压力过大时,可以通过降低加载频率的方式,减少三个服务对于生产库的读取,从而减轻生产库的压力[4]。

3 结束语

随着物联网时代的到来,物联终端设备越来越多、数据量越来越大,对数据采集实时性要求越来越高,对于工控类数据采集系统而言,保证系统可靠性十分重要。本文中提出了一种提升系统可靠性的优化方法,可实现如下目标:①针对不同的设备集群,采取不同的可靠性设计策略,在提升系统整体可靠性的同时,避免资源浪费;②系统自身容错能力提升,从而提升指令下发正确率、系统年可用率,增加系统各类设备平均无故障时间,降低系统故障发生频次,减少系统故障恢复时间;③在业务高峰期,系统运行压力较大时,可优先保障重点业务正常运行,降低重点业务中断、出错风险,避免造成较大损失。

猜你喜欢
工控前置可靠性
基于AK-IS法的航空齿轮泵滑动轴承可靠性分析
某重卡线束磨损失效分析与可靠性提升
讨论如何提高建筑电气设计的可靠性和经济性
医疗器械可靠性研究现状与发展趋势
国企党委前置研究的“四个界面”
安全防护应贯穿工控系统全生命周期
带前置功能的词形《 в сопоставлениис 》的结构与搭配
自媒体,高中生物前置性学习的“好帮手”
全国政协委员何帮喜:工控网络安全防护应纳入国家战略
启明星辰网御星云 进军工控安全领域