智能变电站二次设备在线故障运维平台架构研究

2019-03-12 03:43,,,,
综合智慧能源 2019年2期
关键词:标志运维架构

,,,,

(国电南自自动化有限公司,南京 211153)

0 引言

随着变电站智能化、无人化政策的落地,传统二次设备运行维护系统(以下简称运维)容量已无法满足数字化装置的增长速度,伴随着国家电网“互联网+”“智慧电力”规划实施的深入,大量的智能二次设备上线,装置数量、转出信号呈现井喷式增加[1],从而引发了一系列问题:(1)巡检任务量成倍增加,运检人员无法承受;(2)问题反复出现,疲于在某几个变电站间重复检修,导致其他变电站长时间无人检修;(3)故障得不到及时解决,只知道故障告警,对可能产生告警的原因无法推断;(4)二次回路“黑匣子”问题难以智能化运检,耗费大量人力物力去应付。以上问题的发生也间接反映出目前传统运维系统已无法满足新时期对智能变电站运维的要求。容量单一,辖区内变电站信号不能统一接入与存储,不能生成全方位对比分析;计算能力有限,很难在线生成故障问题定位与专家推荐[2]。

针对以上问题,本文提出了一种基于分布式大数据技术的运维支撑平台架构方案。利用该架构实现变电站虚拟化、可视化需求;实现监测、预警、在线故障定位等业务需求。在保证系统可靠性、安全性、稳定性的基础上,结合Hadoop开源组件及其他大数据组件,结合IEC 61970/61968模型扩展技术[3],实现运维主站对智能变电站的数字化、精细化、智能化运维,实现运维人员在运维主站对所辖变电站的全景把握。

1 大数据运维平台架构

智能化二次设备主站运维涉及的电压等级多、变电站数量多,站内涉及的智能化二次设备种类多、数量也多,而业务需求要达到板卡、网络端口级运维,首先面临的是数据统一化接入问题,其次是多站数据并发阻塞链路问题,再次是高并发数据量持久化存储与在线即时查询问题,而且在不影响业务需求的情况下要做到系统稳定、可靠且具有一定的容错能力[4]。

1.1 架构思路

站端运维转变为主站运维是一种新的运维思路,随着分布式大数据技术的成熟,这种人力运维转变为机器自动化运维成为可能。把传统业务需求、站端数据、平台框架技术松耦合考虑,发挥彼此的优势再整合为统一的大数据运维平台不失为一个好的思路。

设备统一建模技术是传统业务的优势,各种智能电子设备(IED)能力描述(ICD)文件、变电站配置描述(SCD)文件、变电站配置描述语言(SCL)文件等模型文件已经在变电站应用多年,如果把这些模型文件与设备本身物理结构或虚回路物理结构相结合[5],通过抽取相关有用属性,生成新的模型文件为二次设备运维服务是可能的,而这将能解决站端复杂数据的统一化接入问题。统一建模后对平台框架设计而言就不存在变电站与设备的情况,统一归为带身份标志(mRid)的一条条信息。模型实例化后变为数据,把数据从站端生成开始进行全局唯一性身份标志,这样就实现了数据与平台框架的解耦,不管平台框架如何变化,数据在自己全生命周期内永远采用生成时的标志不变,那么数据就会像血液一样在平台内自由流动,产生的每条事件信息就如血液中的细胞一样,都存在自己的身份标志,平台将很容易捏取到每一条数据。例如,获取220 kV×××变电站××交换机××板卡第3个网口的温度或流量异常数据。而血管的粗细与扩张度以及心脏跳动的强度是影响血液流动最重要的两个因素,这部分将是大数据技术的优势所在。支持高并发、高吞吐量的可扩展消息队列、支持数据sql查询、并行内存计算、实现数据互通功能的Presto、构建数据仓库,实现数据无限存储的分布式文件系统都是可以选用的[6-7]。

整个大数据运维平台的架构过程就像构建人体血液循环系统一样,每个App应用就像血液循环流经的器官,不同的器官利用血液中细胞承载氧气和营养物质发挥不同的作用,共同维护人的正常生命特征。

1.2 基础架构设计

根据1.1中描述的建模、身份标志、数据中继、分布式计算与存储思路,结合分布式系统独立、分层、区域自治的架构策略,可以得到如图1所示的架构方案。

1.3 架构分析与比较

1.2中描述的架构设计层次分明,数据流向清晰;部件相对独立,耦合性差;每层关注的重点不一,层与层之间安全隔离[8]。该架构相比传统运维系统架构有以下优点:

根据题意,题目中的函数定义域为分母不能为0,也就是x>0,所以与题目相关的选项就是A,即只有A选项中的函数f(x)=lnx定义域为x>0,B中定义域为x不等于0,C选项和D选项中的函数定义域为实数集R,所以正确答案为A.

(1)通用性强。平台框架与数据分离,只要设备按建模规范进行建模都可以采用上述架构方案;而传统运维平台对不同类型设备各自建模,自建一套数据流转,各个系统独立,数据无法实现统一存储与利用。

(2)安全性高。主子站通信除了采用同一套模型外,还要穿透防火墙与纵向加密通信。在数据进入主站前先经过前置采集再进行正向隔离装置防护,可以达到限流限速防恶意攻击的效果。

(3)稳定性高。利用消息队列对大数据突发流量进行削峰削谷,解决大数据量对主站功能部件的冲击;利用统一访问接口与数据中继部件,有效控制访问并发与身份权限,防止个别应用App对资源的浪费,同时引发某些组件不稳定问题。

(4)扩展性好。架构中的任何一个部件都可能根据业务容量与性能的需求进行动态扩展,这是分布式架构的特点,也是传统运维平台无法实现的。

(5)容灾与备份能力强。系统在稳定运行过程中,个别节点出现宕机现象或硬件损坏不影响整个系统的运行。分布式系统采用多副本机制,自带备份功能。

子站端只需处理统一建模,子站与前置之间主要解决主子站通信,前置采集服务层主要进行负载均衡与数据规整和分发,正向隔离装置阻断主子站间的安全隐患,大数据采集消息队列解决突发数据对整个平台的流量冲击与分离业务数据的作用,基于Presto的快速查询引擎实现平台组件的高内聚使用与数据的无障碍流转[9],统一服务接口层解决高并发访问问题,应用层可以打造统一的应用软件架构降低开发成本与时间,从而实现区域自治的策略应用。

2 关键技术研究

特定领域的大数据平台与传统通用大数据平台有很多差异之处。比如,本系统中的智能变电站二次设备运维平台结合了站端设备建模技术,把静态设备虚拟化后存入大数据平台,通过建模规则在平台实现设备的动态化,赋予设备新的生命,加速其在业务端的支撑能力;同时,对流入平台的任何一个信号赋予全局的唯一性标志,再实现虚拟信号到现实信号的转化。这种基于信号本身自下而上的建模、存储、计算、应用一体化架构方案使得系统有规可循,在不失灵活性的基础上实现了信号本身应用价值的提升。

图1 平台架构Fig.1 Platform architecture

2.1 一体化建模技术实现数据的统一化接入

从设备制造阶段开始,经过系统集成完成主子站统一化建模标准[10]。以IED为对象,在设备制造端根据ICD文件加IPD文件生成统一虚实对应的变电站物理信息全景模型,再在系统集成阶段融入SCD(IEC61850逻辑回路模型)文件和SPCD(物理回路模型)文件生成统一的公共信息模型(CIM)映射文件,实例化身份标志后生成模型描述规范语言(CIM/E)格式的主子站交互模型文件(如图2所示),此模型设计遵循IEC 61970/61978规范[11-12]。

图2 主子站交互模型CIM/E文件Fig.2 CIM/E file of master station and slave station interaction model

2.2 全局唯一性编码设计实现子站到运维主站的全域身份标志

一体化建模规则解决了物理设备、虚回路、信号点到虚拟系统的映射和统一数据接入问题,但无法解决数据的全域身份标志问题。把大数据运维平台(主站)当作身体,那么数据就是流动的血液,每个网口、板卡、网口流量等好比血液中的细胞,都应该有自己的身份标志,当细胞出现问题时,才能被平台感知,精确定位,达到精细化运维的目的。

图3 全局唯一性身份识别码Fig.3 Globally unique identification code

如图3全局唯一性编码规范所示,定制一套信息编码规范数据字典,通过数据字典构建统一的全局身份标志。区域编码参考国家出版的行政区域编码,分隔标志符采用“$”格式,厂站标志有运维公司统一分发,电压等级标志按实际电压等级进行数字编码,间隔、小室、屏柜采用统一编码,设备标志采用设备出厂码,板卡标志采用板卡号,测点标示根据测点类型.测点名称进行字典编码,比如MX.LigIntes1R描述为自测量第1个光口的收功率,可以用Event标志事件、Alm标志告警等,实例号标志为数字编码,比如图3的实例号1表示为第1块CC板。

分隔符用“$”标志,可以满足对每个域的灵活编码,生成的身份标志码采用字符串类型进行系统全局使用。考虑到数据上送过程中冗余数据太多,占用带宽太大,影响整个系统数据的采集、存储与查询效率,在主子站交互模型中生成的身份编码删除了设备编码标志前的编码,删除的部分作为基础数据保存在关系模型库中。

全局唯一性编码标志作为数据采集(上送)的key(主键),Value(值)采用易于扩展的Json格式。

2.3 基于Presto技术实现一体化数据中继

Presto是专门为大数据实时查询计算而设计和开发的并行内存计算产品,弥补了Hive实时查询的空白。无论是对多数据源的支持,还是易用性、高性能、可扩展性等方面,Presto都是大数据实时查询计算产品中的佼佼者,它具有多数据源、支持 SQL、混合性计算、高性能、流水线等特点,并且具有很好的扩展性[13]。

智能变电站二次设备在线故障运维平台采用Presto大数据搜索引擎作为平台数据中继主要有以下方面的考虑。

(1)Presto大数据查询引擎可以非常容易地连接消息队列Kafka、内存数据库Redis、关系模型库Mysql及数据仓库Hive,这些组件是构建智能变电站二次设备在线故障运维平台的主干,具有不可替代的作用。基于Presto catalog配置可以平滑地实现跨组件、跨库统一接口访问,实现数据在彼此间的无任何阻碍流转。

(2)Presto组件是Facebook开发出来专门解决Hive查询效率低问题的,是Hive的升级版本,查询效率是Hive的10倍以上,且有京东、美团等大公司商业化应用[14],稳定可靠,切合在线故障运维业务的需求,能在用户可接受的时间内实现数据的查询与流转。

(3)Presto大数据查询引擎可以作为消息中间件Kafka的查询引擎,通过配置文件的方式可以使消息进行结构化,利用sql完成查询与计算,对于故障事件发生前后6 s内的时间有序消息序列的获取起到非常关键的作用,可以满足故障事件还原的业务需求。同时,由于数据域确定,数据量较少,可以基于Kafka的存储功能实现T+0业务与即时查询业务的快速响应。

(4)解决大数据量并发接入与即时存储速度不匹配的问题。系统虽然采用周期+突发数据上送方式,也无法避免随时的数据阻塞问题,追其根源是高并发高吞吐量的消息队列与hadoop分布式文件系统(HDFS)写入能力不匹配问题,大量的故障告警事件拥堵在消息组件中无法实现持久化,就会导致数据无法使用。当App得到故障告警通知后进行故障事件还原时查询不到数据,严重影响了系统的可靠性。

(5)解决Hive查询中partition分区失效问题。对于传统大数据系统而言,事件发生时的时间戳为数据进入平台时的平台时间,而智能变电站二次设备维护对故障告警的时间戳具有严格的时间序列性,这就导致数据必须采用站端监控系统的时间戳;由于网络环境等原因导致数据延迟上送或跨天数据分区时,就会导致本应该在今天分区中的数据跑到了明天的分区中,直接导致Hive查询效率大幅降低;系统对处理时间的不可控性导致在线业务的不稳定,从而影响整个系统的稳定性。

以上5点奠定了Presto技术在智能变电站二次设备在线故障运维平台中作为数据中继的可行性与可用性。

3 支撑在线二次设备故障定位与智能检修策略典型场景应用

故障检测与告警、故障事件还原、检修策略推荐是智能变电站二次设备运维中最核心的业务需求。基于本文提出的大数据运维架构来实现整个自动化的过程如图4所示。

图4 故障定位与检修策略Fig.4 Fault location and maintenance strategy

(1)划分告警级别,确定故障告警。当故障发生时,站端采集系统(监控系统)对告警事件进行突发上送至消息队列Kafka存储(存储最近2天的周期+突发数据)。

(2)Consumer(实时消费App)拉取Kafka消息主题(Topic)中的数据进行按等级过滤,过滤出故障告警事件后推送给消息内存库Redis。

(3)应用App订阅内存库Redis中的信息通道,获取故障告警事件推送给用户,同时调用故障事件还原服务接口通过Presto数据查询引擎获取故障告警前后6 s的本站及相关站所有告警数据返回App。同时,复制一份数据存储到数据仓库中作为检修决策分析样本源数据。

(4)调用机器学习服务接口,把分析样本数据与专家知识库中的训练结果集进行分析,通过决策树算法找出导致故障发生的可能原因,再通过关联分析算法找出支持度与置信度最高数据集作为专家推荐内容推送给检修人员。

以业务为目标,把传统系统中的子系统设计为服务接口的方式,根据业务需求通过“顺序调用,异步返回”的方式在一个应用App中在线完成从故障告警到事件还原再到检修策略的业务需求。

4 结论

在本文中,提出了对智能变电站二次设备本身建模的方法,并实现了主子站一体化交互模型;提出了对二次设备全生命周期身份标志方案,实现了数据从子站到运维主站的全域标志,支撑了自动化、精细化、智能化运维业务,降低了运维成本;找到了开源大数据组件在智能变电站运维业务中的实际应用场景,通过工程证明其切实实现了传统运维系统无法实现的大数据统一接入、实时大数据量分析与数据挖掘算法的应用等功能。本文中并没有对每一个技术细节展开描述,主要集中在业务到架构的演变过程,提出了一些可行的方法和方案,难免存在不足之处,但可以在此平台架构基础上扩展到光伏电站、风电站等运维平台。

猜你喜欢
标志运维架构
基于FPGA的RNN硬件加速架构
当代标志设计的创意构思和发展趋势
高速公路智能运维平台
多功能标志杆的使用
功能架构在电子电气架构开发中的应用和实践
构建富有活力和效率的社会治理架构
运维技术研发决策中ITSS运维成熟度模型应用初探
首都的标志是只熊
配电线路的运维管理探讨
基于一体化的变电标准运维模式