,,, ,
(国家信通产业集团 安徽继远软件公司,合肥 230008)
基于管家式-集约化通信运维平台的设计与实现
秦浩,夏同飞,王光发,陈颢,吴金淦
(国家信通产业集团安徽继远软件公司,合肥230008)
随着国网信息化工程建设的推进,越来越多信息系统需要上线转运行,在国网信息化水平踏上新台阶的同时,对于信息运维水平、标准化程度、规范性提出了更高的要求;因此,基于业务与运行保障为中心,研究采用跨平台的J2EE技术结合B/S模式开发环境下的自动化运维平台,设计“管家式-集约化”运维平台整体的技术架构和功能模块,集成了优秀的开源运维工具,给出了部分典型流程并分析其应用成效,最后顺利通过机理评估,该平台实现既有成功整合目前现有分散的专业运维管理子系统的“管家”功能,又改变过去以设备为对象的监控,打破过去各设备系统独立管理的模式,起到“集约”监控作用,形成统一的运维智能监控一体化平台,力图为电企信息运维服务提供高效支撑平台。
运维;自动化;Open Stack;平台
随着通信技术的迅速发展,社会和企业的信息化程度不断深入。企业信息化水平和企业经营业务之间的关系越来越紧密,企业业务对信息技术的依赖程度也越来越高。现有运维服务体系以人力投入为基础,利用各类交换机、服务器等信息化产品传输和采集各类业务数据和监控数据,利用各类软件管理平台进行数据的简单处理分析,展现给用户的是零散的业务信息和片面的业务监控数据。如何有效地利用各类采集数据和告警信息有效的保障业务健康度,成为当下提升运维服务质量的发力点和增长点。本文基于管家式-集约化通信运维平台的设计与实现,实行有效管理成为实现企业信息化的一个重要关键。
近年来,伴随之科学技术提升,电力信息通信也得到史无前例活跃,不只在软开发明显进步了,而且硬件设备更日新月异。然而与此同时不可避免的是一系列通信系统运维问题,其催生了运维技术难度大、运维设备成本高、运维智能化滞后、运维检测不全面等。纵观整个电力行业发展,其通信业务往来频繁、规模庞大、交织网宽。如此一来滞后的运维方式,已成为电力通信行业内关注的焦点话题,它所面临的问题是如何构建通信与信息一体化稳定、安全任务,因而,国内外学者们纷纷围绕“合理、科学、集约化”等作探讨,如:学者Min Luo和Benjamin曾提出“设计和实现企业ServiceBus(Enterprise service bus,ESB)和SOA解决方案”,而国内学者桂林,也提出“数据中心自动化运维平台建设方法”操作和保护零碎的建立是基于信息和通信的集成治理方法等,属于一种粗放运维治理方式。笔者认为应当下需要博众家之长,设计打造一个“管家式-集约化”运维平台,在这个技术框架上,联合当下电力信息通信网络的理论情形,能对网络操作、保护形式、网络的状况能够合理化评估,评估成果能有效转化为运维所需数据,以使其改善电力通信系统操作和维护效率。
往往单一追求使用超前,带来的后果是运维管理的滞后,电力信息通信运维存在诸如下面的问题:
1)模式单一。分析电力通信网运行,不难看出缺乏信息与通信没有行之有效的一套互通资源管理模式以致通信不稳、不准,降低运维管理实效。
2)模式不科学。面对通信模式配置不科学,类别琳琅满目,运维方式各自为政,从而加大运维工作量与难度,进而降低电力通信效果。
3)监测局限。整个电力通信运维系统存在一定的监测局限性,尽管网络信息和通信监控两者是联合的,但在现实中两者存在一定的孤立性,监测面窄,数据共享与交互性差,其影响运维时数据集成和剖析,阻碍找到故障,使系统无法准确反馈,
开发一套基于管家式维护服务模型的国家电网公司信息通信基础设施环境集约化运维智能监控统一平台,平台以业务为主线,对跨厂家、跨专业的基础设施环境数据进行集中实时监测,对各项业务的健康程度进行评价,并根据变化趋势分析存在的缺陷和预警;平台可多级部署,在中心和分中心集中应用;通过系统建立,基于大数据分析,建立故障排错数据库体系,完善管理制度,为异常情况提供技术决策支撑。
3.1 逻辑架构设计
本研究平台大致分为公共服务层、应用服务层、底层服务层、协议接入层4个层次,其中:
1)公共服务层:包含一些后台告警模块、外部接口模块和管理员管理模块内容;
2)应用服务层:是系统功能的实现层,完成监控管理的所有业务逻辑,并且面向用户进行信息呈现。本系统采用B/S模式呈现用户界面,用户端无需安装任何专门的客户端软件,只需要在浏览器上即可使用全部功能;
3)底层服务层:完成采集数据、运算以及存储功能,并且提供组态画面供系统设计员设计界面;
4)协议接入层:根据实际情况,以灵活的方式接入各种被管设备的实时状态与参数。
系统的层次结构如图1所示。
图1 平台架构
3.2 系统部署
1)跨平台:本系统软件采用先进的跨平台技术J2EE为开发平台,服务端可以稳定运行在Unix/Linux/ Windows等各种操作系统平台下,用户可以根据需要灵活选择;
2)B/S架构:本系统软件采用B/S模式开发,用户只需要有浏览器即可完成全部操作,无需安装专门的客户端软件;
3)耦合设计:平台采用模块化松耦合设计方式,系统至少包含应用服务模块(主程序服务)、采集服务(采集接入服务)、流媒体服务及web服务,各服务模块可部署在不同的物理服务器上;
4)收集服务模块和流媒体服务模块都采用分布式体系结构,并且可以扩大水平依据数据的增加和支持Scare-out扩张模式;
5)实时性:实时数据采用push模式,提高系统实时性;
6)Flash动画效果:本系统软件以Flash动画形式实现用户界面,能以Flash动画的形式形象的表现被监控对象的实时状态和参数;
7)组态功能:本系统软件具有画面组态功能,并且提供形象、丰富的动画元件和图元,用户可以通过简单的鼠标点拖动作和参数设定自由组合监控画面;
8)自动模板:对同一类型的设备可建立统一的设备模板,新增设备时可以直接套用此模板,生成相应的资源配置信息,提高资源录入效率;同样,对同一类型的设备可建立统一的画面模板,新增设备时可以直接套用此模板直接生成监管画面;
9)历史回放:系统能将历史数据存入历史数据库,并能够从任意时刻开始回放选定的历史监控画面,回放时应具有自动播放、暂停、快进等功能,并且支持视频系统与其它子系统间的联动;
3.3 业务处理流程
以物联网技术感知基础设施环境数据,结合国家电网公司信息通信运维管理的实际需求和管理流程,对数据进行实时存储与分析,根据各项数据的阈值进行判断是否告警,如是则通过相应手段通知运维人员;以业务为主视角,结合实时数据/历史数据进行分析,形成趋势分析结果,深入挖掘趋势背后所包含的预警、缺陷等信息;在此基础上,实现共性故障分析共享,缩短共性故障响应速度和解决事件。
中心侧以物联网软件平台为核心,结合国家电网公司的行业特点和管理需求,开发相应软件功能;软件设计开发遵循软件工程的方法,所有软件都经过充分测试,程序运行稳定可靠,系统软件平台通常选择流行性和通用性强的可靠安全版本。
现场侧物联网数据网关为核心,结合基础环境数据传感器、执行机构以及各种智能设备的通信协议,实现基础设施环境数据实时采集与告警联动。
3.4 软件描述
平台所采用的软件描述如表1所示。
表1 平台所采用的软件描述
4.1 拓扑监视
系统具有拓扑监视功能,用户可根据需要,自定义各种拓扑视图,如总体分布图、各分系统的系统图、任一分系统内某一部分或设备的局部图、以及其它各种自定义视图,当分站点数量颇多,采取拓扑方式展示不失为一种整齐直观的方式,并且对同一类型的设备可建立统一的画面模板,新增设备时可以直接套用此模板直接生成监管画面。
整体拓扑监视如图2所示。
图2 监控首页图
4.2 告警联动
当系统或设备中,某一节点或指标出现异常产生告警时,该系统或设备便会进入告警状态。如在上图监控首页中,机房动环系统呈现黄色闪烁告警,是由于该子系统中某一节点告警联动的作用,点击机房动环系统图标,进入图3所示的机房界面,便可发现具体的告警节点:
图3 机房监控图
监控数据/状态的列表/图表显示系统具有监控参数列表显示功能,按照用户需要设定表格形式,在表格内显示模拟量、模拟量累计值和开关量等。
1)对于模拟量,系统具有曲线显示功能:系统具有模拟量实时曲线和历史曲线显示功能。曲线为点绘图,根据需要可以按照多线图的方式在同一坐标上使用不同颜色同时显示多个变量,或同一变量的最大、最小、平均值等曲线;
2)对于状态量,系统具有图形化显示功能:系统具有开关量状态图及柱状图、饼状图等各种图形显示功能。
图4 采集通道状态饼状图
4.3 典型运行流程示意图
平台采用的Flex和Flash一样,都以ActionScript作为其核心编程语言,并被编译成“.swf”文件运行于Flashplayer虚拟机里,而Flashplayer是内嵌于浏览器内的,所以客户端只需要浏览器即可运行。Flex开发的Web程序运行流程如图5所示。
图5 运行流程图
省电力公司2016年6月以来开展对管家式-集约化运维平台局部测试,综合集成了配电自动化系统、用电信息采集系统、能量管理系统等方面信息数据,并实现与95598系统、配电网抢修指挥平台的业务联动,实现了配电网运行状态综合监控,以及配电网抢修等运维业务的过程管控,在配电网低电压监控及治理、提升配网抢修效率等方面均发挥了重要作用。
初步统计,省电力公司上一年度同期发生644次公用配电变压器低电压情况,投入测试后当月仅发生6次;通过配电网运行综合监控以及与配网抢修业务的联动,及时发现配电网运行薄弱环节,提高抢修工作效率,同比故障减少27%,故障修复时间同比减少15%。
为了更进一步验证管家式-集约化运维平台通信性能,研发并组建一套简单的测试平台,其结构为单主站系统,具体构成如图6所示。
图6 测试平台构成
该系统中,CPU315-2DP作为一类主站,插有CP5611现场总线接口卡的PC机为二类主站,WAGO 750-833、BK3120、ET200L、LM3107、ET200M及AC3105等作为从站,通过A型标准电缆和9针D型总线连接器将网络连接起来。
另外,将带有背板式插座的总线连接器将ProfiCore连接入PROFIBUS-DP中,通过总线分析软件ProfiTrace即可查OMS系统(见下拓扑图9)中的各种类型的报文和参数信息;再配以Tektronix TDS 2012B双通道数字示波器,用来触发显示各个设备的电平信号波形,从而进一步对系统分析与诊断。如下图7,左侧目录树中OMS系统的告警与页面告警点位联动,获取点位中严重等级最高的告警级别为OMS系统的告警级别;OMS的父级业务系统的告警与每一个业务系统进行联动,获取业务系统中告警级别最严重的等级为当前告警级别。
图7 目录树告警
实验过程: AC3105接有4个AS-i从站,它既是AS-i网络的主站,又是DP网络的从站。
图8 测试波形图
实验分析:从图8波形上来看,AS-i的通信质量很高,其峰一峰值不超过3V,传输速率固定为167kbit/s。同时利用AS-t报文监视器来监视AS-i报文,发现其工作正常,没有检测到任何损坏的报文,见图9所示管家式-集约化运维平台在实时和历史告警列表界面中,每一个告警内容,都有区域归属,对不同区域的告警内容进行分类汇总,可以得出是正常分显示,而一旦出现告警产生比较频繁的重点告警区域,对于重点告警区域,需要密切关注或深入分析其告警原因,实践充分证时平台通行可靠。
图9 实时和历史告警图
近年来随着电网企业信息化工作的飞速发展,信息系统己经成为支撑电网安全生产和经营管理不可或缺的重要支撑手段,对整个电网企业通信系统运行监控、日常运维和故障处理显得犹为重要,本系统的投入运行有效解决了信息设备信息多头管理、数据重复的问题,通过管家式-集约化运维平台投入运行对通信系统及网络不间断的维护和管理,有效缩短了信息网络系统故障发理及处理,进一步提升了信息运行的可靠性,为电网企业安全生产和经营管理提供了更加可靠的支撑。
该项目建设后形成一套完整的集动力系统(如供配电系统、UPS、通信电源、蓄电池组等)、运行环境(温湿度、空调、漏水监测)及配套设备(如消防系统、门禁系统、安保系统等、视频图像)的运行状态进行实时监控,实现遥测、遥信、遥控、遥视的管理功能,同时对网络设备端口的通断和服务器运行的状态参数,存储设备容量的使用和数据健康指数等数据进行有效整合,形成联动和连锁的用户告知,及时发现运行过程中的隐患和告警为一体的智能监控统一管理平台。
[1] Luo M, Goldshlager B. Designing and Implementing Enterprise Service Bus(ESB) and SOA Solutions [A].IEEE International Conference on Web Services(ICWS'OS)[C].2015:83-90.
[2] 王怀民,史佩昌,丁 博,等.软件服务的在线演化[J].计算机学报,2013,34(2):32-36.
[3] 唐跃中,曹晋彰,郭创新,等.电力企业基于面向服务架构的应用集成研究与实现[[J].电力系统自动化,2016,32(14):50-54.
[4] 桂 林.数据中心自动化运维平台建设方法[J].中国电子商务,2014(11):79-80.
[5] 罗 芸,张晓川,朱建中,等.面向云平台的集群运维管理方法研究[J].现代电信科技,2013(7):54-59.
[6] 徐红泉.电力调度自动化系统综合运维平台设计方案[D].杭州:浙江大学,2014.
[7] 周昕毅.Linux集群运维平台用户权限管理及日志审计系统实现[D].上海:上海交通大学,2013.
[8] 梁鸿健,郭 池,乔治中,等.基于ITIL的电网调度自动化运维流程系统的研究与建设[J].中国电子商情:通信市场,2011(6):187-192.
[9] Delimitrou C, Kozyrakis C. Quasar: Resource-efficient and qos-aware cluster management[J].ACM SIGPLAN Notices, 2014, 49(4): 127-144.
[10]王 波,王明宇,刘淑贞.Linux高可用负载均衡集群技术的研究与应用[J].电子商务,2013(8):55-56
[11] 陈曾胜,夏登俊.基于大数据的高风险网络入侵与阻断方法研究[J].电信技术,2016(01).
[12] 高雪生,陈 兵,韩春雷,等.电力通信运维管理风险评估研究及应用[J].电力信息与通信技术,2013(09).
[13] 邢宁哲,徐 鑫.电力通信网安全防护体系架构模型研究.信息安全与通信保密,2014,(09).
[14] 李伟平.工作流管理系统的建模方法和实现技术研究[D].沈阳:中国科学院沈阳自动化研究所,2002.
[15] Lionzl.纵观jBPM:从jBPM3到jBPMS以及Activiti5[EB/OL].http:blog.csdn.net. 2013.11.10.
DesignandImplementationofStewardship-IntensiveCommunicationOperationPlatform
Qin Hao, Xia Tongfei, Wang Guangfa, Chen Hao, Wu Jingan
(National ICT Industry Group, Anhui Ji Yuan Software Company,Hefei 230008,China)
With the advancement of the information construction of the State Grid, more and more information systems need to be put into operation. While the information level of the State Grid is on a new level, the information operation and maintenance level, standardization degree and normative also raised higher requirement. Therefore, the technical architecture and functional modules of "Stewardship-Intensive" operation and maintenance platform are designed based on the business and operation assurance, and the research of cross-platform J2EE technology combined with B / S mode development environment automation operation and maintenance platform, Integrated excellent open-source operation and maintenance tools, given some typical processes and analysis of the effectiveness of its application, and finally through the mechanism of the successful evaluation of the platform to achieve both successful integration of the existing decentralized professional operation and maintenance management subsystem "steward" , And change the past to equipment for the object of monitoring, breaking the previous system of independent management of the equipment model, play a "intensive" monitoring role in the formation of a unified operation and maintenance of intelligent monitoring platform for the operation of information services, support platform.
operation and maintenance; automation; Open Stack; platform
2017-03-07;
2017-03-23。
安徽省电力公司科技项目(2016-00633-XTGS)。
秦 浩(1982-),男,安徽肥东人,大学,工程师,主要从事信息安全、软件评测、量子通信等方向的研究。
1671-4598(2017)10-0147-04
10.16526/j.cnki.11-4762/tp.2017.10.038
TP302
A