基于安全分区的IT设备运维管理系统设计与实现

2016-09-09 09:43迟海龙陈小松龚传利袁平路谌斐鸣汪涛
水电站机电技术 2016年8期
关键词:网络设备服务器监控

迟海龙,陈小松,龚传利,袁平路,谌斐鸣,汪涛

基于安全分区的IT设备运维管理系统设计与实现

迟海龙1,陈小松1,龚传利1,袁平路1,谌斐鸣2,汪涛2

(1.北京中水科水电科技开发有限公司,北京 100038;2.五凌电力公司,湖南 长沙 433000)

目前水电厂开发都是按照流域内梯级开发的,常常设有梯级流域控制中心。在控制中心内集成了众多的自动化系统,形成一个远程控制系统群。在这个系统群中部署了众多的服务器、网络设备等等可管控的设备。庞大繁杂的系统软、硬件维护工作,对集控中心有限的维护人员提出了极高的要求。本文就是讨论一种可以分布式部署跨越不同网段及安全分区的管控方案。通过该平台方案可以消灭信息孤岛,提高工作效率,保证集控系统的安全稳定运行,提升设备维护的自动化、信息化、智能化水平。

水电厂;IT设备;运行维护;安全分区;计算机监控系统

1 引言

目前很多水电站控制中心内集成了众多的自动化系统,形成一个远程控制系统群。在这个系统群中部署了众多的服务器、网络设备等可管控的设备。庞大繁杂的系统软硬件维护工作,对有限的维护人员提出了极高的要求。

日益庞大的系统设备及其纷繁复杂的缺陷成为当下很多电站运行维护面临的首要问题。如某水电公司控制中心里包括有计算机监控系统、泄洪闸门监控系统、流域梯级水调自动化系统、继电保护及故障录波管理信息系统。共有服务器网络设备多达百余台。传统人工巡检方式只能做到“亡羊补牢”属于事后处理的方式,很难在故障前做出预判防患于未然。仅靠传统的人工巡检,不仅效率低下,而且也很难及时准确的定位问题原因并找到解决方案。

众多种类的自动化信息设备也对企业人员维护带来不小挑战。一个电站的自动化系统群里除了包含各种主机服务器外,还包括了网络设备,信息安全设备,视频音频传输转换设备,动力环境检测设备众多种类设备,对于不同种类的设备巡检给企业生产人员也带来不小的挑战。这些问题都可能成为企业发展的掣肘因素。

为了消灭信息孤岛,提高工作效率,保证自动化系统的安全稳定运行,提升设备维护的自动化、信息化、智能化水平,急需建设一套跨安全分区的集控系统运行状态集中智能监管平台,对控制中心各支撑系统的软、硬件运行状态实现智能监管及分析。

2 方案设计

2.1总体目标

(1)强化主动寻找,扭转被动服务局面。目前,维护工作主要由业务人员发现故障后提出维护请求,另一方式是技术人员巡检发现故障。建成智能监管平台后,将采用设备主动向监控中心报告故障与监控中心向设备定时发巡检指令两种形式。以电子巡检代替人工巡检,可以大大缩短巡检周期。技术人员可以抢在业务人员发现系统故障前知道系统故障并完成系统的维护任务,改变被动服务的局面。

(2)帮助定位故障,迅速恢复系统运行。帮助定位故障是业务人员操作问题还是技术故障。如果是技术故障,系统能通过监控到的指标帮助定位故障,通过知识库帮助技术人员解决。

(3)掌握运行效率,合理利用科技资源。采用智能监管平台后,可以实时了解全部IT资源的使用情况,根据需要从整体角度考虑资源的使用,甚至可以根据业务高峰期的不同来调剂业务系统对资源的使用。

(4)规范运行管理,有序开展科技维护。规范管理的目的是将管理数据电子化,管理过程规范化。在智能监管平台中根据科技制度、规范建立相应的流程,办事规定,如建立维护服务中心、实行维护问题的首问负责制、建立设备维护的登记制度,加强设备的巡检任务督办等。

(5)提供分析报表,保障系统稳定运行。提供性能分析报表、资源统计报表、运维分析报表,如统计业务系统的平均无故障运行时间,运行维护的事件、发生故障的原因,技术人员根据报表及时将经常发生的事件上升为问题。

(6)实行任务督办,确保按期完成任务。智能监管平台中集成科技部门负责人布置科技项目、了解项目进展,督促项目工作、协调项目工作的一个窗口,对所有项目运行情况、资源使用情况进行总体监控,及时发现问题并指导解决具体问题。

2.2设计原则

(1)良好的集成性。智能监管平台各模块间能够高度集成,能够实现信息自动流转和传递;能够提供一个集成的管理平台对所收集到的信息进行分析、过滤及报警等处理,并能与第三方管理软件或其他业务系统良好集成。

(2)开放性。智能监管平台系统结构,硬、软件平台的设计和开发工作都要遵循“标准和开放”的原则,遵循业界标准,并提供开放、灵活的信息交互及管理接口,实现灵活的数据交换功能。当引入新的子系统时,智能监管平台只需经过少量配置,便可对其发挥管理作用,保护前期的开发投资。

(3)可用性。智能监管平台的部署不需对原有的系统结构、安全策略等方面做出修改和调整,对原有系统性能影响最小化,尽量少地占用网络资源。

(4)先进性。建立的智能监管平台和采用的技术应在国内外具有先进性,使用当前主流技术,符合当前技术和管理发展方向。

(5)可维护性。智能监管平台应结构灵活,采用模块化结构,具有较好的可维护性,可以根据需要修改某个模块,增加新的功能。同时对相关安全产品的技术升级具有较好的适应性,能够通过相应参数的简单调整来进行对升级后的安全产品监控和管理。

(6)实用性。智能监管平台应掩盖被管理系统的复杂性,以更为逻辑、更为直观的方式组织管理信息,用户界面直观一致、方便易学,适合于业务人员操作使用,功能实用。

(7)安全可靠性。智能监管平台要安全可靠,并要保护业务部门的数据安全和秘密,提供诸如口令保护,传输加密等安全手段。

(8)实时性。智能监管平台应能动态、实时地反映各子系统的运行状况,以便故障的及时处理,保证整个安全监控管理系统的正常运行。

2.3管控对象

水电厂智能设备管控一体化平台管控网络中的几乎所有的实体,并能够给系统管理员提供一个全面系统的网络视图。能够管控的对象包括:

各种主流网络设备,包括思科、H3C、卫士通、天融信、珠海鸿瑞等品牌的路由器、交换机、纵向加密装置、防火墙、隔离装置等。

HP、IBM、DELL等主流品牌的服务器硬件设备。

计算机监控、泄洪闸门、水情水调、通信网络、电能计量、保护子站、GPS对时、视频监控、生产管理、机房动环等系统应用程序。

WINDOWS、AIX、HPUNIX、SOLARIS、REDHAT LINUX、SCOUNIX等操作系统。

WEBLOGIC、APACHE、IIS、TOMCAT、WEBSPH ERE等中间件。

ORACLE、SQLSERVER、MYSQL、INFORMIX、DB2、SYBASE等主流品牌的数据库。

3 体系架构

3.1总体框架图

图1 智能管理平台总体结构图

本系统的总体框架是基于目前网络管理平台体系的主流分层次框架,按照业务的内容划分为前端发布层、数据处理层(中间件层)和后端的数据采集层(图1)。整个系统前端基于EXTWEB前端发布框架。展示内容主要通过PC端的浏览器和手机移动端APP的方式发布。也可以通过水电站的监控系统界面或者ONCALL语音等接口发布数据。中间处理层主要是各个模块系统数据处理的WEB服务接口层。数据中心采用主流大型商用数据库Oracle进行整个系统节点的数据仓储。后端采集模块主要通过通用的snmp抓取方式和自定义的Agent的模式进行抓取,后者主要是作为前者细分业务层面的补充。智能管理平台的总体软件包括:普通主机服务器节点平台软件部分和主服务器平台软件部分。

管理服务器节点平台软件运行在各大分区的管理服务机器上,负责本分区内智能管理设备的信息采集、汇总、重定向等工作。管理服务器节点平台软件除了普通节点软件模块以外还包括主采集轮询模块、数据记录模块、人机交互管理及数据展示模块。

数据采集模块:主要负责各个节点信息的收集、查询、汇总等工作。同时非Ⅲ区的管理机器还要负责将自己分区的管理信息重定向到Ⅲ区管理服务器上做数据的汇总工作。

数据处理模块:主要负责将汇总的信息进行各个主机内文件方式的记录。Ⅲ区总管理服务器同时还要将采集到的信息按照预定义好的分类方式写入到历史数据服务器当中。

前端显示模块:主要是为专家系统服务。主要负责数据的整理、加工、展示等工作。

普通服务器节点平台软件中主要包括主机驻留服务进程、消息通讯交互模块和数据同步更新模块等几部分。

3.2平台部署

一种智能平台管理系统结构典型部署情况如图2所示,从图中可以看出,当前水电站控制中心的常见计算机设备由各个调度及管理、控制等子系统构成。每个子系统中设备主要分为:主机系统、可网管的网络设备包括交换机路由器等,不可网关的网络设备如:纵向加密、防火墙、物理隔离装置等设备。图中表示出各个生产分区内部的各个子系统的连接关系,同时也表示出各个生产分区之间的网络拓扑结构。

为了能够进行前端智能设备的采集,在I区、II区、III区分别部署了相应区域的平台管理计算机用于信息的采集、分配和信息重新定向等工作。电站前端侧的智能设备管理信息采集部署在电站侧的前置通讯机上,负责采集本侧的可管理的主机设备的信息采集、重定向工作。

图2 水电厂典型智能管控系统部署结构图

3.3跨区域信息分发机制

(1)不同安全分区信息分发

在满足国家电力系统二次安全防护相关条例的前提下,跨安全分区对集控中心系统侧和厂站前端侧设备的软、硬件运行状态进行集中智能监管,包括:监控、闸门、水情、通信、电能量、保护子站、GPS对时、视频监控、生产管理、机房环境监测等系统,并预留系统接口。

集控中心按照国家电力系统二次安全防护要求目前分为生产实时区(I)、生产非实时(II)、生产管理信息区(III)以及电站前置管理区(IV)等4个大区。如何在这4个区域内对管理信息进行采集、分发、重定向是本课题研究的一个主要内容。目的就是要能做到各个生产分区内的需要管理的设备信息能够透明无障碍地分发和查看。

(2)不同网段之间信息分发

在同一分区,由于业务的需要都会划分出多个子系统来完成不同的业务层面处理。各个子系统之间主要由网关机器上的网关进程进行守候对信息进行分发。该网关机通过不同网段的网口收集本网段侧的主机信息并向主网段发送,最终信息归集到本区内的管理服务主机内。

为了做好管控信息的互联和各子系统业务生产信息的横向隔离,在生产大区网内划分多个管理VLAN和生产信息VLAN,用于管理的数据采集服务器可以通过各个VLAN的网关,采集到本分区内的所有设备的管理信息。同时又要保证各个子分区内的不同业务分区机器之间彼此没有网络层面的互联能力,进而保证了各个子系统的生产信息的相互独立和分离。

3.4智能管理平台数据流向

考虑到整个网络分为4个大区,即:生产实时区(I)、生产非实时(II)、生产管理信息区(III)以及电站前置管理区(Ⅳ)等4个大区,各大区之间网络互联均由相关网络设备进行连接,分别由防火墙、物理隔离装置、路由器、纵向加密装置等设备进行连接,具体连接方式见图3。

由于管理信息系统跨越各大生产分区系统,有的分区之间出于安全考虑,数据流向只能为由内向外的单方向。所以整个管理系统的数据信息中心初步设定在生产信息查询区(III区),其他各个区域都有分别对应的管理中心服务器做本区域的主机设备信息的采集整理工作,然后通过重定向的方式将信息向III区汇总。

图3 跨越分区的管理数据流向示意图

4 功能实现

4.1主机及网络设备的监控

(1)主机设备硬件管理

可以采集包括主机硬件、软件在内的众多资源的描述信息并进行入库登记,主要可采集的硬件信息包括CPU、磁盘、内存、主板等描述及资源使用信息。

(2)网络设备监控

对网络设备的性能参数进行采集,包括网络设备的CPU、内存等性能参数及端口利用率、丢包率、延时等网络性能的统计。网络管理系统收集数据应占用较少的网络带宽,特别是对广域网(含城域网)的设备管理。

(3)网络及拓扑管理

网络拓扑功能能够自动发现网络设备,并动态地显示当前网络的拓扑状况,持续监测网络节点状态;监视网络设备的故障,进行故障诊断及定位分析,告警信息可通过图形方式对不同的运行状态和告警级别进行显示。

自动发现拓扑、可以实现拓扑过滤和定制。探测网络层/链路层网络拓扑结构,发现网络设备,并以可视化拓扑结构表示其连接关系、运行状态;监视网络设备的在线、离线状态,同时可以查看可网管设备的网络接口的状态、网络设备端口的负荷转发率等使用参数。

4.2应用系统的管理

目前的应用系统包含了:核心业务系统、中间业务系统等,对其管理主要包括两方面:

监控业务系统进程,发现问题后及时报警并以适当方式重新启动该进程。其他各个系统进程的管理,能够对电站内大多数系统进程进行管理,能够产生相关报警信息并对进程进行必要合理的干预。能够提供业务管理视图,当系统出现故障时,可以及时的反映到业务视图上,标识故障影响的业务及影响程度;并提供根源问题发现功能,快速定位影响业务的故障。

4.3数据库系统监控

支持ORACLE等商用数据库。可查看数据库使用情况,如表空间信息等。对总的历史库的性能综合展示,如表空间的使用情况,内存的划分等数据库的性能分析,数据库表中碎片率,提交任务的工作情况,会话、语句等使用的空间,该模块不仅可以监控数据库常见基本信息,还可以针对水电站监控系统的一些专属数据库信息进行定制性监控。

4.4数据文件管理

电厂内所有需要同步的机器都需要安装管理平台软件,并启动服务端模块。需要为电厂配置文件同步服务器,并为文件同步服务器建立一个网络通道。采用TCP/IP点对点通道协议,支持跨越广域网和不同安全分区的文件传递方式。可以对电厂内主机系统上的数据文件进行发布和版本控制等常见管理。

4.5日志管理

日志管理系统提供对操作系统(windows,solaris,AIX)、计算机硬件、网络设备(可管理交换机、路由器)数据库(Oracle)、H9000监控系统日志的收集、查看、搜索关键字等功能。

4.6故障管理

监测收集各种网络运行信息,当发生故障时自动报警,实现故障检测、发现、报告、诊断和处理。包括应用程序故障、存储设备故障、通讯故障、系统崩溃和周边设备故障。当故障发生时产生报警信息并推送至预定义的终端显示中。

对发生的故障有手动和自动处理两种方式。对发生的故障可以以系统命令、批处理程序、运用程序等来解决的采用自动方式;对不能采用自动方式解决的,启动报警系统提示管理员以手动方式解决。

4.7机房动环管理

系统中预留有对机房动环系统的通讯接口,可以对机房监控系统监测:温湿度、空调、UPS、防水。采用现代化的科技管理手段,配备机房环境监控系统,提高机房的运维管理能力,及时地发现和排除故障隐患,从而为各业务系统的稳定运行提供强有力的保障。

4.8资产管理

实现在分布式多平台环境下,从单点有效管理水电厂所有资产。自动地搜集、验证、跟踪和管理被管对象的资产信息,建立资产管理数据库。在资产管理数据库里包括有硬件,如CPU、Memory、硬盘、网卡等,以及应用软件的详细信息。

4.9自动巡检

自动巡检提供一键式检查特定设备的运行状态,提示异常状态,并输出巡检报告。巡检内容包括巡检设备的设定,指定哪些设备参与自动巡检,及指定设备巡检内容。包括服务器硬件使用状态、服务进程运行状态、进程运行统计、操作系统的报警及错误日志信息、应用程序报警及错误日志信息、数据库报警及错误日志信息、数据同步操作日志信息。

4.10信息发布

(1)桌面设备终端发布展示

在桌面系统中可以展示数据库中记录的各个职能设备状态参量,后期数据可以通过多种方式进行展示,在本方案中应该支持目前常见的多种图形,如饼图、柱状图、曲线、工况点分布图等图形。通过比较直观的方式给维护人员清楚的展示出数据中所蕴含的意义、发展趋势等信息表计。

(2)移动设备终端发布

支持对主流移动设备平台上软件运行,通过APP的方式预置安装在手机、PAD等移动数据终端上。考虑到移动平台处理能力及网络带宽的限制。在移动平台上应该主要实现对设备的监视查看功能。

5 专家系统支持

以上所述的功能都是基于数据库的,是在信息采集后做简单加工后做基本展示的功能。本系统中还设计和部署了基于规则库和知识库的智能化应用。这些基于规则库和知识库的高级应用部分可以为运维人员在故障诊断分析中起到辅助的作用,具有一定专家系统支持的功能。

图4 专家系统

一般而言,基于数据库的系统仅用于处理数据和输出信息,常常导入信息数据泛滥。用户不清楚哪些数据是真正的重要,他们甚至不清楚如果要做一个准确的断定,是否已经有足够的信息。有太多的选择困扰着用户,导致他们处理的速度放慢。前端展示系统下面有太多的重复冗余信息,运维人员想知道更多的深层次原因,而不仅仅是简单信息罗列。

在该平台的高级应用功能中部署了基于规则库的规则引擎和基于时序分析的工作流引擎。规则引擎可以在触发启动后,导入规则库内的规则知识信息,然后从数据库中查看规则内的数据点状态信息。通过推理和模式匹配方法生成规则结论,该结论作为工作流引擎的节点的路由选择依据,按照规则产生结论寻找流程的相应流程路由处理过程。通过规则的推理匹配及与设定的知识处理流程的流转判断完成整个专家知识系统推理判断及推荐专家建议等工作。

规则库及知识库:

知识库中存放着各种异常情况所致原因、解决方法与操作步骤等具体参考信息。当异常发生时,在系统中只需点击该异常信息的“帮助”键,即可自动关联到系统的知识库,并从中找到或匹配到与该异常相关的知识。从而帮助运维人员在处理故障时能有据可依,提高运维效率。另外,资深技术人员的运维经验和普通运维人员每次故障处理的过程,也可以通过知识录入的方式添加到系统的知识库中作为知识共享,当其他运维人员再次遇到此类事件后能够快速找到可供参考的解决方案,进一步提高故障恢复与解决的效率。

专家系统的问题求解过程是通过知识库中的知识来模拟专家的思维方式,因此,知识库是专家系统质量是否优越的关键所在,即知识库中知识的质量和数量决定着专家系统的质量水平。用户可以通过改变、完善知识库中的知识内容来提高专家系统的性能。

在本方案中,知识库可以通过人为输入的方式将智能设备运行工况的基本参数,运行方式等常用的运行模式录入到知识库中,通过预定义的逻辑编程运算,通过对报警事件等信息加工提炼出设备运行中存在的问题和隐患,并按照知识库中预定义的处理方案措施给出相关的处理意见和步骤。

故障智能分析预测系统:

对于常见的故障可以进行编号整理,并给出预案处理信息,通过报警、生成报表等手段提供给设备的管理人员,供后期故障分析处理使用。通过数据的趋势分析功能能够对运行当中设备的工况给出预警提示信息。做到防患于未然。

6 结束语

本文从目前水电厂自动化系统规模日益增长与人力资源相对紧张的矛盾出发,提出一种针对水电站及梯级流域开发中心所使用的基于安全分区的IT设备管控及实现方案。该方案可以跨越水电厂各大安全分区实时地分发和记录IT设备的各个状态分量,同时通过数据库和预定义的知识库对设备健康状况进行跟踪记录及诊断预警处理。不仅能够减轻系统运维人员的劳动强度,还可以尽量降低系统运行中的各种风险。通过该管控方案可以消灭信息孤岛,提高工作效率,提升设备维护的自动化、信息化、智能化水平。

[1]王德宽,袁宏,王峥瀛,等.H9000V4.0计算机监控系统

技术特点概要[J].水电自动化与大坝监测,2007,31(3):16-18.

TP315

A

1672-5387(2016)08-0047-06

10.13599/j.cnki.11-5130.2016.08.014

2016-06-29

迟海龙(1975-),男,高级工程师,研究方向:水电站自动化控制,水电站计算机监控系统。

猜你喜欢
网络设备服务器监控
网络设备的安装与调试课程思政整体设计
The Great Barrier Reef shows coral comeback
一种基于C# 的网络设备自动化登录工具的研制
通信控制服务器(CCS)维护终端的设计与实现
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
中国服务器市场份额出炉
得形忘意的服务器标准
计算机网络安全服务器入侵与防御
PDCA循环法在多重耐药菌感染监控中的应用