张贵川
摘 要:防汛调度决策系统,作为水电厂的一套重要的基础系统,对电厂的安全生产和经济运行有着十分重要的作用。本文针对防汛调度决策系统内网采集服务器出现的一系列故障现象,分析了故障出现的原因和处理过程,以及让系统恢复正常运行的临时应急处理措施,为水电厂此类故障的分析、处理及防范提供参考。
关键词:决策系统;采集服务器;数据采集;故障
青溪水电厂防汛调度决策系统是一个集实时数据采集与处理、水务计算与管理、水文资料整编、水库水文预报、水库防洪调度、水库优化调度、防汛业务管理等功能于一体的专用自动化系统。整个系统由数据库、内网采集、内网通讯、外网通讯、外网web 5台服务器组成,其中内网采集服务器包含有水情数据采集、机组数据采集、水务计算、数据处理、实时数据处理等功能。
该系统于2007年4月30日投运,设计使用寿命为5年,从2012年底开始,系统故障率明显增高,由于采集服务器承担的系统工作任务多,发生故障的概率也高于其他四台服务器。
1. 故障经过及现象
值班员在值班过程中,发现内网工作站上青溪水电厂的水情数据和机组出力数据中断。随后进行远程桌面连接进行查看,但是从工作站远程连接内网采集服务器未能成功,且此时工作站的故障现象更加严重,所有防汛调度决策系统相关的软件均无法运行。
随后,青溪水库调度班技术员到厂区对服务器进行仔细检查,经过对5台服务器进行检查,除内网采集服务器故障以外,其余四台服务器运行正常,内网采集服务器故障现象,如图1所示。
在第1次和第2次对该服务器进行重启时,系统均顺利启动,但在进行一些操作之后,很快又进入图1所示画面状态。
当第三次重启时,系统已经无法进入,弹出故障画面,如图2所示。
2. 故障原因分析及应对措施
当发现最初的故障时,青溪水电厂水情数据和机组数据同时中断,水情数据采集软件(ACSCOMM.EXE)和机组数据采集软件(CommuniProtocol.exe),均运行在内网采集服务器上,初步判断是由于该服务器上的数据服务程序(Dbsrv2000.exe)卡死造成以上两个数据采集软件均无法正常运行。针对这一故障,进行初步处理:远程登录内网采集服务器重启数据服务程序。但远程连接失败。
当工作站上的相关程序均无法打开,无法远程连接采集服务器,且网络正常的情况下,可以判断是采集服务器处于死机状态。在进入厂区检查后,对死机状态下的采集服务器进行重启,两次重启操作,均在进入系统后一段时间后跳到蓝屏死机状态(如图1),随即把相关情况汇报给领导,并联系南瑞技术人员。
在南瑞技术人员的指导下,对采集服务器进行了安全模式下的重启,但是启动失败,并跳到黑屏死机状态(如图2)。此时,南瑞技术人员下了初步结论:硬件故障。
采集服务器死机时,硬盘指示灯均不亮,在南瑞技术人员的建议下,检查硬盘是否出现接触不良状况。随即向领导申请,暂时停掉防汛调度决策系统的一切工作,对5台服务器实施关机操作。
整个系统停掉后,取出了采集服务器所有硬盘,所有硬盘均被厚厚的灰尘所包裹住,在进行清洁处理后,对采集服务器进行再次重启,但重启仍然失败。
综上,此次故障的原因为:采集服务器硬件老化,已经超出使用寿命年限;采集服务器运算量大,且对服务器保养不够到位。
经过多方确认,最终的结论是:采集服务器硬件损坏,已无法启动。由公司领导、公司技术人员、南瑞技术人员组成的团队进行了紧急协商,并提出了以下建议和措施:第一,公司必须立即采购防汛调度决策系统新的服务器,并对该系统进行整体改造;第二,防汛调度决策系统作为水力发电厂重要的基础系统,必须立即采取措施,让防汛调度决策系统在整体改造前,能够正常运行,以支持水电厂安全生产的需要。
3 .该重大缺陷应急处理措施
青溪水电厂技术人员与南瑞技术人员充分沟通之后,得出了恢复系统正常运行的应急处理方案:把运行在采集服务器上的所有程序转移到内网通信服务器或者数据库服务器上,由于考虑到数据库及决策系统的安全,最终方案是把采集服务器上的所有程序转移到内网通信服务器中。具体应急处理措施如下:
第一步,在方案确定后,完成了对涉及采集服务器的所有布线(特别是连接机组监控系统与水情采集系统的布线)的重新梳理,避免在维护过程中因为误碰导致故障扩大。通过在内网通讯服务器上搭建无线网络,建立起了南瑞技术人员远程协助的网络通道。
第二步,在把之前备份的采集服务器相关文件拷贝到内网通信服务器后,首先进行恢复的是水情数据采集功能,在恢复过程中遇到众多问题,最典型的问题是水情数据采集软件无法与采集平台接通,经过反复调试后发现是由于无线网卡与本地网卡冲突。
第三步,恢复机组数据采集功能,经过多番尝试,机组数据采集软件始终无法连接到监控系统,无法正常取数。经过不断排查,最终发现是由于监控系统端只能识别原采集服务器IP地址发出的取数请求,无法识别内网通讯服务器的IP地址,只有模拟原采集服务器IP环境,才能让机组数据采集功能正常运行,因此选择了一台个人电脑作为临时采集服务器,把机组数据采集软件运行到该临时服务器下,再与决策系统对接,机组数据采集功能恢复。
第四步,把原本运行在采集服务器上的水务计算、数据处理、实时数据处理三个计算程序逐一转移到内网通讯服务器上运行,经过不断调试,三个程序均恢复正常运行。
完成以上步骤后,重新启动整个防汛调度决策系統并投入运行,整个系统运行正常,至此,原本在采集服务器上的三大功能(水情数据采集功能、机组数据采集功能、数据计算功能)恢复正常运行。
4. 结束语
防汛调度决策系统,作为水电厂的一套重要的基础系统,其运行时的稳定性、可靠性对电厂的安全生产和经济运行有着十分重要的作用,在日常维护过程中,要求电厂技术人员必须掌握熟练、高超的系统维护水平,能在短时间内恢复系统出现的一切故障。此次重大故障能在短时间内恢复,得益于严格按照备份要求,对整个系统进行定期数据、软件、网络环境备份,以及电厂相关技术人员对该系统的熟练掌握。在今后的系统维护工作中,必须注重服务器、机柜等设备的保养,并且进一步加强系统备份管理和技能水平提升,以避免出现其他类似故障时,决策系统无法恢复的情况发生。
(作者单位:广东省粤电青溪发电有限责任公司)