周旭朋
(1.北京科技大学; 2.安阳钢铁股份有限公司)
2000 m3级高炉环网故障诊断与分析
周旭朋
(1.北京科技大学; 2.安阳钢铁股份有限公司)
介绍了安钢 2000 m3级高炉环形网络的构成,对应用中出现的网络瓶颈、网络瘫痪,所导致的信息无法传输,造成高炉休、慢风的原因进行了分析,并对网络故障进行最终诊断,提出了相应的改进措施,解决了 2000 m3高炉环网存在的问题。
高炉环网 故障诊断
安钢炼铁厂 2000 m3级高炉的建设是安钢“三步走”中关键的一步,年产生铁 128万 t,于 2005年 10月试车投产。PLC控制技术是高炉三电控制中的重要设备,其各个控制站通过光纤相连接,互相通信,实现重要数据的交换。网络结构的合理性、可靠性、安全性关系着高炉的正常生产。
安钢 2000 m3级高炉 PLC控制系统由控制站、HM I客户端、HM I服务器、工程师站、以太网交换机以及控制站的电源等组成。主要完成生产过程的数据采集与处理,数据显示与记录,数据设定和生产操作,执行生产过程的连续调节控制和逻辑顺序控制。整个工艺流程控制系统采用 C/S结构,网络上设置两台冗余服务器,主服务器负责与现场 PLC通讯,采集数据与完成相关操作,从服务器与主服务器通讯,通过主服务器实时更新数据。当主服务器宕机时,从服务器接管主服务器的任务,与现场 PLC通讯,实现数据采集与操作,当主服务器重新投运后,需要手动切换为原来的模式。网络上的客户端与这两台冗余服务器通讯,服务器负责提供网络上的客户端所需的监控、操作数据。2000 m3级高炉的网络结构采用单环网拓扑结构,整个网络分为炼铁区域 8个工作站和动力区域 5个工作站,总共 13个工作站,所选用交换机型号为MOXA ED6008-MM-SC,其网络拓扑图如图 1所示。
图1 2000 m3级高炉网络拓扑图
环网投运初期,运行较为可靠,但 2009年 7月份以来,频繁出现网络速度慢,反应超时等现象,操作工点击一个按钮,需要 2 s~3 s的延时,有时还出现监控工作站数据死机现象,严重地影响了高炉的正常操作。热风炉高炉工长操作站故障现象比较严重,常造成无法监控的情况。这种现象出现后,有时重新启动计算机能正常工作,有时把两台冗余服务器重新启动也能解决问题,最后热风炉数据操作站彻底死掉,无论怎样启动计算机与服务器,也无法与服务器通讯。
3.1 网络故障诊断与排查
针对上面出现的问题,用 P ING命令测试网络是否正常,发现从热风炉站无法 P ING到服务器的 IP地址,炼铁区域的其它工作站均正常,初步判断本站交换机可能出现故障。为了查清故障原因,把热风炉监控站暂时更改为单机版单独运行,在不影响热风炉操作的情况下,再处理网络故障。单机版监控站通过交叉连接的双绞线,直接与热风炉 PLC连接,通讯正常,将交换机两个光口上的光纤拔出,使交换机脱离环网,再使单机版监控站通过交换机与 PLC连接,发现也能正常工作,这样基本否定了交换机故障的可能性。考虑为网络堵塞或其它原因造成的网络故障。在高炉建设时期,没有设计网络监控软件,无法简单判断网络故障的原因以及地方,只有对整个网络进行彻底排查才能最终做出诊断。
对整个网络的全面排查,分为对 13个工作站网络交换机以及光纤的走向情况进行排查。首先对 13个交换机的工作情况进行了排查,从热风炉工作站向环网的两个方向开始检查。从一个方向检查时,发现循环水站交换机有一光口指示灯不亮,说明此处网络存在问题,再往下一个站点检查时,发现 1#INBA和 2#INBA的交换机根本就没有送电,说明环网从这两处已经断开。
从另一个方向检查时,发现动力区的 TRT站与炼铁区高炉主控室站的通讯失败,无法 P ING到高炉服务器 IP地址,TRT的交换机已经更换为施耐德产品;喷煤站、锅炉房站的交换机各有一个光口指示灯不亮,考虑可能是光纤的收、发接错所致,在对喷煤站、锅炉房站的光纤接头进行了拔、插调换后,交换机的指示灯亮了,再从动力区的 TRT站以及炼铁区域的热风炉站 P ING服务器的 IP地址时,均能 P ING通,这说明网络暂时恢复正常,能够正常通讯,但此时因为 1#INBA与 2#INBA的交换机没有送电,光纤环网没有构成,只是构成了总线网络,但为了不影响高炉生产,没有进一步排查,暂时恢复了热风炉的客户端工作站使其正常工作。
在以后的应用中,又多次发现槽下工作站通讯不正常,将光纤头重新插拔暂时能够解决问题,发现光纤头接触不好,考虑为交换机光纤口或光纤头有问题。
8月份,利用 2000 m3级高炉检修的机会彻底对环网进行了检查恢复。在一个环网中,有不同品牌的交换机,可能会因为内置的环网协议不一致而导致环网通讯失败,为了排除这个原因,对 TRT的交换机进行了更换,统一为MOXA同一品牌交换机;同时把槽下的光纤接头和交换机进行了更换,解决了接触不好的问题。而后把 1#INBA、2#INBA交换机的电源送上,发现网络又发生堵塞,通讯不正常,把电源断掉,网络又能够正常工作,说明网络一旦形成物理上的环,会造成网络数据堵塞,通讯失败,网络只能在总线结构下能够正常工作。
为了解决不能构成环网的问题,用MOXA交换机自带的软件对交换机进行测试,发现好几个站的交换机 IP地址无法 P ING通,交换机的指示灯正常;另外网络上存在两个管理机 (MAST),环网中只有一个管理机(MAST),网络可能存在其它问题。为了解决这一问题,对光纤的走向进行了全面检查,在对 13个站的检查中发现有多处交换机光口上的光纤收、发不一致。交换机光纤口的收、发一般是固定的,当形成环网时,一个交换机的发要与另一个交换机的收相连接,这样最终形成一个环网 (如图 1所示)。发现问题后,对环网的光纤进行了收、发统一,确保连接正确,但环网的另一个管理机 (MAST)无法更改为从机(SLAVE)模式,更换交换机也一样不能更改。此时,用软件测试时,只有 1#INBA站的交换机无法 P ING通,其它的交换机均能 P ING通,考虑可能是此交换机有问题,对其更换后,此交换机的 IP地址能够 P ING通,插上光纤,网络没有堵塞,整个网络通讯完全正常,拔掉一根光纤实验,网络仍然能够在总线网下工作,再插上去,环网也能正常工作,这说明整个环网恢复成功,实现了冗余功能。用软件测试时,整个环网只有一个管理机 (MAST),这说明多出的管理机(MAST)是在构不成环网时自动产生的虚拟管理机。
3.2 网络故障原因分析
热风炉监控站数据死机,通讯失败的原因主要是数据阻塞。通过故障的诊断与排查,可以得知,网络设备没有改变,光纤也没有断点,重新在喷煤站、锅炉站拔、插光纤接头后,通讯恢复正常,充分说明了当时网络处于阻塞状态。当光纤接头拔掉后,交换机对失去连接的光口进行复位,再插上去,恢复了正常通讯。
网络阻塞的原因主要是槽下站的交换机光口与光纤接头接触不好造成的。由于 1#INBA与 2#INBA交换机没有送电,环网工作在总线结构下,任何站点帧的发送和接收过程,都使用带碰撞检测的载波侦听多路访问(CS MA/CD)技术,这种媒体访问控制技术使得碰撞的可能性存在,若检测到碰撞,说明帧未发送成功,要重新发送。TRT站、热风炉站、喷煤站、槽下站都要对服务器进行访问,当槽下站的交换机出现问题时,这几个站想要访问的数据无法获取,每隔一定的时间都要发送数据帧,这样形成网络阻塞,热风炉站无法获取服务器的数据,造成通讯失败。
环网不能组建的原因,归纳起来,主要有三种原因:一是在平时的维护中,没有注意光纤接头的收、发顺序,网络中的部分交换机光口收、发不一致;二是 1#I
NBA的交换机故障;三是 TRT的交换机与其它交换机的品牌不一致。这三种原因导致了环网无法构建。
在故障诊断与排查的过程中,遇到一种平时较为少见的现象,目前仍无法找到答案,在这里提出来,供同行研究与商讨。
4.1 一个可疑的 IP地址
网络正常后,刚开始恢复热风炉的客户端时,客户端仍然无法读取服务器的数据,服务器、热风炉站PLC的地址都能 P ING通。此时把热风炉站 PLC的网线拔出,仍能 P ING通其 IP地址,用 CONCEPT下装序控制程序,还能下装,但网络上只有热风炉 PLC是此 IP地址,其它没有 PLC设为此 IP地址,当时正在生产,若其它 PLC设为此 IP地址,下装程序时一定会发生大事故的,但当时什么也没有发生。若上位机设置此 IP地址,是无法联机 (用 concept连接 PLC的IP地址)的,这个在试验室做过实验。此 IP从哪里来,此疑问笔者无法解释。
4.2 PLC通讯处理器死机的可疑性
在热风炉监控站通讯失败的处理过程中,动力区域 TRT站的比肖夫 PLC的 CPU停止工作,处于 STOP状态,当时没有人对此 CPU进行操作,出现这种情况,可能是网络对其造成了影响。但网络故障对 PLC的 CPU的工作状态造成影响,有点解释不通。
对于上面提到的问题,运用目前的理论与诊断方法无法解释,有待进一步研究与探索。
2000 m3级高炉的环网事故,对高炉造成一定的影响。这说明对环网要加强管理,平时的维检中,不能轻易改变原来的结构以及走向,要时常检查网络交换机的工作状态。在重要的局域生产网络中,特别是控制站相对较多,通讯较为重要的,项目设计阶段宜考虑设计网络监控软件,以便实时了解、掌握网络的运行情况,一旦出现故障,通过监控软件能够及时找到故障所在,并快速进行处理,不致于影响生产。
[1] 张公忠.局域网技术与组网工程.北京:经济科学出版社,2000:23-24.
[2] 倪维桢.数据通信原理.北京:中国人民大学出版社,2000:15-16.
FAULT D IAGNOSIS AND ANALYSIS OF LOOPED NETWORK FOR 2000 m3BF
Zhou Xupeng
(1.University of Science and TechnologyBeijing; 2.Anyang Iron﹠Stell Stock Co.,Ltd)
The paper introduced the consistof looped network for 2000 m3BF inAnyang steel,analyzed the network bottleneck and network break-down which caused data cannot transport leading to stopped blast,final diagnosiswas carried out to network fault,the relative improved measureswere given to solve the existing problems in looped ne twork for 2000 m3BF.
looped network forBF fault diagnosis
*
2009—12—3