李鸿
摘要:本文通过对各种类型的计量自动化终端上行通信故障的诊断分析,探讨如何帮助计量运维人员排查、处理因上行通信故障而造成计量自动化终端与主站无法正常通讯的现象,制定日常维护方案以保证终端上线率和减少故障率,介绍通过应用故障排查方法,在日常维护中取得的成效。
关键词:上行通信;故障;诊断;分析;应用
引言
计量自动化终端与主站能否正常通讯的关键环节在于上行通信链路正常。由于计量自动化运维工作与通信知识密切相关,针对部分计量运维人员对通信专业不了解的情况,无法排查调试过程中由于各种原因导致终端无法与主站建立连接,造成调试工作的停滞,影响电能量数据的正常采集。本文通过深入分析各类终端上行通信故障,摸索总结出各类终端参数设置、通道故障排查、前置机排查的方法及分享经验和应用成效。
1.计量自动化上行通信技术
目前可用于计量自动化终端与主站的远程通信技术主要有:PSTN电话拨号、4线音频专线、数据网络和GPRS/CDMA无线公网。其中负控终端、配变终端、低压集抄(以下简称为无线公网终端)是采用GPRS/CDMA通信方式;厂站终端则采用电话线、专线、网线3种通信方式与主站通信。
2.計量自动化终端上行通信故障诊断分析
2.1无线公网终端通信故障分析
2.1.1无线公网终端拨号流程
GPRS(或CDMA)模块初始化→开始拨号连接→拨号成功发送登陆帧→登陆成功→与主站正常通信。
2.1.2拨号故障分析
若终端拨号失败,则说明终端尚未连接至无线运营商,需检查SIM卡是否欠费、腐蚀或接触不良、卡槽、模块故障等;
若终端拨号成功,则说明终端已经正常连接无线运营商基站或服务器,无线运营商基站或服务器至计量自动化主站的通道出现异常。
2.2厂站电能量采集终端通信故障分析
2.2.1上行通道故障:包括网络通道、电话通道、四线专线通道故障。
2.2.2 设备故障:网卡、模块、装置故障等。
3.计量自动化终端上行通信故障排查方法
3.1 无线公网终端通信故障排查
3.1.1 检查无线公网终端通信通道是否正常
所谓的公网终端通信通道也就是指无线通信运营商提供一条专给电力专网提供的数据专线,因此若出现无缘故大批量的终端掉线现象,则首先应提供一批因这次故障而掉线的终端IP给通信运营商查找原因,分析到底是SIM卡数据未捆绑好需要重置数据还是因为通道故障需要处理。
3.1.2检查终端参数设置是否不正确或未设置
(1)检查APN设置:在新安装或更换终端时,需在终端设置好APN(即登录电力专网的身份通行证),没有设置好(以湛江地区为例APN为ZJDLCB.GD)这个密码,则所上传的数据无法通过电力网关。
(2)检查主站IP地址设置:需在终端设置好主站的服务器IP地址,(以湛江地区为例:负控服务器地址是192.168.2.30;配变是192.168.2.40),各类终端都有自己所属的主站IP地址,否则数据无法到达指定的目的地。
(3)检查通信协议及终端端口号(以湛江地区为例:TCP为5112、UDP为6112)。
3.2 厂站电能量采集终端通信故障排查
3.2.1 网络通道故障排查
(1)检查网络连接情况(通过远程服务器ping交换机网关IP)。
(2)检查装置登录情况(通过远程服务器ping终端IP,然后telnet终端)。
(3)通过终端调试软件进行测试,(将网线接头接入笔记本电脑,笔记本电脑的IP、端口号等设置与终端一致,通过模拟主站检查能否远程链接到笔记本电脑上。)
(4)重启终端(检查有的终端是否处在死机状态)。
3.2.2电话通道故障排查
(1)使用手机拨通终端接入电话号码,查看是否有moden音
(2)使用万用表测量测量电话线电压是否正常(直流50伏左右)
3.2.3 四线专线故障排查
(1)核对终端内四线音频专线MODEM 波特率、起止位、字节长度、校验位与主站通信系统是否匹配。
(2)信号收发接线是否错误,局方四芯专线的发(TX)要接终端的收(RX),终端的发(TX)接局方的收(RX)如下图3-1所示。
(3)检查四芯专线上送频率是否正确,四芯专线的中心频率为1700Hz,频偏:±400 Hz,发送“1”,频率为1300Hz,发送“0”,频率为2100Hz,可用万用表测频率是否为1(T+与T-间交流电压约0.6V左右)。
(4)将四芯专线环测,主站发命令进行自发自收测试。
4.计量自动化主站设备故障排查方法
如下图4-1所示为计量自动化系统数据传递流程,计量自动化终端将现场采集的电能量信息通过通讯模块,经由各种通信方式经通道到达电力专用网络登录主站系统。这些数据首先经过防火墙的安全认证,投送目标地址,这些数据包在经过确认安全之后再转发给路由器,路由器对数据包的报文报头进行解析,确定数据包交换机的转发到达前置设备,前置设备对这些收到的数据进行解析和初步处理,再将处理后的数据发给主站服务器,再由主站进行后期处理和数据存储等。其中交换机用来拓展网络数量和划分网络; 路由器主要起到网络数据包的转发和解析; 防火墙用来应付整个网络的攻击。所以无论防火墙、路由器、交换机、前置机哪一环节出现问题,都会影响数据是否最后进入数据库。通过多年来的运行维护统计,出现故障最多的还是在前置机是否正常工作、服务器的网络连接是否正常这个环节。
4.1检查是否为服务器无法启动
主要原因为:①市电或电源线故障(断电或接触不良);②电源或电源模块故障;③内存故障(一般伴有报警声);④CPU故障(一般也会有报警声);⑤主板故障;⑥其它插卡造成中断冲突。
4.2检查系统是否频繁重启
主要原因为:①电源故障(替换法判断解决);②内存故障(可从BIOS错误报告中查出);③网络端口数据流量过大(工作压力过大);④软件故障(更新或重装操作系统解决)。
4.3检查是否死机,进行前置机硬件和软件检查
4.4当原硬盘坏了,检查更换新硬盘时是否出现无法通过机器自检现象
4.5将新的硬盘取下,检查机器是否可以自检通过
4.6检查新增加的硬盘的ID号是否与原来的硬盘的ID号相同,如果硬盘的ID号相同的话,自检将无法通过
5.终端本体或本体器件故障排查方法
无论是GPRS公网终端或厂站电能量采集终端,到现场首先第一步还是要检查终端是否已死机,分析其故障原因.
5.1 看是否能够重启终端
5.2检查GPRS模块是否故障
5.3 检查SIM卡或网线接口、网卡等其他模块故障
6.基于计量自动化上行通信日常维护方案
人长时间工作,会出现劳损的现象,机器也不例外,所以需制定日常维护工作方案,做好日常维护工作,减少故障发生次数。
6.1做好前置机日常维护工作
前置设备是位于应用系统服务器端(计量自动化系统主站)与客户端之间的独立处理设备,肩负数据格式转换、连接管理、业务流管理外围调度、外围处理,报文认证、个人密码PIN变换、并把业务数据交后台应用服务系统处理等任务。因此,它是日常维护的一个核心部分。计量自动化班必须每天专人进行跟踪检查并做好日志記录。
6.2做好通道的监测维护工作
上行通道是终端数据的必经之路,做好这方面的日常监视维护工作至关重要。当终端与主站无法正常连接可以首先考虑是否为通道的问题。如公网终端通道就与无线运营商联系处理,厂站终端通道则采取通过远程服务器ping交换机网关IP, ping终端IP,然后telnet终端的方式。如果还是不通就到现场排查故障,如果是通道故障则需通知调通中心运维部门处理。
6.3 做好终端在线率监测
每日做好终端在线监测至关重要,将掉线的终端逐一筛选出来分析一遍,然后再进行主站故障排查、通道故障排查、终端本体故障及其他原因逐一排查。
6.3.1如果在线率与上日比较下降2%左右,查看停电终端是否有明显增加,与各区县局责任人联系,核实是否存在线路停电或线路改造。
6.3.2由于通讯厂商业务升级导致在线下降。在计量自动化系统查看终端掉线清单,查看终端IP段属于哪个通信运营商 (以湛江地区为例:192.168开头是移动卡,192.169是电信卡,192.170是联通卡)。掉线终端突然增多,联系通讯厂商技术员查找原因。经过多年的经验统计,移动主要是业务切换故障;联通经常为数据转换器故障;电信常出现路由器故障。
6.3.3由于主站程序异常导致在线率不稳定,突高突低,需检查前置机运行程序。
6.3.4新安装某终端厂家参数出厂问题导致在线率下降,应去现场检查故障终端,查看终端设置等情况。
6.3.5由于部分区域信号导致在线率下降或终端反复登陆主站。出现此类问,应与通信运营商联系。
7.故障排查应用实例介绍
7.1 因公网终端上行通道故障导致批量掉线故障处理实例
2012年6月30日9点45分湛江计量自动化系统出现大批量终端掉线现象,其中配变终端掉线约3000台,负控终端掉线约5000台,共计约8000台。由本人担任工作负责人进行计量自动化紧急消缺处理。①首先排查前置机的运行状态:登陆管理员账户,核对系统应用服务的运行情况,查验是否有未知服务器开启;查看所有管理员账户数量和账户ID,核对账户是否被修改或新添加的管理员账户,如有被修改或添加账户应及时向账户持有人核对;检查设备是否有新的服务端口开启,如有新的端口开启应立即关闭,然后再核实新开端口的安全性;检查有没有病毒;检查CPU性能好坏情况;检查内存是否满足,确认数据的存取空间是否满足等。做完这些工作后,确认前置机是正常工作的,服务器的网络都是正常的,那就可以很肯定地排除了是前置设备异常导致的故障。②考虑到移动专线通道的问题,本人导出了所有掉线终端的IP地址发送给移动公司,并联系移动公司工程师赴机房进行故障处理。6月30日11点15分,配合移动协维工程师检查路由器,故障原因确诊为RT互联结构2层改3层优化实施时,广州CR01/CR02与广州RT01/RT02无法交互路由导致GZRT01/RT02下挂业务全阻和设备脱管,影响湛江局GPRS企业接入业务。协维工程师在两台CR上与RT所有互联接口开启OSPF点对点属性,完成该节点工程优化改造并检查确认业务正常。6月30日11点50分终端与主站上行通信恢复正常。
7.2应用效果
在6月30日当晚能及时排除和处理大批量掉线异常现象,保证系统上线率正常,使7月1号抄表日数据采集、营销收费不受故障影响。
8.结束语
本文通过多年来的工作经验,摸索分析了计量自动化各类型终端上行通信故障原因和总结出故障排查的各种方法,详细描述了上行通信知识的原理,解决计量运维人员对通信专业不了解、无法排查终端与主站建立连接的故障现象,制定了日常维护工作方案以及达到持续提升终端上线率的实效。
参考文献:
[1]肖勇,周尚礼,申妍华,伍少成.大规模大客户负荷管理系统数据采集方案的研究.电测与仪表,2010,8
[2]肖勇,周尚礼.基于VxWorks实时嵌入式操作系统平台的计量自动化远方监控终端的设计.电测与仪表,2008,07
[3]关飞,吴小美,刘朝辉.基于GPRS通讯的配变监测管理系统.电测与仪表,2010,8
[4]肖勇,周尚礼,张新建,化振谦.电能计量自动化技术.中国电力出版社,2011,11
[5]钟仕超.惠州计量自动化系统的设计和应用[J].中国高新技术企业,2009,7