陈 幸 张 帝 黄 頔 贺思林 赵 冰
(1.国网湖南电力有限公司电力科学研究院 2.国网湖南省电力有限公司技术技能培训中心3.国网湖南电力有限公司韶山供电分公司)
随着社会经济的不断发展,电力市场供求不断进步,用户对供电可靠性、电能质量及优质服务的需求不断提高。配电自动化作为一种有效手段,在国内的配电网中得到了广泛应用。配电自动化系统由配电主站(下文简称“主站”)、通信网络、配电自动化终端(下文简称“终端”)等组成,通过采集配电网中的实时数据,实现对配电网的监测、控制和快速故障隔离,支撑配电网的调控运行、故障抢修、生产指挥、设备检修、规划设计等业务的精益化管理。
考虑到地理因素及成本,湖南电力大规模采用无线公网通信方式接入终端,此方式既经济实用,又能满足各项实用要求,在配电自动化建设中得到了广泛应用。
查阅相关文献发现,大部分只针对终端进行频繁掉线研究,本文从主站侧、通信侧及终端侧系统性对频繁掉线问题进行了深入分析,并提出了解决思路和方案,为今后同类问题的分析排查提供了参考方向。
配电自动化系统由主站、通信网络及终端等组成。通信报文传输路径为终端-无线模块-通信运营商基站-运行商核心网络-APN 专线-安全接入网关-采集服务器-前置服务器,此过程可逆。
目前,配电自动化系统通信协议应用DL/T634.5101-2002 实施细则、配电自动化系统应用DL/T634.5104-2009 实施细则,实现数据传输、控制及功能拓展。
配电自动化系统无线公网通信通常采用101 规约细则。101 规约支持非平衡和平衡方式的信息传输。在配电自动化系统中,电力载波通信方式采用非平衡方式;无线公网通信方式采用平衡方式。
不同主站判定掉线的机制不同,本文以国内某主流厂商研发的主站为例,进行分析。
主站间隔30s 发送一次心跳帧以确认链路状态。当30s 内未收到终端对下行报文的确认或应答时,主站会进行报文重发,重发3 次仍未收到确认或应答后主站判定终端离线,此时主站会主动断开通信连接,等待下一次重连。
2.2.1 终端报文传输过程
终端核心单元与无线模块通过串口232 进行通信,通信过程为核心单元将报文发送给无线模块,无线模块通过GPRS 无线网络经过通信基站传输给主站前置服务器;主站前置服务器下发报文给无线模块,无线模块再转发给核心单元。
2.2.2 终端掉线判断机制
终端上送应用报文或心跳报文给无线模块,在30s 之内未收到主站回复的报文时,终端会进行报文重发,重发3 次主站仍未回复,终端会主动断开与主站的连接,等待下一次重连。
日掉线次数≥5 次,即可被视为频繁掉线。据不完全统计,30%的终端存在频繁掉线情况。
终端频繁掉线会造成三遥信息丢失、遥控及远程调阅和下发定值参数失败,严重影响影响配电自动化实用化应用,其造成的后果及影响远远大于长期离线,并且频繁掉线原因调查难度大,分析时间长。通过对终端频繁掉线问题进行长期跟踪调查与研究分析,发现造成频繁掉线的原因主站侧主要为安全接入网关50 报文在链路重启后未下发、心跳帧重发3 次的机制未生效、多线程运行问题等,通信网络侧主要为通道资源容量不足、无线模块主动释放链路等,终端侧主要为链路状态管理不严谨、加密芯片主动休眠等。本文通过网络抓包方式,分区段同时截取上下行收发报文,来进行频繁掉线分析。
3.2.1 安全接入网关50报文在链路重启后未下发
主站和终端网络层建立链接后,19:31:08.480 由主站前置服务器下发50 报文,在19:32:15.884发送RST 网络层链路重置命令,见图1。
图1 主站前置服务器50报文截图
主站与终端建立通信链接后,联通核心网收到的第一帧报文是在19:31:08.512 从主站侧发送终端侧的20(安全网关认证流程)报文,安全认证流程在19:31:15.503 结束,此过程持续7s。在1min 后收到主站侧下发给终端侧的链路重置命令,期间主站没有向终端发送50加密流程认证的报文,见图2。
图2 联通核心网抓包
查看安全接入网关配置可知,网关收到前置机50 报文后启动网络安全认证流程,安全认证时间为5s,超过认证时间后,重置链路链接。由于无线通信的不确定性,延长网关机安全认证时间至10s,可解决安全接入网关50 报文在链路重启后未下发的问题。
3.2.2 多线程等配置参数引起主备前置机通道抢占
主站前置主机A 在与终端正常通信的情况下,主站前置备机B 会主动向终端下发50 报文,终端接收到前置机B 的报文后,会立即断开连接,等待下一次连接,见图3。同时终端响应前置主机上送的应用数据时,数据量较大,需要一一调取加密芯片进行数据加解密处理,出现前置主机A 和前置主机B加解密冲突,导致加解密失败掉线。
图3 主站备机发起链路重置链接
3.2.3 主站加密认证流程逻辑不严谨
主站与终端通信连接正常流程为安全认证-加密认证-初始化-初始化总召-时钟同步-心跳,数据解析优先级应按照表1 进行,终端在加密认证、文件召唤、参数读取修改、遥控操作、总召、电能量总召及故障遥信等传输过程中未严格按照报文优先级进行上送,导致解密失败。如在安全身份认证过程中,终端上送应用报文,主站未完成安全认证的情况下进行报文解析,由于加密认证过程逻辑不严谨,导致终端掉线。
3.2.4 主站侧3次重发机制未生效
主站规约层重发机制有利于山区等运营商信号较弱地区的终端在线保持,一般设置为重发3 次,每次间隔为30s,3 次均未收到终端回复的报文,则判定为终端离线,主站会重新发起通信连接。
通过主站前置机、接入网关、联通APN 专线接入交换机及终端侧无线模块抓包发现,主站发送给终端的规约报文在超时未收到来自终端侧TCP 层的确认(ACK 帧,TCP 层超时时间设置的1s)时,见图4,主站会直接重置TCP 连接,导致规约层3 次重发机制未能生效。
图4 遥控报文
3.2.5 主站未回复终端遥控预置确认帧的短帧确认
遥控预置时,主站收到终端遥控预置确认长帧报文后,没有下发短帧确认帧(报文内容:10 00 01 00 01 16),导致终端判定遥控预置确认帧发送失败,触发重传机制,见图4。终端重发三次遥控选择确认报文,主站仍未进行响应,终端判定与主站连接断开,重置链路并进行新一次连接。
3.3.1 无线模块主动切换接入基站
终端通过无线模块、通信基站、主站进行通信连接,某厂家无线模块在与通信基站进行连接时,会优先选择周边通信信号值优于6 的基站,在基站切换过程中,会释放链路。
通过联通公司基站抓包来分析,无线模块切换基站共用时22s。从分析结果来看,无线模块切换基站耗时长,次数较为频繁,在切换过程中,终端收不到任何主站下发的报文,存在很长的空档期。
3.3.2 通信通道现有容量不足
101 报文最短报文为18 字节长度(不带信息对象,不考虑6字节短帧),最大长度为255字节。考虑到实际无线通信延时,按单帧报文从源端到目的端(包括TCP 传输层的ACK 传输完成)传输需要1 秒算。单次101 报文平均大小:(18+255)/2=136.5 字节,外加TCP 报文头及一次ACK,为250.5 字节,共2004bit。
考虑极端情况,所有终端都在进行初始化加密认证或业务报文应答,在考虑80%负载率情况下,每1000台所需通信带宽为:
当APN 专线通信带宽低于上述值时,就会导致通信延时加长、丢帧等异常情况发生,加大TCP 连接断开并重连的几率。此时需要对专线带宽进行扩容。
3.4.1 终端链路状态管理不严谨
通过上述3.2.3 已经了解到主站存在加密认证流程逻辑不严谨问题,同时存在主站身份认证结果下发(应用类型:54)和主站对终端发起密钥协商请求(应用类型:58)两帧报文之间设置30~35s 延时,且不得有任何数据交互的机制。通过了解,主站安全接入网关在处理这两帧报文存在延时,54 和58 两帧报文抵达终端的先后顺序发生错乱,会导致初始化加密流程无法顺利完成,因此在54 报文下发延时30~35s后才下发58报文。
上述配置情况下,对终端报文进行抓取分析,发现如下问题会导致终端频繁离线:
(1)终端在加密过程中主动上送突变数据,未严格按照标准规范的优先级进行回复,逻辑不严谨。
(2)终端设置了定时上送机制,在20~25s 之间与主站未进行任何信息交互,会主动上送链路请求帧(报文内容:10 89 01 00 8A 16),此逻辑设置不符合标准规范。
3.4.2 加密芯片主动休眠
加密芯片ESAM上电后,半小时内未收到处理指令,会自动进入休眠状态。处于休眠状态的ESAM芯片不应答任何处理指令,直到掉电后再次上电,如图5。
图5 加密芯片运行流程
在实际主站与终端通信过程中,只有安全身份认证和遥控需要传递处理指令给加密芯片,常规应用报文(包括数据总召、遥信突发、遥测越限上送和对时等)和心跳报文均未经过ESAM芯片处理,导致现场终端内ESAM芯片很容易进入休眠状态。此时主站进行遥控操作,终端无法通过ESAM芯片完成报文解密及验签,无法对主站遥控报文进行正确应答,超时后主站将连接连开,导致“一遥控,终端就掉线”。
因报文传输路径为终端-无线模块-通信运营商基站-运行商核心网络-APN 专线-安全接入网关-采集服务器-前置服务器。现场发生频繁掉线后,可采用三步定位法快速判断故障位置,提升工作效率。
第一步:确定频繁掉线终端,从主站侧或终端侧调取该终端三日内报文记录,查看掉线时刻报文交互过程是否按照根据DL/T 634.5101-2002 标准流程进行,并查看是否每次掉线情况一致。
(1)若报文交互过程未按照标准流程进行,则故障点为主站与终端的规约程序问题。
(2)若报文交互过程正常,进行第二步。
第二步:分别抓取前置服务器、安全接入、无线通信模块通信报文,通过Wireshark 等分析软件开展分析来确定故障点。
(1)综合分析判断故障点位置,若前置服务器和安全接入网关存在报文记录,而无线模块日志无记录,故障点定位在运营商侧。
(2)若前置服务有报文记录,安全接入网关和无线模块无报文记录,故障点定位在采集服务器侧。
(3)若前置服务器无报文记录,则故障点定位在前置服务器本身。
(4)若前置服务器、安全接入网关、无线模块都有报文记录,则故障点定位在终端侧。
第三步:排除第一步和第二步的情况下,检查通信运营商配置容量及配置参数,并查看是否存在无线模块频繁切换基站日志。
随着配电自动化实用化需求及应用程度越来越高,终端上线稳定性至关重要,终端频繁掉线问题的解决,能极大的提高终端遥测、遥信数据上送正确率和主站远方遥控终端的成功率;同时也才能有效推行基于各种维度的主站集中式馈线自动化功能及其他复杂应用,不断提升供电可靠性,促进社会经济发展和人民生活质量提高。