李伟,戴勇,汪大洋,郦竞伟,王文帝
(1.国网江苏省电力有限公司信息通信分公司,南京 210024;2.国网江苏省电力有限公司南京供电分公司,南京 210019)
电力系统稳定可靠运行离不开通信网络的支撑。目前国内电网已经建成覆盖电厂、变电站、调度大楼的广域专用光纤网络[1],实现对电力系统厂站自动化终端的广泛互联与远程操作。随着电网智能互动需求向中低压电网延伸,沿用光纤通信网络将面临业务点多面广、光缆敷设周期长、成本高等困难。中压电力线载波网络拓扑受限于电网拓扑,组网灵活性差[2]。无线公网承载控制业务安全防护强度低,且与互联网业务共网承载,电力业务通信资源保障能力弱。综上,利用电力行业自有频率资源建设专用无线通信网络,实现对配用电侧海量终端的灵活接入与实施控制具有良好的应用前景,适用于配用电网海量终端的灵活接入与实时控制[3]。
然而,电网安全稳定控制需要通信网络具备极高的可靠可用性。电力系统通信网络承载了大量电网感知与控制信号,网络故障易引发电力信息物理系统连锁反应,严重时可能会导致电力系统发生不可预估事故。因此,建设并应用电力无线专网时,有必要针对网络运行状态实时监测与故障分析诊断手段开展相关技术研究。近年来,针对电力系统运行故障诊断领域,有学者应用机器学习、人工智能技术取得了智能诊断方面的研究成果[4-5]。电力光纤通信系统借助网络管理系统也实现了网络状态的实时采集、在线监测[6]。文献[7]提出利用时间序列分析技术实现网络态势发展预测;文献[8]提出采用数据挖掘技术实现电力通信网管告警信号的关联分析;文献[9]针对路由器连接故障提出一种基于深度学习模型的故障诊断算法,诊断正确率高;文献[10]提出一种加权概率二分图模型开展网络故障对症状的贡献分析。文献[11]全面阐述了人工智能在5G通信系统的研究现状、未来研究方向等;文献[12]提出基于大数据分析的网络故障预警方法;文献[13]基于专家知识库,提出了一种基于模糊逻辑推断的无线网络故障智能诊断算法;文献[14]利用少数类合成过采样方法解决了样本数据量少的问题,并提出一种基于集成学习的无线网络故障诊断算法。
目前,针对无线通信网络的日常运维主要依赖于人工路测、专家诊断与网络工程师现场实施的方式,可以较好地模拟用户行为特征(如步行、驾驶汽车等移动状态)测试网络性能,但也面临路测成本高、故障诊断依赖人工判断耗时耗力等缺点。第三代合作伙伴计划(3rd Generation Partnership Project, 3GPP)启动了一项被称作“最小化路测”(Minimization of DTs, MDT)的研究任务[15],利用终端上报网络状态周期性测量值、用户地理坐标等信息,辅助运营商开展网络状态分析、故障诊断。电力无线专网网络覆盖的主要目标是电网末端感知采集节点、控制终端等,具有位置固定、实时在线运行等特征[16],利用MDT技术开展电力无线专网运营维护,具有实施成本低、网络分析针对性强等优势,MDT技术为电力无线专网运维平台的智能诊断分析提供了海量数据支撑,具有广阔应用前景[17]。
文章拟结合专网自身特点详细分析其典型故障类型,并采用MDT方法构建网络关键性能指标异常分析框架,基于指标异常程度度量值设计一种故障智能诊断模型。
电力无线专网平均每平方公里业务接入密度约为公网的几十分之一,因此电力无线专网单基站覆盖范围较大,城区覆盖半径约1 km左右,城市郊区覆盖半径达到3 km以上[18-19]。因此,电力无线专网运行具有广覆盖、功率受限等特点,需要密切关注过覆盖、弱覆盖(含覆盖空洞)、边缘接入能力恶化、系统内外干扰等典型问题。
无线网络过覆盖是指较远处的小区由于天线下倾角较低、天线挂高过高导致信号辐射范围过大,由于LTE系统采用全网频率复用,过覆盖导致的越区干扰是常见的故障之一。弱覆盖(含覆盖空洞)是指在某些区域无线专网信号强度低至规划值,无法满足业务接入条件,导致业务离线。导致弱覆盖或覆盖空洞的主要原因包括无线传播环境中障碍物背对基站天线一侧信号衰减大、新建障碍物等。接入能力恶化是指业务点信号强度较弱导致解码失败率增加,业务通信带宽逐渐降低,并影响业务随机接入网络成功率,导致业务频繁离线。系统内外干扰(以下简称“干扰”)是指在无线专网工作频段内出现非期望接收信号,影响了接收机解码正确率,严重时会导致业务离线,干扰源可能来自工作频段内部或者外部。典型的系统内干扰包括模三干扰、大气波导等,系统外干扰包括与运营商基站共塔时的杂散干扰、阻塞干扰等。
如图1所示,电力无线专网利用MDT技术架构实现KPI采集功能,采集小区覆盖下业务点关键性能指标(Key Performance Indicator, KPI);通过KPI统计,计算模块的滑动时间窗求解KPI统计量(概率分布密度估计、均值与方差计算等);利用KPI异常检测模块,针对KPI统计量与历史正常KPI特征开展比对分析,若未出现异常,则将当前统计量推送至KPI特征库动态更新正常KPI密度估计值,反之,将异常KPI统计量推送故障分析模块,进行诊断,并将诊断结果推送至专家知识库。运维人员根据诊断结果并依据网络优化策略解决网络故障[20]。
图1 基于MDT统计数据的故障诊断系统结构框图
电力无线专网MDT主要采集的业务KPI种类主要包括:(1)参考信号接收功率(Reference Signal Receiving Power,RSRP),定义为下行导频信号平均接收功率,单位为dBm;(2)信号与干扰加噪声比(Signal to Interference plus Noise Ratio, SINR)定义为导频信号功率与干扰和噪声功率比值,单位为dB;(3)随机接入成功率定义为业务点随机接入成功次数与随机接入总数的比值,记为RASR,随机接入主要发生于终端从空闲态向连接态转移,触发转移的条件包括核心网寻呼、业务本侧发起数据传输请求、系统参数更新等;(4)业务平均传输速率,单位为bps,记为CAP。
小区级KPI被定义为业务级KPI的统计意义上的阈值,例如小区RSRP 95%阈值是指该小区覆盖范围内95%的业务点的RSRP下限值,小区SINR 95%、RASR 95%、CAP 95%定义与之类似。因此,下文主要针对业务级KPI开展故障诊断分析研究,相关算法可简单推广至小区级KPI场景中。
本节将针对图1所示的电力无线专网故障诊断系统,详细阐述KPI统计计算、异常检测与故障诊断的算法原理及处理流程等。
记无故障、过覆盖、弱覆盖、接入能力恶化、干扰依次为Fk,k=0,1,2,3,4。网络KPI包括RSRP、SINR、RASR、CAP等。针对KPIn(n=1,2,…,N)的样本序列采用窗长为W,滑动步长(采样计算周期)为(W-V)的滑动窗采集样本序列,采集到的随机变量序列如下:
(1)
首先,RSRP受无线传播信道衰落影响,其典型概率分布符合瑞利分布,概率密度函数为:
(2)
(3)
根据式(4),文中按照滑动窗W-V周期性计算采样的RSRP,计算可以获得瑞利分布参数的极大似然估计,即可获得不同故障类型关于RSRP的条件概率分布。SINR正比于RSRP与PN+PinCell+PoutCell的比值,因此其概率密度函数可参照RSRP。
(4)
式中PN、PinCell、PoutCell分别为热噪声功率、小区内干扰功率和小区外干扰功率。
接着,文中针对RASR概率分布进行建模。通信终端每次随机接入基站成功率为RASR,失败率为1-RASR,即可以将随机接入看作为二项分布,根据统计学理论可知,Beta分布是二项分布的共轭先验,RASR的条件后验概率密度服从Beta分布,Beta分布的概率密度函数由下式给出[21]:
(5)
式中B(α,β)=Γ(α)Γ(β)/Γ(α+β),Γ(·)为伽马函数。α,β的最大似然估计值分别为随机接入成功次数与失败次数。文中按照滑动窗W-V周期性记录终端随机接入成功与失败次数,即可获得不同故障类型关于RASR的条件概率分布。
最后,文中针对CAP开展条件概率密度估计。根据中心极限定理,业务平均传输速率服从N(μ,σ2)的高斯分布,其中:
(6)
式中均值μ和方差σ2的极大似然估计为:
(7)
(8)
利用KL散度刻画故障条件下相对于无故障时的概率分布偏离程度。KL散度值计算如下:
(9)
通过计算滑动窗内各KPI相对于无故障状态下的概率密度散度值,并与对应的阈值比较;通过比较可以实现对无线专网异常状态的实时预警,同时为下一步设计故障智能诊断算法奠定基础。
图2 基于SNN的故障诊断模型
图2中, 隐含层表达为输入层的线性函数:
(10)
(11)
式中,激活函数为sigmoid函数形式:
(12)
Softmax层则根据下式:
(13)
步骤1:按照式(1)采用窗长为W,滑动步长为(W-V)的滑动窗采集KPIn的样本序列;
步骤2:在单个时间窗内计算KPIn,如RSRP、SINR、RASR、CAP等的条件概率分布,详细计算方法参照式(2)、式(5)、式(6);
步骤3:依式(9)计算KPI样本序列的条件概率密度函数与无故障条件概率密度差距,若大于阈值则判定出现故障并执行步骤5,否则执行步骤4;
步骤4:将计算获得无故障状态下KPI样本序列与之前采样周期样本序列按序合并,并更新无故障时KPI条件概率密度估计参数值,存储并作为下一次故障判别的比较对象;
步骤5a:训练阶段,将故障时的KPI条件概率密度散度值输入SNN模型,并根据交叉熵误差最小化准则训练模型参数;
步骤5b:测试阶段,将故障时的KPI条件概率密度散度值输入SNN模型,求得故障判别类型。
文中搭建了一个电力无线专网故障诊断仿真环境。图3为仿真环境无线蜂窝小区布局,该环境由19个小区构成的电力无线专网小区簇,该小区簇由3层构成,最内的2层小区1~7构成邻区关系,而最外层的小区8~19构成小区1的过覆盖小区。该小区簇内各小区具体参数配置见表1。
图3 仿真环境小区簇布局
基于Matlab软件中LTE链路级仿真工具[22-24],根据表1配置参数搭建计算机仿真环境,并在无故障状态下采集各类KPI值进行概率密度估计,得到无故障条件下KPI概率分布特征,作为后续故障诊断分析比较对象。
表1 文中仿真环境参数配置
接着,通过设置天线下倾角为1°、增加信道大尺度衰落值、增加终端侧散射物密度以及设置干扰电平等方式仿真模拟四类典型故障,经过KPI统计获得如图4~图7所示的KPI概率分布图。
图4 不同类型故障条件下RSRP概率密度分布图
观察图4发现弱覆盖和接入能力恶化使得RSRP降低明显,同时干扰降低RSRP有限,但增加了RSRP变化范围,这是由于干扰的存在导致终端测量导频功率受到影响后误差变动范围增加。
如图5所示,弱覆盖导致SINR均值变小,这是由于接受信号较弱导致的。过覆盖对SINR均值影响较低,方差略有增加,这是因为导频信号的广播特性,使得过覆盖小区导频“污染”了本地小区导频,导致SINR波动性增加。SINR在干扰条件下变动范围剧烈,而在接入能力恶化时不仅SINR方差变大,且取值也明显降低。
图5 不同类型故障条件下SINR概率密度分布图
图6说明在无故障条件下,随机接入成功率可达到95%,而不同故障类型均影响了终端随机接入,过覆盖影响最小,接入能力恶化与弱覆盖次之,干扰影响最大。这主要因为随机接入成功率与终端正确解调小区广播的同步信号强相关,干扰与弱覆盖直接导致同步信号功率低或信干噪比过低,同步解码错误概率增大。
图6 不同类型故障条件下RASR概率密度分布图
如图7所示,网络出现质量劣化时,数据传输带宽将逐步降低,这将直接影响到电力业务传输可靠性,不得不发起多次重传,降低了运行可靠性。
图7 不同类型故障条件下CAP概率密度分布图
通过仿真环境模拟故障500余次,对比文中与文献[13-14]提出的故障诊断算法性能。观察表2、表3可知,文中提出算法的故障诊断成功率超过89%,优于文献[13]所提出的模糊逻辑诊断方法。
表2 故障诊断正确率结果
表3 文献[13]的故障诊断正确率
对比表2、表4故障诊断结果,文中所提算法无故障和弱覆盖判决正确率低于文献[14],过覆盖、边缘接入能力恶化、干扰的判决正确率优于文献[14],这是因为文中算法采用概率密度估计函数的散度值,更易发现干扰、接入能力恶化程度,而文献[14]则是基于KPI误差熵进行推断,牺牲了一部分精度,增强故障推断泛化能力。
表4 文献[14]提出的故障诊断算法仿真结果
基于网络KPI的实时采集数据,文中提出了电力无线专网网络故障诊断方法,通过监测故障条件下KPI概率分布变化,实现网络质量劣化与故障诊断。仿真结果验证了算法的有效性,未来可以进一步开展故障恢复指标约束下的网络自愈算法研究,不断提升电力无线专网智能化运营水平。