郗伟杰,李东辉
(大连交通大学 电气信息工程学院,辽宁 大连 116028)*
由于长期运作在外部环境的原因,接触网故障与外界气象因素息息相关.因此研究气象因素与接触网故障的相关性就非常重要.文献[1-6]都从定性的角度分析了气象因素对接触网故障的影响,但缺少数据证明.文献[7]采用逐步回归法研究牵引供电系统故障的相关问题,但是很多接触网故障与导致故障的因素之间并不是线性相关的,所以在面对非线性问题,逻辑回归拥有很大的优势.文献[8]研究的故障内容属于有序逻辑回归.然而接触网故障之间往往是无序的,而且由于样本数据的不均衡问题使得该文采取的后向逐步选择法不能很好地提取出相关的气象因素,很多实际情况都可以证明接触网故障与湿度,温度,等气象因素息息相关,而该文只是提取了雷击和风速两个相关因素,因此为了更加细致地描述接触网故障与气象因素的相关性,本文通过SMOTE算法对数据进行优化,然后采取无序多分类Logistic回归建立接触网故障与影响因素之间的关联模型,可以更有效地预测接触网在气象因素影响下发生的概率.
分类问题的探究过程对不同类别数据的平衡性有着很高的要求.当分类数据的样本量存在较大差异时,分类结果将向样本多的类别倾斜.大大降低了结果的准确性.由于接触网故障种类繁多复杂.而不同故障类别的检测数据样本量存在这很大的差异,这使得直接对未处理的数据进行研究的结果很不理想.因此为了解决这一问题.本文采用了SMOTE算法,对样本量少的数据进行处理,在这些小样本距离较近的位置插入新样本,使得不同类别样本数量达到尽可能的均衡.
接触网故障种类繁多复杂,由于天气因素导致使的故障类型是随机的没有顺序性.所以本文采用无序多分类逻辑回归对不同故障类型与气象因素建立关联模型,分析它们之间的相关性.
经过对接触网故障数据分析不难发现影响接触网故障的主要气象因素有风速,湿度,温度等天气状况.
(1)风速影响
接触网在大风的作用下导致线间距离小于安全距离,因而导致附加导线、承力索烧伤,大风引起异物挂在线路上造成线路短路,大风致使接触网不断抖动,以至于受电弓很难受流,甚至致使导线断裂.
(2)温度影响
温度过高或过低都会导致线路弛度发生变化而引起断线,在一定的温度条件下会使导线覆冰从而发生过荷载、绝缘子覆冰闪络、导线覆冰舞动等故障.
(3)湿度影响
接触网装置的绝缘效果与湿度息息相通.当绝缘子表面积污在一定的湿度条件下很容易发生污闪,而湿度也会影响覆冰情况.当绝缘子覆冰在融冰过程中很容易发生因水流在设备表面而造成短路的情况.
根据随机采样进一步创新的SMOTE算法的思路为:
(1)选取拥有少量数据的样本中的各个样本x,运用欧式距离进行距离计算.得到每一个样本到其它样本之间的距离,从而得到K个近邻值;
(2)通过对研究数据的分析,得到一个学习比例用来当作接下来的采样倍数N,在计算得到的K个近邻值中选取一个近邻x′;
(3)进而运用选取的近邻x′,根据下面的公式进行相应的计算:
xnew=x+rand(0,1)*(x′-x)
(1)
如果假设少量的样本个数为T,则通过SMOTE算法.可以获得NT个这样的新样本.同时我们规定N一定是正整数,倘若现在的N<1,则SMOTE算法在进行运算时会主动使N=1.
在对数据的分析过程中,由于收集到的数据中有关于高温导致的接触网断线的故障样本只有14个,而风速导致的接触网断线故障样本数为92.为了使样本数据达到尽可能的均衡.就可以采用上述过程,对高温导致的接触网故障数据进行处理,利用SPSS Modeler数据分析软件中的SMOTE算法,定义K=5,进行新样本数据的合成.最终得到新的样本库,高温导致的接触网故障样本为84,由风速导致的接触网故障样本为92.进而再利用得到的新的样本库进行多分类逻辑回归分析.由表5得到的预测概率可以看到由高温导致的故障概率可以达到84.6%.
采用与气象因素相关的覆冰,断线,异物故障为因变量,用Y=1,2,3表示.温度(X1),湿度(X2),风速(X3),天气(X4)为与Y相关的自变量.多分类逻辑回归的分析是基于二元逻辑回归基础上的,通过将多分类逻辑回归看作多个独立的二元逻辑回归.将第k个类别作为主类别,则具体计算过程如下:
(2)
(3)
…
(4)
即:
P(Y=1|X)=P(Y=k|X)exp(β1X)
(5)
P(Y=2|X)=P(Y=k|X)exp(β2X)
(6)
…
P(Y=k-1|X)=P(Y=k|X)exp(βk-1X)
(7)
由于概率的总和为1,因此:
(8)
即:
(9)
式中,β0,β1,…,βK为回归系数,作为需要估算的参数可以通过最大似然函数进行求解[9].本文用Y=3异物故障作为主类别进行分析,通过IBM SPSS Statistics数据分析软件,设置变量,输入数据进行无序多分类逻辑回归建模得到结果如表1所示.表1中的B值即为所构建的回归模型中的回归系数.从而得到如式(15),(16)所示的基于异物故障的接触网故障关联模型.
表1 参数估算值
(1)对数似然值:
(10)
(2)拟合优度
(11)
(3)某个自变量XK对时间A发生概率的影响U检验及Wald检验
(12)
(13)
(14)
当W=U2时,可以说W渐近的满足自由度是1的χ2分布[9],表示为W~χ2(1).
基于W检验假设H0:βK=0↔H1:βK≠0的方法称为Wald检验,检验P值为PH0(W≥W0),其中W0为W的观测值.
因变量Y为常见的受天气因素影响的接触网故障.其中Y=1代表接触网覆冰故障,Y=2代表接触网断线故障,Y=3代表异物故障.自变量分别为温度(X1),湿度(X2),风速(X3),天气(X4)通过SPSS数据分析软件进行分析并构建相应的模型.具体模型构建过程如图1所示.
图1 无序多分类逻辑回归模型示意图
数据分析结果如表2所示.
表2 步骤摘要
借助表3对最终模型和只含有常数项的初始模型进行比较,可以观察到一开始-2LL值是263.667,通过模型的建立-2LL的值下降为118.986,相对减少了144.681,从结果也可以看出P值是小于0.05,也就是说得到的模型整体是有效的.
表3 模型拟合信息
通过对表4的研究,该表结果表明温度,天气等变量在接触网故障的问题研究中都具有很高的显著性.
表4 似然比检验
本文以异物(Y=3)为参照,由表1可以得到:
0.997X3+0.394X4
(15)
0.997X3+0.394X4
(16)
覆冰的回归系数值不为零,表明相对于异物故障,覆冰故障对湿度和风速的变化更加敏感.从表1中的B值还可以得到在断线故障中天气状况对断线故障的影响更加明显,也就是说在极端恶劣的天气状况下,接触网发生断线的可能性很高.由表1分析可以得到相对于异物故障,温度的回归系数为-0.276,P=0.000<0.05意味着温度对故障产生显著的影响.同理可以对相关因素进行分析.根据表1的结果可以根据气象数据对接触网的运行情况做一定的预估,在一定的气象条件下,接触网发生覆冰,断线或是异物的概率是多少,进而就可以运用具体措施对接触网安全运营予以保障.
由表5的预测结果可以看出,该关联模型的准确率很高,说明模型拟合的很好,从而可以表明获得的模型是恰当的.为其在管理接触网故障问题方面的效用性提供了理论依据.
表5 故障预测概率
(1)逻辑回归对不平衡数据敏感的问题通过SMOTE算法得到了有效的解决;
(2)通过无序多分类逻辑回归建立关联模型,并在模型参数估计后,运用对数似然值,拟合优度,Wald统计量的计算方法进行验证.从而判断模型的合理性;
(3)通过对实际结果与预测结果的对比可以证明该模型应用于接触网故障检测是可行的;
总之,一个好的模型往往很大程度上取决于一个优秀的数据集,随着高铁事业的飞速发展,我们拥有了大量的数据积累.如何从这些庞大的数据中提取出我们需要的数据是今后我们要努力的方向.