潘焜 王铁铮 张璇 李郦原
[摘 要]“煤改电”电力物资采购数量在仓储过程中是一个重要问题。存储定额数量可以转化为消耗数量的预测问题。对“煤改电”电力物资数量的较为准确的预测可以有效地增加仓储规划的效率。而“煤改电”电力物资数量具有较大的不确定性,随着项目的推进,子项目的数量减少,总的电力物资所需的数量也会相应减少。因此,本文将影响电力物资采购数量因素分为两部分,一是项目数量,二是每个子项目中的物资采购的数量,对于项目数量采用基于指数加权平均移动的预测方法,对于采购数量采用高斯概率模型进行预测。
[关键词]概率模型;“煤改电”;电力物资
[中图分类号]R311 [文献标识码]A
“煤改电”电力物资采购与电力公司中的应急物资采购不同,“煤改电”工程中所使用的电力物资的规律性比较复杂。一般而言,一个“煤改电”工程会根据区域、时间、工程阶段等因素被分解成多个子项目。随着工程进度的不断推进,有待完成的子项目数量会逐渐减少。因此,子项目的数量是“煤改电”电力物资采购数量的主要因素之一。为了能够较为准确地预测子项目的数量,本文采用了指数加权平均移动的方式进行预测。对于每一个子项目需要使用的电力物资的数量,本文采用了高斯概率模型进行预测。预测“煤改电”电力物资的数量的意义在于能够制订更加可靠的采购计划,从而减少仓储成本和采购成本。
1 高斯概率模型
高斯概率模型是基于高斯分布的预测模型,高斯分布又称正态分布。正态分布是一种常见而普遍的分布,由于中心极限定理的存在,当相关的影响因素很多的时候,所有影响因素的和近似符合正态分布,并且无论因素的本身的分布。
假设随机变量X1,X2…Xn独立同分布,均值E(Xi)=μ,方差D(Xi)=σ2,那么所有的随机变量和满足公式(1)
那么Yn近似符合标准正态分布。
由于真实情况下,n无法趋于正无穷,因此数据分布可能并不符合正态分布,所以在预测数据之前,需要对数据分布进行检验。偏度-峰度检验是概率论中用来检测分布是否是正态分布的常用方法。其根据样本数据的矩来分析数据的分布和正态分布的相似程度。
假设用X表示随机变量,样本的来源为独立同分布,v1和v2分别为的3阶矩和4阶矩的估计量,G1和G2分别为样本的偏度和峰度分布。若样本服从正态分布,则v1服从G1,v2服从G2。
公式(3)和公式(4)表示了G1和G2所服从的分布情况,其中n为数据的样本数量。
当样本服从正态分布时,|u1|和|u2|都应该小于zα/4,其中α为显著程度,一般取5%,对应的值z1-α/4=2.2414。α显著程度的意思是,假设成立时,最多α的概率认为它是假的,即事实为真时被误认为假的概率为α。当α为0.05的时候,意味着结论有0.95的可信度,z1-α/4为1-α/4对应的分位点,当结果大于z1-α/4意味着很可能出现了小概率事件。
当认为样本是符合高斯分布时,就可以使用高斯模型进行分析。高斯模型一般指混合高斯模型,有多个输入的随机变量。
公式(5)是混合高斯模型的分布形式,其中k表示混合高斯模型中包含的正态分布的数量;wi表示第i个分布对于总分布的贡献的权重,所有w的总和为1.0;N表示正态分布;μk表示每一个被包含的正态分布的均值;Σk表示协方差矩阵。
结合实际情况,在电力物资预测中,只有一个参数,即月份,因此混合高斯模型退化成了单变量的高斯模型。
2 指数加权平均移动预测模型
由于电力物资采购的数量会随着时间的推移而不断变化。一般而言,随着时间的推进,工程中子项目的数量变少,这种情况导致了电力物资采购的总的数量会不断变少,但其实每次采购的数量变化不大。因此若要预测电力物资采购的总数量,除了通过高斯模型预测每次采购的数量外,还需要预测子项目的数量。
考虑到实际应用中,以月为单位时,能够较好地保留采购次数的季节和节假日等特征,因此本文采用了以月为划分的方式,即选取约为30天的时间间隔作为分析子项目的时间区间,一年一共分为12个区间。由于子项目的数量除了随机性的波动外,还有时间上递减的趋势性的变化,无法通过高斯模型来预测子项目的数量。
指数加权平均移动,又称指数平均移动(EMA),是平滑有着趋势性的不断波动的数据的一种方式。
公式(6)所描述的为指数加权平均移动的一种定义(也有将ema初始值定义为0的情况),其中,xi为标量输入,下标i表示第i个输入;emai为输出值,下标i表示第i个输出;decay表示移动的幅度,在0与1之间,decay的值越大,对于过去数据的权重也就越大。
由于EMA只能做平滑,而EMA本身难以直接应用到预测,因此需要对其进行改进。本文采用了线性模型对子项目数量进行预测,并且通过EMA对线性系数进行平滑。
具体而言,假设输入的样本数量为m,且m大于2,那么按照以下算法进行预测:
(1)令计数变量i=2;
(2)根据第一和第二个样本,与y=kx+b直线公式,求得斜率为k0,并将ema0=k0。
(3)求得第i个样本和第i+1个样本之间的直线方程,然后将斜率ki-1当作EMA算法的输入,求得emai-1,缓存截距bi-1。
(4)令i=i+1,若i等于m,则退出算法,输出最后的ema结果和缓存的截距;否则回到步骤3。
上述算法平滑了直线的斜率k,使得对于后续子项目数量的预测更加平稳,减少受波动的影响。
3 实验结果
本文使用的数据为近三年(2015-2018),某省电力公司在“煤改电”项目中,电力物资采购的数据,数据格式见表 1。
其中,由于保密的原因,已经对敏感数据做了处理。假设一共有相同物料k类,每类含有的数据nk条,对应的数量为pi,下标i为在1和nk之间的索引,则:
公式(7)中Ek为每类中的数量均值,Dk为每类中数量的方差,zp为归一化后的新数量。
随机选取其中的部分数据进行可视化。
其中,橫坐标是月份,纵坐标是归一化后的数量。可以看出,每月的数量分布有着明显的不同。
经过偏度-峰度测试,在显著程度为0.0762的情况下,符合正态分布。通过将前2年的数据作为训练集,使用高斯模型,对第3年的数据进行预测,并对实际的值进行比较。
表 2中,均值等于预测均值乘以预测子项目数量,标准差等于预测标准差,可以看出,根据3-sigma准则,所有的实际值都包括在了2-sigma区间内,除了2月、11月和12月外,其他所有的月份都被包括在了1-sigma区间内。而这3个月份的均值都较小。因此,在实际进行预测时,对于均值较小的月份,可以选择2-sigma区间,对于均值较大的月份,可以选择1-sigma区间。
4 总结
本文针对“煤改电”电力物资采购数量进行研究,将影响采购数量的因素分为某月份中可能的子项目的数量和每个子项目中采购物资数量。对于子项目的数量,本文采用了EMA平滑斜率的方式进行预测,减少了波动对预测造成的影响。对于子项目中的采购数量,本文使用了高斯概率模型进行预测。因此,每个月份的总的预测结果等于每月预测均值乘以每月预测的子项目数量,每月预测的标准差表示预测的数量波动的大小。最后,通过实际的数据,给出了实验的结果。
[参考文献]
[1] 盛骤,谢式千,潘承毅著.概率论与数理统计第4版[M].高等教育出版社,2010.
[2] 刘杰,肖红,王波,等.基于逆高斯几率模型的心率预测算法[J].电子学报,2008(01).