王伟峰,张 晨,张 旭,郁春雷,刘 英
(1.国网浙江省电力有限公司,杭州 310007;2.浙江大学 信息与电子工程学院,杭州 310027;3.浙江华云信息科技有限公司,杭州 310012)
电力行业是国民经济的重要基础产业,电力消耗水平被认为是衡量地区发展的重要指标[1]。景气分析是一种研究对象发展趋势周期的综合性描述方法,有助于预测未来发展趋势和验证决策实施的效果[2]。因此,研究有效的电力市场景气分析方法,是电力大数据分析中重要的一环,对电力规划、生产、决策、需求侧管理等具有重要意义。
近年来,景气指数分析在各行各业受到青睐。例如,文献[3]运用HP(Hodrick Prescott)滤波方法对传统景气指数测算方法进行改进,构造了互联网行业景气指标体系;文献[4]以景气指数为对象,结合多种模型构建了长江航运景气指数预测模型。在电力行业中,景气指数分析往往以各行业用电量为指标,首先需要从这些用电量指标中选择一批对电力景气变动敏感的代表性指标,采用一定的方法合成为一组景气指标(先行、一致、滞后),用于评估宏观经济波动的趋势[5—6]。编制的景气指数通常包括景气合成指数(composite index,CI)和景气扩散指数(diffusion index,DI)两种。前者可以表示经济景气变化的幅度大小,表征短期景气涨落趋势;后者则直观反应了景气指数趋势,体现了总体经济景气上升或下降的状态,即大多数行业的经济运行情况。在实际景气分析中,通常需要综合合成和扩散这两类指标,对经济运行情况进行全面刻画。例如,文献[7]分别使用K-L信息量(Kullback-Leibler information)和时差相关分析(time difference correlation,TDC)方法,综合运用合成指数和扩散指数分析了湖南省的经济景气趋势。然而,目前景气指数的构建仍然存在着一些不足,如指标划分标准不统一导致指标划分差异较大,合成指数权重并未考虑到行业的影响因素等。
针对上述不足,本文使用了三点预测探查法(three points forecast-based probing,TPFP)并对行业用电指标进行分类,弥补了时差相关法在两端容易出现“抬头”现象的不足。另外,考虑到由于各行业用电在全社会用电中所占比例不同而造成的影响不同,在编制合成景气指数时根据行业用电量占比对合成指数权重进行了合理性调整。本文基于浙江省各行业的电力数据对电力景气指数进行分析,并进一步对行业用电景气程度进行分级预警,实现从“电力看经济”,帮助分析人员及时掌握各个行业的用电波动情况并研判市场趋势。
电力景气指数是将各个行业的用电量作为定性候选指标,通过定量方法编制一定的指数,从而综合反映当前电力行业市场状态或发展趋势。本文以浙江省各行业2015年1月—2020年12月共6年的月度用电量数据作为指标,进行景气指数编制与分析。选取全社会用电量作为基准指标,各行业的用电量作为候选指标。景气指数分析的基本过程为:对各行业用电量数据进行异常值和空缺值的回补,并利用X-12-ARIMA模型对数据进行季节调整,剔除季节影响因子并获得长期趋势循环要素作为后续处理对象。根据各行业电力数据与基准数据的波动循环关系将各行业用电量指标划分为先行、一致和滞后3类指标。先行指标具有领先于市场经济波动的特点,往往用其来预测电力市场经济景气状况;一致指标用于刻画当前电力经济的状态水平;而滞后指标则用于策略后验。基于上述3类指标,采用一定的合成方式,编制合成指数和扩散指数,并根据扩散指数的结果对行业用电景气程度进行预警分析。
整个行业景气指数编制方法是一个完整的系统,其整体算法框架如图1所示,主要包括数据获取、数据预处理、指标划分、指标编制和预警5个部分。
图1 算法流程框图Fig.1 Algorithm flow chart
自然得到的数据中一般会出现空缺数据和异常数据等。在预处理之前需要对其进行审查、补全和修正。同时,考虑到经济运行随季节变化而呈现一定的周期波动,需要对数据进行季节调整,以获得长期趋势循环要素数据。本文采用美国商务部提出的X-12-ARIMA 季节调整方法,对各指标即各个行业用电量的时间序列数据进行季节调整以剔除季节因子。去除季节因素和不规则变动因素以后,再对所获得的时间序列进行分析,为了简化方便,下文以Yt表示。
景气指标划分是用电市场景气分析的首要步骤。以往研究通常采用K-L信息量或时差相关分析TDC 来进行指标划分。然而,这两种方法都是基于暴力搜索得到的,即让延迟期数依次取值并计算相关系数。如果时间序列相对于延迟期数不够长,那么由于数据对齐而造成的可用序列长度变短,会使得处于最大延迟附近的相关系数不准确,进而掩盖掉可能存在于中间部分的相关系数最大值,造成延迟数不准确。图2给出的示意图展示了计算中相关值两端出现的“抬头现象”,掩盖掉了中间最大延迟值。
图2 相关系数“抬头”现象Fig.2 The phenomenon of“lifting”of correlation coefficient
为了解决上述问题,本文采用TPFP对采用时差相关分析所获得的结果进行修正。TPFP 是在几何渐进探查法上的改进。该方法从几何渐进探查、近似平滑序列入手。在求两段时间序列的延迟期数相关性曲线时,首先在最可能出现最大相关性的地方设置探查点,而不去计算所有的点。具体过程如下:①把几何渐进探查法所得最大延迟相关点位置作为第1个预测探查点p1;②把第2个预测探查点设置为p1+m∕4(m为允许的最大延迟数);③把第3 个预测探查点设置为p1+m∕2。在3 个暂定探查点中通过三角法获得初始探查点。然后,以初始探查点为起点,在该探查点向两侧分别以几何倍数的方式构建其它探查点。之后采用插值方法构建函数得到延迟相关曲线上的其它值,用此近似平滑后的曲线最终找出曲线上相关系数最大的点,即最大延迟点。
1.3.1 景气合成指数
合成指数CI是在诸多可反映整体趋势的次级指标(各行业用电量)中选取一些对景气敏感的指标,将各指标变化率合成在一起来宏观把控整体用电市场趋势。根据上述指标划分的结果,可将合成指数分为先行合成指数、一致合成指数和滞后合成指数[8]。
设Yi,j(t)为t时刻第j指标组的第i个指标(即t时刻,j指标组的第i个行业的用电数据),其中(j∈{ }1:先行,2:一致,3:滞后);i=1,2,…,kj为该指标组内各指标的序号;kj为第j个指标组的指标数量;Yi,j(t-1)则为t-1时刻的第j指标组的第i个指标值。
(1)对Yi,j(t)求对称变化率Ci,j(t)
并将其标准化得到Si,j(t)。
(2)求出各指标组的平均变化率
式中:j=1,2,3;wi,j为第j组的第i个指标的权重。考虑浙江省行业用电分布的差异性,本文采用各行业用电量的占比作为权重。同时,为了使3个指标映射到同一量级上,使用一致指标序列的振幅作为基准去调整其它指标序列。为此,计算标准化因子Fj如下
由于采用一致指标(j=2)作标准化处理,即设定上述式(3)中F2=1 。然后,使用标准化因子Fj计算得到标准化平均变化率Vj(t)。
(3)求初始合成指数Ij(t)
令Ij(1)=100,根据下式计算出电力合成指数
(4)进行趋势调整
采用式(5)对一致指标组的各个序列求取平均增长率
然后,对各指标组的初始合成指数分别用式(5)求出它们各自的平均增长率r,并根据式(6)分别对各指标组的标准化平均变化率Vj(t)作趋势调整
最终令(1 )=100,用式(4)对各指标(t)计算合成指数(t),并用式(7)对其进行归一化得到合成指数(在此选取数据第一年作为基准年),即
1.3.2 景气扩散指数
扩散指数DI是指标组内第t月所扩张(上升)的指标的数量和该指标组所有指标数量的比值。这里的关键点在于认定扩张与否采用何种时间尺度来衡量。考虑到有可能出现的不规则变化导致的偏差,本文使用各行业当前期用电数据与上一期的3 个月滑动平均做比较,记为Xi∈{0 ,1} 。指标当前期3 个月滑动平均值比上一期大时,记Xi=1,否则Xi=0,即DIt可表示为
式中:SumHP为先行指标的行业总数量。
经济景气程度与行业用电量紧密相关。电力先行扩散指数直观反映了经济景气指数趋势,体现了总体经济景气上升或下降的状态,具有领先于经济运行周期的特点。因而,本文用电力先行扩散指数对经济运行状况进行预警分析,并进行分级预警,实现“电力看经济”。通常将经济景气的状态按照不同阈值划分为“非常景气”、“景气”、“正常”、“不景气”和“非常不景气”5 种,分别以“一档”、“二档”、“三档”、“四档”、“五档”表示。
在景气分析中,通常有两种预警分级方法,经验法和统计概率法。经验法是基于国家经济景气监测中心的确定原则,根据不同状态区域的扩散指数范围确定各档临界点。“三档”区代表常态区或稳定区,其落点位置定为[25,75),约占经济状态总数的50%。“一档”区和“五档”区属偏激区或过激区,经济含义为“非常景气”和“非常不景气”,位于指数值的两端,将其落点位置分别定为[0,10)和[90,100],分别占经济状态总数的10%。“二档”区和“四档”区为较为稳定的繁荣区域,表示经济状态的“景气”和“不景气”,落点概率应比偏激或过激区域大,确定这两个区域的落点位置分别为[10,25)和[75,90),分别占经济状态总数的15%。
统计概率法是通过样本概率确定阈值以及预警等级的划分。在电力景气程度分析中,景气程度的偏激区,即“非常景气”和“非常不景气”的区域往往位于概率分布的尾部,而极值分析的统计方法量化了分布尾部的概率。尾部的概率值很低,表明它内部的数据值应该被认为是异常的,属于过激区。在统计分析中,许多尾部不等式限制了这些概率分布尾部的概率值。鉴于景气指数分布概率未知,本文采用切比雪夫尾不等式对景气指数样本的概率分布进行估计[11]。已知样本均值E( )X和样本方差Var( )
X,由切比雪夫不等式可以得到样本的概率分布为
式中:α为一给定的常数值。实际中,可以通过调整α得到对应双边落点概率为p区域的分界点,即E(DI)±Var(DI)∕p。类似于经验法,“一档”区和“五档”区位于概率分布的尾部,各占10%;“二档”区和“四档”各占15%,剩下中间的50%为“三档”。需要指出的是,切比雪夫不等式是一个相对弱的不等式,无法提供足够紧密的边界。因此,本文综合考虑经验法和统计概率法,选取两者所得到阈值的均值作为最后景气等级划分的阈值,进行分级预警。
本文首先采用X-12-ARIMA方法对浙江省2015年1 月至2020 年12 月各行业用电量数据进行季节调整去除季节性趋势以获得长期趋势循环要素,然后对长期趋势序列进行后续景气指数分析。
为了验证TPFP在指标划分上的有效性,本文同时对比了K-L信息量和TDC所得到的最优值及所对应的延迟期数。实验结果如表1所示。
表1 各指标最优信息量及期数(截取)Table 1 Optimal information quantity and delay period number of each indicator(interception)
由表1可知,采矿业、有色金属以及铁路运输业在各个分类指标中的滞后期数值皆为负数,属于先行指标,反映出其上游基础行业引领、决定着其它行业发展速度的属性。从农业和有色金属的相关系数分析得到的期数皆为-12,即达到边缘值,表明农业和有色金属的相关系数出现边缘“抬头”现象,造成相关系数值不准确。采用TPFP 法可以有效地避免这一缺陷,而且经过调整后部分指标如农业由先行指标转变成滞后指标,性质发生了改变。
为了验证TPFP算法在景气分析中的有效性,本文对基于3种分类方法所得到的各行业用电量分类指标编制合成指数,实验结果如图3 所示。从图3中可以看出,相较于基于K-L 信息量和TDC 得到的合成指数,采用TPFP信息量法得到的分类指标编制的合成指数,能够分离出具有更加明显先行关系的先行指标与延迟性的滞后指标。基于TPFP 所得到的合成指数表明2016 年6 月的先行合成指数波谷相比2016年9月的滞后合成指数波谷、2016年10月的先行合成指数波峰相比2017 年1 月的滞后合成指数波峰皆领先一个季度,表现出先行合成指数良好的领先性。而在2020年,由于新冠疫情这一不可抗力的影响,各类合成指数趋势被迫同时波动,表明不可抗力的影响波及全社会各行各业。同时,实验结果也表明合成指数相对于单一行业指数具有更高的一致性,能够综合全面地反映出行业电力的景气趋势。鉴于TPFP方法在指标划分上的有效性,本文后续分析采用TPFP 划分的指标组合成扩散指数并进行预警分析。
图3 2015年1月—2020年12月浙江省电力市场不同分类指标基准下的合成指数Fig.3 Electricity industry composite indexes under different classification methods of Zhejiang province from January 2015 to December 2020
基于TPFP 指标划分的结果,采用1.3 中所述方法用先行指标编制先行扩散指数。基于先行扩散指数的结果,进行预警等级划分。经验法和统计概率法的结果如表2所示。由于切比雪夫后尾概率不等式是一个弱不等式,并未考虑扩散指数的分布情况,表2中所得到的一、二档和二、三档分界点超出扩散指标上限100,因此此处将两阈值调整为上限值100。
基于表2中综合考虑经验法和统计概率法得到的阈值均值(表2 中最后一行),对经济景气程度进行预警等级划分。实验结果如图4 所示,其中不同的符号标识表示不同程度的预警,并以虚线分割。从实验结果可看出,2020年由于新冠疫情这一不可抗力的影响,扩散指数波动较为剧烈,这与合成指数所刻画的电力市场景气变化趋势一致。
表2 预警指数等级阈值划分Table 2 Threshold division of warning index level
图4 2015年1月—2020年12月浙江省电力预警等级划分Fig.4 Electricity industry warning level of Zhejiang province from January 2015 to December 2020
基于本文所构建的景气指数方法,使用不同区域的下属行业用电量数据,计算得到各区域的先行扩散指数,并根据预警指数的区域划分方法得到各地区的分级预警体系以直观展示各地区电力景气状况。图5和图6分别展示了浙江省2020年3月份和4月份各城市的下属行业用电量数据构建的预警指数分布情况。从图中可以看出,整体上讲,在3月疫情影响下的各市预警等级多位于四档和五档,各行业处于低迷状态。而在4月份疫情得到有效控制下,各行业开始复工复产,使得预警等级下降,各地区预警指数皆处于一档、二档和三档。其中温州市和宁波市作为浙江省疫情初始阶段最严重的地区,预警等级从3月的五档分别上升到4月的一、二档,相比其它城市变化幅度较大。舟山市作为疫情较轻地区,预警等级始终无较大变化。
图5 2020年3月浙江省各市电力预警指数分布图Fig.5 Electricity industry warning indexex of all the cities in Zhejiang province in March 2020
图6 2020年4月浙江省各市电力预警指数分布图Fig.6 Electricity industry warning indexes of all the cities in Zhejiang province in April 2020
本文基于浙江省各行业用电数据构建了一整套行业用电景气分析方法。该方法以不同行业2015年1月至2020年12月的月度用电量为基础数据,综合进行了季节调整、景气指标划分、景气指标编制等。在指标划分中提出基于TDC的TPFP,对行业电力指标进行分类,有效解决了已有时差相关分析方法出现两端“抬头”而掩盖掉中间最大延迟的现象,实现了对各指标更准确的划分,为合成有效的景气指数准备了基础。同时考虑到行业因素,在编制合成景气指数时根据行业用电量占比对合成指数权重进行调整,使得合成指数的结果更具鲁棒性。实验结果表明,合成指数可以直观反映行业景气趋势走向,而扩散指数对行业的景气程度进行了定量的分析并能进行有效预警,有助于分析人员及时掌握各个行业的用电波动情况,判断市场形势,对行业用电进行预警。D