李 盖,郑克行,杨斌浩,沈 杰
(1.国网浙江省电力有限公司乐清市供电公司,浙江 乐清 325600; 2.国网温州供电公司,浙江 温州 325028)
产业链是产业经济学中的一个概念,是各个产业部门之间基于一定的技术经济关联,并依据特定的逻辑关系和时空布局关系客观形成的链条式关联关系形态。产业链是一个包含价值链、企业链、供需链和空间链四个维度的概念。产业链中存在着大量上下游关系和相互价值的交换,上游环节向下游环节输送产品或服务,下游环节向上游环节反馈信息。从经济视角对产业链所作的研究工作相当丰富,但一个不可避免的瓶颈和制约在于,产业链研究需要基于经济统计数据,而经济统计数据存在较大的时滞,长达1~2个月甚至一个季度,对管理和决策部门来说,达不到提前预判的时效性需求,从用电量的视角来分析产业链显得十分必要。结合先验的产业链经济特征,着重挖掘用电量的关联强度和集群关系,建立合理模型,借助可视化的手段探索得出产业链拓扑结构以及子结构,通过网络节点相对位置和边的长度,体现出产业链关键特征,透视产业结构的规律及其随时间的演化趋势。
对于电力网络的研究主要有3大分支。一是使用真实的电力物理运输网络,通过研究复杂网络线路的拓扑结构的改变,来研究电力网络在停电事故中表现出的脆弱性[1]。文献[2]基于复杂系统理论对电网故障的时空分布特性和结构脆弱性进行了研究;文献[3]针对电力系统故障诊断问题的特征对因果网络进行了扩展,构建了一种新的时序因果网络,并提出了基于时序因果网络的故障诊断方法[3]。第二种是分析电力市场价格时序网络。文献[4]运用复杂网络理论分析了2007—2012年13个欧洲(欧盟)电力现货价格的代表性样本的相互作用,其构建的网络包含7 651个动态变量,其中节点对应于不同的欧盟国家,节点的连边加权了各个电价变化之间的格兰杰(Granger)因果关系[4];文献[5]将动态网络分析应用于电力部门,考察澳大利亚国家电力市场(NEM)中区域现货电价之间的关系, 通过交互连接的网络区域市场表现出更强的依赖性,而Granger因果关系的方向可能与区域间贸易有关。第三种主要是考察不同行业、地区或企业用电量之间的逻辑联系,包括因果关系和相关关系等,通过最小生成树(MST)、层次树(Hierarchical Tree)、聚类分析等方法,考察用电量网络的多种结构和特性。文献[6]使用上海市不同行业的用电量数据建立行业用电量关系网络,并利用最小生成树和复杂网路的社团发现对不同行业网络进行聚类分析,以此揭示行业间的联系;文献[7-8]分别采用皮尔逊相关性和偏相关关系建立因果关系,检验行业用电量间的动态关系;文献[9]使用层次结构法对南方各省的电力消耗网络进行了网络拓扑结构分解[9];文献[10]对欧洲电力市场建立因果关系网络,并使用方差分解的思想,来判定影响欧洲用电量结构稳定的因素。
本文溯源时间序列的Granger因果推断的初始想法[11],在前述文献的基础上,创新性地建立了以灰色关联度为基础的因果网络,并用多维标度法合理降维,使得原始信息得到最大比例的保留,从而得到性质更优良、分析更便捷、时间动态更显性化的因果网络。
本项目研究数据主要是温州市2019年以来的分行业日用电量时序数据。来源为网上电网、中国政府网以及中国历史气象网站。时间区间为2019年1月1日至2021年6月30日。数据内容可概括为以下几个方面。
(1) 全行业日电量数据。主要是依照国民经济行业分类(GB/T 4754—2017)所形成的133个行业大类的日用电量数据以及企业级用户数据。后者包含字段:用户编号、额定容量(kVA)、电压等级、行业类型、用电地址、用户状态、用户类别、用电量(kWh)、立户日期、销户日期、管理单位、日期等。
(2) 温州市每日气温数据。包含字段:日期、星期、日最高气温、日最低气温、天气、风力风向、空气质量指数等。
(3) 节假日安排表。根据2019—2021年这3年的《国务院办公厅关于部分节假日安排的通知》,将节日标签添加一列嵌入到时序数据中。
数据预处理按照惯例流程,先将原始用电量数据的多个表格拼接,组成完整时间序列。然后对用电量数据进行行业汇总,并删除缺失值较多的行业,行业分类中的四级子行业予以删除。对行业进行编号,并建立编号与行业名称的对照表。气象数据的最高温和最低温字段转换为数值型。行业用电量受气温变化影响会在冬夏两季包含控温负荷,将行业用电量的气温因素排除。根据行业用电特性,先要依据行业气温与用电量呈现二次函数的特征筛选出受影响的行业,再具体建立二次回归模型去除这些行业的温控用电量。
行业用电量与气温变化时序如图1所示。
图1 行业用电量与气温变化时序图
本文先将日用电量时序数据,通过灰色关联度体现选取时段的相关关系,再结合以该相关关系构建的距离矩阵,通过多维标度(MDS)法降维至二维平面上的点阵。在尽可能少地损失信息的前提下,能将原始行业用电量时序的相关关系保留。技术路线图如图2所示。
图2 技术路线图
灰色关联分析法(GRA),是指对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。因此,灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,亦即“灰色关联度”,作为衡量因素间关联程度的一种方法。时间序列波动的相似性如图3所示。
图3 时间序列波动的相似性
通过灰色关联分析,可以得出两个影响因素之间的关联性。具体到本文的行业用电量时间序列,通过所述方法去掉周末和温度影响,构建行业用电量波动的相似性。具体步骤如下。
(1) 确定反映系统行为特征的参考数列和影响系统行为的比较数列。
(2) 确定各个指标的权重,可用层次分析法。
(3) 确定参考数列与比较数列的灰色关联系数ξ。
灰色关联系数的计算公式如下:
(1)
ξ0i(k)为比较数列xi对参考数列x0在第k个指标上的关联系数,其中ρ∈[0,1]为分辨系数。一般来讲分辨率会随分辨系数ρ同步变化。目前大多数研究在利用Granger因果检验进行实证研究时都取分辨系数为0.5。
多维标度法(Multidimensional Scaling,简称MDS)是一种多元统计方法,它是一种在低维空间展示“距离”数据结构的多元数据分析技术。多维标度法起源于心理测度学,用于理解人们判断的相似性。Torgerson拓展了Richardson及Klingberg等人的研究,突破性地提出了多维标度法,后经Shepard和Kruskal等人进一步发展完善。
多维标度法解决的问题是:当n个对象(object)中各对对象之间的相似性(或距离)给定时,确定这些对象在低维空间中的表示(感知图Perceptual Mapping),并使其尽可能与原先的相似性(或距离)“大体匹配”,使得由降维所引起的任何变形达到最小。多维空间中排列的每一个点代表一个对象,因此点间的距离与对象间的相似性高度相关。也就是说,两个相似的对象由多维空间中两个距离相近的点表示,而两个不相似的对象则由多维空间两个距离较远的点表示。多维空间通常为二维或三维的欧氏空间,但也可以是非欧氏三维以上空间。多维标度法的具体步骤如下。
(1) 建立距离矩阵D;若为相似性矩阵C,则需要通过变换dij=1-cij得到距离矩阵。相似度越高,距离越近,反之越远。
(3) 求原始数据的高维距离结构的低维拟合构图。记λ1≥λ2≥L≥λr为B的正特征根,λ1,λ2,L,λr对应的单位特征向量为e1,e2,L,er,Γ=(e1,e2,L,er)是单位特征向量为列组成的矩阵,则:
(2)
矩阵X中每一行对应空间中的一个点。其中n为行业数,r一般取2或3.这里要投射成二维拟合构图,设定r为2。相当于将每一个行业变成了一个二维平面上的点,点之间的距离体现了行业用电量的相似性。该相似性将在其后得到的因果网络图中得以保留。
对于用电波动相关性强的行业,只能得到在时间上的继起性,两者电量波动更可能同时发生,而无法判断因果方向,也就是得不到哪个行业是用电量视角的先导性产业。要得到这种关系,本文借助于统计学中的Granger因果检验的方法来实现。
(3)
(4)
式中的X和Y为差分平稳后的时间序列,式(3)表示子自回归,式(4)表达的含义是X是否受到Y的滞后项的影响。其理论依据在于:在仅有一个变量(X)的预测系统中,如果增加另一个变量(Y)能提高系统的预测精度,则认为Y是X的Granger原因。Y行业影响X行业并不是以同步增减的方式进行,而是以循序渐进的累积效应而驱动它的发展。这符合实际的产业发展特征。
Granger因果检验的步骤如下。
(1) ADF单位根检验,看变量序列是否为平稳序列,若平稳,可构造回归模型等经典计量经济学模型;若非平稳,进行差分,当进行到第i次差分时序列平稳,则服从i阶单整(注意趋势、截距不同情况选择,根据P值和原假设判定)。
(2) 若所有检验序列均服从同阶单整,构造VAR模型,做协整检验。根据AIC和BIC指标最小化原则确定最佳滞后期。
(3) 确定好滞后期,可以构造VEC模型或者进行Granger因果检验,检验变量之间是否存在“谁引起谁变化”,即因果关系是否存在。因果检验的F值可以理解为概率上的显著性,是因果关系成立的强弱指标。
根据Granger因果检验结果,建立有向图网络,箭头表示因果方向。对于两个行业而言,存在互为因果的可能,比如“电气制造业”的用电量波动是“金属冶炼行业”电量波动的原因,这种关系也可以反过来。基于Granger因果关系的有向图网络,以长期(如一年)的时间序列的灰色关联矩阵的MDS二维构图点设定相对位置,以显著性水平F值作为网络中边的权值,以边的粗细来体现。F检验的统计量公式如下:
(5)
式(5)中的RSS0和RSS1分别是xi系数为0的带约束回归平方和不带约束的回归平方和,n是样本数,p为滞后期数。通过两两关联的时序因果分析,最后能得出带权重的因果网络有向图,该图可以分析出行业间的相互驱动关系。
对133个行业作预处理删除后还剩下96个行业,这96个主导行业所形成的因果网络如图4所示。该因果网络的显著特征是其中每一个节点代表一个特定时间段的行业用电量时序,并且节点间的距离反映了行业间用电量的相关性。距离越近,相关性越强,反之则越弱。箭头的出发端表示原因,箭头指向端表示结果,边的粗细反应因果关系的显著性程度,边越粗越显著。该网络可以随时间变化而动态调整,考虑到行业间用电量的相互影响传导周期,这里体现的时间段以180天为基准。
图4 全行业用电量的因果网络图
对图4的全局因果网络,可以很容易计算主要的复杂网路特征,度值排序在前10位的行业节点特征见表1所示。按出度排序是“纺织业”“食品制造业”“采矿业”居前,按总度值和入度排序是“食品制造业”“汽车制造业”“非金属矿采选业”居前。
表1 因果网络的度值特征
从全局网络中,可以摘取局部子网络进行分析。是以医药制造业、软件和信息技术服务业以及金属制品业为中心节点的子网络分别见图5~7。
图5 医药制造业子网络
图6 软件和信息技术服务业的子网络
图7 金属制品业的子网络
从图7可以看出,“仪器仪表制造业”“计算机、通信及其他电子设备制造业”“橡胶与塑料制品业”“金属制品业”“有色金属冶炼和压延加工业”和“电气机械和器材制造业”构成了一个关联紧密的产业集群,“计算机、通信及其他电子设备制造业”的用电波动会引发“金属制品业”的用电波动,“电气机械和器材制造业”的用电波动会引发“仪器仪表制造业”“橡胶与塑料制品业”以及“有色金属冶炼和压延加工业”的用电波动。
本文采用温州市2019年1月1日至2021年6月30日的行业日用电量数据和其他辅助数据,结合统计模型和复杂网络原理,构建了带权重值的有向因果网络。该网络基于时序相似性的灰色关联度,以及多维标度的降维方法,可以对全市用电关联情况作可视化呈现,对全市用电关联有全局性的了解,并可以捕捉随时间推移的动态变化规律。因果网络不仅可以凸显出网络中的关键节点(行业),还可以对行业之间的经济联系作预判。用电枢纽节点的用电量发生大幅下降,会影响到全局网络的脆弱性。借助层次分析法,还对行业进行层次聚类,可以将所有行业得到不同的行业集群。因果网络是基于Granger因果检验方法,对最近一年以来的行业用电时序作统计上的因果推断,根据因果方向以及F检验的强度,得出带权重的有向图。该有向图反映了行业用电波动的传播途径,即一个行业的用电波动会引发另一行业的用电波动,形成链条式的产业链图谱。因果网络不同于相关网络,相关网络反映同时性的用电相关关系,即用电量同时朝同一方向呈力度相近的趋势变化,可以用来作趋势预判。因果网络则适用于逻辑关联,该逻辑关联不一定会马上呈现彼此间的驱动关系,但存在内在逻辑联系,在时间上通过一段时滞的传导,能对另外的行业产生影响。