牛皓玮,刘 达,陈广娟
(1.华北电力大学经济与管理学院,北京 102206;2.国网山西电力公司,山西 030021)
中国作为全球第一能耗大国,能耗结构主要由煤炭、石油天然气组成,21 年能源消耗总量为52.4亿吨,能源需求量巨大。但自2021 年以来,国际能源供应持续收紧,能源价格大幅上涨。国内受“运动式”减碳影响,加之煤炭进口减少导致电煤供不应求,电煤供需矛盾加剧,社会用电受到严重影响[1]。而发电行业作为实现碳达峰、碳中和的枢纽环节,必将承担更多的责任。因此,在“双碳”目标指导下,政府科学规制电煤供需,对保障能源供应稳定、维护能源安全、提高能源利用效率、缓解电煤矛盾具有重要意义。
文献[2-3]从电煤产业链总体角度出发,认为政府的不当规制会造成电煤市场有效供给不足,进而导致电力“软短缺”[4]。并且紧张的电煤供需关系会使发电企业效益大幅下降,进而减少电煤购入数量,导致社会用电短缺[5]。对此,部分学者认为签订电煤供应契约是缓解电煤供需矛盾的有效措施[6]。文献[7]讨论了电煤供应合同可以有效控制煤价和电价,并且外部力量对火电企业的规制政策会影响电煤合同的履约率。
随着研究的深入,学者们发现煤炭企业与发电企业的利益分配缺乏政策激励[8],政府规制对电煤供需矛盾的影响机理研究开始得到重视。文献[9-10]认为在电煤供需紧张的环境下,政府适度规制可以纠正电煤市场失灵缓解电煤矛盾。文献[11]通过研究电煤供应链发现政府规制和激励可以推动电煤供需合作稳定,并且可以显著提高煤电企业经济效益[12-13]。文献[14-15]构建煤电双企动态演化博弈模型,验证了政府规制会显著影响煤电企业策略选择。
基于此,本文构了建具有长期动态特征的政府部门、煤炭企业、发电企业三方演化博弈模型,并引入煤炭中长协履约系数、政府激励、惩罚系数分析基于政府规制下电煤供需的演化策略。本文的创新点在于通过构建三方两策略演化博弈模型,将政府、煤炭企业、发电企业3 个利益群体的策略优化问题描述为长期动态演化的复杂过程,并通过仿真分析反映不同利益群体策略的长期自发演化过程,拓展了电煤市场中非完全理性参与者之间决策优化问题的研究范围。
以政府部门、煤炭企业、发电企业为主体的电煤供需演化博弈模型,重点研究影响三方主体行为变化的因素,为政府部门在供需规制中、煤炭企业在电煤供应中、发电企业在电力供应中的策略动态选择提供参考。演化博弈模型具体结构如图1 所示:
图1 政府规制下电煤供需系统示意Fig.1 Power coal supply and demand system under government regulation
根据分析及演化博弈模型,本文将提出以下假设:
1)假设1。政府、煤炭企业和发电企业三方均为有限理性个体,并且博弈三方处于信息不对称状态[16-18]。
2)假设2。政府采取“积极规制”策略的概率为x,采取“消极规制”策略的概率为1-x(0 ≤x≤1) ;煤炭企业采取“增供”策略的概率为y,采取“不增供”策略的概率为1-y(0 ≤y≤1) ;发电企业采取“限电”策略的概率为z,采取“不限电”策略的概率为1-z(0 ≤z≤1) 。
3)假设3。政府部门、煤炭企业、发电企业的策略选择是随机匹配且独立的反复博弈行为[19-20]。
本文参考现有研究,结合实际情况及企业特点,设置以下参数[21-24]:
1)收益。S1和S2表示政府部门在积极规制或消极规制策略下获得的经济和政绩收益,S1>S2。G表示煤炭中长协合同销售收入。γ表示不同中长协合同履约率。Gi表示煤炭企业选择增供策略、发电企业选择不限电策略时煤炭企业的订单收入。M1表示在煤炭企业增供情况下的激励收益。E1和E2表示发电企业在限电或不限电策略下获得的收益,E1<E2。C1表示发电企业选择不限电策略下获得的激励收益。
2)成本。Q1和Q2为政府在积极或消极规制下付出的组织成本。当发电企业限电时,政府产生的公信力损失为R。煤炭增产增供、发电企业增加发电量,必然会导致环境污染,在双碳目标下政府必须考虑环境损失L1。J表示煤炭企业与发电企业签订的中长协煤炭合同的成本,M2表示政府规制下,煤炭企业因增供、增产而产生的额外成本。C2为煤炭企业不增供时,发电企业选择不限电策略产生的额外成本。F2为发电企业选择限电策略产生的经营损失,为机会成本。β为发电企业限电系数,0 <β<1,θ为煤炭企业在政府规制下的降价系数,0 <θ<1。
3)激励与惩罚。政府的激励投入为L2,P与F1为煤炭企业、发电企业选择不增供、限电策略时受到的处罚成本,M1和C1为煤炭企业、发电企业选择增供、不限电策略时收到的激励收益。α表示政府部门在规制中的行政处罚力度,0 <α<1,λ表示政府部门对煤炭企业、发电企业选择增供和不限电策略时给予的激励系数,0 <λ<1。
根据政府规制煤炭供需三方演化博弈模型的基本假设与参数设置,构建的政府、煤炭企业及发电企业的三方支付矩阵如表1 所示。
表1 博弈三方支付矩阵Table 1 Tripartite payoff matrix in evolutionary game
政府积极规制的适应度U11、消极规制的适应度U12、以及复制动态方程F(x)分别为:
煤炭企业增供策略的适应度U21、不增供策略的适应度U22及复制动态方程G(y)分别为:
发电企业限电策略的适应度U31、不限电策略的适应度U32及复制动态方程H(z)为:
2.1.1 政府部门决策复制动态分析
当政府规制策略的复制动态方程F(x)=0 且其关于x的导数F′(x)<0 时政府规制策略处于稳定状态。
式中:y0为F′(x)<0 时煤企选择增供的概率。
当y=y0时,复制动态方程F(x)≡0,此时政府选择任意规制策略都是稳定的,实施任意策略的概率不会随着时间变化。当y≠y0,有2 种情况:
1)当0 <y<y0时,F′(x)|x=0>0 且F′(x)|x=1<0,此时x=1 是演化稳定点,即当煤炭企业选择增供的概率小于y0,政府在博弈过程中会选择积极规制策略。
2)当y0<y<1 时,F′(x)|x=0<0 且F′(x)|x=1>0,此时x=0 是演化稳定点。即当煤炭企业选择增供的策略大于y0时,政府就会倾向于消极规制。
2.1.2 煤炭企业决策复制动态分析
同理可得,当G(y)=0 且G′(y)<0 时,煤炭企业的供给策略处于稳定状态。
式中:z0为G′(y)<0 时电企选择限电的概率。
当z=z0时,复制动态方程G(x)≡0,煤炭企业选择任意供给策略都是稳定的,当z≠z0时,有以下2种情况:
1)当0 <z<z0时,G′(y)|y=0>0 且G′(y)|y=1<0,此时y=1 是稳定演化点,即当发电企业选择限电的概率小于z0时,煤炭企业在演化博弈过程中会选择增供的策略。
2)当z0<z<1 时,G′(y)|y=0<0 且G′(y)|y=1>0,此时y=0 稳定演化点,即当发电企业选择限电的概率大于z0时,煤炭企业在演化博弈过程中会选择不增供的策略。
2.1.3 发电企业决策的复制动态分析
同理,根据发电企业的复制动态方程H(z)可得:
式中:y1为H′(z)<0 时煤企选择增供的概率。
当y=y1时,复制动态方程H(x)≡0,发电企业选择任意供电策略都是稳定的。当y≠y1时,有以下2 种情况:
1)当0 <y<y1时,H′(z)|z=0>0 且H′(z)|z=1<0,此时y=1 是演化稳定点,即当煤炭企业选择增供的概率小于y1时,发电企业在演化博弈过程中会选择限电策略。
2)当y1<y<1 时,H′(z)|z=0<0 且H′(z)|z=1>0,此时y=0 稳定演化点,即当煤炭企业选择增供的概率大于y1时,发电企业在演化博弈过程中会选择不限电的策略。
令F(x)=G(y)=H(z)=0,可得政府、煤炭企业、发电企业三方演化博弈系统的均衡解:X1(0,0,0),X2(0,0,1),X3(0,1,1),X4(0,1,0),X5(1,1,0),X6(1,0,1),X7(1,0,0),X8(1,1,1)。根据李普诺夫稳定性理论可知,若在某点处雅克比矩阵K的特征值均小于0,则该系统是稳定的[25]。通过求解政府、煤炭企业、发电企业三方的演化博弈模型对应的雅可比矩阵可得特征值为:
式中:k11,k22,k33为特征值。
本模型研究的最终目的是在三方都获利的情况下促使发电企业选择不限电策略,保障生产生活正常运行,因此X1,X4,X5,X7包含不限电策略,为要研究的理想状态;且所有的潜在稳定点都需满足S1-Q1-(S2-Q2)<0,即政府选择消极规制的收益要大于选择积极规制的收益,政府的决策将会随着时间的变化趋向于消极规制。因此,X1(0,0,0)和X2(0,1,0)有可能为演化稳定点,其所对应的演化稳定策略为(消极规制,不增供,不限电)和(消极规制,增供,不限电)。
1)若X1(0,0,0) 成为演化稳定点需要同时满足Gi=0,M1=0,θM2+αP<0,即煤炭企业获得的额外收益和激励收益为0,付出的成本小于0 时,煤炭企业将会选择不增供策略,但无论M2和P取何值,都无法满足θM2+αP<0,因此,煤炭企业策略无法趋向于0,X1(0,0,0)不是博弈模型的演化稳定点。
2)若X2(0,1,0)成为演化稳定点需要同时满足(λ-1)L2+S1-Q1-(S2-Q2)<0,-(Gi+λM1)+(θM2+αP)<0,Gi+(E1-E2)-αF1-βF2-(λC1-C2)<0,即当政府选择消极规制时,煤炭企业选择增供策略需满足Gi+λM1>θM2+αP,即煤炭企业获得的额外收益要大于付出的成本,并且发电企业选择不限电策略时获得的额外收入要大于产生的损失,激励收入高于不限电策略下付出的额外成本,此时三者决策最终趋向(0,1,0),X2(0,1,0)为演化稳定点。
本文运用MATLAB 2021a 版本对模型进行数值仿真模拟,其中,x为政府采取“积极规制”策略的概率;y为煤炭企业采取“增供”策略的概率;z为发电企业采取“限电”策略的概率。根据稳定性分析可知,(0,1,0)是三方演化模型的唯一理想演化均衡点,其参数需满足以下条件:S1-Q1-(S2-Q2)<0,-(Gi+λM1)+(θM2+αP)<0,E1<E2,Gi-αF1-βF2<λC1-C2。在满足演化模型的条件下考虑实际情况,参数初始值设定如下:S1=40,S2=30,Q1=30,Q2=19,R=15,L1=6,L2=13,G=40,Gi=24,P=14,J=28,M1=8,M2=14,E1=20,E2=25,F1=10,F2=15,C1=5,C2=3,θ=0.1,β=0.75。
将x的初始值设定为0.5,观察随着时间t的变化,y值趋向于1,z值趋向于0 时x的演化趋势。由图2 可知,当煤炭企业策略趋向于增供、发电企业策略趋向于不限电时政府会放松监管,在电煤供需矛盾有所缓和后50 d 政府会选择消极规制策略。
图2 y 与z 变化下的x 的演化曲线Fig.2 Evolution curve of x with changes in y and z
将y的初始值设定为0.5,观察随着时间t的变化,x值趋向于0。z值趋向于0 时y的演化趋势。由图3 可知,表明不论政府和发电企业采取何种策略,煤炭企业都会选择增供策略。且政府积极规制意愿越强,煤炭企业选择增供策略的速度就越快。
图3 x 与z 变化下的y 的演化曲线Fig.3 Evolution curve of y with changes in x and z
将z的初始值设定为0.5,观察随着时间t的变化,x值趋向于0,y值趋向于1 时z的演化趋势。由图4 可知,x值与y值的变化会影响z向0 的收敛速度,但从总体来看随着政府策略趋向于消极规制,煤炭企业策略趋向于增供时,发电企业最终会选择不限电策略。
图4 x 与y 变化下的z 的演化曲线Fig.4 Evolution curve of z with changes in x and y
根据以上仿真分析,可以验证X2(0,1,0) 为演化稳定点,政府、煤炭企业、发电企业三方博弈主体策略最终会向消极规制、增供、不限电演化。
将y的初始值设置为0.5,分别取行政处罚系数α为0.2,0.5,0.8,激励系数λ为0.2,0.5,0.8。研究煤炭企业策略在不同处罚和激励力度下的演化轨迹。
由图5a 可知,当政府实施的惩罚水平较低时(α=0.2),煤炭企业会因感知到惩罚措施而选择增供策略,此时煤炭企业选择增加煤炭供给的概率趋近于1。当政府实施的惩罚水平逐渐增大时(α=0.5),在惩罚损失增大的压力下,煤炭企业将会减缓实施增供策略的速度,但最终煤炭企业选择增加煤炭供给的概率仍会趋向于1。当政府实施的惩罚水平α提高到0.8 时,在巨大的惩罚损失压力下,煤炭企业选择增加供给策略的概率会逐渐减小,选择不增加供给的概率趋近于1。根据以上分析可得,α的临界值为0.5。即当其他参数保持不变时,α的取值小于临界值时,煤炭企业选择增供的概率就会提高,说明中低水平的惩罚力度可以促使煤炭企业增加供给,减少煤炭短缺风险。
图5 不同处罚、激励力度下煤炭企业策略演化轨迹Fig.5 Strategy evolution of coal enterprises under different punishment and incentive intensity
由图5b 可知,当政府实施的激励水平较低时(λ=0.2),煤炭企业选择增加煤炭供给的概率开始向1 演化。当政府实施的惩罚水平逐渐增大时(λ=0.5),煤炭企业选择增供策略的概率逐渐增大。当政府实施的激励水平λ提高到0.8 时,在激励收益不断增加的情况下,煤炭企业选择增加供给策略的概率会趋向于1。即当其他参数保持不变时,煤炭企业选择增供的概率会随着λ的增大而增大,说明政府激励产生的额外收益会提高煤炭企业的生产积极性,从而增加煤炭供给。
对比图5a 和图5b,高程度政府激励和低程度政府惩罚能促使煤炭企业向增供策略方向快速演化,可以看出煤企对政府惩罚十分敏感。因此政府应实施低惩罚、适度奖励规制措施,促进煤炭企业实施增供策略。
将z的初始值设置为0.5,分别取行政处罚系数α为0.2,0.5,0.8,激励系数λ为0.2,0.5,0.8。研究发电企业在不同处罚和激励力度下的演化轨迹。
由图6a 可知,当政府实施的惩罚水平较低时(α=0.2),发电企业会因感知到惩罚措施而暂时倾向于选择不限电策略,在实行不限电策略后30 天左右,发电企业会考虑到成本问题而选择限电策略,此时发电企业策略选择逐渐趋向于1。当政府实施的惩罚水平逐渐增大时(α=0.5~0.8),在政府的惩罚压力下,发电企业将会加快实施不限电策略的速度,最终发电企业选择不限电的概率会趋向于0。在中高惩罚水平下,发电企业最终会选择向不限电策略的方向演化,选择不限电策略的概率趋近于0。根据以上分析可得,发电企业选择不限电策略的概率收敛于0 时,得λ的临界值为0.5。即当其他参数保持不变时,α的取值大于临界值时,发电企业选择不限电的概率就会提高,且惩罚力度越大,收敛速度越快,说明中高水平的惩罚力度可以促使发电企业增加电力供给。
图6 不同惩罚、激励力度下发电企业策略的演化轨迹Fig.6 Strategy evolution of power-generation enterprises under different punishment and incentive intensity
由图6b 可知,不论政府实施的激励力度λ处于何种水平(λ=0.2~0.8),发电企业的策略选择都会趋向于0,表明发电企业对政府激励十分敏感,即当其他参数保持不变时,发电企业选择不限电的概率不随λ的增大而增大,政府激励产生的额外收益会有效提高发电企业的生产积极性。
对比图6a 和图6b,高程度政府惩罚和高中低程度政府激励都能促使发电企业向不限电策略方向快速演化,可以看出发电企业对政府激励十分敏感。因此政府应实施低激励规制措施,辅以低程度惩罚措施,促进发电企业实施不限电策略。
将y和z的初始值设置为0.5,分别取煤企、电企中长协合同履约系数γ为0.2,0.5,0.8。研究煤炭企业在不同履约率下的演化轨迹。
由图7a 可知,当煤企中长协合同履约系数较低时γ=0.2,煤炭企业在政府规制下首先会选择提高煤炭中长协履约率选择不增供策略,即煤炭企业的演化结果趋向于0。当煤企中长协履约系数γ(γ=0.5~0.8)逐渐增大时,煤炭企业将会加快实施增供策略的速度,最终煤炭企业选择增供的概率会趋向于1。根据以上分析可得,煤炭企业选择增供策略的概率收敛于1 时,得γ的临界值为0.5。即当其他参数保持不变时,γ的取值大于临界值时,煤炭企业选择增加供给的概率就会提高,且履约率越高,收敛速度越快,说明提高煤炭中长协履约率可以促使煤炭企业增加电煤供给。
图7 不同履约率下煤炭企业和发电企业策略的演化轨迹Fig.7 Strategy evolution of coal enterprisesand powergeneration enterprises under different performance rate
由图7b 可知,当煤企中长协履约系数γ处于中低水平时(γ=0.2~0.5),发电企业会督促煤炭企业履约,增加电企煤炭储备量,增加电力供应,此时发电企业的策略选择趋向于0。当煤企中长协履约系数γ处于高水平时(γ=0.8),发电企业无法要求煤企提供更多的合约煤,只能通过购买市场煤来保证电力供应,此时在高昂压力下,发电企业将会减缓实施不限电策略的速度。
本文研究了政府规制下煤炭和电力供应系统,通过构建政府、煤炭企业、发电企业三方的演化博弈模型,分析了三者的演化稳定策略及仿真结果,研究发现:
1)博弈三方策略的演变不仅取决于自身的成本与利益,同时受到其它博弈主体的影响,三者的共同演化决定最优演化,使博弈三方在短期内实现X4(0,1,0)的最优均衡。
2)随着煤炭企业、发电企业形成{增供,不限电}策略组合,政府会因缺乏监管动力、节省成本等原因在短时间内选择“消极规制”策略。
3)高程度政府激励和低程度政府惩罚能促使煤炭企业向增供策略方向快速演化,可以看出煤炭企业对政府惩罚措施更加敏感。而高程度政府惩罚和高中低程度政府激励都能促使发电企业向不限电策略方向快速演化,可以看出发电企业对政府激励措施更敏感。
4)中高程度煤炭中长协履约率会促进煤炭企业实施增供策略,而中低程度煤炭中长协履约率会促进发电企业选择不限电策略。
本研究从理论模型角度对政府、煤碳企业、发电企业三方博弈策略进行研究,由于数值仿真是在模拟环境下进行的,因此仿真结果与现实情况存在一定的偏差,在后续研究中利用实际数据对理论模型进行分析具有重要意义。其次,本文未在模型中考虑其他利益主体对博弈策略行为的影响,如电力消费者、运输主体等,这也为后续深入研究提供了指导方向。最后,未来研究可以进行政府参与的新型电力系统优化研究,为电力行业实现“双碳”目标提供新的研究思路。