李干蓉,杨晓武
(1.铜仁职业技术学院 工学院,贵州 铜仁 554300;2.贵州理工学院 人工智能与电气工程学院贵州省人工智能和智能控制特色重点实验室,贵州 贵阳 550003)
随着我国科技的快速发展,城市建设布局和质量也得到了极大的改善,人们的生活水平得到极大的提高,满足了多层次,多方位以及个性化的生活需求,同时也带来严重的环境污染和生态平衡受到破坏等实际问题[1],较为典型的就是雾霾,其出现频率和覆盖范围与属地的工业生产过程中释放的各类垃圾量呈正相关关系,且具有不易被消除和跨区域传播的特征,对属地及其邻域的生产生活造成显示的影响,直接制约了我国经济持续快速的发展[2]。
要实现有效治污,须有多方主导,构建跨域协同防控环境质量模型机制,府际协同防控模式是环境保护的核心策略[3]。政府在监管企业生产排污过程中主要有两个重要的功能:①最大化现有利用社会资源,最小化企业排污举措,调整企业结构,满足整个社会发展需求;②揭示和研究环境污染问题的内在演化行为,利用博弈论相关方法,解决制约环境质量提升的内外部约束和各类关联性问题造成各种社会冲突关系,寻求一种高效合理的冲突消解机制,从而达到构建一类基于政府,企业和社会团体之间的健康,具有鲁棒性的环境质量模型[4],为局部环境质量演变行为做出合理的分析,为经济社会快速发展和改善人民生活质量保驾护航[5]。
现有两类环境质量污染分析方法:①静态法,考虑了仅仅基于企业排污速度的大气环境污染的破坏程度,忽略前期排放累计污染量的影响;②动态法,该方法结合多种关联因素,比如物种变化,二氧化碳和海洋捕杀等,不仅考虑当前的的企业排污行为,也结合了前期污染物积累对环境的破坏演变过程[6]。采用静态环境质量污染分析方法不利于分析环境质量演变行为,可操作不强.因此,采用动态环境质量污染分析方法最大化社会利益,为经济快速健康发展保驾护航。根据纳什均衡策略和环境质量各项指标要求[7],在可变环境前提下,分析和预测区域经济发展的的动力学行为[8]。当前,国内外对环境污染问题取得了丰硕的成果,但是利用博弈论来研究环境污染问题取得的结果还相对较少,该问题值得进一步的研究和探讨。多数现有文献结果主要对动态演化模型的存在性和可行性进行了探讨,没有给出相应地控制策略,基于此,本文针对环境控制污染问题,利用博弈论和控制论相关知识,利用模糊控制技术对污染物的类别和对环境影响程度进行定义和划分,提出了一种鲁棒自适应环境质量演化控制模型策略。
考虑政府环境监管部门与生产排污企业个体之间存在如下非对称博弈关系,即政府环境监管部门有两个选择:检查和不检查。由于政府进行不定期抽样检查,为方便分析,用概率P=[pi],pi∈[0,1](i=1,…,n) 来表示,可以表示有限时间内的检查频率和检查天数等。pi越大表示某一时间段内检查的力度越大,即当pi=1时,检查力度达到峰值;反之亦然。假设政府环境监管部门对企业Ai(i=1,…,n) 的排污检查成本为C=[ci],ci∈(0,cimax)万元,其中ci为某一正常数;企业在单位时间内超标排污造成的社会平均利益损失G=[gi],gi∈(0,gimax)万元,当gi大于最大允许值gimax时,政府可以采用熔断机制,勒令企业整顿,停止生产。假设企业单位时间内污染排放监控措施费用为M=[mi],mi∈(0,mimax)。政府检查过程中,如发现企业排污超标,则对企业进行罚款,用Q=[qi],qi∈(0,qimax]来表示。如罚款qi高于最大允许范围,即qi>qimax,表明企业排污已经超出了国家环保部门制定的标准,政府直接勒令企业整顿,或停止生产,且政府对超标污染处理费用为K。单个排污企业有两种选择:①排污预处理;②超标排污,企业治污控制策略为Φ=[δi],δi=max(0,tanh(bit)) 概率采取超标排污的行为,其中bi为某一常数,表示企业Ai污染超标程度,用来表示刻画付出代价的力度,且超标排污获益为Y,由此看出该策略是一种非线性控制策略,具有一定的冗余度,企业可以在资金,材料等约束方面实时做出调整,选择可行的控污力度,可以提高治污效率[9],有效节约企业治污成本。假若企业单位时间内平均产量为W=[w1,…,wn]T,其中,上标T表示转置,产品的造价成本为H=[h1,…,hn]T以及预处理损失费用用为X=[x1,…,xn]T,单个产品在市场同类产品中的竞争价格为E=[e1,…,en]T。则企业的平均收益为f=WTE-WTH-X。企业预处理排放被抽查时,会获得政府给予环保奖励补贴L。有了上述理论准备,根据模糊控制理论,下面给出政府环境监管部门与排污企业的四种可能存在规则[10]:
(1) 如政府环境监管部门“不检查”1-P,排污企业“预处理排放”1-Φ,则收益情况分别为:-M和f-X。
(2)如政府环境监管部门“不检查”1-P,排污企业“超标排放控制策略”Φ,则收益情况分别为:-M-K和f+Y。
(3) 如政府环境监管部门“检查”P,排污企业“预处理排放”1-Φ,则收益情况分别为:-M-C-L和f+L-X。
(4) 如政府环境监管部门“检查”P,排污企业“超标排放控制策略”Φ,则收益情况分别为:Q-M-C和f-Q。
政府与排污企业的博弈策略选择关系如下:根据式(1)和(2),在政府不检查的情况下,企业采用排污方式来获取短期最大化利益,即f+Y>f-X;根据式(3)和(4),在政府检查的情况下,企业一般采用预处理排放方式来获取短期最大化利益,即f+L-X>f-Q;如企业采取“预处理排放”1-Φ控制策略,则政府采取不检查的方式,-M>-M-C-L;如企业采取“超标排放控制策略”Φ,则政府采取检查的方式,即Q-M-C>-M-K。显然上述控制策略的选择过程是双方随着时间的变化而选择的控制策略,是一种典型的博弈论策略。
经过上述讨论,政府采取的管控组合行为策略为[1-PP],类似地,企业的排污控制组合行为策略为[1-ΦΦ],因此,在不同交互控制策略作用下,政府和企业的期望效用函数分别为[11]:
V1=(1-P)[(1-Φ)(-M)+Φ(-M-K)]
+P[(1-Φ)(-M-C-L)+Φ(Q-M-C)]
(1)
V2=(1-Φ)[(1-P)(f-X)+P(f+L)]L
+Φ[(1-P)(f+Y)+P(f-Q)]
(2)
从式(1)和(2)看出,由于效用函数V1和V2包含可变参数为P和Φ,且P和Φ都是受限被控状态,用概率来描述。因此,要同时最大化效用函数,在受约束条件下,需获取以参数为P和Φ构成的V1和V2变化趋势。利用凸优化控制技术,期望效用函数的时变演化行为用函数的梯度来刻画,定义如下:
+(1-Φ)(-M-C-L)+Φ(Q-M-C)
=(1-Φ)(-C-L)+Φ(Q+K-C)
=Φ(Q+K+L)-C-L
(3)
+(1-P)(f+Y)+P(f-Q)
=(1-P)(X+Y)+P(-Q-L)
=P(-X-Y-Q-L)+X+Y
(4)
公式(3)和(4)分别描述了政府和排污企业在选择相应策略的时间变化过程,其受控参数被约束在一个紧凑集合中,用概率来描述,用于表征政府和排污企业选择优化策略的意愿强度的属性。
根据最大化利益原则,在内外部环境和治理成本等现实约束下,政府和企业在博弈过程中分别采取相应地监控策略。根据多目标优化函数的一阶条件,即:
(5)
(6)
下面给出期望收益的对应的理想控制策略数学表达式:
(7)
(8)
因此,根据式(7)和(8)可知,函数(5)和(6)的平衡稳定点为(Φd,Pd)。根据概率的基本特性,从式(7)中可知,Q+K≥C,从而保证采取控制策略的有效性。
考虑的模型主要包括以下几个主要模块:①政府环境抽样检查模块包括对排污企业中的被抽查样本和不被抽查样本,被抽查排污企业的取消和未被抽查企业被抽查等;②环保处理费用子模块,包括检查成本和对预处理企业的奖励;③企业排污治理子模块,包括企业超标排污和被检查后采取治污行为及其增长率;④其他不确定因素,为便于分析,其表达式将在后续内容中给出。
根据上述分析,下面给出了系统动力学模型
(13)
其中,
a1=Q+K+L,b1=C+L,
a2=X+Y+Q+L,b2=X+Y
(14)
上述各个参数的物理意义已经在2.1节中给出,因此,a1,a2,b1,b2均为正常数;δ1(t,x1,x2)和δ2(t,x1,x2)分别表示外界不确定性对策略变化的影响,是典型非线性函数,满足信号有界性。注意,当在某一时间段内,无干扰信号时,即δ1(t,x1,x2)=0,δ2(t,x1,x2)=0,系统(13)退化为由(3)和(4)组成的动态系统,并且是一个线性系统,其稳定点概率为(b1/a1,b2/a2)。
本部分主要考虑两种种比较典型的不同尺度约束条件下,对环境质量演化行为模型性能进行分析。
根据优化理论中的极值条件和(13)可得:
(15)
式(13)为外界不确定性干扰下的动态系统平衡点,或称为纳什平衡点。在实际过程中,由于外界干扰δ1(t,x1,x2)和δ2(t,x1,x2)是未知,其信息无法获得,因此上述期望系统平衡点不会被镇定,为解决干扰问题,下面针对干扰δ1(t,x1,x2)和δ2(t,x1,x2)做出如下假设。
假设1.假设干扰信号δ1(t,x1,x2)和δ2(t,x1,x2)满足下面条件:
(16)
接着,对不同干扰类型δ1(t,x1,x2)和δ2(t,x1,x2),可分为两种情形进行讨论:
(1)当δ1(t,x1,x2)和δ2(t,x1,x2)均为一致连续可微函数,且有limt→∞δ1(t,x1,x2)=0和limt→∞δ2(t,x1,x2)=0时,则:
(17)
说明政府环境监管部门和排污企业选择的策略可以抵御一定的外界干扰风险能力。
(2)当δ1(t,x1,x2)和δ2(t,x1,x2)为其它有界连续干扰函数时,则很难获取系统的平衡点,意味着当前政府选择的策略没有抵御外界干扰的能力,造成环境质量的不平稳。
博弈的双方重新引入新的辅助鲁棒控制策略设计如下:
(18)
其中,ε1和ε2表示一阶滤波器,起到平滑函数的作用,具有渐进稳定收敛特性,其收敛速度可以自由选择。式(18)是基于高频域的鲁棒控制算法,可以消除外界不确定性对系统的影响;鲁棒控制策略同时也包含了环境自适应学习的能力。
由于样本采集和治污过程发生信息收集处理滞后等问题,导致控制维度增加,可能延缓抽样速率和加速超污排放速率,可能形成奇异动态系统,造成系统振荡,反作用于策略选择过程。因此,时滞系统动态方程为
(19)
其中,η1和η2为合适的正常数,τ1和τ2为时滞常数。因此,系统(19)的未来演化行为不仅与当前的状态有关,而且还与前时段的状态有关,因此加剧了系统的振荡行为。上述结果表明,博弈中的政府环境监管部门和排污企业双方在策略选择过程中,由于信息收集,监测过程中发生滞后行为[12],导致未来一段时间内不能获取期望的收益函数,容易造成监管混乱等问题。
为揭示环境系统的强非线性动态性和高度的复杂性行为,建立了基于博弈论的收益函数,利用凸优化函数的梯度下降法,构建了一种基于概率特征的大气环境污染质量非线性动态系统演化模型,揭示了系统的内在演化性能。分别考虑了外界不确定性干扰和信息交互延迟下,系统状态的演化过程,分析表明即使很小的不确定性干扰,也会让系统在演化的过程中偏离理想的稳态值,为此,通过附加一个鲁棒控制策略,可以镇定系统。建议针对信息处理延误问题,如果时延大小在合适范围内,系统仍然可以渐进收敛到稳态点。