刘 刚 (上海理工大学 管理学院,上海200093)
2016年初,国家发改委、能源局和工信部发布了《关于推进“互联网+”智慧能源发展的指导意见》,表示我国现在即将开始建设能源物联网,泛在电力物联网作为能源物联网的一部分,是泛在物联在电力行业的具体表现形式。随着信息技术的高速发展,智能网络终端(如智能音箱、智能家居、其他电力终端等设备)开始进入人们的生活,以泛在电力物联网为节点的互联设备的出现,使得泛在终端设备承载数据急剧增加。泛在电力物联网络设备可以满足智能化感知、个性化服务、信息化运维等应用场景,当前的泛在电力物联网既有电力的互联互通,也有信息的互联互通,因此可以通过“大云物移智链”技术,实现对泛在电力物联网的协同调度。
国内外的学者对泛在物联网开展了深入的研究,文献[1]主要是在泛在物联网体系架构的背景下研究了物联网的基础框架与构成,而对于泛在电力物联网络协同调度应用方面的研究不足。例如,文献[2-3]探讨了泛在电力物联网的数据采集计算感知能力以及能源协同发展体系架构,但没有考虑到数据间的协同应用问题。文献[4-5]从电力负荷角度考虑了电力资源调度问题,但仅考虑到电网资源间的调度,没有研究电力资源上下游资源配置问题。
与传统电力网络调度不同,泛在电力物联网将电力资源调度扩展至整个电力网上下游,使得整个电力网络终端以及发电机构,经由信息技术处理有力地衔接起来,从而打造出万物互联的电力物联网的应用场景,通过电力网上下游的信息互联,实现信息化电力网资源的高效实时调度。目前,泛在电力网协同调度智能终端的研究已经出现,如中国移动与国网黑龙江电力公司合作推行智能5G终端多变融合调度的解决方案,实现电力资源上云实时监控状态,打造出“平台+AI+生态”一体化的智能协同调度技术路线可以满足不同产业间的资源配置需求,从而突破电力网络资源配给滞后的问题。文献探讨了泛在电力物联网的生态发展路径,助推了电力产业信息技术加速升级。以往的研究中没有从互联互通背景的上下游电力物联网的调度与应用方面进行研究,因此,基于上述分析,本文提出面向泛在电力物联网的协同调度方法,并引入改进的强化学习Q-learning算法作为调度求解方法。
1.1 面向泛在电力物联网的协同调度模型。进入万物互联时代,为了合理并及时地满足产品用电需求,需要强大的业务计算能力以保证承载设备的正常用电调度请求。本文构建了上游电力供方和下游设备需方二者间的泛在电力物联供网需求双侧技术规划路线图(如图1所示),通过电网协同调度平台描述了设备互联过程中的实际路径演化。
设上游供方可提供的电力资源为m,通过风力、火力、水力等不同类型的发电设备提供能源并接入整个电力资源需求的互联网络;设下游需求方为n,由需要电力资源的海量物联网设备组成,具体主要有大型工厂、个人居民、城市公用设施等。其中m,n={1,2,3,…,p}为自然数组合。
在对上下游物联网设备进行调度过程中,为了保证调度业务操作的合规性对任务调度执行进行如下条件约束:(1)在进行任意一次的上下游业务调度不受外界因素干扰,上游提供的方案可以为下游需求完成调度;(2)在完成一次任务调度过程中,能源供给受单次服务条件影响,一次仅能匹配一个服务窗口,并且上游m提供的能源mp与下游n所需的电力np相对应;(3)对于mp供方调度顺序不作限制;(4)依据时间次序依次调度。综上得到泛在电力物联网任务调度数学规划模型:
图1 智能电网协同调度平台
式中:公式(1)是调度函数,Z表示泛在电力物联网的最小化最大调度时间耗时。公式(2)是调度设定的条件约束,xmn表示任务调度下游用电资源n对上游发电企业m进行资源完工所耗用的加工时间,tmn表示其资源配置所用时间,β∈∞且ymhn表示上游发电网络对下游用户需求的任务调度先后关系;公式(3)表示任务调度的限定约束,以协同上下游之间的调度问题为目的,wmbn表示上游发电网络m与上游发电网络b在下游电力需求端口n的先后调度顺序;公式(4)用于表示完成一次电力资源调度所需要的时间约束;公式(5)表示ymhn与wmbn的取值关系,其中ymhn=1表示上游发电网h先于发电网n对下游用户m提供资源分配,以进行调度,wmbn=1表示上游发电网b先于发电网n对下游用户m进行资源调度分配,反之,则ymhn,wmbn=0。公式(6)表示数值h,b对电力资源的需求等候序列编号,其取值范围是从1到p的自然数。
1.2 基于Q-learning算法的泛在电力网调度目标函数。泛在电力物联网的上下游供需资源配置,进行事先设定若干个调度执行流程以及与之对应的5个运行情况如表1所示。其中约束1表示调度电力资源需求延后的情景;约束2表示对资源调度时间损耗最小的需求情景;约束3表示当前电力资源调度情景;约束4表示电力资源调度中时间损耗最大的情景;约束5表示当前无调度需求情景。
考虑到电力资源调度过程中可能遇到当前无可调度的执行状态以及满足调度需求的可执行等候情景。对于两种不同的调度执行动作有不同的策略方案,但是Q-learning算法并没有上述两种情景的直接应对解决思路,因此本文根据表1列出的5种调度流程执行标准来进行智能匹配可能出现的资源配给。根据电力资源上游发电网络对下游电力需求用户的双边资源匹配协同,给出如下两种奖惩举措:
(1)电力资源均衡下的资源调度流程执行的效率越高,得到的奖励因素越高
表1 调度流程执行标准
其中:DC代指工序调度执行一个周期的完工效率:TFT表示完成一个调度周期总用时间;ET表示单次调度完工所用的时间。可以得到TFT与ET呈负相关变化趋势,在TFT总用时不变的状态下,单次ET用时越短,意味着此次调度执行效率越高。
泛在电力物联网电力资源协同调度过程中,上游电力供应商有不同的发电操作形式,在某一发电网络出现故障时,可能存在着电力供给任务先后延迟的现象,因此合理地预估这种情况的发生,对于控制调度完工时间把握很是必要。此外,在调度配给时,有效完成一次资源调度所花费的时间是不少于实际固定资源调度时间的消耗。消耗的时间与固定需求时间匹配值越高,表示此次调度方案执行的可行性越高。
(2)电力资源均衡下的资源调度流程执行时间成本越大,惩罚越大
研究了均衡任务调度下的执行效率值,对评判单次任务调度的信用值提供了参考。但同时在方案实际应用中,又存在着一些其他成本缺失,因此构建一个与奖励措施对应的惩罚机制尤为必要。在调度初始状态下来自下游用户端需求不确定性因素的渐增,保证现有上游电力资源的正常供给是需要实现的举措,从而确保整个调度环节的正常运转,本文构建了公式(8)所示的奖惩机制函数:
其中:SCT表示当前调度状态剩余操作时间,用TFT-SCT表示当前任务调度时间;CP表示此次任务调度的完工状态,对实际任务调度完工执行情况用当前任务调度时间与当前调度操作时间的比值来表示,1.0×10-6×CP2表示任务调度的一个奖惩函数因子。由此可知在接近任务调度的末端环节,引发惩罚机制的几率相对任务调度开始阶段会高出很多,因此执行合理的任务调度是不容忽视的重要节点。
2.1 算例参数。以某一地区发电网上游3种形式发电机组组成的电力资源站点为下游用户组提供匹配需求。具体的数据参数如下,上游有x=15个电力资源站点可提供资源调度;y=10个下游需求电力资源的用户组,构成x*y=15×10的矩阵。电力资源供需调度数据集如表2所示:
表2 电力资源供需调度数据集
其中(xi, yj)表示第i行、第j列的数据调度需求,以具体数值(x1,y3)=(6,7 2)为例,其代表的意思是第1个电力资源站点为第3个下游需求电力资源的用户组提供资源,资源完工所耗用的加工时间为6个时间单位成本,资源配置所用时间为72个时间单位成本;数据集(x9,y7)=(5,3 5)代表着第9个电力资源站点为第7个下游需求电力资源的用户组提供资源,资源完工所耗用的加工时间为5个时间单位成本,资源配置所用时间为35个时间单位成本。
2.2 算例求解。由于数据集调度的求解流程过于复杂,通过Python软件编程进行求解。通过不断地迭代更新逐步逼近理想值,在经历5 000次迭代可以达到较优结果(如图2所示);在cost time=860s开始,从2 400代开始迭代进程至结束第5 000代时始终保持不变,从而获得最优解。从图3所示迭代变化历程来看,从第800代开始迭代持续到达第2 000代时cost time=1 400s始终保持不变,从而获得最优解。
2.3 算例对比分析。为了保证所提的Q-learning算法对论文求解调度的广泛适用性,本文通过引入其他算法进行直观对比验证。这里使用鲸鱼算法进行同样迭代5 000次,在相同的数据集(表2)进行结果论证,其结果对比如表3所示。
图2 电力调度Reward奖惩迭代趋势图
图3 电力调度时间cost-time曲线迭代变化
表3 不同算法结果对比验证
如上所述,通过数据集表2进行算法结果验证,可以得到如表3所示的分析结果,对比改进的Q-learning算法求解而言,传统Q-learning算法用时为920、鲸鱼优化算法用时为914,据此可以基本确定本文所提的改进的Q-learning算法模型更为理想,满足帕累托最优求解理论,对泛在电力物联网下的电力资源上下游资源配置是合理有效的。
本文探讨了产业中的电力资源物联网的上下游资源调度与应用问题,通过构建泛在电力物联网的调度模型,并使用改进的Q-learning算法进行求解,解决了泛在电力物联网资源的分工不均、电网资源的信息传输滞后等问题。