基于深度强化学习的有源中点钳位逆变器效率优化设计

2023-10-17 01:15王佳宁杨仁海姚张浩谢绿伟

电子与信息学报 2023年9期

王佳宁杨仁海姚张浩彭强谢绿伟

(合肥工业大学电气与自动化工程学院合肥 230009)

1 引言

如何更快速、更好地设计电力电子变换器参数以提升变换器的整体性能一直是电力电子领域追求的目标。传统的电力电子变换器设计主要采用顺序设计的阶段优化方法，但此类设计方法通常依赖于人工经验。文献[1]介绍了双有源桥变换器效率-功率密度-成本的顺序优化设计方法，设计人员需要凭经验预估相关数据，或采用过设计，这将无法从理论上保证装置的整体性能达到最优。文献[2]提出了一种宽负载范围下功率变换器效率的阶段优化方法，但该方法需要进行繁琐的数学公式推导过程和大量的人工试错优化过程，计算负担重且耗时长。

近年来，电力电子自动化设计可通过遗传算法、粒子群算法、蚁群算法等元启发式算法实现电力电子系统的优化设计而受到了研究人员的广泛关注[3–5]，此类算法在一定范围内对设计变量进行智能搜索，并计算优化目标值，最后得到非支配最优设计目标集供设计者选择[6–8]，降低了寻优计算量。文献[9]将人工神经网络和遗传算法相结合对功率变换器的电路参数进行设计，避免了复杂繁琐的建模过程，提高了设计速度。但如果变换器的设计需求发生改变，如功率等级、电压等级等，该算法需要重新进行整个优化过程，耗时且不方便，这将会对实际的工业运用造成障碍。

为了克服元启发式算法因设计需求改变带来的寻优耗时问题，强化学习(Reinforcement Learning, RL)因其能够快速响应环境状态变化提供最优决策得到了广泛的应用[10,11]，但RL只能学习低维、离散的设计变量数据[11]。在深度学习的影响下，深度强化学习(Deep Reinforcement Learning,DRL)的深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法采用了基于人工神经网络的策略网络和评价网络，可以面向高维、连续的设计变量空间解决实际工业应用中的各类优化决策问题[12]。文献[13]利用柔性行动器-评判器方法实现了电-气综合能源系统的优化调度，文献[14]和文献[15]采用DDPG算法求解双有源桥变换器三重移相控制策略的最优移相控制角，实现了无功功率和效率的优化。但上述研究主要是利用DRL求解能源与电力系统的最优调度策略和从软件层面优化电力电子变换器的控制参数，无法从硬件层面为变换器的系统设计提供思路，同时目前关于机器学习的电力电子变换器自动化设计鲜有研究。

本文以三相三电平有源中点钳位(Active Neutral Point Clamped, ANPC)逆变器为研究对象，提出了一种基于DRL的逆变器效率优化设计方法。面向不同的设计需求，该方法均可以快速提供最大化效率的设计参数，从系统硬件的角度为变换器的优化设计提供了新的思路。本文首先介绍了基于DRL的逆变器效率优化设计框架，然后对逆变器的效率进行建模，并基于效率模型建立逆变器的环境模型，接着利用DDPG算法的智能体与环境模型不断进行交互和自学习以求解最小化损耗的决策策略，最后对DRL的优化结果进行性能评估，并搭建了ANPC逆变器的实验样机，实验结果验证了所提方法的有效性。

2 基于DRL的逆变器效率优化设计

为了实现逆变器的效率优化设计，本文提出一种基于DRL的自学习优化设计方法，利用DRL的DDPG算法建立灵活的优化机制，该方法能够快速响应设计需求变化，提供最小化功率损耗的决策策略，其优化设计框架如图1所示。

图1 基于DRL的逆变器效率优化设计框架

首先，根据设计需求建立DDPG算法所要探索的逆变器环境模型，该环境模型主要包括效率建模，状态Sen，动作Aen和奖励Ren的设定。其中，状态Sen代表逆变器的设计规格，如输入电压、功率等级等，动作Aen代表影响逆变器效率的设计变量，如开关频率、器件参数等，奖励Ren用于对施加在逆变器上的动作进行打分，其主要与系统损耗有关，然后利用DDPG算法的智能体与逆变器环境模型进行交互学习，不断优化动作，从而获取最大化效率的优化策略。

在智能体与环境的交互过程中，效率优化设计问题可表述为RL的马尔可夫决策过程[16]，即智能体在某一时刻的状态(即设计规格)下采取动作(即设计变量)得到逆变器环境模型反馈的奖励，并进入下一状态。智能体根据奖励改进下一时刻所要采取的动作，利用RL的优化策略训练策略网络和评价网络，直到获取的累计奖励达到最大并收敛，从而可以根据策略网络得到任意设计规格下的最优设计变量实现效率最大化。

3 三相三电平ANPC逆变器效率建模

3.1 系统介绍

根据第2节的逆变器效率优化设计框架，本节将对三相三电平ANPC逆变器的效率进行建模，其拓扑结构如图2所示。其中，UDC为直流侧输入电压，CDC为直流侧支撑电容。以A相为例，Ta2和Ta3是高频工作的SiC开关管，Ta1, Ta4, Ta5, Ta6是工频工作的Si开关管，Da1～Da6是开关管的反并联二极管，本文采用载波同相SPWM调制策略。LCL滤波器由滤波电感L1、滤波电感L2和滤波电容CAC组成，三相负载为电阻RL，ia, ib, ic分别是逆变器A相、B相、C相的输出电流，且设其有效值为I，系统规格如表1所示。

表1 三相三电平ANPC逆变器的系统规格

图2 三相三电平ANPC逆变器的拓扑结构

由于直流侧支撑电容和滤波电容产生的损耗在系统总损耗中所占的比例较小，故本文忽略两者对系统总损耗的影响，将其作为固定参数，同时将开关管的开关频率fsw、滤波电感L1和滤波电感L2作为系统的设计参数，其中L1和L2为非独立的设计变量，滤波电感的设计与UDC, I, fsw和电流纹波系数有关[17]。

3.2 损耗分析

系统损耗由开关管损耗PT、电感损耗PL和其他损耗Pother组成。其中，其他损耗主要包括与温度相关的SiC开关管通态损耗、直流侧支撑电容损耗和滤波电容损耗，且由于其只占整体损耗很小的一部分，因此本文忽略其他损耗的影响，其他功率损耗分析如下所述。

3.2.1 开关管损耗

开关管损耗主要包括通态损耗Pcond、开关损耗Psw和驱动损耗Pg[18]，具体的计算公式为

其中，Rdson为开关管的通态电阻，Eon_nom和Eoff_nom分别为标准测试条件下系统中SiC开关管的开通损耗和关断损耗，Qg为栅极电容电荷，Vgs为栅极驱动电压。系统含有18个开关管，因此开关管损耗为

3.2.2 电感损耗

电感损耗由绕组铜损Pcop[19]和磁芯铁损Pcore[20]组成。其中，由集肤效应产生的交流绕组铜损忽略不计，磁芯铁损包括工频电流和开关频率次谐波电流产生的铁损，可根据斯坦梅茨公式计算得到，计算公式为

其中，Rcop为绕组的直流电阻，k, α, β为磁芯数据手册中的斯坦梅茨参数，Bm为磁通密度最大值，VL为单个滤波电感的体积。系统含有6个滤波电感，因此电感损耗为

所以，整个三相三电平ANPC逆变器系统的总损耗Ptot为

Ptot=PT+PL(5)

综上所述，系统效率η可通过系统总损耗Ptot和输出功率Po计算得到，即

4 基于DDPG算法的三相三电平ANPC逆变器效率优化设计

4.1 环境模型的关键变量

由于逆变器输入电压、输出电流和开关频率对损耗有较大影响，且直流侧输入电压和输出电流有效值能够反映逆变器的设计规格，所以环境模型的状态和动作分别定义为

为了给智能体交互过程中采取的动作进行打分，需要根据采取动作后的逆变器损耗对智能体施加相应的奖励，而最大化奖励可以转化为最小化损耗，因此奖励Ren为

其中，ϕ为奖励系数且ϕ > 0，它衡量对所采取动作的奖励尺度。当系统功率损耗逐渐降低时，奖励将会逐渐增加，因此在DDPG算法中，智能体通过最大化奖励实现效率的最大化。

4.2 DDPG算法

本文采用DDPG算法求解最小化损耗的开关频率，利用智能体与环境交互学习获取的经验数据训练智能体，使其能够在任意状态下快速提供最优动作实现效率最大化，整体的优化设计框架如图3所示。DDPG算法包括Actor策略网络和Critic评价网络两部分，为了提高神经网络的学习稳定性，每部分均包含在线网络和目标网络，因此整个DDPG算法共涉及4个神经网络：在线策略网络µ、目标策略网络µ′、在线评价网络Q和目标评价网络Q′[12]。首先，在t时刻的状态st= (UDC, I)t下，通过策略网络得到动作at= (fsw)t，将其输入至逆变器环境模型中，得到此时的奖励rt= (–φ·Ptot)t和下一状态st+1，然后将状态转换序列(st, at, rt, st+1)存入经验回放池，最后根据小批量采样策略随机抽取N组数据训练策略网络和评价网络。其中，动作at由式(10)计算得到

图3 基于DDPG算法的ANPC逆变器效率优化设计框架

其中，µ(st)为在线策略网络µ输出的动作，δt为标准正态分布噪声，可以避免优化过程陷入局部最优。

在线评价网络Q和在线策略网络µ分别通过误差反向传播算法和确定性策略梯度定理进行参数更新，目标策略网络µ′和目标评价网络Q′通过滑动平均方法进行参数更新[12]，如式(11)、式(12)和式(13)所示

其中，yi为由目标策略网络µ′和目标评价网络Q′产生的目标评分值，L为损失函数，基于误差反向传播算法可以得到L相对于θQ的梯度∇θQL，从而对参数θQ进行优化更新。Q(s, a|θQ)为动作值函数，µ(s|θµ) 为在线策略网络µ输出的策略。和分别为更新后的目标策略网络µ′参数和目标评价网络Q′参数，τ为滑动平均更新参数，且通常取值为0.001。通过不断采样经验回放池的状态转换序列数据，利用误差反向传播算法和确定性策略梯度定理按照最大化奖励的目标迭代训练策略网络和评价网络，最终得到优化的策略网络，输入任意状态便能立即输出动作使得智能体获得最大奖励，从而实现效率优化设计。

4.3 DDPG算法的训练结果

在正式训练之前，需要对DDPG算法的关键参数进行设置，如表2所示。另外，策略网络和评价网络均包含1个隐藏层，隐藏层神经元个数分别为6和3，最大训练回合数M为5 000，每个训练回合包含的步数T为20，详细的算法训练流程可参考文献[12]。

表2 DDPG算法的关键参数

通过大量的迭代训练，图4(a)和图4(b)分别为DDPG算法训练过程中平均累计奖励和平均动作的变化情况，两者均为每个训练回合内20步的平均值。从图4可以看出，在训练过程的前期阶段，平均累计奖励和平均动作均比较小，这是因为智能体在前期探索阶段随机执行动作，与环境进行交互并收集经验数据，策略网络和评价网络的参数暂未更新。当经验回放池里的数据达到最大容量后，网络参数开始更新，智能体逐渐学习到最小化损耗的优化策略，平均累计奖励和平均动作逐渐增加并收敛。训练过程结束后，便得到优化的策略网络，在状态空间内向策略网络输入任意状态，便能得到最优的动作。

图4 DDPG算法训练过程中平均累计奖励和平均动作的变化情况

5 优化效果评估

根据DDPG算法训练完成的策略网络能够得到逆变器不同状态下的开关频率优化结果。同时通过遍历法能够确定唯一的开关频率使得系统总损耗最小，因此遍历法的优化结果可以被视为最优值。选取逆变器的5个状态，将DRL的开关频率优化结果与遍历法、遗传算法和RL进行对比，如表3所示，其中，遍历法所选取的开关频率步长为Δfsw=100 Hz，遗传算法采用了NSGA-II算法，RL采用的算法是Q-learning算法[16]。根据表3的优化结果计算得到5种状态下的开关管损耗、电感损耗、总损耗和效率，如图5所示。

表3 不同状态下的开关频率优化结果对比

图5 不同优化方法之间的功率损耗和效率优化结果对比

由图5(a)和图5(b)可以发现：5个状态下DRL和遍历法优化后的开关管损耗均小于遗传算法和RL，且遗传算法优化后的开关管损耗最大；而DRL和遍历法的电感损耗曲线均高于遗传算法和RL，这主要是因为遗传算法和RL优化后的开关频率均大于DRL和遍历法。与遍历法相比，5个状态下DRL的开关管损耗和电感损耗的误差百分比平均值分别为2.83%和9.63%，分别低于遗传算法的10.52%和21.83%以及RL的5.84%和14.79%。同时通过图5(c)可以看出DRL的总损耗曲线均低于遗传算法和RL，3种方法相比于遍历法的总损耗误差百分比平均值依次为0.31%, 3.32%和1.26%。图5(d)为5个状态下4种优化方法的效率优化结果对比图，可以看出DRL的效率曲线均高于遗传算法和RL，且更接近于遍历法的效率曲线，3种方法相比于遍历法的效率误差平均值依次为0.004%, 0.042%和0.016%。因此，相比于遗传算法和RL, DRL的优化结果更接近于遍历法，且5个状态下DRL优化后的效率均大于遗传算法和RL。

改变DDPG算法的状态空间范围为400 V ≤ UDC≤600 V, 20 A ≤ I ≤ 60 A，然后重新进行训练，并得到低功率等级下4种方法的开关频率优化结果。通过计算得到3种电压等级、2种电流等级下详细的功率损耗分布，如图6所示，其中UDC分别取值为400 V, 500 V, 600 V，I分别取值为30 A, 50 A；功率损耗包括通态损耗Pcond、开关损耗Psw、驱动损耗Pg、绕组铜损Pcop和磁芯铁损Pcore。

图6 不同优化方法之间详细的功率损耗对比

以图6(a)为例进行分析，3种电压等级下不同方法之间的通态损耗、驱动损耗和磁芯铁损均相近。遗传算法的开关损耗较大，绕组铜损较小，而RL的开关损耗较小，绕组铜损较大。通过对比，3种电压等级下DRL的开关损耗和绕组铜损更接近于遍历法。这主要是因为遗传算法优化后的开关频率较大，RL的开关频率较小，而DRL的开关频率更加接近于遍历法。相比于遍历法，遗传算法、RL和DRL优化后的各部分功率损耗如表4所示，3种电压等级下DRL的损耗误差百分比平均值分别为7.73%, 4.90%和4.29%，在大多数情况下均低于遗传算法和RL。总体而言，DRL优化后的各部分损耗更接近于遍历法的优化结果。

表4 I = 30 A时，相比于遍历法，其他优化方法的各部分功率损耗对比

通过详细对比不同方法优化后的功率损耗和效率，DRL与遍历法的优化结果更相近，所以DRL具有更好的优化性能，能够最大化系统的效率，且DRL优化后的效率大于遗传算法和RL优化后的效率。同时，在表2的参数设置下，DRL的整个训练过程耗时约40 min，优化后的策略网络可以面向状态空间内的任一状态在3 s内输出优化动作。当采用遍历法时，每个状态的优化过程耗时约110 s。RL的训练过程耗时约为53 min，每个状态输出动作的耗时约为3.5 s。对于遗传算法，单个状态的程序运行时间约为5 926.3 s。另外，以上4种方法的程序代码均运行在Win 10操作系统上，CPU型号为AMD Ryzen 5 3600X @3.8 GHz。

为了验证DRL优化策略的快速性，根据表2的状态空间取值范围，以ΔUDC= 10 V和ΔI = 10 A为变量步长共选取40个设计规格，图7为不同方法完成多个设计规格的逆变器优化设计的优化耗时对比。从图7可以看出，任意设计规格数量下遗传算法的优化耗时均高于另外3种方法，通过局部放大图可以发现RL的优化耗时均高于DRL，当设计规格数量小于或等于22时，DRL的优化耗时高于遍历法，但当设计规格数量大于22时，DRL的优化耗时逐渐低于遍历法，且基本保持不变，即DRL不会因为设计规格数量的增加而大幅增加优化耗时，同时DRL的优化耗时远低于遗传算法，因此DRL能够快速响应设计规格变化，输出最优的设计参数。

图7 不同方法之间的优化耗时对比

综上所述，本文基于DRL的效率优化设计方法既能最大化系统效率，又能快速响应设计规格变化提供最优设计变量，建立了灵活的效率优化机制。

6 实验验证

为了验证DRL的有效性，本文搭建了额定功率为140 kW的三相三电平ANPC逆变器的实验样机，如图8所示。其中LCL滤波器位于电磁兼容(Electro Magnetic Compatibility, EMC)板的下方，CDC位于直流源的下方。由于实验条件有限，本文将实验样机运行在4种低功率等级下，根据DRL、遍历法、遗传算法和RL得到相应的开关频率优化结果，在此优化结果的工作条件下，采用型号为WT3000E的功率分析仪实测样机的效率，实验测试条件如表5所示，不同优化方法的理论效率和实测效率对比结果如图9所示。

表5 实验样机的测试条件

图8 三相三电平ANPC逆变器实验样机

图9 不同优化方法的理论效率与实测效率

从图9可以看出，随着直流侧输入电压UDC的增加，系统的效率逐渐增加，4种优化方法的效率测量值及理论值的变化趋势相同。由于开关频率优化结果存在误差，DRL的效率理论值略小于遍历法的效率理论值，4种电压等级下两者效率理论值的平均相对误差为0.005%，同时DRL的理论效率曲线均高于遗传算法和RL的理论效率曲线。高频磁芯铁损计算误差的存在，以及未考虑的其他损耗的影响，使得遍历法、遗传算法、RL和DRL的效率测量值均小于其理论值，效率测量值与理论值之间的平均相对误差依次约为0.145%, 0.168%, 0.165%和0.153%。另外，与遍历法相比，4种电压等级下DRL的效率测量值均较小，平均相对误差约为0.013%；而相比于遗传算法和RL, DRL的效率测量值均较大，平均相对误差分别为0.025%和0.025%。

根据上述分析，DRL的效率测量值和理论值均接近于遍历法，且大于遗传算法和RL的效率测量值和理论值。实验测量结果与理论计算结果基本吻合，两者的误差来源于忽略不计的其他损耗和计算误差。因此，本文提出的DRL优化设计方法能够最大化系统的效率，同时可以快速提供任意设计规格下的最优设计参数，打破了传统算法优化设计过程耗时、计算量大以及无法快速响应设计需求变化的局限性。

7 结束语

本文提出一种基于DRL的ANPC逆变器效率优化设计方法。具体地说，通过DDPG算法与三相三电平ANPC逆变器环境模型进行不断交互，利用交互过程中获得的经验数据进行自学习，逐渐改进智能体的动作决策以最小化功率损耗，从而获得最大化效率的决策策略。首先，介绍了基于DRL的逆变器效率优化设计框图；其次对逆变器的效率进行建模，并采用DDPG算法求解最小化功率损耗的开关频率；然后将DRL的优化结果与遍历法、遗传算法和RL进行优化性能对比；最后搭建了三相三电平ANPC逆变器的实验样机进行验证，实验结果表明本文基于DRL的优化策略能够最大化系统的效率。

综上所述，本文以三相三电平ANPC逆变器的效率为设计指标，利用DRL的DDPG算法建立了灵活、快速的优化机制，且通过实验验证了优化策略的有效性。相比于遗传算法和RL，实测效率平均提高了0.025%和0.025%。面向不同的逆变器设计规格，该优化策略均可以快速提供最优的设计参数实现效率最大化，从系统硬件的角度为电力电子变换器的优化设计提供了新的思路和方法，在电力电子变换器设计领域开展了有益的尝试。