路 煜,张 路,侯小凤,郑文立,李 超
(上海交通大学电子信息与电气工程学院,上海 200240)
在如今科技快速发展的新时代,国家战略强调要加快数据中心等“新型基础设施”建设进度,这使得数据中心的重要性更上一层楼。在数据中心成本中,电力建设成本是主要组成部分,其比例可达30%~50%[1]。如何节省这部分费用是数据中心运营的关键问题。研究表明,数据中心后备电源具有很大的使用潜力,将电池应用于削峰填谷可极大地提升数据中心电能利用率。为节约数据中心电力建设成本,该方案已经被许多大型数据中心所采用[2 - 4]。有调查显示[5],在数据中心储能设备相关论文中,用储能设备削峰填谷的研究已达到70%以上。在现在的数据中心中,分布式备电系统的应用使数据中心的运行更加稳定和高效,该方案改变了整个机房集中供电的模式,将后备电池与每个机柜或者每台服务器对应,更细粒度地提升了使用电池削峰填谷的效率,同时也减小了故障发生时的影响面积,提升了安全系数,成为了未来发展的主流趋势。
后备电池的成本是数据中心电力成本的重要组成部分。过去,数据中心中备电成本的节约主要集中在如何利用电池和如何在空间上合理地布置电池。显然,降低更换电池的频率也是节约电池成本的一个重要研究方向。但是,我们发现,大多数有关研究都忽略了电池在传统意义上的老化后是否还具有使用潜力,也忽略了电池自身的老化问题和该问题可能导致的风险[1,4 - 8]。为了弥补这个空白,本文针对如何预测现有的“老化电池”是否还能继续使用,如何评价老化电池的使用价值,以及如何使用才能发挥其最大使用价值等问题进行了研究。
本文建立了一个收益预测模型,比较延长电池寿命的收益与这些老化电池带来的性能下降和潜在风险的额外成本。为了平衡数据中心的安全性和成本,本文根据收益预测模型提出了老化感知的电池管理方式。该管理方式不仅可以保持电池的安全性和稳定性,而且还可以降低数据中心的总成本,在电池的使用期内实现二者的平衡。采用本文中的评价框架对比了现有的削峰方式,并提出了更具收益的控制方式,可以节约数据中心电池成本的24%。
本文的主要贡献如下所示:
(1)本文提出了一种数据中心预测电池可用性的模型和方法——收益衡量法,该方法通过合理控制电池使用方式来达到电池使用与系统收益的平衡。
(2)本文建立了一种老化感知的电池管理系统ABMS(Aging-aware Battery Management System),可以在每个老化阶段合理控制电池的使用。
(3)本文通过实验说明了收益衡量模型和ABMS电池管理系统的有效性。
如今,分布式电池系统已经被广泛应用。Facebook采用的是将电池配置给单独机柜的方式[2]。Google采用的是将电池配置给每台服务器的方式[3]。图1展示了集中式备电系统的结构图,图2表示了采取2种分布式供电系统的数据中心电力结构(其中机柜1为机柜级,机柜2为服务器级)。尽管在分布式备电系统中使用电池削峰的技术已经得到广泛研究[6,7,9],但在此基础上对于如何合理地发挥电池最大使用价值的研究还有所欠缺。
Figure 1 Centralized power hierarchy topology图1 集中式备电系统结构图
Figure 2 Distributed power hierarchy topology图2 分布式备电系统结构图
在数据中心的应用场景中,如果后备电池仅用来保证备电安全性,事实上存在很大程度的浪费现象。调查表明,美国企业的年平均停电次数在7次以下的概率为87%[8]。由于柴油发电机的存在,后备电源的主要功能为供给切换电源时的几分钟供电空缺,这意味着后备电源的年平均工作时间仅有几十分钟或更低。而磷酸铁锂电池的生命周期可达1 000次循环以上,因此使用电池进行削峰可以发挥出电池的使用潜力,获得更大收益,本文研究也是针对磷酸铁锂电池的。有的研究是通过电池的不充分配置来实现节约成本[8],是一种空间上的最大化资源利用。有的工作是针对如何设置最佳的用于削峰的电池容量来获取最大收益[10]。Narayanan等人[11]则通过优化电池控制方式,研究了削峰收益与电池老化损失之间的平衡。还有一部分研究是针对使用新能源的绿色数据中心中电池配置优化以及对应的服务器性能提升[12,13]。
目前数据中心功耗管理的研究主要集中在使用电池进行削峰填谷[14,15],以及探索电池在峰值管理中扩展性的应用[16,17]。除此之外,还有虚拟机调度[18,19]和动态电压频率调节DVFS(Dynamic Voltage and Frequency Scaling)等方法[20]。虚拟机调度是通过调度平衡任务对服务器各项资源的不平衡需求。DVFS是通过在面临需求峰值时主动降频来减轻服务器压力。但是,主动降频的方式会导致服务器性能下降和处理能力降低。已有的数据中心削峰研究中所提到的削峰策略主要是以电池削峰和DVFS这 2种方法相结合,采用不同的调度策略。例如,Kontorinis等人[7]提出的控制策略针对低的峰值采用DVFS进行削峰,而对于较高的峰值采用电池削峰的方式。当电池的能力不足以支持削峰需求时,增大DVFS使用的频率和比例会导致服务器性能变差,即本文提出的性能损失。对于这部分性能损失,目前还没有数据中心的相关研究对此进行评估。所以,本文提出了一个新的量化评估方法,用损失时间进行衡量。
电池用于削峰时,其主要行为是频繁地充放电,这会加快电池老化速度。锂电池老化的主要表现为可用容量的下降。但是,目前数据中心锂电池还缺乏一个通用更换标准,一般在剩余80%可用容量时视作其老化[21]。但有研究表明,80%剩余容量的老化电池,其放电性质依然较为稳定,可以满足一定的供能需求[22,23]。Narayanan等人[11]研究了减少市电输入、增加电池使用与电池老化之间的关系,其重点在于实现电池老化与成本节约的平衡,但缺少对成本与电池老化影响的归一量化分析。Aksanli 等人[24]提出了一种通过控制逻辑实现有效延长数据中心备电电池使用寿命的电池管理方式。此外,还有些研究中也探讨了电池寿命的管理机制[25,26]。但是,现有的研究都无法说明电池最大的使用潜力,针对该研究空白,本文重点研究如何评估“老化电池”的可用性,实现对其的合理利用,探寻其在数据中心使用背景下真正的寿命终点,最大化地发挥数据中心后备电池的使用价值,降低备电成本。
目前数据中心业内先进的分布式电池,通常都自带电池管理系统,可以获得各项参数值。本文所研究的电池管理系统,是在电池自带管理系统的基础之上,集成本文提出的控制逻辑,实现成本收益更高的电池控制与调度。
在数据中心削峰中使用电池需要对电池的物理性质进行分析,本文根据Aksanli等人[24]的研究,采用如下电池模型:
计算放电量:
Creleased=Δt·Idischarge
(1)
计算放电深度DOD:
(2)
其中,Cap即当前老化状态下的可用容量:
(3)
其中,CR是额定容量;H为额定放电时间(一般为5 h);k体现了普克特定律,针对磷酸铁锂电池,k的值为1.05。可用容量Cap同时也受电池的健康水平SoH影响,随着电池老化,可用容量不断减小。
在每一次完整的充放电循环后,用式(4)计算新的SoH:
(4)
其中,SoHdead是目前通用的电池老化界限,并且通过DODfinal对高深度放电行为进行惩罚。
虽然电池的老化是一个动态的过程,电池处于不断老化之中,但是数据中心的使用需求对电池的性质并不敏感。同时,为了增加实际应用的可操作性,本文将电池的使用划分为若干个时间区间,每个区间内电池的老化状态视为稳定。其中对于时间段i,其长度为ti,起始和结束时间点分别为T1,i和T2,i。电池在使用的过程中,老化的速度不断加快,长度ti也不断减小。
电池的功能包括备电和削峰2个部分。合理地使用老化电池,取决于如何在每个时间段i内将可用容量Cap划分为使用容量CapU与备电容量CapB,以最小化带来的损失。而对于电池来说,每个阶段i的长度ti和可用容量Capi都是可预测的,这代表可以在此基础上预测下一个阶段的使用收益和损失,从而决定是否继续使用该电池。
3.2.1 使用收益
显而易见,延长电池的使用时间会减少电池的使用成本。由于电池本身最基本的功能是备电,为了简化电池基本的使用收益的复杂情况,将一般数据中心的电池使用情况设置为基准线。在一般情况下,电池在使用到80%剩余容量时会被更换,记其使用年限为tB(即为电池使用的基准时间)。由此可以得到某个阶段i的收益(C0为单位时间电池的使用收益):
CB,i=ti·C0
(5)
设CBattery为电池成本,tb为电池使用的基准时间,则C0可以表示为:
(6)
3.2.2 性能损失
虽然延长电池的使用时间会节约大量更换电池的费用,但是也可能会因为电池老化而带来供电不足的现象,这会导致DVFS等手段的使用比例升高,从而导致服务器性能下降。为了衡量服务器性能下降带来的损失,本文将性能下降转化为运行时间的损失,不同规模和类型的数据中心损失运行时间也会导致不同的成本损失。
设新电池用于削峰时,使用电池削峰的比例为β,即使用DVFS削峰的比例为(1-β)。β的大小取决于用于削峰的电池容量,即CapU的大小。β与CapU存在正比例关系:
β=k′·CapU
(7)
J是单位时间吞吐量(/h),是本文用来衡量服务器性能的指标;r是时间损失率,是衡量性能损失的指标,r和J有如下关系:
(8)
其中,Jfresh是完全使用新电池削峰条件下的每小时吞吐量,Jold是相同负载下使用老化电池之后导致性能降低后的每小时吞吐量。Δt是进行比较的时间段的长度,考虑到服务器负载具有周期性,通常周期为一天或者一周,处于周期中的不同位置时相对吞吐量也会有差异,所以Δt的取值最好为周期的整数倍。因此,在某个阶段i内,因性能下降造成的时间损失tp,i为:
tp,i=ti·r
(9)
而r与β之间存在以下关系:
r=g′(β)
(10)
即:
tp,i=ti·g(CapU,i)
(11)
3.2.3 风险评估
在电池的使用中,备电可靠性取决于备电容量。这里保留CapB的电量留作备电容量,假设使用的电池满电量Cap0所能供给的时间为t0,可能发生的停电事故宕机时间为x,那么发生停电事故时电池可供电时长tB为:
(12)
对于低于该时长的停电事故,实际可以完全解决。而对于高于该时长的停电事故,损失的时间为tloss=x-tB。断电时间的模型可以考虑为正态分布模型,假设断电时间服从正态分布N(μ,σ2),其概率密度函数为h(x),那么由此可以得到一次断电损失的期望为:
(13)
所以,可以得到阶段i内的风险损失时间tr,i为:
tr,i=mEtloss(CapB,i)-mtB
(14)
其中m为停电发生次数的期望。
3.2.4 模型优化
将可用容量Cap如何划分为使用容量CapU与备电容量CapB会影响带来的损失,当划分的使用容量较大时会导致性能损失tp,i较小而风险损失tr,i较大;反之,tp,i较大时tr,i会较小。
某个阶段i内的损失总和CL,i来自于tp,i和tr,i2部分,可以表示为:
CL,i=α·(tp,i+tr,i)
(15)
即:
CL,i=α·(ti·g(CapU,i)+
mEtloss(CapB,i)-mtr,0)
(16)
其中,α为系数,它反映的是经济损失与时间损失之间的关系。α的值可以通过扩大问题规模获取,如数据中心停止运行1天所造成的损失为L1,则有α=L1/24,其值因数据中心的具体情况而异。
由此可以预测下一阶段的Cap和ti,然后将损失函数转化为CapB,i的一元函数:
CL,i=α·(ti·g(Cap-CapB,i)+
mEtloss(CapB,i)-mtr,0)
(17)
求解该一元函数,可以得到使得损失最小的容量分配比例以及最小的损失。
3.2.5 净收益评估
经过上文分析得到了ti时间段内的收益CB,i与损失CL,i,由此可以得到ti时间段内的净收入Yi:
Yi=CB,i-CL,i
(18)
当净收益大于0时,表明使用者在该时间段内继续使用电池可以为数据中心带来收益;而当净收益小于0时,则表明继续使用会造成损失。数据中心根据净收益决定电池在某个时间段内的可用性。完整的使用过程由若干个时间段组成,总净收益为:
(19)
其中n∈Z,满足Yn>0,Yn+1≤0。电池使用到T2,n时间时,可以获得最大的净收益Ytotal。
3.2.6 模型结构总览
图3所示为本文提出的收益模型结构图,通过模型分别计算某个时间段内的使用收益、性能损失和风险损失得到净收益,从而判断电池可用性。
Figure 3 Topology of benefit model图3 收益模型结构图
根据上文提到的优化,本文可以实现在老化的不同阶段得到对应的最优电池容量配置方案,以此来管理电池的使用。在某个老化阶段,可以通过得到的配置方案,确定电池在削峰中可以使用的容量,并通过得到的最大容量限制电池充放电的行为。
在现有的数据中心电池管理系统中,电池的老化是一个非常模糊的界限,这导致电池在使用中无法发挥其最大潜力。其次,电池在不同的老化阶段的性质与能力有所不同,而现有的电池管理系统对于不同老化状态的电池使用方法相同,这显然并不合理。本文提出的老化感知的电池管理系统ABMS,不仅可以明确地检测电池收益的最大界限,而且针对不同状态的电池采取更科学合理的使用方法,从而最大化使用收益。
本文提出的老化感知的电池管理系统所得到的收益,是通过合理使用电池而节约的数据中心电池成本。通过使用该管理系统,可以最大化地节约备电系统费用。电池的老化是一个非常缓慢的过程,发生较为明显的变化可能要经历几个月的时间,因此只需要建立检查点对电池进行老化检测,测量其内部参数,以确定其老化阶段。每个检查点之间只需相隔数月,这对于数据中心而言只是一笔微小的开销。检查点间的时间间隔是可变的,因为电池老化程度越严重,其老化速度越快,时间间隔应逐渐缩短。
本文提出的ABMS可以分为以下几个步骤。
(1)详细检查电池以确认老化阶段和有效容量并判断电池是否可以继续使用。由于电池老化是一个非常缓慢的过程,因此该步骤不需要高频率执行。ABMS设置了检查点以检查电池状态。电池老化时,2个检查点之间的时间间隔会越来越短。数据中心中设置检查点的成本很低。检查点还具有校正充电和放电的作用。
(2)根据有效容量和本文模型,找到最合理的容量配置。
(3)使用得到的容量配置限制电池操作。由可用容量确定电池工作的电荷状态SoC(State of Charge)的范围,并使用该范围限制电池操作。ABMS使用电流积分方法来估计SoC,使用电池自带的管理系统进行辅助修正,并在检查点处消除误差。
图4描述了应用ABMS的数据中心备电管理结构。
Figure 4 Datacenter power hierarchy with ABMS图4 应用ABMS的数据中心备电管理结构图
图5描述了ABMS流程图。
Figure 5 Flow chart of ABMS图5 ABMS流程图
本文根据第3节的模型分析方法和第4节的控制方法搭建了仿真平台,实现了ABMS系统的控制逻辑。
在同样的参数条件下测试了2组有代表性的模拟放电状态(稳定放电和峰值放电)。其中稳定放电为周期性轻度放电,峰值放电则代表了备电电池在应对峰值突发削峰场景中的表现,即峰值高但持续时间短。图6和图7分别给出了2种放电状态下模拟系统从开始到检测到电池不可用时的整个放电过程中的SoC和SoH变化曲线,其中横轴为循环周期数,纵轴为当前SoC或SoH占初始水平的百分比,实线为电池在使用中SoC的变化情况,虚线为SoH的变化情况,SoC不会过低的原因是控制系统中预留了用于备电的部分。此外,本实验还使用实际测量得到的功耗需求数据在仿真平台上进行了测试,在同一条件下进行模拟,其结果如图8所示。
Figure 6 SoC&SoH in stable discharging图6 稳定放电下电池SoH和SoC变化曲线
Figure 7 SoC&SoH in violent discharging图7 峰值放电下电池SoH和SoC变化曲线
经过实验发现,在平稳放电这种低需求的条件下,电池能够使用的时间较长。设定条件下的电池可以使用接近 800次循环,而此时的电池容量已经不足60%。而在高需求高损耗的脉冲放电条件下,电池剩余容量在高于80%时已达到最大收益,用于削峰的电池容量不足以支撑削峰需求,导致DVFS频率上升,继续使用会导致严重的性能损失,应当停止使用。而在图8中的实际负载下,电池的使用寿命界限为67%。相比于简单地在其80%剩余容量时更换电池,优化后的管理方法可以节约电池成本约24%。可见,本文提出的模型对于不同场景中的应用情况,可以得到不同的电池使用寿命。用于削峰的电池并没有明确的最大寿命,而是随着不同的使用情况变化。
Figure 8 SoC&SoH under real load图8 实际负载下电池SoH和SoC变化曲线
图9展示了在实际负载下,本文的ABMS系统对于备电容量和削峰容量的均衡控制。在每个检查点,电池管理系统会检查电池的状态同时预估下个阶段的使用收益,如果收益为正则按模型计算分配容量,否则终止使用。值得注意的是,由于电池的性能随着老化越来越不稳定,容量的衰减也越来越快,因此检查点之间的间隔会越来越短,这也是为了保证系统的准确性和有效性。该特性在图9中也有体现。
Figure 9 ABMS dynamic management of battery backup capacity and peak-shaving capacity under real load图9 实际负载下ABMS系统对于 电池备电容量和削峰容量的动态管理
图10比较了上述3种模式采用ABMS控制系统和自然控制模式的收益对比。从图10可以分析得到,本文提出的ABMS系统对于平稳的削峰需求优化效果更好,相对而言对于高容量的削峰需求优化效果则不明显。实际场景中,2种情况都存在,所以收益介于二者之间。
Figure 10 Benefits comparison between ABMS and natural control mode in three modes图10 3种削峰模式下采用ABMS控制系统 和自然控制模式的收益对比
本文提出了一个数据中心削峰电池使用成本模型,通过模型进行收益和损失分析预测电池在未来一段时间的使用价值,从而得到电池的最优使用终点。对于性能下降的量化问题,本文提出了一种将性能下降转化为运行时间损失再转化为成本损失的量化方式。实验表明,根据不同的负载情况,该模型可以给出不同收益的最大有效寿命。
ABMS是数据中心中一种全新的电源管理方式,通过设立检查点的方式了解电池状态以及根据成本模型重新评估来衡量电池的可用性,并根据模型合理地划分电池的有效容量,从而最大化电池的使用寿命,节约数据中心的建设和运营成本。在仿真实验的条件下,该系统可节约电池成本约24%,是一种有效的备电成本节约方式。