赵 静
(陕西财经职业技术学院,陕西咸阳,712000)
超级计算机系统实时节能控制技术的理论与实践分析
赵 静
(陕西财经职业技术学院,陕西咸阳,712000)
计算机的能耗总和数量非常大,如何做到计算机的“省电、节能、环保”这对社会的节能减排非常重要。本文阐述分析了超级计算机系统实时节能控制技术的基本理论,并对共享计算机资源实时任务执行概率的充要条件和概率的确定进行了阐述,最后分析了切点机的切入和切出的安全问题。
计算机系统;实时节能;技术;理论分析
近几年来,能源危机日益严重,创造低碳环保的生活环境,对社会的可持续发展非常重要。计算机的生产厂商,其新产品的设计出发点也是节能环保,这对计算机占据“节能、环保、省电”的市场非常重要。计算机能耗的增加主要表现在CPU能耗的不断增加,其频率越来越高,功耗也越来越高;内存和其功耗的增加以及芯片能耗的增加,计算机系统的能耗也在不断增加。
计算机服务器节能技术的研究主要在芯片技能技术、基础架构节能技术和系统级节能技术三个方面。
1.1 芯片级节能技术
芯片级节能技术主要体现在CPU功耗控制、CPU频率调整、芯片级冷却技术、低功耗专用芯片部件等。一方面,随着CPU加工工艺的改善和提升,提高了CPU的性能,同时CPU的主板芯片组耗能也降低了;另一方面,CPU的动态功耗通过降低频率和电压也降低了。比如在CPU耗能控制这方面,Intel的动态功耗节点管理器和BIOS、OSPM相互协作,调整其平台的动态消耗,可以实现功耗和服务器性能的最大化。
1.2 基础架构级节能技术
基础架构级节能技术有很多种,主要包括高效能散热冷却技术、存储制冷、液冷技术、高效能电源等多种技术。高效能散热冷却技术的研究主要有提高散热方式的效率和提高冷却设备的性能,比如IBM的机房冷却系统和HP PARSEC体系结构(Parallel Redundant Scalable Enterprise Cooling)等。存储制冷是指基于设备的储存能力,部分制冷能力由制冷设备储存,在有需要的时侯再有效释放,和电池的储存电能相类似,比如IBM的机房冷却方案就是基于存储冷却技术。液冷技术包括两项技术,分别为水冷和液态金属制冷。夜冷技术的应用越来越普遍,是因为其导热能力和热容非常强大,由缓解负载突变所造成的散热压力能更快的缓解并且吸收的热量更多,比如IBM Cool Blue机柜系统。
1.3 系统级节能技术
系统级节能技术包括面向能耗的进程及作业级迁移和基于作业调度的机群节点休眠等。降低功耗方面,除了上面所提到的CPU工作频率调整和功耗控制、芯片级冷却、低功耗专用芯片、液体冷却等技术,还包括研究正热的系统级节能技术和产品,主要包括基于负载情况随时动态调整系统状态、部分节点或者是部件的实施休眠;根据每个进程能耗的不同来调整CPU任务队列,比如说如果一些任务产生的热量比较多,就可以将它迁移,从温度高的CPU上到温度低的CPU上。比如自适应功耗管理系统,它是由国家高性能计算机工程技术研究中心开发,其作业调度策略可以根据能效实现。
从实际上说,超级计算机节能的基础是芯片级节能,超级计算机节能的保障是基础架构级节能,超级计算机节能的根本是系统级节能,最本质和有效的节能方式是系统级节能。但是系统节能的技术难度比较大,其主要解决两个问题,即计算机资源共享的实时任务执行概率问题和节点机的切入和切出的安全系统问题。
2.1 计算机资源共享实时任务的执行概率
计算机实时任务以共享网络为应用环境。共享网络的体系结构具有分布系统的特征,利用互联设备以及通信协议二者,将分散的资源连接整合形成一个整体。共享网络中的资源主要包括存储资源(Memory Resource)、网络带宽(Network Bandwidth)、计算资源(Computing Resource)分别用M,B,C来表示。为了避免资源耗尽造成的任务终止问题,一般情况下,采取的预防措施为保留部分资源,并且要限定各种资源的最高利用率U。在本文中,分别用Um,Ub,Uc来表示上面所叙述的三类资源的最高利用率。
实时任务Ti的描述的关键参数包括达到时刻、开始执行时刻、执行结束时刻、任务周期、执行时限,它们分别用ai、ri、fi、pi、di表示,其通式为:
Ti=(ai,ri,fi,pi,di)
由实时任务的特点,可以知道:
执行延时即Delay Time:DTi=ri-ai;
执行时间即Executive Time:ETi=fi-ri
对于实时任务集{Ti}来说,每个任务的周期都不一样,所以超周期就是计算每个任务周期的最小公倍数,用LCM(p1,p2,...,pn)表示。在超周期内,某个任务的实际执行次数为Ni=LCM(p1,p2,...,pn)/pi,i=1,2,3,...,n。
共享资源中的网络资源使用方式为非独占方式,所以提供给实时任务使用的只能为资源可用余量。在系统的运行状态下,资源可用余量是关于时间的函数,记作x*(t)。实时任务在执行过程中需要的资源量不是固定的,而是变化的,记作XT(t)。
2.2 实时任务的网络可执行条件
2.2.1 实时任务(集)可执行的必要条件:
第一个定理 在实时任务(集)执行的整个过程中,共享网络能够提供的资源余量不论在任何时刻一定要满足实时任务(集)对资源的需求,也就是说实时任务(集)可执行的必要条件是资源必须充足,供等于或者是大于等需,满足下列不等式成立:
x*(t)≥XT(t),t=0-T
T代表实时任务(集)执行完任务需要的时间,一般为很多个超周期。
2.2.2 实时任务可执行的充分条件
第二个定理 实时任务(集)可执行的充分条件就是ETi必须满足di的要求,其中ETi代表执行时间,di代表执行时限。
具体说来,如果实时任务集{Ti}的时限di大于等于pi,并且实时任务所有的起始时间都是0,则实时任务集的可执行充分条件就是,在一个超周期中,所有执行过的实时任务的累加时间和小于超周期的时间,即充分条件为:
或是
在上式(1)和(2)中,ETi代表实时任务(集)中一个任务的执行时间的和,它由tci、tbi、tmi三者构,分别代表计算执行时间、传输时间、存储时间。三者的处理可以重叠,但是最坏的情况为串行叠加,即:ETi小于等于 tci、tmi、tbi三者之和。
2.3 共享网络中实时任务的可执行概率的确定
网络实时任务的可执行概率就是说在用户的一定范围内,网络中实时任务的请求被执行的概率。实时任务的共享网络可执行概率的确定,必须要考虑实时任务网络可执行的充分条件和必要条件,其必要条件为,在某一时刻中,资源余量要大于网络实时任务所需要的需要量的总和,但是只是满足其必要条件并不能够保障执行实时任务。只满足资源需求,有可能网络的处理速度达不到要求,如网络的存储器读写速度、网络的传输速度、计算速度慢等。因此,要想完成实时任务还必须满足其充分条件。如果网络实时任务能够增加任意的约束条件,网络实时任务可执行的概率就是其可执行的充要条件。
超级计算机系统一般采用的控制机制为分级集中控制,常见的有二级控制和三级控制,二级控制为类阵列节点机局控和总控,三级控制就是将总控和局控之间的类阵列控按照机柜分成若干个,即为机柜控,本文分析讨论的为二级控制,其控制的拓扑结构图,如图1所示。
图1 超级计算机系统二级集中控制拓扑结构图
图2 超级计算机系统节能控制安全决策过程图
根据用户的服务要求,超级计算机系统总控系统先检测系统的在线实际可用的共享资源,然后留有一定的余量,最后才会进行安全节能决策。其决策主要包括:节点机的调频调压、唤醒切入、休眠切出和服务节点机用户任务的接纳控制。节能安全决策的具体过程如2所示。
由上图2可知,节点机的唤醒切入和休眠切出都有一个最佳的时间,即这类命令的执行一般都在被控阵列机处于“暂停状态(最佳是初态)”。因此,完成执行的时延包括执行本身的时延和最大等待时延两项。
[1]魏敏,王彬,孙婧,谷军霞,洪文董.“天河一号”系列超级计算机系统气象领域适用性分析[J].气象科技进展,2012,01:31-35.
[2]田宝华,蒋句平,李宝峰,张晓明,屈婉霞.基于统一资源管理的超级计算机系统节能方案[J].计算机应用,2012,03:835-838.
[3]曾宇.服务器节能及能效评价技术综述[J].信息技术与标准化,2008,09:6-8+12.
赵静,女,1984年9月19,陕西咸阳人,讲师,研究方向:计算机专业的
Theoretical and practical analysis of real time energy saving control technology for super computer system
Zhao Jing
(Shanxi Vocational College of Finance and Economics,Xianyang Shaanxi,712000)
the total amount of energy consumption of the computer is very large, how to make the computer's "energy saving, energy saving, environmental protection" is very important for the energy saving of the society. Analyses the basic theories of super computer system real-time energy-saving control technology, and the sharing of computer resources real-time task execution probability, the necessary and sufficient conditions for probabilistic determination are described. Finally, the paper analyzes the cut-off machine cut in and cut out the security problems.
computer system; real time energy saving; technology; theoretical analysis
TP338.6
A