付强
大数据运行时代,需要的是敏锐的思维变革、精准的数据,更需要稳定的软硬件系统。而在层出不穷、络绎不绝地向着新时代应运而生的系统背后,往往隐藏着的是难以发现的漏洞。以往的软件,其可靠性模型大多数只考虑了软件错误的发现过程,并没有考虑其改正过程,导致软件错误的改正要比发现滞后很多。殊不知,发现问题仅仅是个开始,如何解决问题才是需要直面的目标。除此之外,各种硬件系统也可能受到各种内部因素影响或者外部攻击而失效, 从而需要研究各种复杂软硬件系统的可靠性和保护策略。这也是北京科技大学经济管理学院管理科学与工程系副 教授彭锐一直潜心研究的领域。
软件系统“修理师”
随着信息时代的到来,计算机技术得到了前所未有的跨越式发展,人们对软件质量的要求也变得越来越高。试想一下,当你使用笔记本电脑、手机等电子产品时,一定希望它们运行流畅,不要出现死机等故障。这种流畅的体验就是凭借系统的可靠性来支撑的。
作为衡量软件质量的重要特性,可靠性在软件系统中发挥着不可估量的作用。近30年来,软件系统定量评估和预测已成为众多学者关注和研究的焦点。国内外学者建立了很多软件可靠性模型,用来刻画软件错误在软件测试过程中的变化过程,从而用于决定何时投放软件等相关重要决策。“我在博士期间研究的方向主要包括软件可靠性建模、系统的攻防博弈以及网络结构系统的可靠性建模等。”彭锐介绍道。
在不断地深入学习与研究中,彭锐发现,当时的现行模型往往很快就能够发现系统中存在某方面的问题,但解决力度反而迟迟不能到位。怎么才能提高可靠性模型解决问题的敏锐度呢?还在读博的彭锐感到心有余而力不足。但万事都有“柳暗花明”的一刻,就在彭锐一头雾水的时候,他看到博士导师谢旻教授在一篇论文中写到关于建立软件错误的发现和改正过程,令他茅塞顿开。抓住这一灵感,彭锐又考虑了软件测试过程中的资源分配的不均以及软件测试中新的错误的引入等问题,其研究论文受到国内外广泛关注,已经发表在可靠性领域的顶尖期刊Reliability Engineering & System Safety上。
扎根复杂系统可靠性
软件和硬件是密不可分的, 而且硬件系统可能由于内部的一些隐患或者外部的攻击而失效。正是因为有了初步尝试,在研究软件可靠性建模的基础上,彭锐也认识到系统的攻防博弈等技术的重要性和巨大的社会需求, 从而将全身心都投入到了各种复杂软硬件系统的可靠性研究之中,并取得了不俗的成绩,也开辟了一条新的科研之途。
美国“911”事件之后,在全球范围内引起了巨大反响,也让系统的攻防博弈方面的研究进入了更多人的视线。众所周知,对系统的刻意攻击不同于自然灾害,因为攻击者会专门针对,寻找系统的薄弱环节进行攻击,并且攻击策略可以随时随着防守者的保护策略而改变。彭锐考虑到攻防战争中有时会使用到假目标来欺骗攻击者,故在研究时采取了与以往不同的策略,着重考虑到假目标有一定被识破的概率这一点,从而进行深入而系统的研究,具有很大的实际意义,并先后在Reliability Engineering & System Safety等领域内顶尖期刊上发表了数篇论文。
科学的乐趣,很多时候就在于敢于接受挑战。在系统可靠性方面,彭锐不懈攀登,他不满足于目前的一些方法和技术,一直在提炼关键的科学问题,也一直在探索更好的解决方法。就在今年,年仅28岁的彭锐凭借“含有温储备元件的复杂多态多阶段系统的可靠性研究”项目获得了2017年度国家自然科学基金面上项目的资助。彭锐每每到需要学习新的理论和方法时,总能收拾行囊,再度启程。
彭锐向记者介绍到,为了增加系统的可靠性,经常会使用到储备件。储备件可以分为冷储备,温储备和热储备三种。相对于热备份元件,温备份元件消耗的能源更少,因此也更加绿色环保。但是,由于温备份元件在温备份状态和在工作状态下的故障率不同,这样一来就给温备份系统的可靠性建模带来很大的挑战,很难用单一的可靠性评估方法对系统可靠性进行评估。彭锐就想到要结合多种可靠性评估方法建立起含有温储备元件的各种复杂多态多阶段系统的可靠性模型。
为此,彭锐和团队成员不眠不休,大量阅读文献,分析温储备元件的特性,研究各种复杂结构系统可靠性的建模方法、多态系统的研究方法以及多阶段系统的研究方法,并且将这些方法进行有机地结合。“要做到这一步,我们需要发挥很大的创造力,并且还要与国内外的专家学者积极讨论。”彭锐说道。
对于含有温储备元件的各种结构的二态单阶段系统的可靠性模型的建立,彭锐认为要解决这个问题,需要结合到含有温储备的并联系统的可靠性研究方法和不含有温储备元件的各种结构的系统的可靠性研究方法中去。“但要说到具体方法,则需要依系统的结构及温储备元件的配置情况而定。例如,对于一个连续连接系统,如果在系统每个节点上配置了一些温储备元件,我们可以先利用改进的有序二叉决策图方法建立起每个节点的可靠性模型,并算得各个节点的可靠性,然后再利用通用生成函数得到整个系统的可靠性。”彭锐解释道。
而对于含有温储备元件的并联的多态单阶段系统的可靠性模型来说,则可以先用多值决策图来表示每一次系统的退化,通过将系统每一次退化的多值决策图相结合可以得到表示系统所有失效情况的多值决策图。彭锐介绍,值得注意的是,在这个过程中,需要考虑用一些技巧来减少算法的时间复杂度,比如在建立多值决策图的过程中,对于一些明显会导致系统失效的情况,可以提前判定系统失效,而不用再继续对该情况进行分解。
“要解决含有温储备元件的并联的双态多阶段系统的可靠性模型这一问题,需要先根据元件各个阶段的退化特性,进行系统分析继而再进一步得到元件的每个阶段的失效概率。”彭锐说道。此外,可以用多值决策图表示系统元件的失效情况,即元件可能在任一阶段失效或者一直都不失效,而且元件失效时可能是处在温储备状态,也可能是处在工作状态。“通过综合各个元件的多值决策图,我们就可以得到表示系统失效情况的多值决策图。”彭锐补充道。
“如果成功,这将会有很大的实际意义。虽然困难重重,但我们有信心!”彭锐说,热储备元件需要始终保持在热的状态下工作,并且可以随时代替失效的工作元件接入系统进行工作,从而需要消耗额外的能源,这就意味着这类储备元件通常用于对系统恢复时间要求很高的系统,像计算机系统、打印机、飞机发动机等。而冷储备元件在作为储备元件时处于不工作状态,只有在工作元件失效时才进行加热并接入系统进行工作,通常用在能源消耗较大的系统中用以节约能源。相对来说,温储备技术就是一种平衡能源消耗和系统恢复时间的冗余技术。在作为储备元件时处于部分工作状态,并且可以在工作元件失效时快速转换到完全工作状态接入系统进行工作。值得一提的是,温储备技术的一个典型应用是数据管理系统。对于数据管理系统,温储备技术的使用则是最为合适的。可以使储备的数据管理器中的个别公用部件处于工作状态,定期地保存主数据管理器运行中的关键数据和状态,当主数据管理器发生故障并切换至储备的数据管理器后,储备的数据管理器即可迅速自主地完成恢复直至运行。
系统可靠性之路漫长而又艰难,但彭锐走的每一步都令人期待。他说:“在未来几年里,我将继续在软件可靠性、系统攻防博弈、系统维修和温备份系统等方向进行研究,也将会更加深入,并随时关注其他可靠性领域的热点。”endprint
科学中国人2016年11期