罗 安
(北京和利时系统工程有限公司,北京 100176)
论数字化自动化设备的可靠性
罗安
(北京和利时系统工程有限公司,北京100176)
摘要:可靠性一直是自动化设备最重要的指标之一。在科学技术高速发展的今天,自动化设备也从一个由硬件构成的产品发展为由硬件、软件和网络构成的复杂系统。相应地,可靠性问题也从单一关注硬件,发展到必须同时关注硬件、软件、网络通信及其相互作用等各个方面。信息安全问题也对自动化设备的可靠性产生了不可忽视的影响。
关键词:自动化设备数字化可靠性硬件软件网络通信信息安全验证与确认现场总线
0引言
对于自动化设备来说,可靠性是一个非常重要的关键性指标。自动化设备的一个重要作用,就是保证生产设备(即受控设备)的正常运行,在生产过程中保证安全,不出生产事故。而要做到这一点,自动化设备本身就不能出现故障,尤其是不能出现导致生产设备运行状态达到危险程度的故障。另外,自动化设备还起着提高生产设备的运行效率和产品质量的作用。因此,如果自动化设备出现故障,将导致生产设备运行状态产生波动,甚至停止运行,这就意味着产品质量的下降和经济损失。自动化设备的可靠性关系到工业生产的安全性、经济性以及产品质量。长期以来,工业界在可靠性方面有着巨大的投入,有关可靠性的技术、方法、管理、维护等各个方面都已经形成了比较完善的体系。
1技术进步带来的新问题
近半个多世纪以来,自动化设备技术取得了长足的发展。在上世纪五六十年代,自动化设备基本上采用的是模拟技术,无论是采用机械原理,还是电子元器件,自动化设备均由硬件设备组成,如流程行业中使用的电动单元组合式仪表、制造行业中使用的继电器组合逻辑控制器。当时的控制器利用机械联动、继电器组合、硬接线、电子元件(如电阻、电容、电感)组成运算电路的方法实现控制算法。这样,控制器的可靠性完全取决于这些硬件的失效率以及随时间、环境变化而产生的机械、电气等性能和参数的改变。
近年来,在电子技术的基础上,数字技术和信息技术飞速发展,带动了自动化设备的巨大改变。首先,以模拟技术构成的控制器逐步被以微处理器构成的控制器所取代,以往由硬件原理实现的控制算法逐步由软件方法实现。这一改变使得自动化设备的功能得到极大的提升,原来很难实现的复杂控制功能,现在可以很方便地完成,控制的精确度也大大提高;原来很难解决的问题,如大滞后环节的控制,都可以很好地完成。进入21世纪以来,在自动化设备中,尤其是在那些要求高、功能复杂、规模较大的控制设备中,控制功能的实现方法已经从依靠硬件技术为主逐步转变为依靠软件技术为主。除了以上的优越性外,由软件实现控制功能的设备所具有的最大优势在于:几乎不存在生产制造方面的差异,只要设备中的软件设计是正确、没有缺陷的,那么所有生产出的设备均具有同样的运行特性和控制性能,而且这种性能基本上不随时间和环境的变化而改变。
在控制功能由硬件技术转变为软件技术实现之后,自动化设备的可靠性问题发生了极大的改变,包括可靠性设计、生产环节的质量保证,可靠性检验,与可靠性相关的运行维护等。在数字化的自动化设备中,软件的设计对可靠性的影响可以说是关键性的,也就是说,一个数字化的自动化设备,其可靠性的最大保证来自于设计正确、功能完善、工作稳定,能够在各种工况下正常工作的软件系统。如果软件的设计有任何小的缺陷,那么其造成的设备失效是确定的,并且是可复现的。但随着软件规模的日益庞大,软件结构的日趋复杂,软件缺陷越来越难以被发现和排除。一般来说,我们只能通过严格地检查与测试,发现软件系统存在的缺陷,但我们无法证明某个软件系统是没有缺陷的。这就形成了一个非常矛盾的局面,为了完善控制功能,必须设计更加复杂、庞大的软件系统;而随着软件系统的扩大,软件缺陷的数量也在不断上升。因此,与硬件可靠性完全不同的软件可靠性问题已经越来越严峻地摆在了人们面前。
2“系统性失效”与“随机失效”
由软件缺陷造成的失效被称为“系统性失效”;而由硬件故障引发的失效则被称为“随机失效”。如上所述,系统性失效是一种系统固有的、仅在某种特定的运行状态下发生的失效;而随机失效则是一种概率性发生的失效,其失效概率一般遵循“浴盆曲线”。
对于随机失效,在设计阶段主要考虑元器件选用、设计裕度、抗干扰措施、保护电路等方面;在试制阶段,主要通过型式试验来验证设计及生产工艺能否完全实现设计目标;在生产阶段,则通过严格的质量控制、工序检验、出厂检验等手段保证生产过程的一致性。必要时,可通过“老化”的工艺手段,筛除早期失效的产品。如果生产过程、生产工艺发生变化,或产品设计(如元器件的选用)发生变化,则需要重新进行型式试验和验证。在产品交付使用前,由于在生产后还存在包装、储运等环节,因此还要进行交收检验,以确保交到用户手中的产品完全符合质量要求。
而对于系统性失效,则有不同的质量保证措施。在软件的生命周期中,设计阶段是需要时间长、占用资源最多的关键阶段;而需求分析又是软件设计阶段中最为关键的步骤。多年来,软件产业的实践证明,很多不成功的软件设计都是由于没有进行充分的需求分析所致。虽然,在一般人看来,一个自动化设备对于软件的需求是简单而明确的,似乎只要有一个明确定义的功能要求和性能指标要求就可以了。但实际上,一个数字化自动化设备的软件涉及到方方面面的问题,如操作方面(人机界面),包括操作的方式方法、操作的时机、操作对运行的影响、操作的条件、操作涉及的工具设备及资源等。只要有一个环节出现疏忽,就会导致软件运行发生问题,甚至导致运行期间设备的失效。除需求分析外,软件设计还包括架构设计、模块设计、编码等步骤[1-3],每执行一步,都要进行验证与确认(verification and validation,V&V)。
设计阶段完成后,即可进入测试验证阶段。测试验证可以看成是设计阶段的反过程,即按照代码测试、模块测试、组合测试、系统测试的顺序逐步完成。同样,每个测试步骤也都需要进行V&V。除此之外,如果在任何一个设计步骤或测试步骤中发现问题,就需要返回到上一设计步骤进行设计更改。如果上一级的设计更改还不能解决问题,则要继续向上一设计步骤进行回溯,直至最初的需求分析。这样的迭代过程很有可能要进行多次,才能够确保软件产品的设计缺陷最小化。
与随机失效的“故障-失效”模式不同,系统性失效往往是因一个软件缺陷而直接导致的,而不会经历一个由故障而发展为失效的过程。因此,消除软件缺陷,也就是我们通常所说的Debug,是一项非常重要,也是相当困难的工作。而且随着软件的日益庞大和复杂,Debug一般都会贯穿于软件的整个生命周期。由于在软件的生命周期内,不可避免地需要对软件进行修改以消除缺陷,这就产生了另一个不可忽视的重要软件管理问题,即配置管理。实际上,配置管理是一种贯穿于软件全生命周期的管理手段。由于软件的庞大与复杂,一个大型软件系统都会划分为一个个小的构件。这些构件之间的接口关系、其运行如何协调、各个构件之间如何进行数据的交换及如何保证数据的一致性,这些都必须进行严格的定义,并在软件系统的全生命周期内保持前后一致,任何构件因消除缺陷而进行的修改都不能违反这些定义。因此,所有的软件更改或更新都需要进行严格的测试和V&V,以确保配置管理的正确性。
软件的工作特点是其需要依照程序一步步执行,每一步的执行都依赖于前一步的执行结果,即各个程序步之间的耦合是非常紧密的。这意味着任何程序步的微小误差都会被后续的程序步继承并放大,最终导致失效。为避免这种情况的发生,在软件设计中需要采用容错技术。最经典的容错技术是使用两套运行于不同硬件平台,且最好由不同软件开发团队设计的软件。这两套软件执行同样的功能,并在某些关键点进行比较,当结果一致时才可继续执行,结果不一致时则进入出错处理程序。但这样做的代价很大,一般只用于最关键的功能。除此之外,还有很多容错技术。如何使用这些技术,则应根据需要和成本进行决策。
3网络通信成为可靠性的新问题
除了软件技术对自动化设备的改变以外,网络技术也使自动化设备发生了巨大的变化。进入21世纪以来,现场总线发展迅猛,网络技术的发展不可避免地改变着自动化设备的面貌。以往各自独立的测量控制设备,最终都将通过网络连接成为一个完整的系统[4-6],大大加强自动化系统的功能和规模。网络技术在对被控生产过程的覆盖程度方面取得长足进步的同时,也带来了严重的信息安全问题。在运行方面,网络通信的正常与否,将直接影响控制设备的可靠性。而网络通信是否正常,不仅与网络硬件和与之相关的软件有着密切的关系,还与网络的运行环境有着密切关系。网络的优势在于其开放性,但恰恰是开放性给网络安全带来了巨大的威胁。以往我们所关注的可靠性问题主要来源于硬件和软件,而事实上,网络的威胁主要来源于人为因素。
由于网络的互通性极强,任何无意的违规操作都有可能通过网络对关键的控制回路产生影响、甚至破坏。如果有诸如黑客等怀有特定破坏目的的人入侵到控制网络中,其后果更是不堪设想。因此,我们在关注可靠性的同时,也不得不关注信息安全。信息安全是一个比较新的问题,如何通过有效的技术手段和管理规程来保证信息安全,还需要作很多研究。
4结束语
总之,我们在讨论自动化设备的可靠性问题时,至少应该考虑3个方面。第一是硬件可靠性。这是传统的可靠性研究所关注的方面。第二是软件的正确性与容错性。这在近年来已经进行了比较深入的研究,也取得了一定的成果。第三是网络安全对可靠性的影响。这是一个比较新的问题,对该问题的研究也处在进行过程中。
与应用于商业和信息服务业的系统不同,自动化设备中所用的信息技术主要服务于性能、安全性和可靠性,对其强大的功能及广泛的开放性则需要有所约束。对于在自动化设备中使用的软件,应追求其结构简单、运行效率高、运行路径的确定性和容错性。而对于在自动化设备中使用的网络,应尽量简化其通信规约,提高网络通信的确定性和透明度,在关键控制回路尽量采用专用规约,以最大限度地提高信息安全。
目前,对于数字化的自动化设备,衡量其可靠性的标准还很欠缺。以往我们有比较成熟的与设备可靠性相关的指标及标准,如失效率、平均故障间隔时间和平均修复时间、可用率、电磁兼容性、抗恶劣环境指标、温度漂移和长时间运行漂移指标等。但这些标准主要是针对硬件的可靠性,针对软件及通信所带来的可靠性问题仍缺乏完整的、成熟的指标和标准。对于自动化设备的生产厂家、工程应用企业和运行维护服务企业来说,尽快制定完善自动化设备的可靠性标准,使其适应新技术发展的要求,将是我们要下功夫努力去完成的重要任务。
参考文献
[1] IEC 60050-191:1990,International Electrotechnical Vocabulary-Chapter 191: Dependability and quality of service.
[2] GB/T 18268-2000 测量、控制和实验室用的电设备电磁兼容性要求.
[3] GB 6833-1987系列标准 电子测量仪器电磁兼容性试验规范.
[4] ISO 9001:2008 Quality management systems - Requirements.
[5] GB/T 20438-2006系列标准 电气/电子/可编程电子安全相关系统的功能安全.
[6] IEC 62443-2010系列标准 工业过程测量和控制安全-网络和系统安全.
[7] 阳宪惠.现场总线技术及其应用.2版.北京:清华大学出版社,2008.
Discussing about the Reliability of Digitization Automation Equipments
Abstract:Reliability has been one of the most important index of the automated equipment.In today′s rapid development of science and technology,automated equipment is growing up from the hardware-based products to complex system consisting of hardware,software and network.Correspondingly,the issue of reliability is not only related to hardware,it becomes the comprehensive subject composed of hardware,software,network communication and their interactions.Further,information security also produces negligible impact on the reliability of automated equipment.
Keywords:Automated equipmentDigitizationReliabilityHardwareSoftwareNetworkCommunicationInformation securityVerification and validation(V&V)Fieldbus
中图分类号:TH86;TP23
文献标志码:A
DOI:10.16086/j.cnki.issn1000-0380.201605001
修改稿收到日期:2016-03-24。
作者罗安(1946-),男,研究员级高级工程师;长期从事自动化控制系统的研究和应用工作,在能源、城市轨道交通、先进制造等自动化控制领域取得多项科技成果。