一种结构化的信息技术系统危害识别方法

2018-12-31 00:00:00宋维卢经伟张应钊车雪峰李珣
现代信息科技 2018年7期

摘 要:危害识别是系统安全管理体系的一项基础性研究任务。系统危害识别面临的挑战是:你不知道忽略了哪些危害?这是工程技术系统安全事件不断发生的主要因素。本文提出一种工程技术系统危害识别的结构化方法,由于该方法具有系统性和有序性的特点,应用这种方法进行危害识别后,其成果具有较高的可信性。

关键词:安全管理工程;危害识别方法;自动售检票系统;城市轨道交通

中图分类号:U284 文献标识码:A 文章编号:2096-4706(2018)07-0153-04

Abstract:Hazard identification is the primary task of system safety management system. The challenge of system hazard identification is:do you not know what hazards are ignored. This is a major factor in the continuous occurrence of safety incidents in engineering and technology systems. In this paper,a structured method for hazard identification of engineering technology system is proposed. Because the method has the characteristics of systematic and orderly,the results have high credibility after the application of this method to identify the hazards.

Keyword:safety management engineering;hazard identification method;automatic fare collection system;urban rail transit

0 引 言

针对健康安全、信息安全的安全管理体系已经相对成熟并获得广泛应用,但针对特定产品、系统或服务的安全管理体系,普及应用程度仍然很低。原因之一是不同系统具有不同的安全、风险、危害特征,其危害识别方法和风险评估方法缺乏健康安全和信息安全等对应方法的通用性。其中,系统危害识别是系统安全管理体系的一项基础性研究任务。有些组织忽略了一些对组织达成目标具有重大影响的危害,可能给组织带来重大风险。本文针对工程技术系统,提出一种系统危害识别的结构化方法。为了说明这种方法的应用,本文以城市轨道交通自动售检票系统(AFC,automatic fare collection system)为案例研究对象,基于危害识别的基础模型和转换模型,给出一些典型危害识别案例。

1 危害

有关hazard的定义,可以考察以下经典文献:

在职业健康安全管理体系语境中,经典文献来自英国标准协会(BSI)等13个组织联合推出的类国际性标准OHSAS18001:2007,中国国家标准GB/T28001-2011《职业健康安全管理体系要求》等同采用该标准,并将hazard译为危险源。危险源是“可能导致人身伤害和(或)健康损害的根源、状态或行为,或其组合”。

上述标准已经由国际标准化组织(ISO)于2018年3月12日在其官方网站发布为ISO标准:ISO45001:2018[1]。该标准定义hazard为“可能对人的身体、精神或认知状况造成不利影响的来源或环境”。该标准对应的中文标准尚未发布。

在系统安全工程语境中,有关危害概念的经典定义,可以考察美国国防部《系统安全标准实践》,危害是“任何可能对人员造成伤害、疾病或死亡,对系统、设备或资产造成损害或损失,对环境造成损害的真实或潜在的情况”。

在轨道交通行业,国家标准GB/T21562-2008《轨道交通可靠性、可用性、可维修性和安全性规范及示例》等同采用了IEC62278:2002标准,并将hazard译为危害。危害是“对人造成潜在伤害或对环境造成潜在损害的物理状况”。

本文研究的范围属于系统安全工程语境,案例研究是城市轨道交通自动售检票系统,因此参考文献GB/T21562将hazard译为危害。而有关危害的定义,则参考ISO45001和《系统安全标准实践》定义为:危害是“任何对人的身体、精神或认知状况造成不利影响,对系统或设备及资产造成损害或损失,对环境造成损害的来源、状态或行为,或其组合”。

在交通客运系统中,对人的伤害不应该仅关注对人员造成伤害、疾病或死亡,也应该重视对人的精神或认知状态造成的不利影响。媒体经常报道航空客运、邮轮客运、城市轨道交通客运等由于环境变化、系统故障、管理不善等因素导致的乘客滞留事件。这些系统的安全工程的从业人员应该以公众的关注为焦点,关注这些危害,并采取适当的措施(包括应急措施)来预防这些危害的发生或减轻这些危害的损害程度。

特别地,由于城市轨道交通具有客流密集的特征,乘客滞留可能引发公共交通安全风险。预防系统服务连续性中断导致的乘客大面积滞留事件应该成为城市轨道交通自动售检票系统安全工程中关注的焦点。

2 系统危害识别基础模型

系统危害识别可以基于多种视点进行。本质上系统危害识别模型是一个多维度模型。不过,由于认知的限制,我们一般基于三维模型来认识世界。基本方法是:首先建立一个三维基础模型,当需要认识现实世界中的多维实体时,通过模型的变换来实现。

本节首先定义一个系统危害识别的三维基础模型,即把系统危害识别要素分为三个维度:系统生命周期、系统分解结构、系统危害类别。

使用如图1所示的三维矩阵来说明系统危害识别基础模型。

图1中:

X轴或横向轴,代表系统生命周期要素。

Y轴或纵向轴,代表系统分解结构要素。

Z轴或深向轴,代表系统危害类别要素。

为了后续研究、叙述方便,引入解剖学的几个术语:

矢状面(sagittal plane):沿前后方向将物体纵切为左右两部分的所有断面。

冠状面(coronal plane):沿左右方向将物体纵切为前后两部分的所有断面。

水平面(horizontal plane)或横断面(transverse pla ne):与纵轴垂直,将物体横切为上下两部分的所有断面。

3 系统生命周期阶段

有关生命周期概念,早期以阶段划分。经典的表述是美国国防部《电子可靠性设计手册》[1]的定义:

生命周期阶段(life cycle phases):产品从概念到退役的生存期中的可识别阶段。

该手册将武器装备系统生命周期正式定义为四个阶段:概念探索(Concept Exploration);程序定义和风险降低(Program Definition and Risk Reduction);工程和制造开发(Engineering and Manufacturing Development);生产、部署和运行支持(Production,Deployment,and Operational Support)。尽管没有定义为一个阶段,但武器装备系统的非军事化和退役活动应在生命周期末端执行。

该手册也推荐了商用领域系统生命周期的一种五阶段划分方法:顾客要求分析(Customer Need Analysis);设计和开发(Design and Development);生产和建造(Production and Construction);运行和维护(Operation and Maintenance);退役和逐步淘汰(Retirement and Phase-out)。

在系统生命周期的五个阶段都可能发生各种危害。重大的危害通常发生在系统运行阶段,但运行阶段发生的危害大部分来源于顾客要求分析、系统设计和开发以及生产和建造阶段。

系统危害识别的主要目的之一是降低危害发生所产生的风险成本。包括危害发生的直接成本(危害损失成本、应急处置成本等)和间接成本(声誉损失成本、市场损失成本等)。

从全生命周期成本优化的角度,危害识别付出的努力越大,危害识别成本越高,但可以显著降低危害发生的成本损失。理论上,危害识别成本和危害造成的损失成本之间的总成本存在一个最优极值点。不幸的是这个最优极值点很难用模型或算法表达。不过,有一条显而易见的危害识别原则:在生命周期阶段中越早识别危害,修复的成本越低。特别地,在顾客要求分析阶段识别危害,修复成本最低。更进一步,在国家标准、行业标准、地方标准或者由行业协会主导的团体标准或设计规范中,如果能明确识别一种危害并提出相关的安全要求,则可以促进标准采用方避免这种危害所造成的损失,其效益是最佳的。

4 系统生命周期模型

上世纪90年代管理科学的最重大进展是“过程方法”的普及应用。基于过程方法,有关生命周期概念开始采用“生命周期模型”概念。经典的表述是ISO/IEC 15288系统和软件工程—系统生命周期过程[3]的定义:

生命周期(life cycle):系统、产品、服务、项目或其他人造实体从概念到退役的演化。

生命周期模型(life cycle model):是与生命周期相关的过程和活动的框架,可能组织成阶段,作为一个共同交流和理解的参考。

生命周期模型的概念实际上涵盖了生命周期阶段的概念,可以采用过程和活动的框架分解生命周期,也可以使用阶段划分的方法。

在ISO/IEC 15288中,可以将生命周期过程按照过程类别分解为合同过程、组织过程、项目过程、系统工程过程、软件工程过程等,也可以按照主要相关方类别分解为建设过程、供应过程、开发过程、运行过程、维护过程等。

在系统危害识别模型中,根据不同的系统特征、不同的研究方法,或基于不同相关方的视点,可以使用多种方法将系统生命周期划分为阶段或者过程和活动的框架。每个阶段可以进一步划分为更细的阶段,每个过程可以划分为更细的子过程或活动。这些阶段或过程可能重叠或迭代。

为保持系统危害识别过程以及其后的危害风险评估过程、风险处置过程的有效性,应遵循一项设计原则:与组织业务过程融合集成为一体。使用生命周期模型更容易贯彻此项原则。

在城市轨道交通自动售检票系统的危害识别模型中,本文推荐生命周期首先按照建设过程、供应过程、开发过程、运行过程、维护过程分解,由建设方、供应方、开发方、运行方、维护方分别承担对应过程的危害识别任务。其他相关方过程的危害识别可以归并到主要相关方之一统筹实施。如建设方统筹规划设计方、监理方、检测方、施工方危害识别,供应方统筹包装、运输、仓储方危害识别,开发方统筹生产方危害识别等等。另外还有一些特殊相关方,如AFC系统采用电子支付技术和互联网支付技术后,与银行、银联和第三方支付相关的危害识别也应归并到适当的相关方统筹管理其危害识别过程和活动。

危害识别的分工并不能识别全部危害,主要相关方之间接口的危害识别应该由牵头方协调组织。可以将系统生命周期分为建设和运维两个大阶段,建设阶段的危害识别由建设方牵头,运维阶段的危害识别由运行方牵头。

分工之后的更进一步细分,可以采用第8节模型转换方法实施。

5 系统分解结构

系统是实现一个或多个目的的相互作用的元素的组合。在本文中考察的系统,限于人造的、在特定环境中、为特定用户提供服务的系统。

任何系统都包含特定的元素。系统元素是构成系统的一组元素的成员。

基于观察者的视点的不同,一个系统可能是另一个系统的元素。如交通运输系统包含客运系统、货运系统。客运系统包含轨道交通客运、公路客运、航空客运、海上客运、轮渡客运、城市公共交通客运等系统性元素。轨道交通客运系统包含城市轨道交通客运、城际轨道交通客运、铁路干线客运等系统性元素。城市轨道交通系统包含了隧道、轨道、车辆、信号、供电、电梯、自动售检票、屏蔽门等系统性元素;其中每一个系统性元素,也可以视为一个系统,例如城市轨道交通自动售检票系统。

考查一个特定系统的细节时,系统元素可以进一步按照硬件、软件、数据、过程、规范、流程、设施、设备、模块、材料、人力资源、财务资源等分解。

在系统危害识别模型中,系统元素可以按照装备、技术、业务等进行结构分解。

在传统AFC系统危害识别模型中,系统可以按照装备分解为清分中心、线路计算机系统、车站计算机系统、自动检票机、自动售票机等。

在互联网+AFC系统危害识别模型中,系统可以按照装备分解为云、网、端等。

也可以按照技术层级将AFC系统分解为终端设备、网络通信、数据服务、智能应用、监控管理等。

不同的系统分解方式,在危害识别中具有各自的特色。

无论何种分解,必须在子系统危害识别的基础上实施整体系统危害识别(SHI,System Hazard Identification),SHI应重点关注子系统之间接口危害和系统变化触发的危害。

6 系统危害类别

系统危害可以用多种方式分类,如依照危害对象、危害来源等分类。

(1)依照危害对象,可以将系统危害分解为5类:

(2)对人的身体、精神或认知状况造成不利影响的危害;

(3)对信息资产造成损失的危害;

(4)对其他资产造成损失的危害;

(5)对环境造成损害的危害;

(6)对系统服务造成损害的危害。

(7)在系统危害识别模型中包含各种危害对象,为系统安全管理体系与健康安全、信息安全、环境安全等管理体系的融合奠定基础。其中,对系统服务造成损害的危害,在不同系统中具有不同的特征。这是特定系统领域安全管理人员需要重点关注的危害。

7 系统危害识别的任务分解

对图1所示的系统危害识别基础模型进行任意裁剪,形成板状结构、条状结构、块状结构,本质上应用了系统分析中的抽象方法,即暂时不关注其他要素,可以实现危害识别任务的分解,并分配给系统的各相关方进行危害识别。

图1模型右侧的板状结构是基础模型的一个矢状面裁剪,每个板状结构代表某种系统危害类别。假定该板状结构代表对系统服务造成损害的危害。

可以对图1模型右侧的板状结构进一步进行冠状面或水平面裁剪,形成条状结构。例如水平面裁剪形成的条状结构,可以代表系统结构分解的一部分,像AFC终端设备或自动检票机或自动售票机的全生命周期的某种特定对象的危害识别。

进一步,对条状结构进行裁剪可以形成块状结构,如图1模型右侧的块状结构,可以代表自动检票机或自动售票机在生命周期某一阶段(如运行阶段)针对系统服务损害的危害识别。

当然,也可以对三维模型先进行水平面或冠状面裁剪。

例如:对AFC系统终端设备开发方,可以首先进行水平面裁剪,形成的板状结构代表AFC系统终端设备全生命周期各种系统危害的识别模型。

例如:对AFC系统运行方,可以首先进行冠状面裁剪,形成的板状结构代表AFC系统运行阶段各种系统危害的识别模型。

8 系统危害识别的转换模型

如前所述,本质上系统危害识别模型是一个多维度模型。

当需要研究三维基础模型以外的维度时,我们可以在抽象分解基础上再扩展一个维度实现模型的转换。

如图1模型右侧的板状结构,假定该板状结构代表对系统服务造成损害的危害。我们需要进一步按照系统危害原因类别分解,以便进行更细致的危害识别。此时可将板状结构进行Z轴或深向轴扩展,形成新的三维模型。如图2所示。

图2中,新扩展的维度是系统危害原因类别,可以分为硬件设计缺陷、软件设计缺陷、人为失误、环境变化因素、组织因素等。

图2模型右侧的板状结构是转换模型的一个矢状面裁剪,每个板状结构代表某种系统危害原因类别。假定该板状结构代表软件设计缺陷对系统服务造成损害的危害。

可以对图2模型右侧的板状结构进一步进行冠状面或水平面裁剪形成条状结构。例如水平面裁剪形成的条状结构,可以代表系统结构分解的一部分,例如AFC终端设备或自动检票机或自动售票机的全生命周期中对系统服务的危害识别。

进一步,对条状结构进行裁剪可以形成块状结构,如图2模型右侧的块状结构,可以代表自动检票机或自动售票机在生命周期某一阶段(如运行阶段)有软件设计缺陷引发的对系统服务损害的危害识别。

当然,也可以对三维模型先进行水平面或冠状面裁剪,再扩展新的危害识别维度成为另一个危害识别转换模型。

9 危害识别案例

在图2模型中我们进行水平裁剪形成板状结构假定代表自动检票机,再进行冠状面裁剪形成条状结构代表自动检票机运行阶段。由于图2模型主要关注系统服务危害,分解的任务是自动检票机运行阶段对系统服务连续性的危害识别,并按照危害原因分类。

实施分解的危害识别任务时,首先应针对已发生事件进行,这些事件可能是类似系统的事件。在此基础上再进行扩展。

以下是几个典型危害案例。

案例1:2007年10月12日凌晨,日本东京都市圈内16家轨道交通运行方的662个车站的4378台自动检票机发生无法正常启动的故障。当天,日本各大媒体均对事件进行了报道。[2]事件发生的直接原因是:“在搭载了IC卡判定部的自动检票机中,在IC卡判定部的存储部中读取从中央计算机发送的数据的程序的一部分存在缺陷,不能正常地读取数据,导致机器异常,检票机宕机。另外,这个数据的数量达到某数以上,并且在某个条件下会发生问题,在质量保证的过程中没有发现这个潜在缺陷,10月12日从中央计算机发送的这个数据的数量满足上述条件,问题呈现。”[3]软件缺陷的细节可能是对黑名单数据设计了一个定长的数组,当黑名单数据在定长范围内时,不会发生问题。当黑名单数据超出限定长度时,由于最后两字节的校验字节溢出,致使校验失败,从而导致自动检票机无法正常启动。

该事件危害的场景,是软件设计缺陷造成的危害,在数据变化达到边界条件下触发的。这种场景具有普遍性。大部分事件都是由多种危害共同作用引发的。危害场景分析中可以把系统危害分为主要危害和触发危害。在危害识别基础上进行危害场景分析是进一步认识危害特征并进行针对性防范的有效方法。

案例2:某城市某线路维修过程中更换车站计算机硬盘,未进行时间修正即联网运行,造成终端设备时钟错误修改,引发乘客无法正常进出站事件。该事件危害的场景,是硬件存在缺陷,在人为误操作条件下触发。

案例3:某城市在某一特别寒冷日凌晨发生批量自动检票机和自动售票机无法正常启动的事件。该事件危害的场景,是硬件存在缺陷,在环境变化条件下触发。

案例4:某城市进行AFC系统转型试点,发生因系统端服务软件故障导致持二维码过闸乘客无法正常进出站事件。该事件危害的场景,是系统可靠性模型设计缺陷,导致终端设备的可靠性依赖于脆弱的系统端服务软件的可靠性,由系统端服务软件故障触发大面积自动检票机二维码过闸功能丧失可用性。

上述案例进一步分析都可以找到组织管理方面的缺陷因素。

基于多种视点形成多个三维系统危害识别转换模型,事实上实现了多维度的系统危害识别。多种危害识别转换模型可以由不同的相关方分别实施危害识别。针对每一种已识别的危害,可以进一步扩展识别同类危害。已识别危害应分类记录,作为后续风险评估、风险处置、应急预案设计的输入。

10 结 论

本文根据实践经验提出一个基于系统生命周期、系统分解结构、系统危害类别的系统危害识别基础研究模型,结合模型转换实现一种结构化的多维度系统危害识别方法。由于该方法具有系统性和有序性的特点,应用这种方法进行危害识别,其成果具有较高的可信性。

将基础研究模型中的系统危害类别改为风险类别、成本类别、故障类别或者系统安全性、可靠性、可用性、维修性等,可用于研究系统全生命周期风险管理、成本优化、故障管理、RAMS管理等。

参考文献:

[1] ISO45001:2018,Occupational health and safety management systems·Requirements with guidance for use [S].Current status,2018.

[2] 日经,「Suica」「PASMO」の改札機が使用不能になるトラブル,なぜ首都圏全域でサービスが止まったのhttp://tech.nikkeibp.co.jp/dm/article/NEWS/20071012/140569/.

[3] 西村和义,弊社自動改札機の不具合について,http//www.signal.co.jp/uploads/071015owabi.pdf.

作者简介:宋维(1960-),男,山西大同人,1983年毕业于中国科学技术大学自动控制专业,学士。研究方向:自动控制系统及系统安全。