源于工业生产事故溯因的复杂人机系统可靠性分析流程研究

2021-05-20 04:01苏明坤
人类工效学 2021年1期
关键词:贝叶斯概率建模

苏明坤

(华北理工大学 机械工程学院,河北 唐山 063210)

1 引言

人机系统可以分为简单人机系统和复杂人机系统[1]。要想实现高级功能,产生更多的效益,必然离不开复杂人机系统。可靠性分析是评价一个系统是否能正常运行的重要指标[2]。安全人机工程学的主要研究内容之一就是人机系统的可靠性[3]。社会中各种各样的生产型企业每年都会发生生产安全事故,一部分就是由于复杂人机系统的失效导致的。谭跃进等人认为复杂人机系统的主要研究方向之一就是这种系统的结构描述,建模以及仿真方法的探索[4];他们还认为这种系统是一种异质结构系统,包括人和机两类要素,要素之间包括人与人、机器与机器、人与机器三大类关联关系。相反,崔铁军等人提倡消除人-机-环子系统分类界线,统一为系统影响因素进行可靠性分析[5]。舒启翀采用模糊综合评价法和基于FMEA的贝叶斯网络评价了高铁调度系统的可靠性[6]。

对于复杂人机系统的研究肯定会涉及到社会科学领域,而人机系统又有很强的技术性特征,所以复杂人机系统必然包含了社会系统和技术系统。据此,复杂人机系统可以视为一种社会技术系统。目前,人机工程学逐渐将社会技术系统理论应用在复杂领域的研究和系统开发中[7],社会技术系统成为人机工程学的一个研究热点[8]。事故的事后溯因是系统分析的常见应用。近年来,在对事故的致因分析理论中,出现了一种针对社会技术系统的功能共振分析方法(FRAM)。左博睿等人结合模糊推理技术提出了Fuzzy-FRAM模型,并使用此模型对一个危险品运输事故案例进行功能风险评估[9]。Lee等人基于船员的社会网络和FRAM提出了一种人-机系统交互海上事故分析方法[10]。Patriarca等人运用一种系统评审技术进行了FRAM的综述,描述了这种方法的应用领域以及作者和文章的分布情况[11]。事故的不确定致因因素很多,一种常用的不确定性分析模型就是贝叶斯网络(BN)。运用贝叶斯网络进行事故分析也是常见的研究课题。童琦等人基于致灾因子的分析提出一种棉麻库热灾害风险评估方法[12]。刘明等人基于HAZOP提出一种气化炉供料系统风险分析模型[13]。在方法比较上,Smith等人分别使用故障树,FRAM,贝叶斯网络分析了丙烷进料控制系统,据此比较了三种方法的优缺点[14]。两种方法有很多相似和互补之处,如FRAM的功能网络图很容易转化为BN的有向无环图,同时贝叶斯网络的定量分析能力能很好弥补功能共振定性分析方法的不足。然而上述研究都是使用其中的一种方法进行分析,将二者联合起来分析事故的文献较少。田斯赟同时使用了两种方法进行页岩气压裂异常工况溯源[15]。但其功能划分并不是建立在具体的人或机器上,这也是上述一些研究的另一个共同点:宏观分析,即一个影响因素会涉及多个主客体。

为了探索和研究复杂人机系统可靠性的分析流程,先从微观的角度描述系统的结构和功能,再从分析事故实例入手,将两种方法有机结合,最后在详尽讨论研究事例结果的基础上探索出一种可用的联合分析模型。以期为工业事故调查方法提供一些新的思路,给复杂人机系统的可靠性提供一个新的分析视角和流程研究启示。

2 S(Structure)-F(Function)网络图的构建

对于简单人机系统并没有具体的定义,故从特征的角度建立了一个简单人机系统的结构模型,如图1所示。

图1 简单人机系统结构模型

在图1基础上,建立了一个相对具体的复杂人机系统结构模型,如图2所示。在图2中,两个简单人机系统可以通过人与人,机器与机器建立联系,整体上来看是外部环境与外部环境的相互作用。在此基础上向外扩展,可以组成组织系统和机械系统。

图2 复杂人机系统结构模型

技术的社会角色分为三个类别,即实体角色,工艺角色和人工角色[16]。功能共振方法的一个思想就是注重功能分析,强调系统在做什么而非系统包含有什么。据此,技术可以视为一种人对机器的功能操作。可以进一步对外扩展,人与人,机器与机器也可以视为一种功能关系,功能有执行上的先后顺序。功能共振理论的功能类型正好与此处一一对应,人与人对应人员功能或组织功能,人与机器和机器与机器对应技术功能。轨迹交叉理论认为事故是人的失误和设备故障两事件链的轨迹交叉。基于轨迹交叉理论将图2中的组织系统和机械系统分别作为一行,据此可以进一步建立S-F网络图,如图3所示。图3中实心箭头链就是上下游耦合的功能共振事故链。

图3 S-F网络图

3 基于事故实例的模型研究

选择张家口市桥东区康美会馆有限公司较大锅炉灼烫事故。

3.1 改进的FRAM定性分析阶段

功能共振分析方法的第一步就是识别系统正常运行的基本功能,描述系统的功能和特征。事故系统的分析结果见表1。由于本次分析功能六角形里的资源(R),控制(C)以及时间(T)三列无内容,所以删去这三列。根据表1建立事故系统的S-F网络图如图4所示。

图4 事故系统的S-F网络图

表1 系统功能和特征描述

功能共振分析方法认为事故是系统正常运行过程中功能发生变化导致的,因此接下来就要分析功能输出产生变化的原因。依据行为科学的观点,人的输出变化通常为行为的变化,据此在原来输出变化表中加入一列“人员行为变化描述。”分析结果见表2。

表2 系统功能变化分析

3.2 过渡阶段

经过前面功能共振的分析步骤,接下来就需要引入概率。概率是建立在随机事件之上的,所以下一步就是将功能事件化。假设一个复杂人机系统由功能单元以及与功能相关的影响因素组成,功能单元只有正常和失效两种状态,影响因素只有积极影响和消极影响两种状态。状态取值为1代表功能正常或影响因素对相应的功能为积极影响,取值为0代表失效或影响因素对相应的功能为消极影响。则可用离散随机变量来描述各个功能单元和影响因素的状态。此系统的功能事件化结果见表3。

表3 系统功能事件化

引入了随机概率及事件后就可以使用贝叶斯网络进行分析。如果此时直接进行贝叶斯网络结构建模会忽视影响因素的存在,因此在建模之前需要分析功能变化来源。

表4 系统功能影响因素

由于是在结构建模的基础上进行功能建模,所以影响因素只有三个,主体,客体和环境。影响因素分析表的设计自由度很高,可以考虑各种因素。为了简化贝叶斯网络,表4只选取了图4中H4的技术知识影响因素(编码为H4A)以及M1的交互信息(编码为M1A)。将影响因素事件化。H4A=1表示有司炉工相关的技术知识,H4A=0表示司炉工没有相关的技术知识。M1A=1表示锅炉有“已故障”标志,M1A=0表示锅炉没有“已故障”标志。

3.3 BN定量分析阶段

将功能和影响因素都事件化之后,就可以进行贝叶斯网络的结构建模,建模所依据的一个重要文件就是节点条件概率表。影响因素通常为先验概率,可以充分利用现有的统计数据;而条件概率却种类繁多,因此更适合依据专家经验。边缘概率可以借软件GeNIe2.3得到。事件X3与X4,X5与X6并没有明显的因果关系,只是时间上的先后顺序,因此将其分割成两个贝叶斯网络。综合专家打分事故问卷填写条件概率表,最终结果如图5所示。

图5 事故系统的贝叶斯网络

将条件概率表中的30个数据输入GeNIe2.3中,计算得到各节点的边缘概率如图6所示。

得出各节点的边缘概率后,下一步就是进行系统可靠性分析。此系统的失效率F=0.95×0.38×0.60=0.2166。可靠度R=0.05+0.95×0.62+0.95×0.38×0.4=0.7834。经验证F+R=0.2166+0.7834=1,计算正确。可知此人机系统可靠性低,运行五次系统就有一次失效的可能,需要采取措施改善系统可靠度。

图6 网络节点边缘概率分布

为了判断改善哪些影响因素会获得更大的效益,最后一步就是进行贝叶斯网络的敏感性分析,即分析根节点概率值的变化对目标节点概率值变化的影响程度。使用GeNIe2.3的敏感性模块进行仿真,将图5的30个概率进行敏感度排序。根据排序结果可知在图5的30个概率里,对X3影响最大的失效概率是P{X3=0|X2=0};对X5影响最大的是P{H4A=0};对X6影响最大的是P{X6=0|H4A=0},其次是P{H4A=0}。关键节点失效率优化水平设为0、10%、20%、30%,仿真结果整理如表5所示。

表5 敏感性分析仿真结果

关键节点失效率是对目标节点影响最大的根节点先验概率或条件概率。由表5可知如果维修部经理服从命令的概率降低10%,那么此系统的可靠度提升2.62%;如果没有相关技术知识的司炉工监视锅炉运行时没有发现问题的概率降低10%,那么此系统的可靠度提升2.76%;如果司炉工没有相关技术知识的概率降低10%,那么此系统的可靠度提升4.97%;如果三个关键节点失效率同时降低10%,那么此系统的可靠度提升8.99%。将表5中的第2、3、4、9列进行整理,结果如图7所示。

图7 不同优化水平下的系统可靠度

由图7可知,优化H4A节点的先验概率对于改善系统的可靠度效益最高,可以据此制定对策。

基于以上实例分析,对复杂人机系统可靠性分析全过程进行整理提出的联合分析模型的理论使用步骤见表6。

表6 联合分析模型的使用步骤

4 讨论

以往的宏观大型复杂人机系统建模,一般使用的是同质结构,这体现在研究对象影响因素的归类和固定上。典型的如FMEA表[6]和CPCs表[15],未改进的FRAM,人误分析也属于这一类。虽然这样很大程度上简化了模型,但同时也限制了它的指导范围。这些研究最后往往只能止步于一个相对较小的子系统,给出的改进建议是作用于这个子系统的,无法再继续深入,因此宏观分析可以看作由上到下的改进。而现实中真实的复杂人机系统无一例外全部是由具体的人和机器组成的,这是系统的基本组件,功能建立在这些组件之上,即实际系统功能的运行是自下而上的。如果想要对系统进行高度建模仿真,这两者必然要考虑在内。一个可以证明此观点的依据是在实际的事故调查报告中往往都会记录特定的情景中出故障的机器或失误的人。

S-F网络图的网络节点是微观具体的人和机器以及主体对客体的功能,这符合前文所述的异质结构。它的特点是在结构建模的基础上进行功能建模,很好的弥补了传统宏观分析方法的不足。它的最大优点是研究对象(功能涉及的主客体)非常清晰,这对最后优化方案的制定有极强的指导意义。

利用此模型进行可靠性分析得到的最终结果是一个概率数值,得出这个值需要将各个子系统箭头末端功能节点的边缘失效概率相乘。值得注意的是,某些子系统的节点功能可能并不一定会在现实中出现,属于一种可能出现的功能模式。这是一个重要的差异,也是此模型区别于其他一些建模方法的地方,即对可能出现的人机系统也进行建模。另外,利用此模型进行建模所得到的并不是一个完整的网络图,如此例被划分成三个网络图,即三个子系统。这是由于事件化时功能依据分析需要被明确的定义。复杂人机系统里紧密相连的子系统之间肯定存在时间上的联系,若不存在,两者就能在时间线上移动而互不影响。但紧密相连的子系统并不一定存在因果联系,这与刚才讨论的可能的子系统有关,如此例中X3(组织人员)与X4(检查问题)之间只有时间联系而没有直接因果联系。不组织人员带来的不是检查出问题的概率降低或提高,而是无法让这个功能显现。

此例中有一个特殊的功能节点X5,它的边缘失效概率完全由X4决定,处于此功能节点的人无法凭借自己的意志控制自己的人身安全。除非他退出这个功能节点,否则这些人的安全完全由上一级功能节点控制,这就是一类不合理的人机系统。

利用此模型进行敏感性分析得到的最终结果是一个优化效益曲线图。曲线图上的曲线数量主要由所构建的子系统的数量决定,每个子系统都存在一个对其影响最大的失效概率。曲线图的横轴有两类节点,一类是先验失效概率,一类是失效条件概率。

此例中,优化H4A的先验概率改善效益最高。由H4A(是否有相关技术知识)向回溯源,其对应的功能是X4(启动前检查),功能对应的人员是H4(司炉工)。据此,建议改进措施是此企业要加强对司炉工人力资源的考核力度与培训投入,这是最直接有效的措施,也是此事故调查报告提出的防范整改措施之一。另外,此模型关注的P{H4A=0}是一个先验失效概率,即这个值与人力资源市场司炉工群体技术知识水平有关,实现X4功能的司炉工肯定来源于这个市场,此事故调查报告中也说明了此司炉工是有资格证的,所以更进一步的改进是对于司炉工人力资源市场的监管。

对于此事故系统,另外一个优化方向就是优化失效条件概率,如P{X6=0|H4A=0}。失效条件概率可以用来衡量系统的自我调节及补救水平能力。可以做一个简单的数据仿真实验,在GeNIe2.3中删除X4的一个父节点M1A,X4的边缘失效概率就会由原来的38%提高到53%。需要注意产生这样结果的前提是M1A确实对功能有促进作用,如果两个因素联合起来反而产生反效果的话那就需要考虑删除其中一个或者再增加新的父节点。对于X6节点有三种优化思路,一是从功能主体入手,阻止主体受伤的可能性。如可以设法将危险机器的监控模式改为远程监控。二是从联系入手,对失效功能的实现增加障碍。如提高负责安全人员的权力,危险功能需要经过安全人员的授权才可进行。而且这种权力的赋予不能只用规章制度,如可以将锅炉房的钥匙交给其保管或将安全人员设置在组织之外。三是从客体入手,阻断主体与客体的连接可能,此事故调查报告中的一个整改建议就是对不合格锅炉进行破坏性拆解以提高复产成本。这三种措施都是在司炉工失效,即没有相关技术知识的情况下系统的的自我调节及补救措施。

可以在定量分析之前进行粗略分析,H4A影响因素节点分别指向两个子系统里的X4与X6功能节点,可知若优化此节点,可以同时优化两个子系统功能。这也许可以从一个侧面判断宏观分析因素选择的科学性。倘若在微观系统节点中一个影响因素节点可以同时指向多个功能节点,那么在宏观上就可以近似的认为这个因素对整个系统都有明显的影响。但是反过来思考,如果想要使系统的可靠度有质的提升,就不能只关注这些关键节点,即宏观分析里的归类固定因素,最根本的措施是提高各节点的正常运行概率,即全面优化。此事故调查报告的第四部分就详细的记录了对事故有关的各个责任人员和单位的处理建议。

5 结论

对复杂人机系统的结构描述,建模以及仿真方法都进行了探索。结构描述成果是复杂人机系统结构模型,建模成果是S-F网络图,仿真成果是基于改进的FRAM和BN的可靠性和敏感性分析。

此模型的构建与应用也许可以给复杂人机系统分析流程的理论研究和实际应用提供一些思路和启示。第一,可以确定所研究复杂人机系统的规模。如用微观视角来粗略判断宏观大型系统,即考虑此系统中人与机器的节点数量总和。而此模型则类似于一个放大镜,更适用于小规模局部系统微观分析研究。第二,可以确定所研究复杂人机系统的具体场所地点,如工厂,企业,政府,轮船等。此模型选取的是带有锅炉房的小型企业。一些更为宏观的系统则会横跨多个空间区域。第三,可以限定所分析的系统功能,复杂人机系统存在的意义就是实现高级功能。一些系统可以实现多个独立功能,但分析时只能围绕其中一个进行分析。第四,可以从某角度入手对系统进行客观定性描述。此模型选取的角度是系统内部基本的结构和功能。第五,可以依据划定的标准确定判定系统性能优劣的关键定量指标,此模型所选取的是可靠性。需要说明的是,此模型是以一种安全的标准来研究可靠性的,在实际应用中,对于正常系统更多是以一种效率的标准进行研究。第六,依据定量分析结果确定系统优化方案。从已失效系统里得出的优化方案可以用来优化相似的未失效的复杂人机系统,这也是此事故调查报告里提倡并践行的做法。

模型里的贝叶斯网络建模采取的是手动建模方法,如要更准确的建立贝叶斯网络可能需要进行结构和参数学习。下一步可通过分析机器参与生产的企业或工厂研究正常运行的复杂人机系统的可靠度。

猜你喜欢
贝叶斯概率建模
概率统计中的决策问题
概率统计解答题易错点透视
基于FLUENT的下击暴流三维风场建模
概率与统计(1)
概率与统计(2)
《符号建模论》评介
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
求距求值方程建模
基于贝叶斯网络的海盗袭击事件影响因素
租赁房地产的多主体贝叶斯博弈研究