万九云
(中国铁路广州局集团株洲职工培训基地,工程师,湖南 株洲,412000)
事件的发生必有其因,有一种原因,只要它存在,事件或早或晚总要发生,这一原因就是事件发生的根本原因。根本原因分析简称为RCA(Root Cause Analysis),它通过一套规范化、流程化的工作步骤,分析设备的故障机理,找出设备故障的根本原因和促成因素,制定合理的纠正行动和措施,彻底消除导致设备故障的根源,从而恢复设备功能,提升设备可靠性和可用率,防止同类故障的再次发生,是一种从根本上解决设备故障问题的分析技术。RCA已在电力、能源、石油、化工、航空等多个工业领域得到成功应用,实践证明,RCA 作为一种寻找故障根本原因的成熟方法,有力地促进了设备可靠性的持续提升。近年来,RCA 在城市轨道交通领域也开始得到应用[1],但总体而言,RCA 在铁路交通领域的应用仍不普及。本文首先介绍RCA 方法及其实施步骤,然后结合机车典型故障探讨RCA 方法和工具的应用情况,最后给出实施建议。
1.1 RCA 技术步骤首先要成立RCA 专项小组,小组成员应包括RCA工程师、熟悉所涉及系统或设备的工程师、与项目相关的专业人员、熟悉相关设备运行与维修的人员、熟悉相关设备设计的工程师、厂家的技术代表等。专项小组严格按照RCA 技术步骤开展工作,RCA共包括九个关键技术步骤,如图1所示。
图1 RCA技术步骤
1)设备故障及影响范围确定。在开展RCA 之初,首先应搞清楚故障系统或设备的功能、理解其工作原理、工作环境条件要求、运行参数状态及标准,判断故障系统或设备是否可以继续运行,是否会导致功能的降级或失效,从功能的角度对系统或设备故障后果的严重程度给以判定。通过询问相关工作人员,收集设备运行日志、参数记录等资料,分析故障症状,对故障的发展过程按时间顺序进行描述。
2)证据收集。只要是有助于RCA 工作开展的证据,都应予以尽快收集。可收集的证据包括:设备或部件实物证据、在场人员问询记录、设备操作日志、运行日志、设备运行参数记录、监控录像、维修记录、供应商提供的设备设计资料、同类设备的运行经验反馈记录等。
3)可能的故障模式分析和评定。首先应尽可能识别出所有可能导致该故障后果的故障模式,然后再依据收集到的证据,结合故障机理分析,对识别出的故障模式逐一进行排除或确认,如果收集到的证据不足以支持得到的结论,必要时可采取辅助手段(包括现场试验、理论计算、实验室类比分析等)进一步进行取证。对于无法给出结论的故障模式则可依据经验或专家判断对其可能性进行评价;对可能性较大或已经得到确认的故障模式,将其视为下一层级故障现象,依据前述步骤识别出所有可能导致该故障后果的所有可能的原因,对识别出的故障原因逐一进行分析排除或确认,层层深入,最终找出导致故障发生的根本原因和促成因素。
4)重构故障情景。重构故障情景需回答两个问题:(1)为何在这个时间发生而不是在其他时间发生故障?(2)故障为何发生(或出现)在这个系统(或设备)上而不是其他系统(或设备)上?从前一步骤找出的根本原因出发,考虑各种促成因素,对系统或设备施加以特定的故障模式,检查故障后果是否与事实证据吻合。重构故障情景的关键在于各阶段的情景与事实证据是否吻合,逻辑推理过程是否科学严谨等。
5)根本原因判定。根本原因的典型特征包括:消除该因素可使系统或设备恢复功能;消除该因素可有效防止故障的重发。通过故障模式分析和逐层深入分析论证,最终找出可能性最大的根本原因及相关促成因素;通过重构故障情景,根本原因应能严谨、合理地推理出故障发生的过程。
6)范围扩展。分析出根本原因后,还需分析故障对其他系统和设备的影响,以有利于制定出全面、系统的纠正行动,杜绝或尽可能地减少故障的重发。
7)纠正措施的制定。包括三个方面:一是临时补救措施;二是故障设备的修复措施;三是防止故障重发的纠正行动。前两项纠正措施在发现设备故障之后即可制定并尽早实施,以限制故障影响范围、缩短设备停运时间;防止故障重发的纠正行动需在确定故障根本原因之后才能制定。
8)纠正措施的执行。只有严格执行纠正行动,才能真正消除设备故障根源,防止故障重发。
9)效果跟踪。在管理层面,应设置专门的管理体系确保纠正措施的具体实施,并制定相关验收指标评定纠正措施实施后的效果。
1.2 实施RCA 应注意的问题在实施RCA 过程中,应注意如下问题:(1)应避免视野(思路)狭窄,必要时可开展头脑风暴,尽可能识别导致故障发生的各种因素,将其都纳入分析范围;(2)为了避免取证不足,应尽快收集实物证据(损坏的设备部件),以防改变、移动、消失,实物证据应尽量维持在初始完整状态(避免清洁、碰撞、损毁),在有完整的工作计划之前,避免破坏性地使用证物(如送实验室检验);(3)应保持客观中立立场,在访谈当事人时应注意区分证言中的事实和观点;(4)不要忽视任何细节,尽可能找出所有的故障模式;(5)在分析过程中要区分根本原因和促成因素;(6)在制定纠正措施时,应考虑可实施性以及费用的合理性。
2.1 变化分析法
2.1.1 分析步骤
1)描述并评价未成功执行的活动;
2)分析先前已成功执行的相同或类似的活动;
3)将已产生异常后果的事件与尚未产生异常后果的事件进行比较。询问“与以往执行该活动的所有情况相比较,这一次的情况有什么不同?”
4)无论是否相关,在变化分析工作表中记录所有已知差别,评价它们对引起异常后果影响。通过差异影响分析,确定造成异常的可能原因。
2.1.2 应用实例 2013 年上半年,某铁路局陆续发现动车组受电弓故障十余起。应用变化分析法对比这些发生故障的CRH380BL型动车组与其他未发生类似故障的动车组发现,为了消除受电弓上臂连接点与接触网之间的间歇性磨损现象,这些发生故障的动车组的受电弓均曾进行过相关改造。进一步分析发现,在受电弓改造后,其碳滑板高度小幅被抬高,但弓角高度却保持原有状态,未得到同步抬升,引起受电弓轮廓线尺寸发生改变,导致弓网关系异常。在改造后初期,由于碳滑板高度略低于新弓弓角的高度,不会发生弓网接触异常,但经过一段时间运行,弓角不断磨耗导致碳滑板相对于新弓弓角的高度逐渐持平,当从侧线进正线时,受电弓出现刮擦现象,其上臂侧也因外部受力向一侧偏斜,此即受电弓故障频出的根本原因[2]。
2.2 E&CF 图E&CF 图的核心是按时间顺序将导致故障发生的一系列事件绘制在时间轴线上,可帮助调查人员了解事件发生的顺序和原因,解释事件的发展进程。由于大部分事件不是起因于单一故障,而是由涉及到多个设备、系统、任务和专业,而E&CF 图对评价这类复杂的事件尤为有效。它可以指示出事件从开始到结束的确切顺序,包括被破坏的屏障、初始条件、不适当的行为和产生该事件的原因因素。
如承担大秦线20 000t 重载组合列车牵引任务的HXD1 型机车的渡板变形问题屡有发生,现场分析发现这些问题主要集中发生在弯道处[3]。图2 建立了针对该问题的E&CF 图,从分析结果看,渡板变形的原因在于列车通过弯道时形成车体错位,在列车纵向冲动力的作用下,对向列车与机车渡板之间发生碰撞,而纵向冲动力主要来源于车钩的摆角超限。针对成因,有关单位采取修改从板、钩尾尺寸实现内电车钩完整自动对中功能,限制从板在车体钩箱内的横向活动范围和优化列车操纵办法等措施,从根本上解决了问题。
图2 HXD1列车渡板变形的E&CF图
2.3 鱼骨图使用鱼骨图可以从不同层面、不同角度找出所有可能导致事故发生的潜在原因或因素。如,接发列车作业是铁路行车组织的关键一环,运用鱼骨图可从人员、设备、环境和管理四个层面对影响接发列车安全和效率的因素展开分析,并从人员、设备、环境和管理四个层面给出相应的防控措施,避免责任行车事故的发生,确保列车安全运行,提升接发列车效率[4]。
2.4 故障树故障树形如一棵倒挂的树,它将事件的逻辑因果关系以图形的方式直观地进行显现,构图的基本元素是事件(树的节点)和逻辑门(用以表示节点间的逻辑关系,如“与”、“或”、“非”等)。顶事件位于故障树的顶端,可能直接导致顶事件发生的一系列中间事件在顶事件的下面列出,再对中间事件逐一进行分解,直至一系列不可再分解的基本事件。它们之间的内在逻辑关系由逻辑门联结。在调查设备故障或人因失误时,故障树分析方法可以帮助我们找出所有可能的原因(故障树中的基本事件),然后通过逐步深入调查,找出实际原因。
作为示例,图3 给出了机车电气系统的部分故障树[5,6],当最终确定了电气系统故障的原因为牵引电机电流不平衡时,应进一步分析故障根源,寻找导致电路不平衡的根本原因。发现导致系统或设备部件出故障的组件并不意味着分析工作就此结束,例如,虽然控制系统故障是由于某一继电器故障引起的,但根本原因可能并不是继电器本身,可能是其他一些原因或促成因素导致继电器故障,如继电器所处的环境条件(如高温、湿度超高、振动频繁等)严重超出设计条件,仅仅更换继电器不足以防止故障的重发。
图3 机车电气系统故障树(部分)
2.5 不同RCA 方法和工具的优劣对比变化分析法适用于事实或事件混淆或调查人员不知道从何处开始调查的不确定事件,但其不能识别渐变与骤变的区别,难以识别多个变化的叠加效应;E&CF 图适用于有长期原因或成因复杂的多层面问题,其可以将事故发展进程以图形化方式清晰表现出来,便于定位事故的根本原因,但是E&CF 图的绘制过程却相对繁琐;鱼骨图对寻找各种不同层面的根本原因尤为方便,但却无法体现事故与根本原因之间的因果关系;故障树既可以用于定性分析也可以用于量化分析,但是其绘制过程比较复杂,且受限于人们对设备故障模式的当前认识水平,需要结合其他工具同时使用[7]。
1)重要事件的筛选:建议从严重性、普遍性、重发性几方面来筛选重要事件,RCA 小组对重要事件独立开展分析;
2)RCA 小组的组织:RCA 小组成员应具备较高的综合素质,并接受过RCA技术和方法培训;
3)RCA 分析过程:RCA 分析过程应严格按照RCA 的9 步骤进行,公正客观地进行证据收集与技术分析论证工作。在故障模式分析过程中,可根据具体情况运用多种分析技术和手段,如变化分析法、E&CF图等。
4)独立性与权威性:应从RCA 小组的组织形式、人员素质要求、工作方式、分析技术及外部支持等方面的规范运作来保证RCA 小组分析工作的独立性和权威性。
5)纠正措施的跟踪落实:要充分考虑经济性和可行性,除针对根本原因制定纠正措施以外,还需对该事件涉及到的相关设备,或分析调查过程中发现的其它问题制定相应的改进行动。和执行部门沟通讨论,明确负责部门和完成期限。
在技术密集、风险密集的高速铁路运输系统应用RCA分析技术和方法,并建立RCA管理体系是十分必要的。建议国内铁路相关企业根据自身情况,学习掌握RCA 技术和方法,注重相关知识和技能的培养,相信RCA 将在铁路运营防止重大事件重发及解决重大技术问题方面发挥重要作用。