编者按本文编译自2018年10月的《麦肯锡季刊》。作者史蒂夫·布拉德伯里(Steve Bradbury)、布莱恩·卡皮索(Brian Carpizo)、马特·甘泽尔(Matt Gentzel)、德鲁·霍拉(Drew Horah)和乔尔·蒂伯特(Joel Thibert)均为麦肯锡公司的顾问。本文认为,数字化可以提高可靠性,降低成本。公司应该加大数字化维护方面的投入。
我们是否正进入智能机器的世界,在这个世界里,机器可以在出故障前自行向操作人员发出警报?先进的预测性维护(PdM)通过大量的传感器集成和机器学习技术来得到实现,被广泛视为第四次工业革命带来的进步。这自然具有相当大的吸引力,鼓励资产密集型的公司对数字化维护和可靠性加以投资。
但在我们看来,如果将先进的预测性维护视为应对维护和可靠性挑战的灵丹妙药,有可能会被证明是一种短视。一方面是因为当今先进的预测性维护事实上只适用于部分情况,另一方面也在于对某种方式的过度倚重会导致公司无法获得数字化维护和可靠性提升后的潜在利益。
这些潜在利益的意义相当重大。我们对重工业向数字化维护和可靠性的转变进行了观察,发现公司可以将其资产可用性提高5%到15%,并且将维护成本降低18%至25%。
为什么先进的预测性维护被视为工业4.0的杀手级应用呢?原因不难理解。该方法综合了推动工业数字化新浪潮的众多科技技术,例如联网传感器、大数据、先进的分析方法和机器学习等。以前所未有的方式对成百上千的变量进行分析,识别其中复杂的模式,让操作人员可以基于数据对故障出现的原因有更深入的了解,这是一种非常强大的技巧。它给人们带来了非常实在的好处,即机器不会出故障。这令人感到诱惑。
但事实上,在现实世界里,对这些先进的预测性维护技术的经济性使用并不是那么广泛。如果机器容易出现大家熟悉的少量故障模式,通常通过更为简单的方式就可以发现潜在问题,例如根据设定的临界值去监测某零部件的温度或振动,或者是不间断地严格采用基于数据的可靠性分析技术去查找失效模式的根本原因。而且,如果某机器出现成百上千种故障的话(一些故障是相当罕见的),那么建立大量高质量的模型来预测故障也是不切实际的。
考虑到开发准确的机器学习模型所需的专业技术和所投入的精力,基于模型的预测性维护就成了一种解决特定高价值问题的突破性方法,而不是用于所有维护工作。如果故障模式有完整的记录,并且相关的停工影响较大,那么这种方法就可以发挥较大的作用,例如针对大型生产线上的核心机器。在大规模地应用到大量相同的资产上时,这种方法也能发挥大作用。这些资产有足够长的可靠性历史,可以分摊开发和管理成本,例如海上风力发电厂或铁路机车车队。设备制造商要从战略角度出发,为终端使用者大规模地推动预测模型的开发和部署。但这些工作目前尚未能大范围地开展。
预测性维护的使用范围相对较小,这是否意味着维护和可靠性工作在一定程度上不用去追赶数字化的潮流?当然不是。事实上,我们建议公司不要只盯着某一类数字化工具,而是要考虑数字化和先进的分析技术能如何改变整个维护和可靠性系统。这也意味着从端到端去寻找利用数据的机会,并且遵循以用户为本的设计原则来对流程进行数字化。要想取得可持续的影响,就必须综合各种新数字化工具,改变资产战略,改善可靠性实践方法。
可靠性和维护工作由两部分组成,一是程序,二是执行。程序是指资产战略和维护计划。执行则是去识别有哪些工作,确定工作的轻重缓急,对工作进行计划安排,并且实施这些工作。数字化可靠性和维护(DRM)则同时包括了这些元素,并且拥有一系列使能元素来辅助这些工作的开展,其中包括公司管理其资产、数据和人员所需的基础设施、流程和工具,以改善资产的可靠性和维护(参见图1)。
图1 数字化可靠性和维护的综合框架
我们从基础讲起,从下往上来讨论这些使能元素。最重要的一点在于,数字化的流程都是由数据来推动的。也正是出于这个原因,对于数字化可靠性和维护而言,最基本的使能元素就是强大的数据支柱。多数组织已经建立了系统来记录同维护和可靠性相关的数据,但糟糕的管理可能会破坏此类系统的有效性。例如,同样的资产或问题可能在不同的系统里有不同的描述,从而加大了整合的难度。公司可能使用任意格式的文字字段来记录问题或维护工作,这也导致自动化的搜索或数据分析难度加大。或者说关键数据可能无法获取,被藏在了数据表或纸质记录中。
要解决这些问题,通常不在于对新技术进行投资,而取决于采用更为严格的标准来对资产进行标识和对数据进行记录。自然语言处理这类人工智能技术可以帮助组织改变混乱的历史数据,采用更适合于自动分析的形式。
同样,数据存储和网络带宽的成本骤降,也意味着现在从机器控制系统和外部传感器处收集数据流的难度更小,成本也更低。这类数据可以被用于状态监测、诊断和故障模式分析。不管是使用传统的方法还是运用先进分析学与机器学习,这些数据都同样有用。
在拥有了数据之后,公司必须有途径来访问这些数据。对于多数组织而言,他们必须采取新的举措。合并数据服务层,即“数据湖”可以从多个系统和数据源收集数据,然后建立单一的事实源,填补系统之间的信息鸿沟,为资产的健康情况提供全面的信息。数据湖是数据基础设施中至关重要的组成部分,拥有多种用途。它为数字化绩效管理、描述性分析和管理仪表盘提供基础,同时作为新维护和可靠性应用中不可分割的一层,为先进分析模型提供必要的数据。
对数字化可靠性和维护而言,接下来重要的使能元素就是可靠性工程分析的数字化工具。通过故障树分析、因果分析或失效模式和影响分析(FMEA)等方法从根源上来解决问题,这是组织维护和可靠性战略中最基本的内容。不过,这些工作现在通常是人工进行的,而且它们的结果很少被集中记录。将可靠性工程工具整合到组织的数字化可靠性和维护架构中,能确保分析的统一性和系统性,加快和简化输入数据的获取,并且获得分析结果以备未来使用。
建立一个数字化平台,用以提供数字化可靠性和维护使用的所有工具,并作为数据源,这项工作具有挑战性。但如果能在数字化可靠性和维护项目的初期就建立正确合适的平台,就能创造长久的效益。一家油气公司准备在既有平台上打造维护解决方案。但在描绘出自身数字化维护的宏大愿景时,公司领导人发现,这套系统的技术能力达不到要求。因为对公司的长期维护愿景而言,工具之间的无缝对接是至关重要的。为此公司选择将所有的维护解决方案整合到一个全新的平台。尽管从短期而言,这意味着推倒重来,但数字化可靠性和维护的功能可以随着公司的需求和数字化能力的发展而进行扩充,避免了只是暂时发挥积极的作用,却很快落后于竞争和技术能力发展的尴尬。
截至目前,我们的讨论集中在应用数字技术来加速、推动和改善现有的可靠性工程实践工作。数字化也为可靠性工程团队提供了种类繁多的新工具和新方法。正如此前所说的,使用机器学习技术来监测资产状态已经得到大量的关注,尽管其成本和复杂性最终可能会限制其应用。
不过,并非所有状态监测技术都需要精心设计的算法或复杂的模型。数据驱动的条件监测方法使用简单的询问功能。该方法会定期进行查询,或者是实时查询机器和外部传感器生产的时间序列数据。如果超出了临界状态,这些系统会通过数字可靠性工程工作流程来启动调查或纠正措施,或者是直接实施维护。
上文介绍的使能技术形成了数字化可靠性和维护的基础,但并没有能真正地改善资产的可靠性或维护效果。那些改善来自于组织如何使用其数字化数据来优化维护工作,即调整计划,合理化计划,优化资源分配。
数字化的绩效管理系统是有效的数字化可靠性和维护项目的核心所在。该系统涉及使用描述性分析和数据可视化来实时了解资产的健康程度和可靠性。数字化绩效管理可以自动生成和展示关键指标和定性信息,公司可以在其可靠性项目中使用这些指标和信息,例如设备综合效率(OEE)数据或损耗原因。这类自动化是令人惊奇的、强有力的改善工具,能将资产维护人员从数据收集和分析这类耗时且易错的工作中解放出来。而且它能够支持快速的趋势识别、基于事实的决策制定、即时的干预,以及设备投资、流程和政策的改变。
有时候,公司已经拥有管理维护绩效所需的大部分数字基础设施。例如,一家矿业公司正准备建立一套系统来跟踪移动设备的维护。公司列出了新系统的要求,并且发现公司当前计算机化的维护管理系统中已经拥有所需的功能。相关的模块已经在公司内进行过试用,但从未规模化。
可靠性工程活动的周期和效果通常会因为信息缺失或者运营与可靠性/维护团队之间的失调而受到影响。通过跟踪可靠性工程职能执行的每个工作单元的整个生命周期,数字化可靠性工程工作流系统可以填补这些鸿沟。这些系统至少能记录引发可靠性工程团队调查的事件细节、相应的行动,以及这些行动的结果。
新的数字化工具也可以提高成本收益分析和决策的速度,并且标准化这些活动。例如,数字化资产管理工具能够帮助可靠性团队在单个资产或整批资产的生命周期内计划和管理维修或替换。同样,新的数字化工具可以为以可靠性为中心的维护提供支持,帮助维护团队针对每种资产选择正确的维护战略(例如故障后维护、有计划的预防性维护或基于资产状态的维护等)。
新的数字化工具也改变了公司对维护和可靠性活动的计划和管理方式。数字化的工作管理包括流程数字化和数据推动的分析,以提高维护工作的效率和效力。这些工具包括自动化计划算法、数字化计划环境,以及用于现场数据输入和数据检索的平板或可穿戴设备。
多数工业企业已经在有意和无意间踏上了数字化可靠性和维护的旅程。他们通过企业资源规划或资产管理系统来记录自己的工作,他们的众多资产开始生成和收集数据,虽然这些数据相当分散,甚少得到使用。
这些默认的自动化方法现在并不能充分发挥其潜在的影响力。我们在今年年初对一些资产维护经理进行了调查。仅仅只有50%的被调查者表示,他们当前的信息和运营技术(IT/OT)架构足以为他们的维护和可靠性流程提供支持。对于维护工人是否拥有积极的用户体验,做肯定回答的维护经理不到20%。
对多数组织而言,至关重要的一步是在其数字化维护和可靠性战略中采用前置的、全面的、经过深思熟虑的方法。这要求他们对当前的维护和可靠性实践工作进行详细的评估,分析数据采集改进所提高的直观性、先进分析所带来的洞察力,以及新的数字化维护执行系统所提高的控制力在哪里能产生影响。关键在于从端对端来全面了解潜在的应用方法,并且思考新工具、新技术和新方法如何得到整合和联合。
同任何大型变革一样,为了向数字化可靠性和维护的新世界迈进,公司必须敢想敢干,找到系统化的转变方法,并且拥有长远的目光。