关于大数据分析在工业故障预警中应用的研究

2021-07-16 10:07敖凌文
科学技术创新 2021年19期
关键词:温度故障算法

刘 婷 敖凌文* 焦 嘉

(湖南信息职业技术学院,湖南 长沙 410200)

大数据技术发展到现在,在各行各业越来越受到重视以及应用。在工业制造领域,特别是国家提出智能制造之后,制造行业对大数据技术的认识有了质的飞跃。现在大数据技术在制造行业的主要应用有生产工艺分析、设备故障诊断预警、生产供应链优化、工业产品升级等。现在生产制造过程中,会用到大量传感器,通过监控传感器数据的异常变化,优化改善生产制造中的问题。比如:监测电力消耗异常,优化电力能源的消耗。而在本文中,就主要介绍大数据技术在解决工业预警问题方面的一些应用。

1 大数据综述

1.1 大数据定义及特征

随着信息技术的发展,特别是近些年的高速发展,大多数行业都实现了信息化管理,尤其大数据技术产生以来,数据规模出现了高速增长。相比普通数据,大数据是具有规模大、处理速度快、多样化的信息资产。其具有显著“4V”特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)[1]。

如果大数据技术仅仅只是收集数据的话,那么对于企业的发展没有多大作用。故而大数据技术除了收集数据,还要对数据进行分析,这就是大数据分析。大数据分析可从这些海量的、高维的、多样的数据中找到相比普通数据分析难以找到的模式,从而为企业找到新的商业价值和机会。

1.2 大数据处理流程

大数据技术主要分为四个方面,分别如下:(1)数据收集:这是大数据技术的基础,也是对大数据分析不可或缺的。数据的来源可以是本地数据库、互联网、物联网等。在数据收集的过程中存在提取、转换和加载[2]。(2)数据管理:由于收集的数据中会存在大量的脏数据,所以需要对这些数据进行相应的清洗、去噪、数据集成和数据修正。同时也要为数据的快速查询提供功能[3]。(3)大数据分析:大数据分析是大数据技术的关键。对清洗修正过的数据采用合适的算法模型进行分析建模,例如数据挖掘、统计分析、机器学习算法以及近几年流行起来的深度学习技术。对数据的处理方式分为两类,一类是流处理,另一类是批量处理。(4)数据解释:数据解释的主要目的是让大数据分析的结果能够直观的呈现给用户,让用户能能够方便的理解。数据可视化技术是现在最常用,也最直观的展现方式[4]。

2 故障预警

在工业生产过程中,设备不仅产生大量的工况数据,也还会产生大量的告警数据。比如工况数据有从各种传感器上采集到的数据(温度、湿度)以及设备机台上运行参数(速度、压力)。告警数据有超温报警、电磁阀故障报警等等。如何通过分析工况数据与故障数据,以及不同告警数据之间的关系,做一定的故障预警,也是改善工业生产的一种方法。

2.1 工况与故障关系分析

例如有一种场景是对温度异常升高做出提前预警,工况数据有时间、温度阀开关、湿度阀开关、湿度、温度等维度数。其中取时间和温度分别作为自变量和因变量来做回归分析,预测温度的变化。

回归分析是一种预测性的建模技术,它通过研究自变量和因变量的关系,来进行预测分析。通常使用曲线来拟合数据点,目标是使曲线到数据点的距离差异最小。

线性回归是回归问题中的一种,即满足一个多元一次方程,特征值和预测值之间是线性关系。通过构建损失函数,最小化损失函数来求解参数w和b。通常我们可以表达成如下公式:

f(x)为预测值,自变量x 和因变量f(x)是已知的,对于一个新的x,我们想要预测其对应的f(x)是多少。因此,为了构建这个函数关系,目标是通过已知数据点,求解线性模型中w和b两个参数。但有时自变量和因变量之间不是呈现直线关系,而是呈现曲线关系,如下公式:

如何求解最佳参数,我们需要一个标准来对结果进行衡量。为此我们需要来量化一个目标函数。针对任何模型求解问题,都是最终都是可以得到一组预测值y,对比已有的真实y,数据行数为n,可以将损失函数定义如下:

即预测值与真实值之间的平均的平方距离,统计中一般称其为MSE 均方误差。把之前的函数式代入损失函数,并且将需要求解的参数w和b 看做是函数L 的自变量,可得

现在的任务是求解最小化L 时w 和b 的值,即核心目标优化式为

对于上面的模型参数可以采用以下两种方式进行求解:

2.1.1 最小二乘法

求解w 和b 是使损失函数最小化的过程,在统计中,称为线性回归模型的最小二乘参数估计。我们可以将L(w,b)分别对w和b 求导,得到

2.1.2 梯度下降

梯度下降核心内容是对自变量进行不断的更新,针对w 和b 求偏导,使得目标函数不断逼近最小值的过程。

现在有数据,包含时间、温度阀开关、湿度阀开关、风扇开关、加热开关、加湿开关、实际温度、实际湿度、设定温度、设定湿度等维度。我们需要对以实际温度作为目标值,其他变量作为特征,来对温度进行预测。对数据做下面的预处理。

数据处理:分析各变量的性质,比如是连续变量,还是离散变量。

对于连续变量,如果数据存在缺失值,可以用其附近的均值作为填充。对于离散变量,如果数据存在缺失值,可以根据该变量的众数来填充。

插值方式不仅仅只有上面的两种,还有其它方法,本案例采用刚才的两种方式来对数据进行处理。对于异常值,也采用上面的方式进行替换。由于数据是按时间进行记录的,有时数据会有重复的记录,故对重复的记录进行去除,只保留一条记录。

变量选择:在对这些变量进行分析时,我们可以先从业务角度分析下变量的变化是否会对温度产生影响。其次可以绘图来初步观察各个特征之间是否有相关性,然后采用降维方法对数据进行降维,降低特征的维度。本例根据已有的数据做了分析,发现各个特征的走势变化,对温度的影响不是很大,故只选择了时间作为特征。实际情况中,温度不可能仅仅只是随着时间变化而变化,也还与其它因素相关。故还需要大量数据积累,增加其它特征,来改善最终结果的预测准确度。

变量重构:本例以时间作为自变量,并对时间进行转换,以温度上升起点为时间零点。时间特征变为以秒为单位大小的新的时间特征。由于观测温度随着时间的变化趋势是曲线的,即是高阶的。故把时间特征重构,生成新的多个维度特征,如x→(xn,xn-1,…,x2,x,1)变换。

算法选择:本例采用线性回归算法(LR),来对数据进行拟合。

参数选定:由于我们不知道到底哪个参数是比较合适的,所以需要尝试不同参数的模型在数据集上的拟合程度,以及预测效果。再根据模型的复杂程度(阶的大小),选择复杂程度比较小,拟合效果还比较好的模型。本列最后采用二阶的一元多项式作为最终的模型。

本案例的分析过程大致如图1 所示。

图1 本案例的分析过程

2.2 故障报警之间关系分析

机台设备会经常报各种各样的故障,比如本案列会有风机断路器跳闸故障、模块通讯故障、湿度模块端口故障、温度模块端口故障、温度控制阀故障、窑超温报警等。如何找到这些故障之间的关系,提前避免一些故障的发生导致其它故障的发生,有很大的价值。在该案例中,根据经验知道温度控制阀出问题,很可能会导致非正常加热,使温度异常上升,即会发生超温报警。到底情况具体如何,在这里,我们可以采用关联规则挖掘算法,并结合本案例的具体情况,增加规则,来找到这样的关系。支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重。或者说几个数据关联出现的概率,比如有两个关联性的数据X 和Y,则对应的支持度为:

以此类推,如果有三个关联性的数据X,Y 和Z,则对应的支持度为:

一般情况下,支持度高与数据是否构成频繁项集是没有必然关系的,但是支持度太低的数据一定不构成频繁项集。

置信度主要反映的是在一个数据出现的情况下,另一个数据出现的概率,也就是我们常说的条件概率。假设有两个有关联性的数据X 和Y,X 对Y 的置信度为:

表1 月度粒度表

这里将用经典算法Apriori 算法来实现找到所有频繁项集,且满足最小支持度和最小置信度的关联规则。通常来说,要确定好评估标准,才能确定一个数据集合中的频繁数据集。评估标准是用自定义支持度和置信度的一个组合,还用自定义的支持度,可以根据情况而定。通常会选择支持度和置信度的结合。在应用该算法之前,以及本案列的具体情况,按如下步骤计算。

步骤一:对数据做一下处理。首先通过故障发生的时间顺进行排序,可以选取不同时间粒度范围,比如一天、一周、一个月等等粒度。然后生成以某一时间粒度的各个故障数据集。如下是按一个月的时间粒度:

步骤二:应用Apriori 算法,产生满足条件的频繁项集。

步骤三:再从业务的角度来进行判断,即一个故障的发生是否会引起另一个故障发生,或者大概率引起另一个故障的发生。

3 大数据故障预警的意义

总的来说,基于大数据的故障预警应用覆盖面非常广泛,它的意义在于超前的故障预警提醒可以让企业设备运维人员有针对性的对设备进行维护,提前处理设备存在的隐患,提高设备的利用率,以及延长设备的使用寿命,真正意义上实现了状态驱动运维的模式。对于一些难以避免的故障,可以有针对性的且充分的事故演练,以保证有充足的时间去进行配件准备,避免引发二次事故,同时也大大减少因备件因素造成的非计停时间延长情况的发生。另外,利用现代化工业制造生产线的传感器探测温度、压力、热能、振动和噪声,多形式分析手段包括设备诊断、用电量分析、能耗分析、质量事故分析等可以掌控每个生产流程,改进生产工艺,或建立虚拟模型仿真优化。也可通过大数据的丰富信息来发现历史预测和实际的偏差概率,考虑产能、人员、物料等的约束,采用智能优化算法来排产。

4 结论

由大数据驱动导致制造业转型升级,是制造业在未来高效生产、提升产品质量、提高资源利用率,降低资源消耗、改善生产安全、优化销售服务的重要一步。通过与移动互联网、工业互联网、人工智能等技术的协作发展,由大数据驱动的工业互联网会成为经济发展的又一个增长点,为经济发展带来新的活力。未来工业互联网智能化的建设会推动工业制造数字化、网络化、智能化的实现,而工业大数据作为其中重要的一环,定会助力构建资源富集、协同演进的制造业生态。但就目前而言,工业大数据应用价值巨大,挖掘这些价值还需要完成很多的工作,所以还要继续努力。

猜你喜欢
温度故障算法
哪种算法简便
一张票的温度
故障一点通
Travellng thg World Full—time for Rree
进位加法的两种算法
根据问题 确定算法
停留在心的温度
奔驰R320车ABS、ESP故障灯异常点亮
测个温度再盖被
用26℃的温度孵化成功