面向工业过程软测量建模的概念漂移检测综述

2021-09-27 03:07乔俊飞孙子健
控制理论与应用 2021年8期
关键词:变量样本变化

乔俊飞,孙子健,汤 健

(北京工业大学信息学部,北京 100124;计算智能与智能系统北京市重点实验室,北京 100124)

1 引言

随着传感器技术与计算机水平的持续发展,现代工业过程有望通过融入大量数据以期实现对运行状态的更精准有效控制.为实现上述目标,软测量建模方法被广泛用于具有连续化和复杂化等特点的工业系统,其依据过程数据建立难测参数的测量模型[1-3].实际建模任务中,过程数据因其随时间变化所具有的非平稳性引起了众多学者关注,尤其是数据分布随时间发生变化导致旧模型无法适用于新样本的问题,该现象被称为概念漂移[4],其产生原因一般是工业中元器件老化或生产环境变化导致模型输入输出的关系改变,其通常难以预知与量化.为此,建模过程通常引入在线学习方法(如非线性感知器[5]、正则化对偶平均[6]和LASSO[7]等)实现在线动态建模,目的是使软测量模型能够根据新样本实时更新,以在不断变化的数据环境中保持良好的测量精度,同时有效缩减数据存储成本.

尽管在线动态建模使模型具有自主调整能力,但在概念漂移环境中通常还需对模型更新方式进行引导,否则模型将由于无法全面了解环境变化而长期处于频繁更新状态,并因此消耗更多计算资源且易导致测量不及时或准确性下降,此时有必要仅采用新概念样本对模型进行针对性更新,以提高模型在环境变化时的适应速度[8].

为实现对新概念样本的精准筛选,针对样本漂移检测的研究得到迅速发展.图1展示了近20年内概念漂移相关文献的发表与引用数量变化情况1Citation report of concept drift.Web of Science.www.isiknowledge.com..

由图1可知,该领域研究规模正逐渐扩大,已有大量学者加入概念漂移相关问题讨论.在这些研究中,较早的漂移检测系统是FLORA系列算法[9],该算法初步实现样本概念变化的判别与存储能力.随后的工作中,文献[4,10-12]等进一步完善了概念漂移的产生原因、类型和定义;文献[13-16]等研究了漂移检测算法的不同学习方式,包括半监督学习、主动学习和重复概念学习;文献[17-18]等结合现有测量模型与检测算法构造了特定的漂移适应性模型.综上,随着漂移检测技术的逐步完善与成熟,为对实际工业过程中软测量建模任务提供有意义的应用帮助,有必要对当前领域的研究动态与趋势进行有指导意义的总结与展望.

目前已存在的综述文献在不同方面介绍了漂移检测算法的研究进展,如:文献[19]归纳了面向分类任务的检测算法;文献[20]围绕漂移的检测、理解和适应三个方面进行方法总结;文献[15]中包含了较详细的无监督和半监督检测方式;文献[21]重点介绍了基于测量误差、统计检验和模型结构的3种检测方式;文献[22]对概念漂移检测在网络安全、金融市场和教育媒体等互联网领域内的应用情况做出详细分析.但现有综述文献集中于对计算机等领域的应用描述,且多数围绕分类任务特点开展,仍缺少对工业过程的应用分析.实际工业过程具有强耦合、大时滞和不确定等特性,其概念变化情况相较有明确类别指示的任务而言更加复杂且不易区分,因此需结合过程特点有针对性地对漂移检测方法进行综述.

本文以工业过程为背景,围绕基于数据驱动的软测量模型对现有漂移检测算法进行综述,主要贡献有:1)结合目前漂移检测领域内的研究成果与实际工业过程特点,将现有算法的检测依据分为3类:基于难测参数测量误差、基于过程变量和基于综合因素,以此归纳现有方法的不同研究重点;2)新划分不同算法的检测对象,即在不同检测依据的基础上进一步区分针对单样本和多样本的研究策略,并说明不同检测对象对模型更新方式的影响;3)讨论并总结现有方法的技术特点与工业过程中常见的部分研究难点;4)提出面向工业过程检测算法的未来研究方向建议.

2 概念漂移现象描述

2.1 概念漂移的一般定义与类别

概念漂移指目标样本统计特性根据时间以随机方式变化[23],其最早由文献[24]提出,依据是噪声数据会在某些情况下得到与非噪声数据相同的特征从而被误认为正常数据,且该变化通常难以直接测量[25].以数据驱动角度分析,概念漂移的形式如图2所示.

图2 概念漂移的形式描述Fig.2 Formal description of concept drift

结合图2,可将其形式详细描述为:给定[1,t]时刻内的建模样本集S1,t={d1,···,dt},其中:di=(xi,yi)(i ∈[1,t])是S1,t中的一个样本,xi为样本过程变量(工业中对难测参数具有实际影响的温度、压力和流量等可实时测量参数),yi为难测参数真值(约定真值[26],即通过化验分析等方法确定的工业难测参数的最高基准值),S1,t内样本均服从分布F1,t(x,y).假定新时刻样本dk(k ∈[t+1,∞))服从的分布为Fk(x,y),当F1,t(x,y)/Fk(x,y)时,认为新样本dk相较建模样本S1,t发生概念漂移.

依据不同视角,现有研究将概念漂移划分为不同类别.如:文献[27]根据数据的产生环境差异提出虚、实概念漂移;文献[28]根据漂移的产生原因将其描述为样本先验概率、类概率和后验概率的变化;文献[29]依据时间序列分析思想将漂移分为随机噪声、随机趋势、随机替换和系统趋势;文献[12]根据数据产生的多源性将概念漂移称为数据漂移.上述研究均有助理解概念漂移本质.目前,多数漂移处理过程中,最为常用的漂移类别为:突然漂移、增量漂移、渐进漂移和重复漂移[4],其示例如图3所示.

图3 常见漂移类型图示Fig.3 Illustration of common drift types

图3中:突然漂移与增量漂移分别表示样本概念在较短或较长的时间内改变;渐进漂移表示在旧概念不完全消失的情况下新概念将其逐渐替代;重复漂移表现为多种概念交替出现.上述漂移类型的划分依据是样本概念变化的速度与幅度.

2.2 工业过程中的概念漂移

2.2.1 研究背景简述

当前工业过程主要存在两类软测量建模方式[27]:机理驱动和数据驱动.前者通常为特定工业过程开发并常用于推理控制,该类模型缺点是:1)建模需大量经验知识;2)通常简化理论背景,不符合真实过程状态;3)侧重描述工业过程的理想稳态,不适合瞬态表达.相反,数据驱动模型基于对过程直接且详细的测量,因此可从多方面描述实际工业过程.现有漂移检测研究通常建立在基于数据驱动的软测量模型基础上,其典型建模流程如图4所示.

根据图4,可将该过程具体描述如下:1)第1阶段为数据初步检查阶段,该阶段获得现有过程数据、识别建模时可能出现的问题并确定建模任务;2)第2阶段为建模数据选择阶段,该阶段将选出处于平稳状态的、适合模型训练和评估的过程数据;3)第3阶段为数据预处理阶段,该阶段通常将第2阶段选择后得到的过程数据进行标准化表示,并进行特征处理和缺失数据标记等工作;4)第4阶段选择合适的模型进行训练与测试,常用模型有决策树、支持向量机和神经网络等;5)第5阶段采用人工的或学习过程中得到的经验更新模型.工业过程中漂移检测研究位于上述第3和第5阶段,即首先对新样本进行漂移判别与处理,然后将新概念样本用于更新模型,以使模型在新概念环境下保持良好的鲁棒性与测量精度.

图4 典型数据驱动软测量建模流程Fig.4 Typical data-driven soft sensor modeling process

此外,相较其它应用领域,工业过程中漂移检测研究通常还需考虑如下工业特点:

1) 回归任务多:工业数据以连续型变量为主,任务常集中于产品质量和环保指标等难测参数的软测量,相较以分类任务为主的视觉识别等领域,概念变化无法由类别改变直接表示,通常需结合实际过程设定观测值阈值以确认漂移现象.

2) 工况变化复杂:工业生产过程易受物料成分、生产环境变化等因素影响,其工况变化形式与幅度较为复杂,由此导致工业中概念漂移随机性较强,且可能以多种类型共存的形式出现,因此对检测算法的灵敏度和准确度均有较高要求.

3) 时效性要求高:相较互联网中的消费心理、用户行为分析等领域,工业概念漂移常预示潜在运行风险,如无法及时检测与控制,除造成经济损失外还可能引起人员伤亡及有毒污染物排放超标等严重运行事故.

2.2.2 漂移的实际影响与产生原因

概念漂移会使基于历史数据构建的软测量模型在面对漂移样本时测量性能下降,进而影响工业系统的控制与决策[31].以现有研究为例:

文献[32]指出,在流化床锅炉的燃烧质量与燃料流量测量过程中会出现概念漂移现象,原因是燃料等级与成分改变使质量检测信号出现阶跃变化,从而导致模型测量错误并使控制系统无法及时优化锅炉负载;面向工业径向风扇自适应维护过程,文献[33]提出变桨器机油中空气含量变化会影响旋转叶片仰角,如无法及时检测并进行维护将降低风扇工作效率;针对半导体蚀刻过程,文献[34]指出不同材料的最佳蚀刻时间存在差异,因此需要依据材料变化实时调整蚀刻时间,否则将导致半导体结构宽度改变从而影响电路的电性能;针对搅拌釜系统,文献[35]指出换热器结垢参数值降低会使导体传热效率减小,导致模型输出错误的测量值.综上,在软测量模型中引入概念漂移检测技术对提高工业过程控制效率具有重要意义.

根据漂移产生原因,工业中将其分为过程漂移和传感器漂移[30].其中,过程漂移一般有两种产生原因.第一种是过程内部结构变化(机械元件磨损等),如文献[36]提出图5所示的“可靠性浴盆曲线”,表明一般情况下工业部件的可靠性会随时间变化并对过程本身产生影响;第二种是过程外部条件变化(气候与工艺要求变化等),以城市固废焚烧过程(municipal solid waste incineration,MSWI)为例,固体废物含水率随季节与温度变化而改变,炉膛温度依据实际燃烧状况进行实时调节,这些变化均会影响出口烟气污染物的生成关系并进而对浓度测量产生干扰[37].以前文研究为例,文献[32-34]属于工业过程外部条件变化引起的过程漂移,这些漂移均由输入过程变量变化导致(燃料成分、机油质量和蚀刻材料),文献[35]属于工业过程内部结构变化引起的漂移,即由运行过程中参数变化导致(结垢参数).传感器漂移也被称为测量漂移[38],通常由传感器等硬件设施的测量精度改变导致,因此该类漂移不反映运行过程的真实参数变化,在漂移检测领域中研究较少.

图5 可靠性浴盆曲线Fig.5 Reliability bathtub curve

2.3 概念漂移的处理流程

针对漂移处理的理论研究包括:文献[39]指出概念漂移检测可视为双重抽样问题,即检查两个给定样本总体是否来自相同分布;文献[40]从样本选择与加权角度对漂移样本检索方式进行讨论;文献[28]基于贝叶斯理论将漂移归结为类概率、先验概率和后验概率的分布变化,并以此指导漂移检测;文献[10]给出了漂移的速度、持续时间和严重程度等定义;文献[15]讨论了模型在漂移环境中的更新与适应方式.

基于上述研究,文献[20]提出了如图6所示的概念漂移处理流程.文中将概念漂移处理分为检测、理解和适应三个步骤.其中,漂移检测指通过识别变化点或变化间隔以表征和量化概念漂移的技术和机制;漂移理解关注“何时”、“何地”和“如何”,即识别漂移产生的时间、区域和程度等状态信息并将其作为漂移适应的输入;漂移适应的目的是采用漂移状态信息更新模型,其研究主要集中于简单再训练、集成再训练和模型调整3个方向.

图6 一般概念漂移处理流程Fig.6 General concept drift processing flow

基于上述通用概念漂移处理流程,本文考虑实际工业过程中难测参数真值较难获得情况,将工业过程概念漂移处理流程总结如图7所示.图7中设置样本真值的查询与请求阶段的原因在于:实际工业过程中部分难测参数真值通常无法及时获得,如在MSWI过程中,出口烟气污染物二噁英的浓度值需在专业检测中心经过多阶段核定,其真值获得周期较长且费用高昂[37].此外,现场人员通常根据工业过程的性能反馈有选择地标注样本,以保证标注工作处于合理的经济范围内[41].上述情况常采用基于过程变量或综合因素的方法进行漂移检测,具体细节将在第3章节介绍.

图7 工业过程中概念漂移处理流程Fig.7 Concept drift processing flow in industrial process

3 漂移检测方法综述

本节将分别从检测依据和检测对象两个视角对现有漂移检测算法进行归纳与讨论,划分视角详情如表1所示.

表1 综述视角划分Table 1 Overview angle division

3.1 检测依据视角

本文将现有方法的检测依据分为3类:基于难测参数测量误差、基于过程变量和基于综合因素.其中:基于难测参数测量误差的方法指通过模型测量误差的变化程度确认漂移;基于过程变量的方法指通过分析样本过程变量间数值差异或分布变化进行检测;基于综合因素的方法可视为前两种方法的结合.

3.1.1 基于难测参数测量误差的方法

在难测参数真值易获取的情况下,测量误差是检测过程中最直观的判别标准之一,因此仅基于难测参数测量误差的方法较为常见.尽管测量误差变化通常无法说明样本分布的真实变化情况,但仍可在一定程度反映变量输入输出关系的改变,并能使该方法具有计算过程简便高效等特点.

该类研究中具代表性的算法是漂移检测法(drift detection method,DDM)[42],其检测思路可描述为:1)首先依据二项式分布特点,针对漂移程度定义漂移预警级别和漂移警告级别;2)然后使用窗口采集新样本(采集阶段),计算窗口内样本的测量误差并存储其作为最新判别依据(在线测量阶段);3)最后通过计算模型当前的与历史的错误率差异判断(误差评估阶段):当误差变化幅度达到漂移预警级别时,存储当前窗口内样本,并将这些样本用于构建新模型,但此时仍然采用旧模型进行在线测量;当错误率变化幅度达到漂移警告级别时,采用此前构建的新模型代替当前模型进行在线测量(模型更新阶段).DDM的贡献是其初步提供了较为完整的检测框架(如图8所示),即通过样本窗口、测量误差和级别定义完成新样本采集、在线测量、误差评估与模型更新.

后续较多研究均以图8所表示的检测框架为基础,如:

图8 DDM检测框架Fig.8 DDM detection framework

1) 针对样本采集阶段的改进:文献[43]采用衰落因子检索待测样本并结合Page-Hinkley方法对新样本检验,结果表明该方式相较窗口式检索可有效降低检测延迟与存储成本;文献[44]采用样本加权方式,根据样本的采集顺序划分样本的概念变化权重,以此筛选用于分析和比较的样本块.

2) 针对在线测量与误差评估阶段的改进:文献[45]在算法中引入全局样本窗口以监视当前样本总体的测量误差,并采用改进的等比例统计检验比较全局与新样本窗口内的在线测量误差差异以表征漂移;文献[46]分别计算模型在总体样本和最近样本中可接受测量误差的出现概率,采用Hoeffding不等式判断概率差异以确认漂移;文献[44]采用指数加权移动平均(exponentially weighted moving average,EMWA)监视新样本真值与在线测量误差的平均值变化,并同样通过Hoeffding不等式确认漂移.

3) 针对模型更新阶段的改进:文献[47]采用集成方式设置多个并行样本窗口并在每个窗口内均建立在线测量模型,当新样本到来时根据各模型测量误差分配窗口权重,以权值最大窗口作为主模型以应对概念变化;文献[48]提出双学习器概念,即在算法中分别构造稳定和灵敏的在线测量模型,根据两模型在不同概念环境中的测量精度交替使用.

此外,文献[49]在DDM基础上将概念变化判别依据从测量误差的变化程度替换为两个错误测量之间的样本数量,并因此表明算法的检测及时性得到改善;文献[39]提出基于支持向量机(support vector machine,SVM)的检测方式,即在两个样本中寻找最优线性间隔以使模型对两个样本的余量最大化,通过观测两个线性间隔的相似度判别漂移;文献[50]基于累积和控制图观察模型在线测量误差概率变化以反映样本分布差异;文献[51]采用EMWA方法监控模型在线测量误差变化;文献[52]基于在线随机权神经网络模型,用新样本更新模型后,量化并比较模型更新前后输出权重值的变化程度以表征漂移.

3.1.2 基于过程变量的方法

基于过程变量分布变化的常用漂移检测流程如图9所示.

图9 基于过程变量的检测流程Fig.9 Detection process based on process variable algorithm

根据图9可知,该类算法首先提取过程变量中所包含的关键信息,然后针对所提取信息进行相似性度量,最后根据度量结果判断样本漂移情况.本节将围绕上述过程中常见的3种检测策略展开描述,分别是多元统计、距离度量和假设检验.

1) 多元统计策略.

该策略中较常见的方法是主成分分析(principal component analysis,PCA),其被用于数据降维时表现出高效的数据分析能力,因此也被广泛用于过程变量间相似性度量[53].该方法首先将新样本dt+1分为和两部分

此外,偏最小二乘(partial least squares,PLS)[59]、独立成分分析(independent component analysis,ICA)[60]、费舍尔判别分析(fisher discriminant analysis,FDA)[61]和子空间辅助方法(subspace aided approach,SAP)[62]等传统多元统计方法及它们的改进版本[63]均被证明可有效检测过程变量是否异常.其中,PLS常用于多输出过程分析,ICA在非高斯分布的异常检测中表现良好.

现有研究中,文献[64]采用PCA检测水泥回转窑运行过程状态,并引入EWMA方法自适应调整PCA模型控制限阈值;文献[65]针对乙烯裂解过程,在PCA基础上结合基于知识的符号有向图(signed directed graph,SDG)推理方法,实现检测变量变化的同时确定变化原因;文献[66]采用ALD条件逐个分析待测样本的概念变化情况,并将新概念样本用于PCA模型更新以使其获得自适应调整能力;文献[67]面向传感器网络概念漂移现象,根据子空间学习思想将PCA和基于角度优化的全局降维算法(angle optimized global embedding,AOGE)相结合,以从多角度分析待测样本的主成分变化情况;文献[68]采用统计矩与功率谱分别度量样本过程变量的均值、方差、偏度、峰度、幅度和频率变化等因素以表征漂移.

2) 距离度量策略.

该策略采用距离(欧式距离、马氏距离和余弦距离等)对样本过程变量间的相似关系进行量化,特点是无需过程变量服从特定分布(高斯或非高斯分布等),且漂移判别标准设置相对灵活,因此已成为目前基于过程变量的漂移检测算法中最常见的一类方法[18].

现有研究中,文献[69]较早为样本差异分析中距离函数的设计提供了指导,其采用L1范数度量样本距离关系,并结合Chernoff界和Vapnik-Chervonenkis维数确定距离簇变化程度;文献[70]采用Hellinger距离检测渐进或突然的概念变化,计算新旧样本中每个变量间的Hellinger距离,并将所有变量距离的均值作为最终距离后计算其与预设基准距离的差异;文献[71]结合距离度量与最近邻思想,首先计算相邻样本块中各样本间的异构欧式距离,然后根据最近邻样本的标签一致程度计算样本漂移度;文献[72]将历史样本拆分为多个样本块,并将每个历史样本块映射为不同的概念向量后进行聚类,当新样本块到达时计算概念向量与历史样本聚类中心的距离差异以检测漂移;文献[73]提出基于Kullback-Leibler距离的决策树分布检测模型;文献[74]采用马氏距离和欧式距离互补的方式对样本过程变量的不同子空间进行度量,根据预设差异指标指示概念变化;文献[75]对样本聚类后,通过比较相邻样本块的领域熵差值以检测漂移.

3) 假设检验策略.

常见的假设检验策略可分为参数检验与非参数检验,前者需在样本总体分布信息已知情况下进行,而后者不依赖样本总体分布.常用的参数检验包括t检验和F检验,分别观测样本总体均值和方差的相似性;常用的非参数检验包括Wilcoxon 检验、置换检验和Kolmogorov-Smirnov检验,相应地分别观测样本秩和、均数和频数的相似性.

现有研究中,文献[23]根据案例推理分类思想提出基于能力模型的检测法,其构造样本间基于能力的经验距离并对该距离进行置换检验以检测漂移;文献[76]提出基于重采样和t检验的多尺度检测法,首先在训练集中提取具有典型概念特征的样本,然后将这些样本组成规模较小的且具有多样概念的子集,最后通过t检验比较该子集与待检测样本的总体均值差异以检测漂移;文献[77]在多集理论基础上提出基于累计区域密度差异的检验方法,该方法计算样本块中不同过程变量值的所占比例,并通过Monte-Carlo置换检验判断相邻样本块中过程变量值的比例分布差异指示漂移.

3.1.3 基于综合因素的方法

综合因素法结合了基于难测参数测量误差与基于过程变量的方法,相较单一检测方法可提供更全面检测信息,因此该类方法被用于解决实际问题.

文献[78]在基于专家知识构建的模糊推理模型的基础上,结合样本相对ALD值和相对测量误差值(relative prediction error,RPE)有效识别新概念样本,文中表明该算法相较仅基于ALD和仅基于RPE的样本识别方法可详细反映样本漂移程度,且能提高模型可解释性与测量精度.相对ALD值的计算方式如下:

其中:θcom为样本选择阈值.当JCt+1=1时,表示新样本dt+1发生漂移,否则认为样本正常.

文献[79]面向在线数据维护提出了名为P树的模型结构,在监视模型测量性能变化的基础上结合PCA和Wilcoxon检验对样本的类分布与后验分布变化进行检测.文中所提算法框架如图10所示.

根据图10,可将综合因素法检测思路描述为:1)依据模型性能变化(测量误差与误差率等)检索异常样本;2)采用基于过程变量的方法分析异常样本分布变化情况;3)根据分析结果定义漂移变化指标实现漂移检测.

图10 基于P树的在线数据维护框架Fig.10 P-tree-based online data maintenance framework

3.1.4 基于其他检测依据的方法

其它研究中,文献[31]针对质量在线测量过程,对新样本进行窗口检索后采用3种方式检测样本概念变化,即模型均方测量误差、非参数U检验和观测均值分析;文献[80]提出具有滑动窗口的符号回归集成模型,首先根据模型测量误差触发样本变化检验,然后计算新旧样本的平方皮尔逊相关系数,最后判断当相关系数大于预设阈值时认为概念变化;文献[81]提出双准则主动学习算法,首先建立逻辑回归模型监测模型性能变化,然后对样本聚类并结合贝叶斯思想判别样本块间概率密度差异,最后综合上述变化确认样本漂移情况;文献[82]提出层次假设检验框架:第1层监视分类器的在线错误率,第2层采用置换检验分析样本过程变量的相似性;文献[83]针对三聚氰胺树脂生产过程的漂移现象,在具有滑动窗口的集成PLS模型中引入Page-Hinkly检测以检索漂移样本;文献[84]基于模型解释思想,首先计算样本块中各过程变量的贡献度,然后采用欧式距离度量不同样本块中变量贡献度差异,最后通过Page-Hinkly检测判断差异是否显著;文献[85]基于DDM思想对异常样本进行检索,并通过监视异常样本集中马尔可夫链随时间的转变概率变化表征漂移.

除上述有监督方法外,现有研究还针对实际问题中难测参数真值难以获取的情况提出了半监督综合检测方法,如:文献[86]提出基于边际密度的半监督检测方法,采用分类器边际密度作为无监督漂移指标检索待标注样本,在样本获取标注后再基于模型性能变化进行第二次漂移确认;文献[16]在Page-Hinkly检测基础上加入下降指示器和衰减因子并采用Hoeffding界定义检测阈值,依据单次主动学习思想定义半监督性能指标,实验表明该方法具有接近有监督方法的检测效率,其样本真值需求量仅为后者的20%.

3.2 检测对象视角

现有漂移检测研究工作中暂未有明确的针对单样本与多样本的算法描述,但在部分文献中存在与该工作类似的研究与讨论,主要集中在样本窗口大小的选择问题.

样本窗口的目的是依据样本数量或时间步长将部分流数据组织为样本块后进行漂移分析,采用该策略的原因是部分学者认为单个样本难以携带足够信息推断总体分布[87],因此有必要将数据组织为有意义的模式或知识[88].目前,样本窗口设置方式已成为漂移检测研究的重点之一,较为典型的是基于固定窗口[42]、滑动窗口[23]和多窗口[45]的检测策略.此外,文献[89]指出,大尺寸窗口虽可覆盖更多新概念样本但会导致检测不及时,小尺寸窗口虽可保证检测及时性但易增大计算消耗,因此该文提出自适应窗口,即窗口大小可依据概念变化速度与幅度实时调节.

实际上无论以何种方式划分样本窗口,均无法避免的问题是:在样本块组织过程中,可能丢失关键漂移时刻信息或由于无法及时更新模型导致测量精度持续恶化.因此,有学者认为逐样本检测方式可显著提升检测的时效性,即单个样本可在一定程度上表征漂移现象[89].

基于上述工作,本文提出针对单样本和多样本的算法检测框架,如图11所示.

图11所示漂移检测框架的依据为:实际工业过程中,部分检测任务侧重对过程反应变化规律进行探索,如烟气污染物的排放浓度变化趋势观察[37]和生成物质量监测实现锅炉优化[31]等,因此需采用样本窗口方式获得更加精确的变化关系,此时由检索过程造成的检测延时通常可被接受.而在另一些检测任务中,概念变化通常预示生产过程意外改变,此时若无法及时检测与处理漂移可能引起更大工程事故,因此需进行逐样本分析以及时杜绝潜在运行风险.综上,以单样本与多样本视角对现有研究进行讨论可有效区分各检测方式在工业应用中的及时性与准确性,有助于为不同建模任务选择合适的漂移检测算法.

图11 针对单样本与多样本的漂移检测框架Fig.11 Detection framework for single and multiple samples

3.2.1 单样本漂移检测

文献[91]提出基于测量误差限(prediction error band,PEB)的单样本检测算法,其误差ek采用下式计算:

其中:yk是样本dk对应的难测参数真值;f(dk)为模型测量函数.当PEB满足如下条件时,认为当前样本发生漂移

其它研究中,文献[49]针对两个相邻漂移样本之间的样本数量进行分析;文献[39]通过观察两个样本所对应的模型最优线性间隔进行检测;文献[50-51]分别依据模型对每个样本的测量错误可能性和测量错误率变化;文献[67]按采集顺序对待测样本的主成分变化情况进行多角度分析;文献[74]针对单个样本中过程变量的不同空间进行距离度量;文献[66,79]分别在PCA和RPE基础上结合ALD条件实现逐样本分析.

3.2.2 多样本漂移检测

前文所述研究中,文献[43-44]采用样本加权方式将待测样本组织为样本块进行分析;文献[45-48]通过监测样本窗口内的模型性能变化确认漂移;文献[64-65]采用控制图方式监控样本块概念变化;文献[69-71]分析了不同样本块间的距离变化关系;文献[72]采用样本聚类方式分析;文献[73]对两个样本块之间的相对熵差异进行检测;文献[23,76-77]均针对样本块所携带的分布信息进行假设检验分析;文献[80-84]采用综合型方法对样本窗口内分布变化进行检测;文献[16,87]所提的半监督检测方法对异常样本集合请求标注后进行二次检验以确认漂移.

3.3 检测方法汇总

根据上述讨论,本节结合检测依据、检测对象和具体检测方式对具有代表性的检测方法进行归纳,结果如表2所示.

表2 多视角下的算法特点总结Table 2 Summary of algorithm characteristics under multiple angles

4 讨论与分析

4.1 现有检测方法特点

现有各类检测方法特点总结如表3所示.根据表3,可将各方法特点详细描述为:

表3 各类漂移检测方法特点Table 3 Characteristics of various drift detection methods

1) 基于难测参数测量误差的检测方法:该类方法观测概念漂移产生的最直接变化,即模型输入输出关系变化导致的模型测量误差显著升高,因此其检测速度相对较快,能及时反映漂移可能发生的时间与位置,且该过程实现较为简便,易于理解.但该类方法检测效率较依赖模型性能与其构建方式,且由于难以详细反映样本分布变化信息,可能导致模型长期处于频繁的更新过程从而使测量精度不稳定,同时该类方法无法在难测参数真值难以获得的情况下使用.

2) 基于过程变量的检测方法:该类方法检验样本过程变量的显著变化,可较全面反映变量变化情况,且该过程不依赖特定模型与难测参数真值.但有时过程变量变化无法充分说明样本概念分布发生变化,以同时包含x1,x2和x3的三维过程变量集xt=[1,1,1]与xt+1=[1,3,9]为例,可观察到两个变量集中的变量数值与其变化幅度有明显差异,但当xt和xt+1的对应样本均满足简单线性映射关系f(x)=x1+αx2+βx3(α,β →0)时,变量间的数值差异难以准确反映样本的概念变化,该情况下对模型的更新可能是不必要的.

3) 基于综合因素的检测方法:该类方法可通过多视角分析概念变化情况以得到较为准确的漂移检测结果,在一定程度弥补了上述方法的缺点,但也因此要求不同检测策略之间具有合理的触发机制与科学的资源分配机制,否则任一策略偏差均可能导致算法检测效率低下甚至失效,需在方法构建时充分考虑实际应用环境以及各策略适用性.

4) 针对单样本的检测方法:目前针对单样本的研究较少,原因是单个样本携带的分布变化信息相较多样本更难评估,但现有研究方法证明针对单样本的漂移检测是可行的,且该类方法所具有的时效性对于分析工业中过程环境变化及预估漂移程度与规模有重要意义.

5) 针对多样本的检测方法:样本块通常携有丰富变化信息,现有研究表明该类方法具有更高检测精度,但其需要更长的检索与检测时间且在此期间内难以维持模型性能,同时现有研究中多数方法未能对样本漂移程度进行区分.

4.2 相似研究

目前工业领域中的部分研究虽未指明概念漂移问题,但其研究思路与技术路线均与漂移检测具有相似之处.为对后续漂移检测工作提供不同借鉴方案,此处对部分相似研究进行整理,如下所示:

与基于难测参数测量误差视角相似的方法:文献[92]采用自回归滑动平均模型应对动态研磨过程中由环境变化或传感器故障引起的软测量模型性能下降;文献[93]采用有限冲激响应和SVM分析过程变量的动态与静态关系,并以此构建动态软测量测量模型;文献[94]针对动态工业过程,采用时间差分模型减弱由机械元件老化导致的模型测量精度下降.在最近的研究中:文献[95]提出基于长短期记忆神经网络的动态测量维护框架,通过比较设备在新时刻与历史时刻的性能差异估算当前设备故障概率;文献[96]采用自适应标准化的局部窗口对新样本检索后,基于包含双向自编码器的深度神经网络模型分析窗口内样本的分布差异;文献[97]结合样本时滞、动态时间和测量误差提出基于最小二乘SVM的氮氧化物浓度实时动态测量模型.

与基于过程变量视角相似的方法:文献[98]基于趋势分析思想,采用动态特征同步算法对过程变量的变化趋势量化,并通过与历史趋势进行相似性比较以确认连续生产过程中的工况切换状态;文献[99]基于子空间辨识思想,采用滑动窗口检索新样本后计算窗口内样本子空间的马尔可夫参数向量,通过比较不同窗口内样本参数向量的均值与方差差异判断模型是否失配;文献[100]采用基于概率的慢特征分析方法提取过程变量的潜在变化,并以此提高软测量模型在动态工业环境的测量精度;文献[101]指出时变工业过程中具有影响力的过程变量通常变化缓慢,因此提出慢特征分析方法对时间序列数据中不同过程变量变化情况分析.在最近的研究中:文献[102]通过聚类获取时序数据变化特点,并根据数据状态趋势检测过程异常;文献[103]面向多模态化工过程,通过结合迁移学习与深度神经网络,使工业测量模型能快速检测并适应源域与目标域间的数据分布差异;文献[104]将几何字典学习思想用于工业过程监控,通过K近邻模型对历史样本中过程变量的几何特征进行编码,进而在字典学习框架下分析新旧样本间的信息差异;文献[105]采用欧式距离和时间加权距离度量样本在空间与时间尺度中的相似性,并结合支持向量数据描述(support vector data description,SVDD)建立过程监控模型;文献[106]结合PCA与SVDD处理动态、非线性和非高斯分布的故障检测问题.

与综合因素视角相似的方法:文献[107]面向时变化工过程提出具有定时功能的模糊Petri网算法,在获取过程动态特性的同时监测工况异常变化及其发生时间;文献[108]面向非线性系统,采用包含摄动信号与模型残差的互信息矩阵量化多变量系统中的模型失配程度.在最近的研究中:文献[109]针对工业过程中老化与时变特性提出基于动态多属性决策的控制性能评价方法,通过计算超调量、非线性、输出方差和控制阀黏滞指标权重变化获得过程动态评价基准;文献[110]从设备历史故障中提取受故障影响最大的过程变量,并在运行过程中观测上述变量的综合变化幅度判断设备故障状态;文献[111]提出基于随机森林的实时控制图,在监视模型性能变化基础上结合过程变量重要性实现故障检测与故障原因识别;文献[112]结合深度信念网络和SVDD提出分层表示学习方法,在分析模型测量误差变化的同时融入贝叶斯诊断框架表征过程变量中的故障信息.

4.3 工业漂移检测研究难点

结合以上分析,本文对工业过程中概念漂移检测的部分研究难点总结如下:

1) 难测参数的真值获取难:工业过程中由于技术局限与经济性考虑,通常无法为难测参数提供足够的真值,因此要求检测方法能在样本少量标记的情况下对样本分布变化做出有效分析.为此,基于无监督或半监督的检测研究是有必要的[16],但无监督方法在变量变化情况较为复杂时可能无法保证检测结果准确性,而目前针对半监督方法的研究相对缺乏.

针对真值无法及时标注问题,面向分类任务,文献[113]采用神经网络测量无标注样本的最大类别概率以生成样本伪标签;文献[114]采用SVM分析同一样本在不同类别下对模型决策边界的影响程度从而推断无标注样本标签.针对半监督学习,文献[115]提出基于协同学习的半监督回归策略,文中建立不同的K近邻测量模型并基于测量一致性输出置信度最高的样本测量值;文献[116]面向多媒体信息处理领域提出基于分歧的半监督主动学习方法.上述工作均为半监督漂移检测方法设计提供了支撑,但如何将其应用于连续型变量伪真值生成及具有概念变化的工业回归任务中仍需深入研究.

2) 样本的期望分布获取难:现有工作多围绕分类任务进行,因此样本概念通常可根据标签或类别等具有明显区分性质的信息划分.但实际工业过程多为回归任务,此时二项分布、Hoffeding不等式和分类器决策边界等常用的阈值界定方法难以直接应用.

在基于分布的虚拟样本生成研究中,文献[117]基于信息扩散准测提出整体趋势扩散技术,通过监视数据变化趋势估计其合理分布范围;文献[118]基于模糊理论提出扩散神经网络,以观测样本视为模糊正态分布中心并采用对称的扩散函数获取其理论分布范围.在基于特征的迁移学习研究中,文献[119]基于降维思想,采用再生核希尔伯特空间度量样本分布差异;文献[120]采用协同聚类获取源域数据的特征表示.上述工作均有助于提取工业过程变量的潜在概念,但如何将其与漂移检测技术结合并定义过程变量的概念变化阈值仍需结合实际工业过程的特点进行讨论.

3) 噪声等异常数据区分难:实际工业系统结构较为复杂,各监测环节扰动均会为样本采集过程混入噪声等异常数据,这些数据同样会导致模型性能改变从而易与漂移现象相混淆,显然,采用噪声样本对模型进行更新是无意义的.

现有研究中,文献[121]在集成软测量模型中采用基于分区、层次和密度的聚类方法去除噪声建模样本;文献[122]面向分类任务,提出基于k近邻感知的标签噪声过滤算法;文献[123]通过集成投票策略评估噪声得分以确认噪声样本.上述工作均为工业过程中异常数据辨识提供了思路,但如何将其与漂移样本合理区分仍需进一步分析.

5 总结与展望

本文介绍了当前工业中的概念漂移现象,总结了概念漂移的定义、形式以及现有的部分研究工作,分析了各类检测方法的特点与针对工业领域的部分难点,旨在为工业过程中概念漂移检测算法的设计与应用提供指导.

结合文中分析结果,在此提出对未来工作的研究方向与建议:

1) 加强半监督检测算法研究:目前半监督检测方法相对较少,该类方法在难测参数的真值难以获得时具有较强的研究意义.因此,在实际算法设计时可进一步结合虚拟样本生成和小样本分析等技术以充分利用已有真值样本的分布信息,同时建立可靠的无监督检测策略进行异常样本筛选.

2) 加强单样本检测算法研究:现有工作中针对单样本的算法较为缺乏,由于单个样本所携带分布信息有限,未来应结合基于综合因素的方法从样本输出空间、变量空间和变量子空间等方面进行多角度并行分析,同时引入多步测量与变化率分析等技术思想,实现对未来发生漂移的可能性、时间和程度等信息进行预判,以充分发挥单样本检测的时效性特点.

3) 加强多样本检测算法研究:现有多样本检测算法可初步保证检测准确性,在此基础上未来应加强对漂移现象的理论研究.如,建立漂移变化指标以量化历史样本的漂移速度与新样本漂移幅度,从而衡量不同形式漂移对软测量模型的影响程度并以此指示模型在当前环境中的更新方式与必要性,实现在加强模型适应性的同时避免模型因频繁更新导致的计算资源消耗与短期性能下降.

4) 加强与实际工业过程联系:算法设计时除对检测功能进行完善外,仍需考虑在工业运行过程中的适用性.如,在算法中引入噪声识别等数据预处理技术以应对过程数据的复杂性,同时结合专家知识与工艺机理充分了解运行过程中的易变工况,并建立多模式集成或自适应调整的漂移检测模型,提高工业环境中的漂移检测效率.

此外,本文仅针对概念漂移的检测方式进行综述介绍,其它研究内容如漂移理解、漂移适应性模型的构建与更新策略等仍需进一步讨论.

猜你喜欢
变量样本变化
抓住不变量解题
从9到3的变化
规划·样本
这五年的变化
随机微分方程的样本Lyapunov二次型估计
鸟的变化系列
分离变量法:常见的通性通法
“让路”让出的变化
“官员写作”的四个样本
不可忽视变量的离散与连续