面向工业过程难测参数建模的双窗口概念漂移检测

2022-01-24 14:19孙子健乔俊飞
控制理论与应用 2021年12期
关键词:离群误差距离

孙子健,汤 健,乔俊飞

(北京工业大学信息学部,北京 100124;计算智能与智能系统北京市重点实验室,北京 100124)

1 引言

目前软测量模型多采用批次数据以非增量方式构建[1],该方式所构建的模型难以表征当前时刻的工作状况及建模对象随时间的变化特性[2].此外,建模数据随工业过程运行逐渐增加,除存储成本不断增长外,实际过程数据分布易随环境变化和物料波动等因素改变,导致建模对象特性发生变化并使基于历史样本构建的测量模型难以适用于新样本[3],该现象称为概念漂移[4]或数据漂移[5].例如,在城市固废焚烧(municipal solid waste incineration,MSWI)过程中,气体污染物的生成关系会随入口物料组分变化、焚烧炉排速度和一/二次风量配比等参数调整而发生变化,进而对污染物排放浓度测量模型的精度产生干扰[6].因此,如何获得可表征概念变化的漂移样本并用于模型在线更新是提高概念漂移适应性的关键[7].

目前针对概念漂移的研究主要包括漂移检测、漂移理解和漂移适应,分别对应于漂移样本识别、漂移区域与时间定位和漂移适应性模型构建[8].因此,漂移检测是解决概念漂移问题的首要步骤,本文将围绕该问题并以工业过程数据为背景进行研究.目前代表性的检测方法包括:文献[9]提出的漂移检测法(drift detection method,DDM)较早定义了完整框架,其依据模型预测错误率判别概念变化,并在错误率达到报警级别时构建新预测模型,在达到漂移级别时采用新模型替换旧模型;文献[10]提出的早期漂移检测法(early drift detection method,EDDM)采用两个错误分类的间隔取代错误率变化分析漂移,并提高了检测效时性;文献[11]采用Hoeffding不等式判断当前模型预测正确概率的变化,当变化超过预设阈值时认为发生漂移.其它代表性的一类方法采用基于窗口的样本选择策略[12],即通过构建数据窗口分析新旧样本概念差异,如:文献[13]提出的浮动近似逼近(floating rough approxination,FLORA)系列算法采用有监督的增量学习模式实现动态窗口调整、历史概念存储和漂移识别;文献[14]采用全局窗口和新样本窗口分别监视总体模型误差和新样本预测误差,通过比较两窗口内的误差相似性以确认漂移.上述方法主要依据难测参数模型的预测误差判断样本漂移状况,但实际工业过程中测量装置易受环境振动和温度变化等因素干扰而产生噪声样本,此时仅依据预测误差将难以全面表征概念变化[8].

针对上述问题,部分方法依据过程变量分布变化检测漂移[15].面向分类任务中:文献[16]采用k近邻分类后计算最近邻样本间的欧氏距离判别漂移;文献[17]结合Kullback-Leibler散度与t检验提出半参数对数似然准则(semiparametric log-likelihood criterion,SPLL)以检测服从正态分布样本的概念变化;文献[18]将样本抽象为概念向量后计算其与聚类中心的距离差异;文献[19]基于异构欧氏距离提出漂移度(degree of drift,DOF)检测算法;文献[20]基于样本块间相对熵值进行漂移检测.但实际工业过程数据常以连续型变量为主,上述分类任务方法难以直接应用于工业过程难测参数的回归建模[21].面向回归建模任务的相似研究包括:文献[22]提出在核特征空间中采用近似线性依靠(approximate linear dependence,ALD)条件检验新旧样本相似关系;文献[23]采用ALD条件对在线建模所需的更新样本进行必要性识别;文献[24]结合相对ALD条件和相对预测误差(relative prediction error,RPE),采用模糊规则改进上述更新样本识别算法;但上述研究未考虑样本分布的变化.因此,到目前为止,针对回归建模问题采用样本分布变化对概念漂移进行检测的工作鲜有报道.

综上,为从难测参数预测误差与过程变量分布变化两个视角调悉工业过程样本漂移状况,本文提出基于离群样本检测窗口和分布检测窗口的双窗口概念漂移检测方法.首先,采用支持向量回归(support vactor regression,SVR)进行难测参数预测误差检测以确定离群样本;然后,采用F检验、t检验和U检验3种方法进行离群样本与历史样本间的欧氏距离分布相似性判别;最后,采用新定义的检验漂移度指标确定概念漂移样本.

2 工业过程漂移检测概述

2.1 概念漂移的形式与类型

工业过程难测参数建模任务可描述为:采用系列有真值标记的、截止k时刻的历史样本集

建立难测参数软测量模型,当k+1时刻新样本过程变量xk+1到来时所建立的预测模型应准确预测该难测参数真值yk+1.在该过程中:假定k+1时刻新样本服从总体分布Sk+1,历史样本服从总体分布Sk;当Sk=Sk+1时,代表概念未发生变化;当Sk/=Sk+1时,认为新样本相较历史样本集存在概念漂移[7].根据文献[25]描述,常见的漂移检测流程如图1所示.

图1 常见概念漂移检测流程Fig.1 Common concept drift detection process

图1所示流程可描述为:首先,根据历史样本与新样本和所构建模型获取预测误差或过程变量分布等能够表征样本概念变化的信息;然后,针对已提取变化信息采用某种漂移检测算法计算其变化程度;最后,判断当前变化程度是否超过漂移阈值并确认样本漂移状况.

通常,概念漂移分为突然漂移、增量漂移、渐进漂移和重复漂移4种类型[4],其示例如图2所示.

由图2可知:突然漂移为新概念在短时间内完全替换旧概念;增量漂移为旧概念在较长时间内缓慢改变直至成为新概念;渐进漂移为旧概念不完全消失情况下,新概念逐渐取代旧概念;重复漂移表现为多种概念交替出现.实际工业过程中概念漂移可依据产生原因分为过程漂移和传感器漂移,前者由机械设备磨损或气候与工业需求变化引起,常表现为突然或渐进漂移;后者由传感器硬件测量精度变化导致,不反映过程的真实概念变化[15].

图2 概念漂移类型示例Fig.2 Illustration of concept drift types

2.2 窗口检测方法

因单样本难以携带足够信息以推断总体分布,如何合理组织样本块成为首先待解决的问题,窗口法是常用策略之一[26].目前,窗口法已由单窗口改进为双窗口、多窗口、自适应窗口等多种形式.常见的窗口法示意如图3所示.

图3 常见窗口法示意Fig.3 Illustration of window-based detection methods

已有代表性研究工作包括:文献[27]采用交替型窗口结合稳定型与灵敏型模型,本质是根据检测性能变化交替使用双窗口法;文献[28]设置3个竞争型窗口,采用当次预测精度最高的窗口作为漂移判别依据;文献[29]采用自适应窗口,其窗口大小根据预测错误率实时自动调整.

本文采用具有不同检测功能的双窗口法.

3 算法策略与实现

本文所提出的双窗口检测算法策略如图4所示.

图4 算法策略Fig.4 Strategy of the proposed algorithm

图4中,X=[x1x2··· xk]表示历史样本集,w表示分布检测窗口宽度.离群样本检测窗口的目的是检索存在预测异常的样本;分布检测窗口的目的是确定离群样本中是否存在概念漂移.具体过程可描述为:首先,基于历史样本构建预测模型;接着,在离群样本检测窗口中,模型从新样本xk+1开始进行逐样本预测;然后,当新样本被检为离群样本时,在分布检测窗口中将其与历史样本集进行判别,并将分布发生变化的离群样本标记为漂移样本;最后,当后者数量达到预设窗口宽度w时,将漂移样本集用于模型更新,同时清空窗口并开启下一循环.

3.1 离群样本检测窗口

离群样本检测窗口内采用由历史样本构建的SVR模型进行预测.基于结构风险最小化的SVR具有泛化能力强的优点,其损失函数Lloss定义为[30]

3.2 分布检测窗口

分布检测窗口中主要功能包括:样本分布的假设检验方法设定、样本距离及其假设检验统计特性的计算和用于指示样本漂移状况的检验漂移度计算.

3.2.1 样本分布的假设检验方法

假设检验是根据样本推断总体分布特征的方法,目的是判断样本与样本、样本与总体之间是否存在抽样误差或本质差别,即是否存在噪声或分布改变,其原理是:先对总体特征作某种假设,再通过抽样研究推断该假设应该被拒绝还是被接受.常见的检验假设类型包括F检验、t检验以及秩和检验.

3.2.2 样本距离与统计特性计算

基于样本分布的概念漂移检测常采用距离函数量化新旧样本的分布关系[8].在欧几里得空间中,样本xi=[xi1··· xiP]和 样 本xj=[xj1··· xjP],i,j=1,2,···,k间的距离为

其中:P表示过程变量维数,xiP和xjP分别表示样本xi和xj中第P维过程变量.

首先,计算历史样本集中样本相互之间的欧氏距离DOld和离群样本与历史样本集间的欧氏距离DNew,如下所示:

其中:d1k和d(k-1)k分别表示历史样本集中第1个、第k-1个样本与第k个样本间的欧氏距离,表示分布检测窗口中第iw个离群样本与历史样本集中第k个样本间的欧氏距离,iw=1,2,···,wout,wout表示分布检测窗口中离群样本的数量.

接着,采用F检验分析DOld和DNew间方差的差异性:

3.2.3 检验漂移度计算

根据样本间欧氏距离及其统计检验结果,本文新定义检验漂移度指标Q用于度量离群样本是否发生漂移,如下所示:

因此,基于样本间欧氏距离,离群样本在统计特性上的显著性差异可由指标Q反映,具体为:当Q <2,认为样本间欧氏距离无显著性差别,即离群样本集中不存在概念漂移,报警由数据噪声引起;当Q≥2,认为样本间欧氏距离存在显著性差别,即此时离群样本集中含有漂移样本,报警由数据分布变化引起.

3.3 算法流程

本文算法流程如图5所示.其中wdrift表示离群样本中被检测为漂移样本的数量.

根据图5,所提算法可具体描述如下:

图5 算法流程图Fig.5 Flow chart of the proposed algorithm

1) 采用历史样本构建SVR并设置分布检测窗口宽度w、检验置信水平α等参数;当新样本到达后对其预测,并当绝对预测误差小于阈值ξ时,认为样本正常;当绝对预测误差大于阈值ξ时,认为样本为离群样本.

2) 计算分布检测窗口内离群样本与历史样本集间的欧氏距离,并通过F检验观察样本间距离方差是否相似:当方差无显著性差异时,对样本间距离进行t检验,计算两组距离的均值相似性;当方差存在显著性差异时,采用U检验,计算两组距离的秩和相似性.

3) 计算检验漂移度Q并判断样本漂移状况:当离群样本未发生漂移则将其从窗口中移除,进入下一循环;当离群样本发生漂移则将其记录在窗口内,并当窗口内样本数量达到窗口容量时进行模型更新.

4 实验与性能分析

本节在合成和MSWI工业数据集上对所提算法进行验证,并采用以下指标[8]度量算法性能:

4.1 合成数据集

4.1.1 数据描述

合成数据集采用文献[31]中的函数构建.

1) 平稳期样本采用Friedman函数[32]生成:

其中:x1~x5服从[0,1]区间内均匀分布;σ(0,1)是服从正态分布的随机数.

2) 突然漂移样本采用Losc模型[33]生成:

其中各变量取值范围满足

3) 渐进漂移样本采用下式生成:

其中x1~x5服从[0,1]区间内均匀分布.

综上,合成数据集样本组成为:1)突然漂移样本集:训练样本1000个,均为平稳期样本;测试样本1000个,包括平稳和突然漂移样本各500个;2)渐进漂移样本集:训练样本1000个,与突然漂移样本集训练样本相同;测试样本1000个,包括平稳和渐进漂移样本各500个.

4.1.2 实验结果

实验中SVR选择径向基函数(radial basis function,RBF)核函数、惩罚参数为1、核函数宽度σ为1、不敏感度μ为0.001;离群样本检测窗口中,突然漂移样本集误差阈值ξ为5,渐进漂移样本集误差阈值ξ为1.3;分布检测窗口中,突然漂移样本集窗口大小为10,渐进漂移样本集窗口大小为50,检验置信水平均为5%.

测试集中的模型预测效果及其对应的误差曲线如图6所示.

图6中,所提方法在突然漂移样本集的平稳区和漂移区中分别检测出离群样本21个和467个;在渐进漂移样本集平稳区和漂移区中各检测出离群样本275和397个.针对离群样本,计算其检验漂移度指标Q,其结果如图7所示.

图6 合成数据集中模型预测与误差曲线Fig.6 Model’s prediction and error curve in the synthetic data set

根据图7可知:

图7 合成数据集中离群样本的检验漂移度Fig.7 The test drift index of outliers in the synthetic data set

1)突然漂移样本集中:平稳区和漂移区各存在1个离群样本被检测为未发生变化;

2)渐进漂移样本集中:平稳区和漂移区分别存在26个和38个离群样本被检测为未发生变化.

综上,本文方法针对突然漂移样本集的检出率、漏检率和错检率分别为93.4%,6.6%和4%;针对渐进漂移样本集的检出率、漏检率和错检率分别为71.8%,28.2%和49.8%.相较突然漂移数据集而言,渐进漂移数据集的漂移状况较难判断,其原因在于渐进漂移过程中漂移样本与平稳样本的相似度较高.

两个样本集中,历史样本自身距离、历史样本与离群样本间距离的分布情况如图8和表1所示.

图8 合成数据集中历史样本与离群样本的距离分布Fig.8 The distance distribution of historical samples and outliers in the synthetic data set

由图8和表1可知:1)训练样本在(0~1)×102区间内样本距离占比最大(82.98%),(4~5)×102区间内样本距离占比最小(0.18%);2)突然漂移样本集中离群样本在(0~1)×102区间内样本距离占比最大(58.77%),(4~5)×102区间内样本距离占比最小(6.25%);3)渐进漂移样本集中离群样本在(0~1)×102区间内样本距离占比最大(83.63%),(4~5)×102区间内样本距离占比最小(0.17%).相较渐进漂移数据集,突然漂移数据集中的历史样本与离群样本的距离分布差异较为明显.

表1 合成数据集中不同区间的距离数量占比(%)Table 1 The proportion of distances in different intervals in the synthetic data set

当分布检测窗口中测得漂移后,采用窗口内漂移样本对模型更新.模型更新前后预测误差变化情况如图9所示.

图9 合成数据集中模型更新后预测误差变化Fig.9 Changes in prediction error after model updating in the synthetic data set

根据图9:1)突然漂移样本集中,旧模型的预测值均方根误差(root mean squared error,RMSE)为8.6769,采用漂移样本更新后模型的RMSE为3.3335,相较原模型降低61.6%;2)渐进漂移样本集中,旧模型的RMSE为4.3156,采用漂移样本更新后模型的RMSE为2.9261,相较原模型降低32.2%.结果表明采用本文算法检测得到的漂移样本对模型更新后可有效提升模型对漂移的适应性.

4.1.3 方法比较

DOF方法是面向分类任务的算法,其原理是:计算离群样本与历史样本集之间的异构欧氏距离,并比较离群样本与其距离最近样本的标签值的一致性.样本xi和xj的异构欧氏距离dheom计算如下:

其中xia和xja分别表示样本xi和xj中第a维过程变量.

样本不相似度为

为便于比较,本文将判断目标由标签值一致性调整为真值差异程度:

其中:yi*为第i个样本的最近邻样本真值,s为训练样本真值的标准差.

针对合成数据集的实验结果如图10所示.

图10 合成数据集中样本DOF值Fig.10 The sample’s DOF value in the synthetic data set

两种方法在合成数据集中的检测性能比较如表2所示.根据表2可知:1)本文方法在突然漂移数据集中相比DOF方法具有较高的检出率(93.4%)与较低的漏检率(6.6%),但错检率略高(4%);2)本文方法在渐进漂移数据集中相比DOF方法具有较高的检出率(71.8%),同时错检率与漏检率也相对较低(49.8%和36.8%).

表2 合成数据集中检测性能比较Table 2 Comparison of detection performance in the synthetic data set

4.2 MSWI工业数据集

4.2.1 数据描述

本文工业数据集来自北京市某MSWI发电厂.MSWI过程会排放包括氮氧化物在内的污染烟气[6],受不同季节固废水分含量变化、焚烧炉内环境变化等因素的影响,不同工况下的氮氧化物浓度不同.该现象符合本文所研究的概念漂移问题.

实验中同时考虑氮氧化物的产生和吸收过程,选取炉膛温度、一次风量、二次风量、炉膛剩余氧量、尿素喷入量等相关性较强的19个过程变量作为模型的输入特征,并选取1000个样本为训练集,另1000个样本等间隔划分为两个测试集.在测试集1中,前250个样本对应工况为炉膛温度(900~950)◦C,后250个样本对应工况为炉膛温度(950~1000)◦C,代表焚烧炉起炉过程中存在的漂移现象.在测试集2中,前250个样本对应工况为炉膛温度(950~1000)◦C,后250个样本对应工况为炉膛温度(900~950)◦C,代表焚烧炉停炉过程中存在的漂移现象.实验中采用炉膛温度(900~950)◦C工况下数据作为平稳样本;炉膛温度(950~1000)◦C工况下数据为漂移样本.

综上,MSWI工业数据集样本组成为:训练样本1000个,全部为平稳样本;测试集1样本500个,包括平稳和漂移样本各250个;测试集2样本500个,包括平稳和漂移样本各250个.

4.2.2 实验结果

在SVR模型中,选择RBF为核函数,惩罚参数、核函数宽度σ和不敏感度μ分别为10,10和0.001.离群样本检测窗口中测试集1和测试集2的误差阈值ξ分别为95和80;分布检测窗口中两个测试集窗口大小均为10,且检验置信水平均为5%.

模型预测效果和对应的误差曲线可以如下图11所示.

由图11可知:当测试集所处工况与训练集相同时,学习器预测性能较佳;当工况转变时,预测出现较大误差.所提方法在测试集1平稳区和漂移区中各检测出离群样本32个和231个;在测试集2平稳区和漂移区中各检测出离群样本22个和240个.

图11 工业数据集中模型预测与误差曲线Fig.11 Model’s prediction and error curve in the industrial data set

针对离群样本计算检验漂移度指标Q,其结果如图12所示.

根据图12可知:1)测试集1中,平稳区和漂移区各有17个和75个离群样本被检测为未发生变化;2)测试集2中,测得平稳区和漂移区各有10个和60个离群样本被检测为未发生变化.综上,本文方法在测试集1中的检出率、漏检率和错检率分别为62.4%,37.6%和6%;在测试集2中的检出率、漏检率和错检率分别为72%,28%和4.8%.

图12 工业数据集中离群样本的检验漂移度Fig.12 The test drift index of outliers in the industrial data set

历史样本自身距离、历史样本与两个测试集中离群样本间距离的分布情况如图13和表3所示.

表3 工业数据集中不同区间的距离数量占比(%)Table 3 The proportion of distances in different intervals in the industrial data set

由图13和表3可知:1)训练集中,样本在(0~0.5)×104区间内样本距离占比最大(81.23%),在(2~2.5)×104区间内样本距离占比最小(0.17%);2)测试集1中,离群样本在(0.5~1)×104区间内样本距离占比最大(71.17%),在(2~2.5)×104区间内样本距离占比最小(0.001%);3)测试集2中,离群样本在(0~0.5)×104区间内样本距离占比最大(82.1%),在(2~2.5)×104区间内样本距离占比最小(0.004%).

图13 工业数据集中历史样本与离群样本的距离分布Fig.13 The distance distribution of historical samples and outliers in the industrial data set

当分布检测窗口中测得漂移后,采用窗口内漂移样本对模型更新.模型更新前后预测误差变化情况如图14所示.

图14 工业数据集中模型更新后预测误差变化Fig.14 Changes in prediction error after model updating in the industrial data set

根据图14有:1)测试集1中,旧模型的RMSE 为558.7834,采用漂移样本更新后模型的RMSE 为60.2543,相较旧模型降低89.2%;2)测试集2中,旧模型的RMSE为854.6024,采用漂移样本更新后模型的RMSE为129.6192,相较原模型降低84.8%.结果表明,采用本文算法检测得到的漂移样本对模型更新后可有效提升模型在工业过程中的漂移适应性.

4.3 参数分析

此处主要分析不同参数对检验结果的影响.

4.3.1 误差阈值

阈值ξ大小决定离群样本检测窗口的报警频率,影响模型的内存占用和计算能力,决定预测精度和分布检验效率.以合成数据集为例,不同阈值下的检验效果如表4和图15所示.

图15 合成数据集中不同误差阈值下检测效果比较Fig.15 Comparison of detection effects under different error thresholds in the synthetic data set

根据表4可知,当误差阈值ξ选为2.5时,计算时间最长,且检验结果与ξ=5时相近;而当误差阈值ξ选为10时,计算时间最短,但相较ξ=2.5和ξ=5存在明显的漏检.因此,选择适当误差阈值能在检验准确度和计算时间中取得均衡.

表4 不同误差阈值对应检验效果(,,=5%)Table 4 Test results corresponding to different error thresholds

表4 不同误差阈值对应检验效果(,,=5%)Table 4 Test results corresponding to different error thresholds

4.3.2 检验置信水平

表5 合成数据集不同置信水平的检验结果(ξ=5)Table 5 The test results under different confidence levels in the synthetic data set

图16 不同置信水平测得漂移样本数量Fig.16 The number of drift samples measured at different confidence levels

根据表5可知,在不同置信水平下的检验结果存在差异性,即置信度越小对样本间距离差异的敏感度越高.在统计检验中,通常选取5%以取得较好效果.

4.3.3 其它参数

分布检测窗口大小w的影响:窗口较大时可储存更多新概念样本,进而使模型能充分学习概念变化并获取较高预测精度,但由于窗口检索时间过长易导致模型检测不及时;窗口较小时可保证模型检测及时性,但由于少量样本携带的新概念信息有限,易使模型进入频繁更新状态从而增大计算资源消耗.因此,在应用时需充分考虑过程的及时性与准确性要求,并设置人机交互界面以供实时调整.

5 总结

本文提出了一种面向工业过程难测参数建模的双窗口概念漂移检测方法,主要贡献是:1)提出基于离群样本检测窗口和分布检测窗口的双窗口概念漂移检测方法,前者用于异常检测,后者用于样本分布检测;2)面向回归建模问题,提出采用离群样本与历史样本集间的距离变化间接反映样本分布变化的新思路;3)基于3种假设检验方式定义了新的检验漂移度指标,用于定量识别离群样本中能够表征建模对象概念变化的漂移样本.所提方法在合成和MSWI工业数据集上的验证结果表明了其有效性.

需进一步研究的问题是:1)该方法的检测性能较依赖模型预测精度,应结合实际过程构建精度更高的软测量模型以提升检测效率;2)方法中可调参数较多,应结合参数分析结果与实际过程特点对各参数进行自适应调整.

猜你喜欢
离群误差距离
一种基于邻域粒度熵的离群点检测算法
基于相关子空间的高维离群数据检测算法
算距离
隧道横向贯通误差估算与应用
隧道横向贯通误差估算与应用
近荷独坐
候鸟
精确与误差
每次失败都会距离成功更近一步
九十亿分之一的“生死”误差