具有输入数据注意力机制的卷积神经网络用于氟化工产品质量预测

2022-03-09 00:38李欣铜陈志冰魏志强李苏桐陈旭宋凯

化工进展 2022年2期

李欣铜，陈志冰，魏志强，李苏桐，陈旭，宋凯

（1 天津大学化工学院，天津 300350；2 航天长征化学工程股份有限公司，北京 100176；3 巨化清安检测科技有限公司，浙江衢州 324004；4 巨化股份有限公司，浙江衢州 324004）

在现代化工行业中，尤其是对于产品广泛应用于工业、日常生活、医学和核工业等各个领域的氟化工而言，产品质量控制格外重要。工业生产上的质量测量往往需要通过昂贵的仪器、实验室分析和其他额外工作来实现。尽管在线成分分析仪的应用日益广泛，但受限于成本，工业实践中通常是多套设备轮流共享一个在线成分分析仪。因此，重要成分质量测量过程中高成本、低效率和滞后性大的缺点，仍然严重阻碍了质量控制水平的进一步提高。另一方面，随着大数据技术的飞速发展，集散控制系统（distributed control system，DCS）在线收集过程数据的能力越来越强。目前，开发质量预测模型来提取变量中蕴含的大量特征信息，实现对产品质量的精准预测，或者说实现质量变量的软测量，又一次成为了研究热点。现阶段常用的质量预测方法主要包括：多元线性回归（MLR）、主成分回归（PCR）、偏最小二乘法（PLS）、 Fisher 判别分析（FDA）、独立成分回归（ICR）等线性回归方法。这些方法通常将原始测量数据投影到低维线性子空间上提取可变特征，然后在低维子空间内构建预测模型，从而有效处理具有多重共线性的高维数据。此外，还包括适用于非线性问题的神经网络PLS、径向基函数PLS、核函数PLS、核函数PCR、核函数ICR 等非线性回归方法。虽然这些研究已为实现在线产品质量预测做出了开创性工作，但由于氟化工多种变量之间复杂的非线性关系，工业应用仍然困难重重。更重要的是，氟化工过程中重要零件或设备的腐蚀、老化、结垢等变化具有不同的时间尺度特性。多种时间尺度特性的共存，使其成为一个时变特性非常复杂的过程。这种非线性与强时变特性复杂的耦合使得非线性方法甚至是常规的机器学习方法难以完成质量预测任务。

随着计算机技术（即计算速度、存储容量）的快速发展，深度学习方法在质量预测实践中的应用越来越普遍。在过去的几年中，相比其他数据驱动方法，深度学习方法在许多领域吸引了更多的研究关注并展示出更佳的性能。Hinton 等证明了具有多个隐藏层的人工神经网络（ANN）所学习的特征对数据表征更为本质，这有助于提高分类性能。同时，“分层预训练”策略有效克服了训练深度神经网络的困难。这些提议激发了学术界和工业界关于深度学习研究应用的新热潮，并逐步发展出深度人工神经网络（DANN）、深度置信网络（DBN）、深度卷积神经网络（CNN）等。

CNN 能够根据不同时间轴上输入数据的特性进行参数的自适应调整，以实现模型训练动态迭代。换句话说，CNN 是一种在数据处理过程中实现动态建模的方法。因此，CNN 非常适用于时间序列预测任务，如工业过程的质量预测任务。然而，由于氟化工过程的上述特征，常规CNN 的性能仍然不足以实现精准的质量预测。

立足于上述氟化工过程所面临的实际困难，本文提出了具有输入数据注意力机制的卷积神经网络算法（ACNN），针对性地解决了氟化工数据带有复杂而强烈时变特性的质量预测难点问题，以满足工业过程高水平质量控制的需要。一方面，该算法作为基础框架，可推广到各类具有强时变特性过程的质量预测任务当中；另一方面，训练过程无需任何时变特性的先验知识，最大限度地简化了实际工业生产过程中训练、部署模型的步骤。虽然该方法作为深度学习算法在实践中应用尚存在一定挑战，例如，对计算机硬件水平的高要求、模型泛化性和训练时间等，但是其能够充分利用氟化工生产过程中的海量数据，具有大幅提高工业控制水平的潜力。将该方法应用于氟化工生产数据和Tennessee Eastman（TE）模拟数据，证实了算法的有效性，揭示了良好的工业应用前景。

1 卷积神经网络算法

卷积神经网络（CNN）是一种典型的深度学习算法，受到生物过程的启发，其神经元之间的连通性模式类似于动物视皮层的组织。越来越多的应用有力地证明了CNN 在非线性监督学习应用中的优越性。

常规的CNN 结构包括一个输入层、一个输出层以及多个隐藏层。这些隐藏层通常由一系列卷积层、池化层、全连接层和归一化层组成。卷积层的基本功能是特征提取，这是CNN 最重要的功能。常见的卷积核为正方形（即3×3、5×5等），以便从行和列中均匀提取变量特征。连续几个卷积层之后添加一个池化层，以压缩数据和减少参数数量，进而提高网络学习的速度并避免过度拟合。通过多重卷积和池化提取到的特征图被输入全连接层，归一为预测值，从而实现从输入到最终输出的特征提取及预测任务。常用的训练方法有Adam 算法、高级随机梯度下降（SGD）算法和其他梯度下降方法等。另外，为了防止过度拟合，CNN 训练过程中还使用dropout算法。

2 具有输入数据注意力机制的CNN模型构建

2.1 输入数据注意力机制

相对于其他简单的化工过程，氟化工过程的数据具有更复杂的时变特性。而这类时变特性往往体现在不同长度的时间跨度之中，无法被某一个时间序列所表征。受限于输入数据矩阵X的固定，常规CNN 仅能提取有限时段的单一时变特性，因此不利于把握整体时变特性，无法准确预测氟化工过程的产品质量。基于此，本文提出具有输入数据注意力机制的CNN算法。利用输入数据注意力机制，自适应地提取不同跨度的时变特性，从而对输入数据加权优化后，再进行特征提取完成质量预测，以提高其预测精度。

本文提出的ACNN算法中，CNN的输入数据不再是单个的矩阵，而是多个不同时间跨度的矩阵。如图1(a)所示，这些矩阵被储存在个不同的通道之中，作为CNN 的一次输入。借鉴SE-NET设计了输入数据的注意力层，如图1(b)所示。首先进行挤压（squeeze）操作，即利用全局池化（global pooling）逐通道压缩特征，以表征特征通道上的全局分布，由式(1)求得。

图1 输入数据注意力机制

再通过激励（excitation）操作为每个特征通道生成优化权重。为了降低模型复杂度并提升泛化能力，设计了两个全连接层，从而保证重要尺度的特征不会因其他尺度特征的加入而被削弱。整个过程如式(2)所示。

最后，将sigmoid激活后的权重作为每个特征通道的重要性，经乘法逐通道加权到先前的特征上，完成对原始特征在通道维度上的加权标定，如式(3)所示。

在具有输入数据注意力机制卷积神经网络模型训练时，不同通道的权重会根据最终的预测值在反向传播中自适应地调整。因此，模型能够通过不断调整各个通道的权重来充分利用各个跨度时间序列内的特征信息。

2.2 矩形卷积核和池化层的构建

不同通道内数据长度的不一致，影响了下一步卷积的进行。本文采用多通道异步长的卷积方式，通过对较长数据序列等距采样，克服不同通道内输入数据尺寸不一致问题，方法如图2(a)所示。对于常规图像处理任务而言，正方形卷积核通常非常有效。但是，在本文的研究中，输入工业数据矩阵X=[(),(),…,x()]由在个采样时间点的个过程变量组成。显然，X的行和列包含完全不同的信息：每行包含同一时间采样的不同变量的值，而每列包含不同时间采样的同一变量的值。相应地，行（变量）之间和列（变量的时间序列）之间的相关性完全不同。由于正方形卷积核容易混淆变量和时间的特征关系，采用了沿变量方向的长方形卷积核（如1×3、1×5 等），如图2(b)所示。其运算如式(4)所示。

式中，是沿可变方向构造的长方形卷积核；和分别是输入和输出矩阵；是的列数。为了尽可能全面地提取高维特征，ACNN在一个卷积层中使用了多个卷积核。相应地，卷积层的输出可以由式(5)计算。

式中，表示激活函数；是第个卷积层的卷积核数；x

是第层的第个输出特征图；xl是第-1层的第个输入特征图；是卷积核；bl是第个卷积核的偏置。

类似地，为了尽可能多地保留变量在时间序列中所包含的时变信息，以获得更好的在线质量预测性能，ACNN使用了沿时间方向（列）的长方形池化层，如图2(c)所示。

图2 ACNN卷积操作

2.3 损失函数

损失函数是卷积神经网络训练过程中的关键因素之一，因此需要针对不同的问题选择不同的损失函数。损失函数是模型对数据拟合程度的体现，拟合程度越好，损失函数的值也越小。同时，损失函数的值越大，其对应的梯度也越大，变量更新的速度就越快，根据梯度下降进行的训练越迅速。因而ACNN 中使用了拟合效果良好的均方误差（MSE），如式(6)所示。

3 结果与讨论

3.1 预测TE模拟过程产品质量

TE 模型是化工生产过程的模拟程序，其可以为高级过程控制研究提供大量的模拟工业数据而无需任何损耗。另外，现阶段应用于TE 模型的算法很多，便于对算法效果进行横向比较。因此先在TE 模型上对上述方法的有效性进行了验证。图3为TE 模型的示意图，它包含5 个主要单元：反应器、汽提塔、冷凝器、循环压缩机和分离器。

图3 TE模型流程

本研究中使用模式3 中反应动力学漂移故障（故障13）来模拟具有缓慢时变的波动特性。由于模式3中的两个过程操作变量是常量，因此仅使用剩余46 个连续变量来预测最终产物的成分分析数据。连续变量采样间隔为200 个样本/h，成分分析数据采样间隔为4 个样本/h。所有数据连续收集500h，并用前400h 作4E3A 训练集，后100h 作为测试集。

ACNN 结构优化为Conv(32)-Conv(64)-Pool-Conv(128)-Conv(128)-Pool-FC(1024)-FC(1)，同时将前两个卷积层的“Padding”参数设置为“VALID”。为了验证该方法的性能，将预测结果与其他方法（如KPLS、O-ICA-KPLS、常规的CNN、SE-NET）应用于TE模型的最佳结果进行了比较。3种深度学习方法均采用相同模型结构和参数，以证实输入数据注意力机制的有效性。表1总结了不同方法对组分D的预测结果，其评价指标为MSE。

表1 不同方法TE模型质量预测结果比较

总的来说，ACNN在训练集和测试集上都表现出最低的MSE 值，分别为0.0094 和0.013。普通非线性方法与深度学习方法的差距明显，KPLS 方法和O-ICA-KPLS方法在测试集上结果仅为0.5260和0.2285，基本难以准确预测，而各类深度学习方法均获得较低MSE。尽管3种深度学习方法选用的模型结构和参数完全一致，但是由于SE-NET 和ACNN方法分别引入不同的注意力机制，因而精度上呈现较大差异。常规CNN 方法在训练时表现良好，但其在测试集上的性能不佳，仅为0.028。SE-NET与常规CNN方法类似，受到训练集为包含的特征干扰时无法有效把握整体的波动特性，测试集上结果为0.026。ACNN 取得最佳结果，证实了ACNN独特的输入数据注意力机制使其能够更准确地提取不同时间尺度上的故障波动特征，并做出更精确的数据预测趋势。

3.2 预测氟化工过程产品质量

3.2.1 R-22生产流程简介

R-22 也称为HCFC-22，是主要的氟化物之一。尽管R-22 作为制冷剂或推进剂的应用一直存在争议，但由于其是四氟乙烯（TFE，主要用于聚四氟乙烯树脂、共聚物和食品气雾剂）以及其他含氟聚合物产品的主要原材料，全世界对R-22 的需求量一直稳定增长。

AHF（无水氢氟酸）和氯仿反应生成R-22 粗产物，再通过水和碱纯化除去残留的HCl 和HF 获得精细产品。R-22 生产过程的主要操作单元包括进料、反应器、两个精馏塔，水洗塔和分离器，如图4所示。

图4 R-22生产流程

主要产品R-22 的质量分数是衡量产品质量高低的主要指标，影响后续一系列氟化物的生产，因而，精确的R-22 产品质量预测手段对工业流程的整体效益至关重要。另外，过程变量中存在的强烈时变特征以及变量之间复杂的非线性耦合关系使得常规质量预测方法的性能远远不能令人满意。因此，选用R-22 生产过程来验证上述具有输入数据注意力机制的CNN模型的有效性。

3.2.2 氟化工过程数据集构建

使用R-22 生产过程的真实数据来验证该方法的有效性，所有数据均来自位于中国衢州的氟化工厂。根据保密协议，仅使用了对整个生产过程影响最大的R-301反应器相关过程变量，见表2。所有DCS 数据均以1min 的采样间隔进行采样，从2020年1月到9月，共274天。成分分析数据为R-22产物质量分数，通过人工测量每8h一次。使用前8个月的数据构建训练集训练模型，并用第9个月数据构建测试集进行验证。

表2 R-22生产过程中R-301反应器的相关变量

3.2.3 氟化工过程模型结构参数调整

与其他深度学习算法一样，设计ACNN的难点在于没有统一的指导原则。因而由浅及深设计并验证了6种不同的网络结构，不同结构下的最优解见表3。模型性能的优劣由损失函数MSE确定。

适当地增加卷积神经网络的深度可以提高预测精度，增强模型学习能力，在测试集上获得较好的结果。但是，过度复杂的网络结构反而导致过拟合现象，降低模型性能。如表3所示，模型4具有适当的网络深度，在测试集上MSE 值最小，具有良好的拟合能力。下文内容中将使用模型4进一步分析讨论。

表3 不同卷积神经网络结构下的预测结果

在模型4 中，输入数据尺寸为（480, 240,120）×10，其中“（480,240,120）”分别代表对应通道中矩阵的时间序列长度，“10”代表变量的数量。卷积核和池化层尺寸分别优化为1×2和2×1。这种设计可以突出不同变量之间的相关性，并在考虑计算负担的情况下最大程度地提取不同时间序列中包含的特征信息。将卷积层的“Padding”参数设置为“SAME”，以解决对输入数据边缘信息提取不足的问题。另外，为避免过度拟合，“dropout”设置为0.5。

3.2.4 氟化工过程质量预测结果

为了验证本文方法在质量预测任务中的准确性，表4 中列出了最佳性能下的KPLS、O-ICAKPLS，常规的CNN、SE-NET 以及ACNN 方法的预测结果MSE，3种深度学习模型采用完全相同的模型结构和参数。一般任务中常用的非线性方法KPLS 和O-ICA-KPLS 无法适应氟化工过程复杂的非线性特征，对R-22 过程质量预测不准确。常规CNN与SE-NET作为深度学习方法已经远远强于之前的非线性回归方法，但是仍有部分氟化工时变特征信息无法被其合理应用。ACNN由于引入独特的输入数据注意力机制，在测试集表现上远优于常规CNN，MSE值低55%。

表4 不同方法R-22过程质量预测结果比较

为了更为直观地展示性能的提升，R-22 真实值、ACNN 预测值和常规CNN 预测值如图5 所示。可以发现，ACNN和常规CNN均能够在一定程度上跟踪质量变化。其中，ACNN拟合更为精确，尤其对第23、52、89 个点上的强烈跳变也做出了准确的预测。相比之下，常规CNN 在整体拟合趋势上出现偏差，且在部分点响应迟钝。总体而言，ACNN质量预测结果具有更高的准确性，能够更加准确地反映时变特性对产品质量的影响。

图5 R-22真实值、ACNN预测值和常规CNN预测值的、比较（根据保密协议，不显示纵坐标具体取值）

4 结论

为了提高复杂非线性与强时变特性耦合的氟化工过程的质量预测性能，克服质量变量测量滞后的局限性，本文提出了一种具有输入数据注意力机制的卷积神经网络（ACNN）的质量预测方法。通过引入输入数据注意力机制，达到无需先验知识即可针对性地提取原始数据中复杂时变特性的目的，克服了卷积神经网络输入矩阵尺寸单一而无法准确跟踪复杂时变特性的缺点。同时，针对工业数据特点，构造的长方形卷积核和池化层进一步提高了ACNN 的特征提取能力。该方法在TE 模型中进行了初步的验证，在异常波动状态下的MSE 为0.013，远优于常规CNN 和SE-NET。在氟化工R-22 过程的应用结果表明，在无任何先验知识的情况下，ACNN的特征提取能力明显优于常规CNN和SE-NET，取得更佳的质量预测结果，在总体预测和其中强烈跳变点的结果上更为可靠。以上结果证明，该方法的泛化性良好，可推广到具有强时变特性或波动特征的实际工业过程，具有良好的工业应用前景。虽然深度学习模型的训练过程中参数量过大，对计算机硬件的要求较高，是制约其工业应用的最主要原因。但是，随着产业转型升级，控制系统的更新换代，深度学习先进控制方法必定在工业控制领域大放异彩。