基于时序数据库与深度学习的制丝实时数据应用研究

2021-08-04 03:50顾茜钱继春
中国烟草学报 2021年3期
关键词:时序含水率预测

顾茜,钱继春

厦门烟草工业有限责任公司,信息技术部,福建省厦门市海沧新阳工业区新阳路1号 361022

叶丝干燥作为制丝过程的一道重要工序,其加工强度直接影响卷烟的感官质量[1]。相对于滚筒干燥,气流干燥由于加工时间短,加工稳定性要明显低于滚筒干燥。某卷烟工厂的新型气流式烘丝机为CDT-5L,工序的设备运行参数超过50项,生产过程中气流干燥出口叶丝含水率波动大,造成后续工序的物料含水率不稳定,成品烟丝质量下降。近年来,针对气流干燥阶段水分控制的问题已进行了较多研究[2-6],其中,许冰洋等通过收缩特性分析准确表征了叶丝脱水过程中的干燥动力学特性[2];张二强等通过气固流动数值模拟,提出添加弧形导流板结构使得烟丝颗粒在干燥塔内的分布更为均匀[3];周冰等基于贝叶斯网络分析方法构建了以工艺参数为节点、影响关系为路径、影响大小为路径参数的网络模型,通过定量分析工艺参数间的关系,对关键控制参数进行优化调整[5]。上述研究成果有效指导了气流干燥的生产过程控制,但对于加工过程细粒度控制尤其是干燥料头关键控制的研究较少,实际生产过程中严重依赖基于人工经验的决策。

制丝生产的过程数据是典型的时序数据,常见的时间序列预测模型包括指数平滑、移动平均自回归(ARIMA)模型等基于统计方法的预测。近年来,深度学习技术在时序数据上的应用研究也不断深入,循环神经网络模型(RNN)已被证明能较好地捕捉事物的时间规律,被广泛应用于机器翻译、语音识别等问题中[7-9]。RNN中最常使用的两种结构是LSTM和Seq2Seq[10-11],关于RNN在时序数据上的应用,国内外学者进行了广泛的研究[12-18],如张建晋等提出LSTM针对时序数据扩展到网络节点单元实现短期趋势特征和历史周期特征的统一建模[12],Srivastava等基于Seq2Seq模型对时空数据进行预测[13],毛莺池等提出时序降噪自动编码器(TSDA)压缩高维检测数据,表征传感器测点时空特征[14],丁小欧等通过建立时序相关图模型,对传感器设备采集数据进行异常检测[16]。

因此,本文以出口叶丝含水率实时趋势预测为研究对象,通过将工业物联网的时间序列数据处理技术引入制丝线叶丝干燥生产控制过程,设计实验对比三次指数平滑、LSTM和Seq2Seq算法对出口叶丝含水率实时趋势模拟效果,对生产场景的算法选择进行优化,从而辅助叶丝干燥工序的人工决策,以提高气流干燥生产过程的控制能力,稳定叶丝质量。

1 实验数据与软硬件平台

1.1 实验数据

卷烟制丝工艺所产生的实时数据主要包括三类:设备状态数据、生产运行数据、生产操作数据,这些数据都是时刻变化的,具有很强的时间属性。该卷烟工厂的SCADA系统比较完整地采集了设备状态数据、关键生产运行数据和部分生产操作数据,以一系列时间戳连续的形式存储在Wonderware的历史数据库中。

制丝生产数据具有明显的周期性特征,事实上,很多生产操作都涉及延迟反馈下的序列决策。例如,叶丝干燥料头的控制操作呈现明显的时间变化规律;生产操作人员需要根据一段时间内的叶丝含水率变化情况,调整烘丝机参数设置。

本实验所使用的数据为CDT-5L气流式烘丝机叶丝干燥工序2019年1月起连续6个月的生产监控数据,数据采集时间间隔为10s,有效数据48万余条。

1.2 硬件平台

本实验所使用的CPU环境为Intel Core i5-7200U,具有8GB RAM和128 GB SSD,用于研究普通硬件配置下时序数据库和算法的表现。

本实验所使用的GPU环境为云端V100服务器,显存为16GB,可以支撑深度神经网络计算。

1.3 软件平台

本实验所使用的软件平台为开源深度学习引擎Tensorflow 1.6,开源时间序列数据库InfluxDB 1.7,Python版本为3.6。Tensorflow在CPU和GPU环境下都能实现神经网络计算加速,具有良好的平台适应性。InfluxDB是当前比较流行的时间序列数据库,广泛应用于DevOps监控和IoT传感器等大规模的时序数据存储与实时分析场景。

2 算法设计

2.1 三次指数平滑算法(Holt-Winters Exponential Smoothing)

根据实时生产参数的变化情况,叶丝干燥生产一般分为三个阶段:料头、料中和料尾。料头料尾阶段,烘丝机内部的叶丝流量远小于料中正常生产时物料流量,产生“干头干尾”烟丝[19],需要手动操作随时调整相应的控制参数。料中阶段,叶丝流量比较平稳,控制参数变化主要通过烘丝机内部PID自动调节,此阶段进行精准的手动“微调”可以有效提升叶丝干燥质量。出口叶丝含水率是衡量干燥工序生产质量的重要指标,但是,气流干燥加工稳定性较差,导致出口叶丝含水率指标实时波动较大,由于PID自动调节的存在,这种波动往往呈现比较明显的周期性,我们基于三次指数平滑算法实时提炼出参数指标的整体变化趋势并进行预测,为烘丝机控制调整提供参考。

指数平滑法的基本思想是随机事件对当前参数值预测结果的影响随时间间隔增大呈指数衰减,同时,时间序列还经常呈现出周期性变化的事件[20]。三次指数平滑算法是指数平滑的扩展,由Holt和Winters提出,明确地增加了对单变量时间序列的周期性支持。

三次指数平滑算法由一个预测方程和三个平滑方程——关于水平 、趋势 和周期 ,对应三个平滑参数:水平因子 、趋势因子 、周期因子 ,每隔时间段就开始周期性重复的行为被称为“季节”,季节性的实现分为加法方法和乘法方法两种。

(1)加法方法表示具有线性季节性的三次指数平滑算法即季节变化在整个系列中大致恒定。它的实现方程为:

其k是(h-1)/m的整数部分,确保用于预测的季节性指数的估计值来自样本的最后一点。

(2)乘法方法表示具有指数季节性的三次指数平滑算法即表示季节变化与系列水平呈比例变化:

2.2 LSTM模型

相比主要由PID进行调控的料中生产,叶丝干燥的料头生产需要大量的人工操作交互,最基本的操作方式,就是结合前几个时刻的生产参数指标,根据经验推断出下一时刻最合适的调整策略。模仿学习(Imitation Learning)是从历史数据中学习出策略的一种有效方法[21],在叶丝干燥料头操作这一场景中,引入记忆机制的RNN相比传统神经网络更接近人的思维习惯,适合作为模仿学习的建模方向。

传统RNN多采用反向传播时间(BPTT)算法,随时间增加,网络层数增多,会产生梯度消失或梯度爆炸的问题[10]。LSTM算法针对这些缺陷进行了改进,引入三个控制门:输入门 ,遗忘门 和输出门 ,产生让梯度得以长时间可持续流动的路径。LSTM模型增加了记忆单元 专门进行线性的循环信息传递,同时将非线性的输出信息传递给短期记忆单元 。在每一个时刻,遗忘门 控制上一时刻记忆 的遗忘程度,输入门 控制当前时刻候选状态 有多少信息需要写入长期记忆,输出门 控制当前时刻内部状态 需要输出多少信息给 。整个网络可以描述为:

其中 σ为logistic函数,其输出区间为(0,1),描述了信息能够通过的比例,⦿为向量元素乘,为当前时刻输入,ht-1为上一时刻的外部状态,W为神经网络的权重,b为神经网络的偏置。

图1 LSTM模型结构Fig.1 LSTM structure

本文采用的模型评估标准为均方根误差(RMSE):

图2 LSTM模型评估阶段计算图Fig.2 Evaluation phase dataflow graph based on LSTM model

2.3 Seq2Seq Attention模型

在出口叶丝含水率预测的场景中,影响的结果并非只是前几个时刻出口叶丝含水率,还有工艺气温度、循环热风温度、干燥塔出口气流流量、膨胀单元入口气流流量等等,本文尝试用Seq2Seq模型进行多变量序列预估。

Seq2Seq是一个编码—解码(Encoder-Decoder)的网络,处理的是序列到序列映射的任务 ,Encoder将输入的序列编码映射到语义空间,变为固定长度的向量表达;Decoder将这个语义向量解码,变成可变长度的目标的信号序列。在引入注意力机制后,输出网络会自动学习与其对应的输入关系的权重[11]。Seq2Seq结构最灵活的地方在于输入序列和输出序列的长度是可变的,可以用于翻译,聊天机器人,句法分析,文本摘要等,也适用于序列预估的场景。

在本文中,我们以 个时间点的数据作为输入,之后 个时间点的数据作为输出,这个长度为 的窗口可以滑动构建出一批批的样本。Encoder和Decoder的结构采用RNN的LSTM模型。整个网络可以描述为:

在RNN中,当前时间的隐藏状态是由上一时间的状态ht-1和当前时间的输入xt共同决定的,因此在Encoder阶段:

同样在Decoder阶段,隐藏状态输出有:

对于Decoder的第i个时刻,对应的语义向量ci表示为:

其中 是每一个Encoder的隐藏状态对应的权重:

通过Decoder的隐藏状态加上Encoder的隐藏状态来计算分数用于计算权重 的 表示为:

将语义向量和Decoder的隐藏状态串起来:

最后通过一个激活函数计算输出的目标值yt。

图3 Seq2Seq计算图Fig.3 Seq2Seq dataflow graph

3 系统设计

阻碍时间序列预测在制丝实时生产应用的一个主要障碍是,当前的时间序列算法通常需要在离线数据集上进行训练,而在SCADA/HMI中直接应用算法耗时耗力,工控系统升级昂贵、风险高,在实时数据监控领域,远不及快速迭代的互联网架构。

InfluxDB是一款在互联网行业广泛使用的开源时序数据库,是开源实时数据处理框架TICK(Telegraf,InfluxDB,Kapacitor,Chronograf)的核心,支持对实时数据进行存储、统计分析和可视化展现,前端可视化也可用开源组件Grafana替换Chronograf。TICK或TIGK框架通过Restful API输入输出,支持容器化和分布式部署。我们根据实际情况对TICK架构进行了改进,跳过Telegraf将叶丝干燥生产实时数据通过现有数据采集手段直接存储到InfluxDB中,历史数据则从Wonderware中导出,采用离线数据导入方案存储到InfluxDB;提供Chronograf或Grafana两种可视化方案,然后连接开源深度学习框架Tensorflow或Pytorch在线或离线尝试各种时间序列预测算法,希望可以打造一个面向云端、扩展性强、自主可控的秒级端到端时间序列数据应用框架,为气流烘丝机操作提供有效参考。

图4 基于时间序列数据库的实时数据分析系统设计Fig.4 Real-time data analysis system design based on TSDB

该实时数据分析系统有以下优势:

(1)提供了基于Python的标准数据传输模块,从Wonderware中导出的离线历史数据通过简单的数据处理,可以整合牌号、批次等信息后再快速写入InfluxDB,便于进一步筛选数据;

(2)基于企业已有的批次管理系统,可将实时数据写入InfluxDB,不需要过多改造;

(3)实现参数趋势实时预测,报警和数据查询、统计、可视化配置简单,可以快速迁移、推广到其它场景;

(4)与深度学习平台打通,实时在线完成耗时最长、最为繁琐的数据预处理过程。

4 实验与分析

4.1 三次指数平滑算法

将历史生产数据从离线模块导入InfluxDB中,首先选定某批次前40分钟的生产数据,通过InfluxQL将剧烈波动的出口叶丝含水率数据按分钟聚合,然后用三次指数平滑算法拟合并预测,实验结果列在表1中:

表1 某批次气流烘丝出口叶丝含水率三次指数平滑算法预测Tab. 1 Cubic exponential smoothing algorithm for predicting moisture content of tobacco leaf (batch No. 20190406021) at the outlet of air flow drying machine

图5 基于三次指数平滑算法的某批次出口叶丝含水率预测Fig.5 Prediction of moisture content of tobacco leaf from a certain batch based on cubic exponential smoothing algorithm

图5是三次指数平滑模型预测值和实际值的拟合与预测曲线。可以看出,分组聚合后出口叶丝含水率指标整体趋势比较平稳,三次指数平滑算法对该批次数据中段拟合效果较好,前段、后段误差相对较大,RMSE为0.0179,总体上比较准确地反映了出口叶丝含水率的变化趋势。数据库提供的InfluxQL实现了时间序列数据的实时聚合和算法调参,在Grafana或Chronograf上操作简单易行,操作人员可以根据指标趋势随时季节数,直至得到理想的预测趋势;提供报警规则配置界面,显示在可视化UI的报警日志界面可通过Restful API传递给其它系统。图6是在Grafana中搭建的制丝生产实时数据模拟可视化界面,在时序数据库中集成了制丝生产数据和现场环境温湿度数据,可实现参数实时告警监控。

图6 制丝生产实时数据看板Fig.6 Real-time data dashboard for tobacco primary processing base on Grafana

4.2 LSTM模型

工作时工艺气温度是叶丝干燥工序料头最频繁调整的参数,因此可以分析料头阶段工作时工艺气温度随时间的变化,通过深度神经网络进行表达。我们编写Python程序访问InfluxDB,获得2018年6月至2019年4月某牌号的叶丝干燥工序工作时工艺气温度参数生产数据,用Pandas工具库进行处理,将每批次前150 s工作时工艺气温度数据送入模型中训练。

从图7看出拟合效果非常显著,模型基本学习到该牌号叶丝干燥料头的工艺气温度变化规律,并且在测试批次上的泛化效果良好,成功模仿了料头工艺气温度趋势。

图7 基于LSTM的某牌号工作时工艺气温度料头预测Fig.7 Process gas temperature prediction based on LSTM

图8 LSTM网络的学习过程Fig.8 Learing process of LSTM Network

图8描述的是在普通CPU上,LSTM模型训练耗时1 min 10 s,整个端到端的机器学习过程在3 min内完成,可以及时有效为生产操作提供参考。

进一步地,我们对该方法的应用进行尝试,根据现有工艺指标综合评价,选取四个主要品牌,筛选出每个牌号叶丝干燥的料头阶段处理最好的20个批次,利用LSTM模型按时间顺序拟合,图9黑色曲线显示各品牌后8批表现良好的料头曲线趋势,红色曲线是LSTM模型的拟合效果,蓝色曲线是模型生成的指导各牌号叶丝干燥料头工艺气温度控制参考趋势。在LSTM模型中,距离预测时间点更近的料头趋势影响权重越高,因而该模型也能比较好地模拟配方微调等因素对叶丝干燥生产过程的影响,从而使预测的参考料头趋势遵循一定的操作惯性,提高模仿学习的准确性与辅助生产的可操作性。

4.3 Seq2Seq Attention模型

Seq2Seq Attention模型对设备的性能要求较高,要在内存足够的单机或集群上训练。由于硬件资源限制,本文的Seq2Seq Attention模型只在离线数据上完成训练。我们选取CTD入口物料流量、入口叶丝含水率、工作时干燥塔气流流量、塔内含氧量、工艺气温度、排潮气体流量、出口叶丝含水率、出口叶丝温度等参数作为多变量输入,预测出口叶丝含水率变化趋势。

如图10所示,由于本身就带有滑窗的性质,生产实时数据即使不经过聚合预测曲线也相对平滑,但该模型存在一些缺陷:

(1)模型收敛缓慢、训练时间长,对硬件资源要求比较高

(2)模型预测曲线会逐渐向训练集的平均值靠近,却对实时的输入变量变化反应迟钝

图9 各牌号叶丝干燥工艺气温度料头参考趋势Fig.9 Reference trend of air temperature in tobacco leaf drying process

图10 基于Seq2Seq的某牌号出口叶丝含水率预测Fig.10 Prediction of moisture content of tobacco leaf at the outlet of air flow drying machine based on Seq2Seq

4.4 算法对比分析小结

为进一步量化以上三种算法的性能评估,我们选取2018年6月至2019年4月某牌号的叶丝干燥工序生产数据,对料头生产阶段工艺气温度和料中出口叶丝含水率趋势进行预测,结果如下:

叶丝干燥料头模仿学习阶段,三次指数平滑、LSTM、Seq2Seq三种算法性能对比见表2。从表2可以看出,LSTM模型训练在CPU环境下收敛速度比GPU环境下的Seq2Seq算法更快,测试集上误差最低,整体性能最好。

对料中出口叶丝含水率趋势进行预测时,三次指数平滑算法具有显著优势,尤其是预测时间仅0.8 s左右,可实现准实时预测,见表3。两次实验中Seq2Seq模型在测试集上表现都不如LSTM,原因可能是因为该模型使用多层全连接层对时序数据进行压缩时,时序数据中相当一部分信息在压缩过程中被丢弃,对模型效果造成了一定影响。

表2 叶丝干燥料头阶段算法对比分析结果Tab. 2 Comparison of algorithm performance in cut tobacco drying start stage

表3 出口叶丝含水率趋势预测算法对比分析结果Tab. 3 Comparison of algorithm performance in prediction of tobacco leaf moisture content

5 结论

在本文中我们提出了一套在线可行的端到端制丝实时数据应用解决方案,通过集成时间序列数据库与深度学习算法建立生产指标实时趋势预测、料头生产模仿学习、多变量参数趋势模型,最优模型预测误差都在2%以内,完成了在最大化利用现有系统前提下的边缘计算初步探索。料头操作辅助和实时指数平滑预测应用试运行阶段,烘丝机出口烟丝含水率的稳定性得到了明显提高,SD均值由原来的0.35下降到到0.271,CPK均值由0.78提高到0.837,提高了产品工艺质量的稳定性。

本文通过对叶丝干燥的场景进行拆解,将传统LSTM和Seq2Seq模型针对生产时序数据进行改进、将三次指数平滑算法构建在时序数据库上,充分利用了时序特征,横向集成最优算法模型,可视化体验和预测精度良好,提升了解决方案在叶丝干燥工序整体的应用效果,并为大数据分析和算法开发奠定基础。

研究结果表明:

(1)三次指数平滑算法集成在时序数据库中,可实现精度良好、准实时的叶丝出口含水率趋势预测,有效辅助生产作业。

(2)在料头生产关键参数模仿学习方面,LSTM模型在整体性能上具有显著优势。

最后,结合经验与思考,我们认为制丝实时数据应用下一阶段的重点研究方向主要有以下几点:

(1)打通边缘计算“最后一公里”,实现适配多场景的低延迟数据采集、高可靠性分布式存储与行业工业互联网平台的实时对标;

(2)结合数字孪生或增强视觉技术的可视化实时数据应用;

(3)挖掘生产监控视频数据的价值,基于计算机视觉技术实现实时缺陷检测与报警。

猜你喜欢
时序含水率预测
无可预测
630MW机组石膏高含水率原因分析及处理
昆明森林可燃物燃烧机理研究
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
清明
基于不同建设时序的地铁互联互通方案分析
弱膨胀土增湿变形量试验及路堤填筑分析
基于FPGA 的时序信号光纤传输系统
不必预测未来,只需把握现在