虚拟样本生成方法及其在重整数据建模中的应用

2021-06-14 06:55贺许龙王鑫磊
石油炼制与化工 2021年6期
关键词:高斯分布芳烃重整

贺许龙,张 蕾,周 涵,王鑫磊,苗 准

(中国石化石油化工科学研究院,北京 100083)

随着炼油厂智能化转型,利用数据挖掘技术对装置生产数据进行分析处理与建模,并用于对实际装置的模拟与优化,成为很多炼油厂提高经济效益的有效手段[1-2]。但是,由于工业装置长期处于稳定生产状态或加工的原料相对固定,使工业数据存在重复性高、多样性低和分布不均衡等特点,学术上普遍将其称为小样本问题。若使用这种信息不完整的小样本建立数据驱动模型,将难以实现对特征空间分布规律的有效学习,造成模型存在检验误差较大和适用性较差等问题[3]。

虚拟样本生成方法可以有效解决上述小样本问题[4]。常用的虚拟样本生成方法包括:基于先验知识的生成方法和基于某种概率分布的方法[5-7]。前者主要是根据特定领域的先验知识,在模型中加入适当约束条件,将模型的求解问题转化为优化问题,使得产生更适合于问题的解(虚拟样本),但该方法要求研究者对特定领域有深入且全面的认识,否则会因添加的约束条件不当而导致虚拟样本的合理性差;后者是在真实样本的概率分布模型的基础上,通过选取合适的样本概率分布,建立问题的近似概率模型,然后抽样得到虚拟样本。该方法合理性基本满足要求,且不需要充分了解特定领域的经验知识,具有较强的适应性。

在综合分析重整原料油数据的基础上,以重整原料按碳数分布的烃族组成(PNA×Cn)为输入特征,产品中的芳烃收率为输出特征,建立决策树回归模型,并采用流程模拟软件Aspen HYSYS对该装置反应过程进行模拟。针对真实样本的小样本问题,基于Aspen HYSYS软件已经内置有较为成熟的重整反应器模型,并在一定工艺条件下能够实现原料组成变化对产品分布影响的准确模拟。本研究提出一种将样本多元高斯分布模型与HYSYS模拟软件相结合的虚拟样本生成方法。该方法首先借助多元高斯分布生成由输入特征组成的虚拟样本;然后采用标定过的HYSYS重整机理模型计算对应的芳烃产物收率,进而得到建立数据模型所需的完整虚拟样本;最后将虚拟样本与真实样本组合,考察虚拟样本的引入对数据模型预测准确性与适应性的影响。

1 重整进料虚拟样本的生成

若随机变量X服从一个位置参数为μ、尺度参数为σ的概率分布,且其概率密度函数曲线呈钟形,则称这个随机变量为高斯随机变量,其服从的分布则称为高斯分布,记作X~N(μ,σ2)。高斯分布主要适用于一些随机变量连续、样本量较大和概率密度函数符合其统计特性的场合。

对实际样本中重整进料的16个PNA×Cn特征变量进行统计分析,结果如表1所示。其中,CnP,CnN,CnA分别表示碳数为n的烷烃、环烷烃、芳烃。每个特征在其取值范围内基本实现连续性取值,且其偏度和峰度统计量也趋近于0,即每个特征的分布规律近似为高斯分布,故可选择基于多元高斯分布的方法生成重整进料的虚拟样本。

表1 重整进料的16个PNA×Cn 特征的描述统计量 w,%

1.1 生成步骤

虚拟样本的生成共分5个步骤,分别为:

(1)对实际数据所服从的高斯分布进行标准化处理,转化为标准高斯分布。

(2)采用最大似然估计法,求得高斯分布的均值和方差。

假设样本服从高斯分布X~N(μ,σ2),则似然函数如式(1)所示。

(1)

经取对数、求导,计算可得位置参数(μ)和尺度参数(σ)的平方如式(2)所示。

(2)

(3)根据得到的μ与σ2构建高斯分布X~N(μ,σ2)。

(3)

(4)根据每个PNA×Cn特征变量对应的高斯分布概率密度函数,在3σ范围内生成该特征变量的高斯随机数,然后将对应于16个特征的高斯随机数分别进行随机组合,得到虚拟样本集。

(5)定义:以每个进料虚拟样本中16个特征的和值偏离100的误差限小于0.1为删减机制,删除不符合条件的个别样本。

1.2 重整进料虚拟样本的合理性评估与筛选

t分布随机邻域嵌入(t-SNE)[8]是根据高维空间数据的内在结构,将数据内在的分布特点在低维空间中进行可视化表达的一种降维算法。其基本思想就是将高维空间中数据点之间的距离转化为数据点之间相似性的条件概率,进而根据在高维空间中数据点的条件概率确定其在低维空间中重组数据点的位置,从而实现高维特征空间数据在低维特征空间中映射。

为了评估所生成的虚拟样本的合理性与可靠性,以可视化的方式展示虚拟样本对真实样本的覆盖情况,本研究通过t-SNE降维算法[9]分别对真实样本与虚拟样本进行降维,并可视化得到样本分布对比图。该过程随机从总虚拟样本中抽取了6次子样本集,从中选择一组对真实样本覆盖范围较好,且降维后的新特征取值范围较小的子样本集。既保证了虚拟样本的多样性特征,又保证了虚拟样本点不会偏离真实样本点太远,从而实现对原重整进料真实样本多样性与均衡性的有效补充。

图1为虚拟样本与真实样本在二维空间的映射视图,其中横、纵坐标分别表示从16维重整进料PNA×Cn特征降至2维平面所生成的2个新特征。这2个新特征是原特征的非线性组合,其物理意义仍然是质量分数,用w1、w2表示;此外,由于t-SNE在对样本特征降维过程中做了中心化处理,因而图1中2个特征的取值范围是位于原点的左右两侧,且在一个较小的区间内,保证了虚拟样本的合理性。

图1 t-SNE降维后的虚拟样本与真实样本的分布●—真实样本; ●—虚拟样本

1.3 重整进料虚拟样本对应产品数据的获取

重整进料16个PNA×Cn特征变量构成的虚拟数据样本,并不能直接用于训练数据模型,而需要先得到每个虚拟进料数据样本对应的芳烃收率数据。本研究使用某炼化企业重整装置反应系统的标定数据对HYSYS重整机理模型进行校准[10],得到适用于此装置的校准因子集。进而用HYSYS模拟该装置的反应过程,计算虚拟进料样本对应的芳烃收率数据,从而产生由16个原料特征变量和1个芳烃收率特征变量组成的600组完整虚拟样本。

2 虚拟样本的可靠性检验

由于虚拟样本的生成是经高斯分布和HYSYS模拟两步完成,所以在探究补充虚拟样本对于数据模型性能的影响之前,需要对虚拟样本的可靠性进行检验,以保证其反应规律与实际样本相符。因此,本研究用清洗后的528组真实样本作为训练集,600组虚拟样本作为测试集,采用决策树回归算法[11]进行建模,通过模型预测值与实际值误差大小来验证虚拟样本的可靠性。

分类和回归决策树(CART)算法[12-13]是决策树中比较常用的算法,CART算法既可以用于创建分类树,也可以用于创建回归树。回归树的主要构造流程包括:先进行递归构建二叉决策树,然后依据平方误差最小化原则确定回归树的最优划分并生成二叉树,最后再进行决策树的剪枝。本研究将CART决策树算法应用在重整原料PNA×Cn特征对芳烃收率的预测上,相关参数设置包括:最大深度(max_depth)为默认值None,每个叶子结点包含的最少的样本数(min_samples_leaf)为1,每个内部节点包含的最少的样本数(min_samples_split)为2,其他参数均取默认值。

图2表示了决策树回归模型的预测输出与实际输出的拟合效果,横坐标表示样本数,纵坐标表示芳烃收率。由图2可知,前200组测试样本的平均绝对误差仅为1.406 8,说明由HYSYS重整机理模型计算的芳烃收率数据与真实数据的误差较小,同时也证明了基于多元高斯分布方法与HYSYS机理模型结合生成完整虚拟样本方法的可行性。需要说明的是,剩余测试样本的平均绝对误差与前200组相近。

图2 虚拟样本作测试集时模型的预测值与实际值对比●—实际输出; ●—预测输出

3 虚拟样本的引入对提升模型预测性能的影响

将实际样本的70%用作训练样本,30%用作测试样本,建立决策树回归模型。为了进一步验证虚拟样本的引入对模型预测性能的影响,试验过程中每次向训练样本中增加200组虚拟样本,并重新训练模型,观察模型预测准确度的变化,结果如表2所示。从表2可以看出,随着训练样本中引入虚拟样本数量的增加,模型预测的平均绝对误差从1.409 7逐渐降至0.631 8,即模型对于测试样本的预测准确度逐渐提高。

表2 引入不同数目虚拟样本后决策树 回归模型的平均绝对误差

图3为引入虚拟样本前后模型的预测绝对误差的对比。其中,Model 1为引入虚拟样本前模型的预测绝对误差,Model 2为引入全部虚拟样本后模型的预测绝对误差。由图3可知,引入虚拟样本后,95.3%测试样本预测的绝对误差小于2.0,78%测试样本预测的绝对误差小于1.0。该预测误差已经接近实验室对重整芳烃收率的标准测定误差,能够满足装置工业控制与优化的预测需求。

图3 引入虚拟样本前后模型的测试误差对比 ●—Model 1; ●—Model 2

因此,催化重整芳烃收率建模预测的结果表明:虚拟样本的引入,有效提升了训练样本的多样性与均衡性,使数据模型能够学习到各种重整进料组成分布;而且,其对未知进料样本预测的适应性得到了明显的改善。表明基于样本多元高斯分布与HYSYS机理模型相结合的虚拟样本生成方法,可以有效解决炼油厂数据存在的小样本问题。

4 结 论

针对炼油厂实际数据存在的小样本问题,基于多元高斯分布生成催化重整进料虚拟样本,并与HYSYS机理模型相结合建模计算芳烃的收率数据,生成完整虚拟样本,具备多样性高、分布更均匀的特点。虚拟样本的引入,有效提升了芳烃收率预测决策树回归模型的性能,模型的适用性和准确性得到了明显的改善,芳烃收率预测的平均绝对误差由引入虚拟样本前的1.409 7降至0.631 8。

猜你喜欢
高斯分布芳烃重整
信托公司在破产重整实务中的机会
埃克森美孚公开芳烃烷基转移方法
软法视野下预重整制度的建构路径
我国预重整模式的选择
庭外重组与破产重整的衔接及制度设计
石油沥青中致癌多环芳烃含量测定研究
关于重芳烃轻质化与分离的若干思考
利用Box-Cox变换对移动通信中小区级业务流量分布的研究
UOP公开最大化生产芳烃的集成工艺
在航集装箱船舶摇摆姿态的概率模型