基于多元线性回归模型的液态烃脱H2S影响因素的分析

2017-01-19 07:26龚琛荥曹诗怡
关键词:因变量液态回归方程

龚琛荥, 曹诗怡

(1. 岳阳兴长石化股份有限公司, 湖南 岳阳 414000; 2. 湖南理工学院 土木建筑工程学院, 湖南 岳阳 414006)

基于多元线性回归模型的液态烃脱H2S影响因素的分析

龚琛荥1, 曹诗怡2

(1. 岳阳兴长石化股份有限公司, 湖南 岳阳 414000; 2. 湖南理工学院 土木建筑工程学院, 湖南 岳阳 414006)

基于液态烃脱硫装置生产操作运行数据, 针对实际液态烃脱除H2S情况构建多元线性回归模型, 分析相关操作参数与H2S含量的之间影响因素, 并通过拟合优度检验、方程显著性检验以及变量显著性检验对模型进行了验证, 得到了较为可靠的多元线性回归模型, 最后基于回归模型提出降低液态烃中H2S含量解决方案.

脱硫; H2S含量; 相关分析; 多元线性回归; 模型检验

脱硫装置原料液态烃来自上游炼厂重油催化装置及焦化装置, 原料液态烃进入抽提塔底部, 与塔上部注入的溶剂逆流接触、液液抽提, 经抽提脱除绝大部分硫化氢. 脱硫后液态烃H2S含量常出现异常偏高的现象, 影响后续碱洗脱硫醇流程. 本文通过分析液态烃进料量、脱硫前液态烃硫化氢含量、脱硫剂循环量、脱硫剂醇胺含量、抽提塔上部温度等因素对脱硫后液态烃H2S含量的影响, 并逐一进行验证, 建立液态烃H2S含量与各影响因素之间的多元线性回归模型.

1 数据预处理

1.1 自变量的选取

根据实际操作经验, 选取了正常生产中5个可能的影响因素数据, 即液态烃进料量a1、脱硫前液态烃硫化氢含量a2、脱硫剂循环量a3、脱硫剂醇胺含量a4、抽提塔上部温度a5. 考虑到液态烃脱硫受到液态烃处理、溶剂循环量、原料硫化氢含量、溶剂醇胺含量的综合影响, 在正常操作条件下, 对数据进行比值处理, 新增液态烃进料量与循环溶剂量比(料剂比)、液态烃总硫与循环溶剂量比(总硫剂比)、液态烃总硫与溶剂循环总醇胺比值(总硫醇胺比). 将液态烃H2S含量作为因变量b, 其它影响因素作为自变量a, H2S含量与筛选后的因素影响见表1.

表1 H2S含量与筛选后的影响因素

1.2 源数据无量纲化

图1为H2S含量与各因素散点图, 从图1中很难找出二者之间的关系. H2S含量与其影响因素之间并不是呈简单的线性函数, 而是其它类函数, 如指数函数. 那么对源数据取对数就将其关系转换成线性函数,并进行线性回归, 无量纲化数据见表2.

图1 液态烃脱硫H2S含量与各影响因素散点图

表2 取对数后的因变量与自变量

2 相关性分析

2.1 相关概念解释

2.1.1 Pearson相关系数

Pearson相关系数可以相当精确地反应两个变量之间的线性相关程度[1], 判断这些自变量与MSBE含量的线性相关强度. Pearson相关系数的表达式为

其中相关系数用r表示, 描述的是两个变量间线性相关强弱的程度以及相关性的方向,n为样本量,Xi和Yi为变量的观测值,为观测值的均值.r的绝对值越大, 表明相关性越强.r为负数, 表明因变量与自变量呈负相关关系;r为正数, 表明因变量与自变量呈正相关关系. 一般而言,r的绝对值大于0.95为显著性相关, 大于等于0.8为高度相关, 在0.5~0.8之间为中度相关, 在0.3~0.5之间为低度相关, 小于0.3则为不相关.

2.1.2P值

P值是一个概率, 一种在原假设为真的前提下出现观察样本以及更极端情况的概率. 在因变量与自变量的相关性分析中, 原假设为因变量与自变量无相关性,P值表示对原假设的支持程度[2]. 通过SPSS计算出P值后, 将给定的显著性水平α(通常取0.05)与P值比较, 就可作出检验的结论:

如果α>p值, 则在显著性水平α下拒绝原假设, 即因变量与自变量相关;

如果α≤p值, 则在显著性水平α下接受原假设, 即因变量与自变量不相关.

2.2 双变量相关性分析

由于所选取的自变量较多, 为了简化分析, 先通过两两变量之间的相关性分析对自变量进行筛选, 排除不相关的因素.

将取对数后的数据导入SPSS中进行双变量相关性分析, 显著性水平α取值为0.05, 结果见表3.

表3 双变量相关性分析结果

在各自变量Xi(i=1,2,…,8)与因变量Y的相关性分析中, 排除Pearson相关系数r大于0.3且P值大于0.05的自变量, 即排除和溶剂循环量(X3)和抽提塔上部温度(X5)的因素. 其余自变量因素P值小于0.05, 拒绝原假设, 说明二者相关, 其中X1、X2、X6、X7、X8自变量与与脱硫后液态烃H2S含量呈中度正相关, 且X7总硫料比Pearson相关系数r达到了0.774.X4自变量与与脱硫后液态烃H2S含量呈中度负相关, 即醇胺含量越高液态烃H2S含量越低.

从双变量相关性分析中, 可以初步得出单因素自变量与H2S含量相关性较低, 综合因素自变量特别是液态烃总硫与溶剂循环量比值X7可以显著性地反映出与脱硫后液态烃H2S含量的相关性.

3 多元线性回归模型的建立

3.1 模型的建立

从相关性分析中, 我们确定了脱硫后液态烃H2S含量的影响因素, 但却难以区分各影响因素的主次,以及重复影响因子, 此时需要运用多元回归模型进行区分和预测.

在SPSS软件中对因变量(液态烃H2S含量的含量)和自变量(液态烃进料量、脱硫前液态烃硫化氢含量、脱硫剂醇胺含量、料剂比、总硫剂比、总醇胺比值总硫醇胺比)作多元线性逐步回归. 在多元线性逐步回归过程中, 其基本思想是: 对全部的自变量X按它们对Y贡献的大小进行比较, 并通过F检验法, 选择偏回归平方和显著的变量进入回归方程, 每一步只引入一个变量, 同时建立一个偏回归方程. 当一个变量被引入后, 对原已引入回归方程的变量, 逐个检验他们的偏回归平方和. 如果由于引入新的变量而使得已进入方程的变量变为不显著时, 则及时从偏回归方程中剔除. 在引入了两个自变量以后, 便开始考虑是否有需要剔除的变量. 只有当回归方程中的所有自变量对Y都有显著影响而不需要剔除时, 再考虑从未选入方程的自变量中, 挑选对Y有显著影响的新的变量进入方程. 不论引入还是剔除一个变量都称为一步. 不断重复这一过程, 直至无法剔除已引入的变量, 也无法再引入新的自变量时, 逐步回归过程结束. 多元线性逐步回归结果见表4.

表4 多元线性逐步回归结果

表5 逐步回归过程排除的变量

在多元线性逐步回归过程中, 经建模分析确定多元线性回归的自变量X7, 排除了其它自变量的组合.并根据回归标准化残差直方图(图2), 可以判断出本模型的残差数据服从正态分布. 确定的数学模型为

3.2 模型的检验

模型检验是由统计理论决定的,它是运用数理统计的方法, 对方程进行检验、对模型参数估计值的可靠性进行检验. 主要包括拟合优度检验、方程显著性检验、变量显著性检验[3]等.

3.2.1 拟合优度检验(R2检验)

为了检验描述MSBE含量的多元线性回归方程与观测值的拟合优度, 我们采取拟合优度检验的方法来说明. 拟合优度检验方法是构造一个可以表征拟合程度的指标R2.

统计量R2定义为

图2 回归标准化残差直方图

其中总变差平方和S总是各个观察值与样本均值之差的平方和, 反映了全部数据之间的差异; 回归平方和S回是总变差平方和中被回归方程解释的部分, 是回归方程中所选取的解释变量Xi对被解释变量Y所造成的影响;S残是总变差平方和中未被回归方程解释的部分.

R2的取值范围是[0, 1],R2的值越接近1, 说明回归直线对观测值的拟合程度越好; 反之,R2的值越接近0, 说明回归直线对观测值的拟合程度越差.

通过SPSS软件实现R2检验, 结果见表6. 模型(1)的R2检验结果为0.599, 调整R2为0.589拟合优度非常好.

表6 R2检验结果

3.2.2 方程显著性检验(F检验)

解释自变量与液态烃H2S含量的含量之间的线性关系, 我们计算统计量F的值来说明总体上被解释变量与所有解释变量之间的线性关系是否显著.

F统计量定义为

F统计量服从以(k,n-k-1)为自由度的F分布, 记为F(k,n-k-1). 其中n为数据的组数,k为自变量的个数. SPSS软件F检验结果见表7.

表7 F检验结果

通过公式F=FINV (α, 回归自由度, 误差项自由度), 计算在特定显著度α=0.05,F临界值 = FINV (0.05, 1, 42)的条件下F检验的临界值. 当统计量F的值大于临界值时, 即可认为在总体上, 自变量与因变量呈显著的线性关系.

计算结果见表8, 通过比较, 模型(1)F值明显大于F临界值, 通过了F检验, 且呈显著的线性关系.

表8 F值与F临界值的比较

3.2.3 变量显著性检验(t检验)

通过t检验我们可以看出每个自变量对MSBE含量的影响, 如果某个自变量对H2S含量的影响并不显著, 就从回归方程中将它剔除.

统计量t定义为

其中为各变量系数的估计值,Sβj为各变量系数估计值的标准差.

T检验结果及其对应的P值见表9 (显著性水平α=0.05).

表9 变量的T检验

从以上检验结果中可以看出, 模型(1)中的自变量X7和截距T检验的P值都小于0.05, 即模型(1)通过T检验.

3.2.4 模型检验结果

通过对模型进行拟合优度检验、方程显著性检验以及变量显著性检验, 得出模型一回归效果都十分显著, 拟合优度较佳. 同时, 结合实际生产结果及理论研究, 液态烃总硫含量和溶剂循环量在实际操作中对H2S脱除都有重要的影响, 即本模型为多元线性逐步回归的最优结果.

4 结论

通过上述分析, 我们得出影响脱硫液态烃H2S含量与综合影响因素的多元线性回归方程

由于作多元线性回归的数据是对原数据取对数后的数据, 现将其还原为

结果表明液态烃进料量和液态烃原料H2S含量对脱硫液态烃H2S含量的影响较大, 在正常温度和醇胺控制范围内, 通过提高溶剂循环量, 增大脱硫溶剂与液态烃的液液接触面积, 可明显降低脱硫液态烃H2S含量. 同时发现脱硫溶剂有效组分醇胺含量在较低浓度120g/L期间仍可以满足液态烃脱H2S的生产要求. 本文模型建立在正常醇胺浓度120g/L~250 g/L范围, 因此本模型中醇胺对脱硫H2S影响较小, 经检验, 建模及回归方程符合实际生产运行情况.

通过实时的原料液态烃分析, 当进料量和原料液态烃H2S发生明显变化时, 可根据脱硫建模方程的数据计算, 适当提高或降低溶剂循环量; 溶剂醇胺含量低于120 g/L, 建议加入新鲜MDEA脱硫溶剂, 保持适当醇胺组分浓度, 提高脱硫效果.

[1] 王惠文. 多元线性回归的预测建模方法[J]. 北京航空航天大学学报, 2007, 33(4): 500~504

[2] 林 彬. 多元线性回归分析及其应用[J]. 中国科技信息, 2010, (9): 60~61

[3] 刘京娟. 多元线性回归模型检验方法[J]. 湖南税务高等专科学校学报, 2005, 18(5): 49~49

Analysis of Influencing Factors of Removal of H2S in Liquid Hydrocarbon Based on Multiple Linear Regression Model

GONG Chenying1, CAO Shiyi2
(1. Yueyangxingchang Petro-Chemical Co. Ltd, Yueyang 414000, China; 2. College of Construction and Engineering, Hunan Institute of Science and Technology, Yueyang 414006, China)

Production operation data based on liquid hydrocarbon desulfurization unit, aiming at the construction of multiple linear regression model for the removal of H2S from the actual liquid hydrocarbon, this paper analyzed the influencing factors between the operating parameters and H2S content. The model was validated by the goodness of fit test, the test of the equation and the significance of the variable. Reliable multiple linear regression model was obtained. Based on the regression model, the solution of H2S content in liquid hydrocarbon was proposed.

desulfurization, H2S content, correlation analysis, multiple linear regression, model checking

TQ021.8

: A

: 1672-5298(2016)04-0058-06

2016-09-03

龚琛荥(1985− ), 男, 甘肃兰州人, 硕士, 岳阳兴长石化股份有限公司工程师. 主要研究方向: 生产技术管理及技改技措

猜你喜欢
因变量液态回归方程
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
走进回归分析,让回归方程不再是你高考的绊脚石
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
产红色素真菌Monascus sanguineus的液态发酵条件研究
2017年中外液态食品机械行业大事记
偏最小二乘回归方法
浅谈液态渣的显热利用和工艺技术