吴红 王晓明 王斌 顾翩
(江苏省安全生产科学研究院 南京 210009)
化工行业中涉及危险化学品生产、存储、运输等环节,容易存在较大的事故隐患。一旦发生事故,将严重危害社会公共安全。对化工行业生产过程进行事故前的风险预测,可以快速了解生产系统的风险状态,从而在事故发生前制定出有效的防范和控制措施,有助于降低化工行业安全生产系统的风险,进而减少事故的发生。
我国正处于大数据技术迅速发展时期,机器学习算法在自然灾害、设备设施诊断、交通运输事故、信息通讯和煤矿瓦斯等行业领域已有广泛应用[1-3],目前国内许多学者在化工行业进行了风险研究,也取得一些成果。包其富等[4]采用模糊综合评价法基于人的因素、设备安全可靠性、生产工艺、安全管理和周边环境五个方面影响因素,确定各因素评语集和权重,进而计算储罐区的整体风险。张子扬等[5]基于贝叶斯模型,选取人员(班组)因素、设备因素,运用动态风险分析方法,对化工生产企业反应器压力安全控制系统事故风险值进行评估和预测。
综上可知,在化工行业对于风险预测研究主要集中于危险源定性分析、定量评价和事故后果分析。但是当某些风险因素发生动态变化时,无法做到及时计算和预测风险程度。随着数据挖掘技术的成熟发展,本文研究了PSO-SVM模型在化工事故风险预测中的应用,基于化工安全生产过程中人员因素、设备设施因素、管理因素、环境因素及对应风险值样本数据对模型进行训练学习,并将测试样本数据代入模型作风险值预测,对比预测风险值与计算风险值,以此验证模型的准确性。研究过程中采用PSO寻优算法对预测模型参数进行优化,提高模型预测准确性,为及时、准确预测化工安全生产过程中的事故风险提供了有力的技术支撑。
以2015年至2019年5年期间全国发生的较大及以上化工和危化品安生生产事故案例为分析对象,共计67起。依据“2-4”事故致因模型分析框架,通过逐个读取事故案例的事故调查报告,分析提取各例事故的致因因素。67起事故中人员的不安全行为主要包括一线员工在涉及高温加热工艺、带压设备、有毒有害环境和动火作业及有限空间作业中的违规违章操作,管理人员违章指挥,以及人员不规范求援导致事故影响进一步扩大;设备设施类因素主要包括:工艺、设计本身存在缺陷,相关的安全防护和警示标识缺失,设备设施隐患不消除“带病”运行,以及自动化控制系统异常等;管理方面因素主要包括:事故企业未健全安全管理制度及相关规章制度,教育培训走形式等原因。化工事故中各致因因素的统计情况如表1所示。
表1 化工事故致因因素统计
结合危险源理论、事故致因理论,从人员因素、设备因素、管理因素和环境因素4个方面建立了风险预测指标体系,指标体系具体划分成4个一级指标和若干二级指标组成,见表2。
表2 事故风险预测指标体系
利用PSO-SVM模型预测化工事故风险值,首先确定模型输入,即预测指标为化工安全生产过程中人员因素、设备设施因素、管理因素及环境因素对应风险值,将以上指标数据值代入模型作训练并利用PSO算法优化模型参数,使模型的风险值预测结果更准确,通过对比预测风险值与计算风险值,以此验证模型的准确性。PSO-SVM模型进行化工事故风险预测的流程见图1。
图1 PSO-SVM模型预测风险值流程
为实现化工安全生产系统事故风险预测模型研究,建立了25组预测指标参数值样本数据,数值涵盖5个风险程度等级,即风险值非常低(0,20]、风险值较低(20,40]、风险值一般(40,60]、风险值较高(60,80]、风险值非常高(80,100]。每个风险等级有5组数据,共产生25组数据作为不同指标风险程度的评语集,结合第1节预测指标对应权重,由公式(1)可计算得到25组指标值样本数据依次对应的事故风险程度。
(1)
式中,αi为第i个预测指标的风险数据值,wi为其对应的权重,S为所属预测指标样本数据对应的化工事故风险数据值。
将25组样本数据中20组作为训练数据集,用于PSO-SVM模型的训练。另外5组数据作为测试数据集,用于模型的验证。
支持向量机模型(SVM)是一种以统计学理论为基础,基于结构风险最小化准则的较新的机器学习算法,适用于处理小样本、非线性、高维模式识别等问题。SVM模型通过核函数可以将复杂的非线性问题映射到高维空间,转化成线性问题。模型算法能够快速地训练学习,找到输入和输出之间复杂的函数关系。基于这些特性,SVM模型得到快速发展,目前己被广泛应用于化工建模、故障诊断、模式识别等各种领域进行回归预测及分类。
最优平面方面记为y=ωx+b样本集的线性回归函数可表示为:
f(x)=ωx+b
(2)
SVM模型以线性可分的最优分类平面为基础,回归训练策略就是寻找一个回归面使支持向量到该平面的间隔最大。利用SVM作回归预测,即需要找到这个最优分类平面,也就是所求最优回归平面。求解最优平面过程中,对于非线性样本集数据,利用核函数将其转变为高维空间的线性可分。核函数可表示如下:
K(xi,xj)=φ(xi)·φ(xj)
(3)
式中,φ(x)为样本集到高维空间的非线性映射,根据线性SVM回归模型处理思路,则非线性支持向量机回归函数可表示为:
f(x)=ωφ(x)+b
(4)
在回归函数表达式的求取中,引入损失函数L,并采用ε-insensiεtive误差函数约束最优平面。损失函数L如式(5)所示。
L(y,f(x,w))=|y-f(x,w)|
(5)
(6)
惩罚因子C(C>0)是一个常数,用来调整误差超过ε的样本惩罚程度。
通过拉格朗日乘子αi,利用对偶原理求解上述最小值问题,建立方程如式(7):
(7)
约束条件:
(8)
最终确定支持向量机回归模型函数:
(9)
基于以上SVM模型原理,支持向量机模型在进行回归预测时,核函数的选择对回归预测的性能、运算速度等具有很大的影响,同时对预测结果的精度也有一定的影响。因此本文在对化工事故风险进行预测的过程中先后选择了不同核函数,并进行结果对比。在回归预测模型建立中,核函数的选择方式只需改变PSO-SVM模型中的参数-t,该参数设置值分别为:0代表线性核函数、1代表多项式核函数、2代表径RBF核函数、3代表Sigmoid核函数。依次采用这些核函数建立预测模型,并对比预测结果见表3。
表3 不同核函数对应模型预测结果对比
由表3可知,4种核函数预测结果的相关系数均较高,其中基于RBF核函数建立的模型预测结果相关系数最高,且均方差最小,说明RBF核函数缩减模型预测效果更好。因此本文中的核函数选择径向基核函数(RBF),即核函数参数-t取值为2。
确定核函数后,需要对支持向量机模型相关参数寻优,确定参数最优值。参数最优值的确定可以约束模型的拟合程度,保证模型泛化能力和预测效果达到最佳。本文主要对模型的惩罚因子C和核函数参数g作参数寻优。SVM模型算法中惩罚因子C控制模型可容忍的误差范围,C值过大会导致模型过拟合,模型泛化不强;C值过小降低模型复杂度,会导致模型欠拟合。文中2.2节中已确定模型核函数为RBF,RBF核函数表达式如式(10)。
(10)
式中,δ为径向基半径,影响核函数学习能力。δ设置过大,令g=1/δ2代入式(10),则得到:
K(x,xi)=exp(-g‖x-xi‖2)
(11)
因此需要对SVM模型惩罚因子C和核函数参数g作寻优,确定最佳取值,用此参数组合训练样本数据获取最佳模型,提高模型预测准确性。
PSO算法在参数寻优过程中依次设置种群数量为25,最大迭代次数为200,学习因子c1=1.5,c2=1.7,终止迭代次数为200,见图2。通过图2可看出粒子在开始迭代时就找到最佳适应度,并保持较长时间稳定,得到最小交叉验证均方差值CVmse=0.068 28,通过粒子群算法得到最优惩罚参数C=4.176 5,最优径向基核函数参数g=0.01。代入PSO算法寻优得到的参数最优值确定PSO-SVM模型。
图2 PSO-SVM参数优化结果
在MATLAB环境下,基于确定的PSO-SVM模型,代入5组测试样本指标数据:人员因素、设备因素、管理因素及环境因素对应的各指标数据值。经过模型预测得到5组预测指标数据对应的事故风险预测值,模型均方差为0.001 520、相关系统R2为0.999 794。5组测试样本数据的风险预测值与计算值对比结果见图3。由预测风险值与计算风险值对比可知,预测值与计算值趋势一致,且误差较低,预测效果良好。
图3 PSO-SVM模型预测结果对比
(1)化工安全生产事故致因因素中为人员因素(违规操作、安全知识欠缺、管理决策不正确)、设备因素(设备设施存在故障隐患、设备设施设计缺陷、安全防护和安全警示标识缺失)占比较大,在事故风险动态预测模型中引入以上因素作为预测指标可提高预测结果准确性。
(2)PSO-SVM模型训练速度快、预测精度较高,且对于小样本量数据的回归预测效果较好,解决了化工行业事故风险预测研究中异常数据缺少的问题,为化工行业事故风险预测提供了一种新的科学有效的方法。