采用因子分析与改进GMM的施工安全评价方法

2023-09-14 12:02於三大
关键词:变分聚类因素

於三大,朱 浪,苏 立,廖 勇

(1.中国三峡建工(集团)有限公司, 成都 610041;2.重庆大学 微电子与通信工程学院, 重庆 400044)

0 引言

工程安全是工程施工过程中的首要问题,如何准确评估工程施工安全成为了当前工程项目管理的热点和难点。然而,随着施工技术的快速发展与施工环境的日益复杂,传统的施工安全评价方法忽略了各指标之间内在的关联性,不能同时做到对事故安全风险等级的划分及可视化,这并不利于事故安全的成因分析。因此,如何对施工过程中发生的安全事故成因及潜在危险进行精准分析是当前亟需解决的关键问题之一[1]。

现有的研究并没有考虑各施工安全指标之间的内在关联性,导致对事故进行安全分析时造成信息交叠,而主成分分析(principal component analysis,PCA)和因子分析(factor analysis,FC)是综合分析各指标间关联度的常见方法。它们可以通过对数据内在特征的分析,达到数据降维的作用。张弛等[2]使用PCA的方法,将可能存在相关性的变量转变为线性无关的变量以达到降维的效果,但是利用原始变量进行线性组合消除线性相关的方法不能明确解释各原始变量的线性权重,对降维后的数据分析产生了困难,而FC是通过对原始变量的分解,提取各变量中的公共因子,从而达到降维的效果,并且使用因子旋转使得降维后的变量易被解释。

在众多工程安全事故分析的研究中,聚类分析是常用的一种方法,可以对数据的未知特征进行挖掘并归为一类,提高对复杂数据的分簇解释性。吴德平等[3]使用基于K-means均值的方法对施工安全事故进行分析,但是K-means主要针对圆形或球形样本,从文献[3]的聚类结果可以看出,其施工安全事故的成因分布并不均衡,而韩旭等[4]验证了高斯混合模型(gaussian mixture model,GMM)对不平衡数据聚类的有效性。同时,参与聚类的变量往往是多维的,这不利于聚类结果可视化分析,通过边荣正等[5]对PCA和T分布随机相邻嵌入法(t-distributed stochastic neighbor embedding,T-SNE)的结合应用,实现了数据由高维空间到低维空间的映射,不仅提升了算法准确度,还通过T-SNE实现了多维聚类问题的可视化。

为进一步提升对工程安全事故的分析及潜在风险做出准确的预防措施,提出一种采用FC与变分贝叶斯高斯混合模型(variational bayesian gaussians mixture model,VBGMM)的T-SNE可视化施工事故安全分析方法,简称FC-VBG-T方法。该方法主要包括3个步骤:① 使用FC方法,通过对原始指标的分解,得到施工安全事故主要成因因子;② 通过VBGMM对主要成因因子进行聚类结果分析,划分不同的安全风险等级,实现对数据内在特征的聚合;③ 结合T-SNE降维方法,对聚类分析中的多变量进行二维化,便于多变量聚类结果的可视化呈现,解决了多维聚类难以可视化展示和分析结果的问题。以中国三峡建工的多项目集成工程项目管理平台的安全指标数据作为应用对象,验证了所提方法的可行性和有效性。

1 施工安全评价模型构建

施工安全评价模型由FC模型和变分贝叶斯高斯混合聚类模型组成,前者用于综合关键安全指标,并作为后者的输入用于安全等级聚类评估。

1.1 施工安全评价指标体系建立

参考中国三峡建工的多项目集成管理系统,得到安全管理部门的18个施工安全风险等级评价指标,如表1所示。

表1 施工安全风险等级评价指标体系

1.2 因子分析提取综合安全因素

FC方法通过分析存在于研究指标相关矩阵内部之间的关系,能够将存在信息交叉、具有冗杂关系的众多变量归总成互不相关的几个综合因子。FC方法通过构建新的可解释的公因子,不仅保留了原有的大部分指标信息,使原始指标之间的相关性得以消除,还能够通过各项指标的权重对指标的相对重要性进行客观反映[6]。

假设有k个评价指标,p个观测单位,随机向量表示为X=(X1,X2,…,Xk)T,主因子表示为F=(F1,F2,…,Fm)T,得到因子分析模型[7],表示为:

(1)

式中:系数apk是载荷因子,表示第p个观测单位对第m个公因子的相对重要程度;εi是特殊因子,表示公共因子没有包含的部分,其为Xi所特有的特殊因子。同时,为了减少解释的主观性,可以将因子载荷进行正交旋转,以使模型更为合理[8]。

采用FC方法,将1.1节中的18个施工安全风险等级评价指标降维,提取得到的5个综合安全因素为:施工者因素、管理者因素、施工对象因素、施工环境因素、安全检验因素。

1.3 高斯混合模型变分贝叶斯推断

FC处理后的数据X=(X1,X2,…,Xp)T,假设这些评价指标共有m类,对于其中的一个输入X,其高斯混合模型[9]可以由下式表示:

(2)

(3)

式中:ci=1表示第i类被选中的概率,即p(ci=1)=ζi;ci=0则表示第i类未被选中。假设ci之间满足独立同分布,则可以写出式(4)和式(5):

(4)

(5)

由式(4)和式(5)并结合条件概率公式可得:

(6)

根据平均场定理[10],可以将式(6)中的后验概率p(X|ci)由一个Q模型进行表示,即:

p(X|ci)≈Q(ci,μj,νj)

(7)

(8)

式中:p表示样本数,o=(o1,…,om)表示ci对应的变分参数,m=(m1,…,mp)表示μj对应的变分参数,s=(s1,…,sp)表示νj对应的变分参数。

根据贝叶斯变分推断[11],p(X|ci)和Q(ci,μj,νj)的ELBO函数(Evidence Lower Bound)为:

(9)

将式(4)、式(5)和式(8)代入式(9)中可得更新后的ELBO函数:

(10)

由式(9)和式(10)可得:

Q(ci;oi)=exp{logp(ci)+E[logp(xi|ci);m,s]}

(11)

计算式(11)中第二项的对数似然,其统计平均为:

(12)

由式(12)可得变分参数o的更新公式:

(13)

(14)

同理可得,变分参数m,s对应的更新公式为:

(15)

(16)

通过迭代的方法对变分参数(o,m,s)进行更新,直至这些参数收敛于一个稳定值为止。方法1描述了FC-VBG-T方法伪代码。

方法1:FC-VGB-T安全评价方法

输入:安全评价指标下的数据X

输出:簇类别划分c={c1,c2,…,cm}

过程:

1. 多个安全指标变量换为因子输出x=FC(X)

2. 随机从x中选取m个数据xinit={x1′,x2′,…,xm′}作为初始簇的中心点

3. 对比数据xi与xinit={x1′,x2′,…,xp′}的距离,将距离最近的中心点划分到第ζj类,j=1,2,…,m,ζj={x1″,x2″,…,xt″}

4. 令mj=μj,sj=νj,j=1,2,…,p;令oi=ζi,i=1,2,…,m

5. Δmi=∞,Δsi=∞,Δoi=∞

6.while

7.forj∈{1,…,p}

9.endfor

10.fori∈{1,…,m}

13.endfor

14.oi=o′i;mi=m′i;νi=ν′i

15. 计算ELB(o,m,s)

16.untilELB(o,m,s)

17.endwhile

18. fori=1,2,…,m

19. 根据式(3)计算每个xi的簇类别ζj

20.endfor

至此,完成了施工安全评价模型的构建,得到了完整的安全模型建立和评价的整个流程,如图1所示。

图1 基于FC-VBG-T的施工安全评价处理流程

2 应用案例分析

依托中国三峡建工的多项目集成项目管理平台,对质量安全中的施工安全数据进行分析。首先对施工安全指标数据进行数据处理,包括数据准备和数据标准化操作。通过数据标准化处理后,就得到了FC的标准输入数据,并把FC方法输出的降维后的综合评价因子作为变分贝叶斯模型的输入,通过VBGMM进行安全等级的聚类分析,并使用T-SNE对结果进行降维可视化,得到最终的FC-VBG-T结果。

2.1 数据处理

在进行因子分析之前,需要对施工安全指标数据进行数据预处理操作,以保证数据具备规范的格式以及提高结果的可解释性。

2.1.1 数据准备

尽量选取能对施工安全产生较大影响的数据特征作为因子分析的输入变量,这不仅能够提高因子分析输出的有效性,也有利于后续的聚类分析。

1) 特征属性的选取

参考中国三峡建工多项目集成管理平台中已有的对施工安全事故的研究,确定能有效检查出潜在施工安全事故的特征,通过这些特征来细分并建立对应的指标体系,能大大加强施工方管理者对施工过程中潜在风险的评估,避免重大安全事故的发生。如表2所示,将本文的因子分析输出数据属性分成五大类,分别为施工者因素、管理者因素、施工对象因素、施工环境因素和安全检验因素。通过这些方面的指标特征,能整体分析当前施工条件所对应的安全等级,从而对潜在的安全事故提前做出措施。

表2 用户分群评估因素

2) 数据采集

本文选用了来自质量安全部的共136周的施工安全监测数据,通过上文选取的评估特征进行提取,表3为其中的一些施工者因素数据。

表3 施工者因素信息

管理者因素信息选取的部分数据如表4所示,包括了安全投资率、安全抽检密度等类别。

表4 管理者因素信息

表5为部分周次的施工对象因素数据,这些数据通过施工对象危险度、危险源种类及比例等指标,分析施工对象因素对施工安全等级的影响。

表5 施工对象因素信息

表6中的数据代表了部分施工环境因素的信息,这些数据通过施工环境稳定性、地质结构特性等指标,分析施工环境因素对施工安全等级的影响。

表7为部分周次的安全检验因素信息,通过对自然灾害处置不力事件次数、安全事故误报次数等类别的分析,从安全检验因素评判施工安全等级。

表7 安全检验因素信息

2.1.2 数据标准化

为保证因子分析和聚类分析时的数据规范统一并且完整,还需要对数据进行标准化处理。

1) 空白数据处理

对于不同的周次数据,其对应的全部施工安全指标并不是每一次都会有整体的更新,所以不同的指标存在空缺信息,需要对这种情况进行处理。本文采用向上取值的方法进行数据填充。

2) 干扰数据处理

在选用的数据中还存在干扰数据,若该数据的分布远超整体数据的分布范围,则确定该数据为干扰数据,需要进行干扰处理。本文采用的干扰数据处理方法为箱线图法,对于超过箱线图上界以及低于箱线图下界的数据视为干扰数据,则删除本条数据。

3) 指标正向化处理

在选取的数据中有些数据是负向增益而有些数据是正向增益,如果不统一为一个方向,那么在对数据进行因子分析时,则会导致其结果不可解释。本文通过各指标正向化进行处理,具体为:通过对反向增益数据取倒数来替代原本数据。

2.2 结果评价

本小节将对FC-VBG-T方法进行仿真分析,通过上述介绍的聚类评价指标综合分析评价算法的性能。

2.2.1 聚类结果

将FC方法提取得到的五大安全因素作为输入,然后改进高斯混合模型聚类方法对数据进行聚类分析,得到如图2所示的可视化聚类结果,将数据集共聚为3类。

图2 基于变分贝叶斯GMM施工安全聚类结果

同时,经过轮廓系数检验,其结果如图3所示,当聚类簇数为3时,所得的轮廓系数值最优为0.572,轮廓系数位于[-1,1],其值越靠近1,说明簇内越紧凑,即该值越大越好。

图3 轮廓系数检验曲线

2.2.2 结果分析

如图2所示,总共得到了三类聚类结果。采用的聚类算法属于机器学习中的无监督学习,因此需要管理人员结合实际情况对聚类结果进行类型标注。由管理人员将其类型分别标注为“安全”“基本安全”“可能存在安全隐患”,其样本个数分别为:50、53、33。表8是图2所得到的3类安全等级下的5个因素指标样本的均值。通过分析聚类结果有助于三峡建工公司进行更为高效、科学、精准地安全管理。

表8 聚类结果均值

安全:该安全等级在施工安全监测总样本中占有相当大的比例,具体为36.76%。该样本群体各项安全监测因素指标都较为优良,其各项因素指标的聚类结果都在0.95附近。故施工者的专业素养、管理者良好的管理能力、施工对象的安全性、施工环境的安全性、安全检验的及时性等因素都能够为施工安全提供有力保障。

基本安全:该安全等级在施工安全监测总样本中占有的比例较小,具体为38.97%。该样本群体除了施工对象因素和施工环境因素,其他各项指标与安全等级情况下相差不大。可以推断,施工对象和施工环境因素对最终聚类结果有较大影响。

可能存在安全隐患:该安全等级在施工安全检测总样本中占有较少比例,具体为24.26%。该样本的施工对象因素和施工环境因素指标均很低。

聚类结果表明,施工安全管控效果优良,但是仍然需要对部分施工对象和施工环境重点关注并采取相关措施,杜绝潜在安全事故的发生。可以对危险程度较高的施工对象采取更为安全的施工措施,例如提高防护用品等级、配置安全级别更高的施工工具等;可以进一步提高施工环境稳定性,例如加大施工环境监测频次和优化施工环境布局等。

2.2.3 聚类质量评价

基于安全施工监测数据对FC-VBG-T方法、层次分析方法[12]、K-means方法[13]、GMM[9]的仿真结果进行聚类质量评价对比。聚类有效性评价指标从内部、外部及整体3个角度进行选取,采用紧凑度(compactness index,CI)[9]作为内部评价指标反映簇内数据集的紧凑程度;选取福尔克斯-马洛斯(fowlkes-mallows,FM)[14]、 调整-兰德(adjusted-rand,AR)[9]作为外部评价指标反映聚类划分后的簇与标准簇之间的接近程度,以及评估结果在去除随机标签后所受的影响;选取分离度(degree of separation,DS)[14]作为整体评价指标反映聚类后各个簇之间的分离程度。为使结果更具一般性,将数据集进行200次重复实验后取平均值,得到如表9所示的评价结果。

表9 聚类质量测试结果

从表9可以看出,在安全监测样本数为136的情况下,所提出的改进高斯混合模型聚类方法的AR指标与1非常接近,为0.97,表示聚类结果很好;FM指标与1非常接近,为0.96,代表聚类结果与标准结果非常接近。因此,本文所提改进高斯混合模型聚类方法具有很好的聚类性能。对比几种方法的DS指标、CI指标,所提方法的聚类结果的簇具有更好的分离效果、更好的紧凑程度。虽然所提方法需要更长的运行时间,但考虑到其具有优异的聚类评价指标,在对安全施工监测数据进行安全等级评价时,FC-VBG-T方法相较于层次聚类法、K-means方法和GMM方法具有更好的聚类性能。

3 结论

针对工程施工安全分析问题,提出了一种采用FC与变分贝叶斯推断的GMM可视化T-SNE分析方法,简称FC-VBG-T方法。对影响施工安全的指标数据进行预处理并进行因子分析,得到五类施工变量,并作为变分贝叶斯推断的GMM方法的数据输入;采用基于变分贝叶斯推断的GMM聚类方法进行求解,进一步提取施工安全数据中的抽象特征以及施工安全等级的划分;通过T-SNE方法将多维聚类变量降为二维变量进行聚类可视化。通过对给定的不同周次的施工安全数据进行仿真验证,根据聚类评价指标进行比较,结果表明,所提FC-VBG-T方法与层次聚类、K-means以及GMM等聚类方法相比有更佳的聚类性能,同时基于因子分析复杂的施工安全评价指标以及对多维聚类结果的可视化展示,增强了多维聚类结果的可解释性,验证了所提方法的可行性和有效性。

由于本文的数据集较小,并不能很好地体现泛化能力,因此在未来的研究中,将使用更广泛和更复杂的数据集对本文方法进行验证,除此之外,还可以将本文方法应用于施工安全数据分析的其他领域。

猜你喜欢
变分聚类因素
逆拟变分不等式问题的相关研究
求解变分不等式的一种双投影算法
解石三大因素
关于一个约束变分问题的注记
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
一个扰动变分不等式的可解性
短道速滑运动员非智力因素的培养
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例