基于大数据分析的电网外包单位安全评价研究

2024-01-31 10:35
电气技术与经济 2024年1期
关键词:分值单位指标

刘 聪 杨 辉 魏 琨 景 钰

(国网甘肃省电力公司定西供电公司)

0 引言

电力安全与政治安全、经济安全、网络安全、社会安全等诸多领域密切关联,一旦发生大面积停电事件,可能引发跨领域连锁反应,导致重大经济财产损失,甚至引发社会恐慌,危及国家安全。随着电网建设步伐的不断加快,电网工程量持续增大,电力工程外包队伍不断增多,电力外包工程和外包施工单位的安全管理被提到越来越重要的位置,建立电力外包施工单位安全管理评价体系成为提升外包安全管理水平的迫切需要[1]。

国家电网有限公司2023年安全生产工作相关意见指出,应“巩固和延伸安全生产专项整治三年行动成效,常态化抓好长期风险管控,巩固整治成效”。为确保生产作业安全和建设施工安全,牢牢守住安全生命线,科学运用大数据分析技术,开展外包单位安全体系评价建设,是深入落实安全生产专项整治行动的一项具体实践,有助于健全完善安全管理体系,提升科学管理水平,建设安全生产长效机制,推进安全治理体系和治理能力现代化[2]。

1 电网外包单位安全评价研究思路

首先,开展理论研究,对电网企业安全管理、外包单位安全管理、评价方法及模型等概念进行梳理,为打通电网企业外包单位安全评价体系构建的底层逻辑提供理论支撑。其次,开展实证研究,通过文献综述法、对标方法论,开展外包单位安全评价体系实践分析,梳理不足和薄弱环节,以问题为导向构建基于大数据分析方法的的外包单位安全评价体系。再次,构建基于大数据分析的外包单位安全评价指标体系,以3C要素作为理论基础,结合外包单位安全管理实际,构建“4S”外包单位安全评价指标体系,初步选定外包单位安全评价指标。然后,进行安全评价指标数据的采集和预处理,通过特征工程对指标进行特征衍生、特征抽象化等一系列操作,利用皮尔森相关性图谱筛选出与目标变量相关性较高的特征,降低模型学习难度。接着,采用随机森林算法对特征的权重进行评判和排序,确定最终指标及权重。最后,进行算例分析,通过模型计算出外包单位安全评价分值,并根据分值将外包单位安全评价分级[3]。

2 基于大数据分析的电网外包单位安全评价研究

2.1 指标选取

(1)安全属性指标

安全属性指标主要考核外包单位在资历、规模、业绩等方面所具备的综合条件及进行投标或履约的基本能力。评价指标体系下设二级指标和三级指标,二级指标包括企业资源、经营状况、奖惩记录三项,下设的三级指标为具体的评价项。

(2)安全行为指标

安全行为指标主要指电网施工外包单位在国网系统内生产作业中累计的安全行为信息,反映电网施工外包单位在工程建设过程中的安全施工能力,评价指标体系下设二级指标和三级指标,二级指标包括施工安全违章、安全作业风险、安全负面清单数、违章记分数四项,下设的三级指标为具体的评价项。

(3)安全资质指标

安全资质指标主要是评估电网施工外包单位是否具备足够施工能力且资信良好的企业,是外包单位安全准入的重要标准之一。评价指标体系下设二级指标和三级指标,二级指标包括安全资信、安全承载力、安全投入三项,下设的三级指标为具体的评价项。

(4)安全否决性指标

“安全具有否决权”的原则指安全生产工作是衡量工程项目管理的一项基本内容,它要求对各项指标考核,评优创先时首先必须考虑安全指标的完成情况。安全指标没有实现,即使其他指标顺利完成,仍无法实现项目的最优化,安全具有一票否决的作用。

依据安全生产监管基本原则中“安全具有否决权”的原则,本研究构建的外包单位安全信用评价指标体系设立安全否决性指标,即近三年内发生人身安全事故的外包单位评价得分为0。

2.2 模型构建

(1)数据采集

对于内部数据源,主要从各业务生产系统后台导出相应数据,以安全生产风险管控平台及其手机APP、陇源掌培为核心数据源。对于外部数据源,主要使用网络爬虫进行采集,以应急管理部、国家发改委和信用中国网站为核心数据源。以2021年1月1日至2022年12月21日为时间区间,共采集获得超过60张表单,10.3万条数据,80MB大小的数据文件。

(2)数据预处理

1)数据清洗

电网施工外包单位安全评价数据内外部数据源头众多,数据采集方法不同,所采集的安全信用基础数据也难以避免存在错误、重复、无效、相互冲突等(即“脏”数据)问题。本研究采用均方差方式检测异常值,采用数据分桶技术减少次要观察误差的影响,实现数据格式标准化,清除异常数据,纠正错误数据,清除重复数据。

2)特征工程

特征抽象(feature abstraction)是指将数据转换成算法可以理解的数据。对于独立变量,比如将有安全生产许可证编码为1,无安全生产许可证编码为0。特征缩放(peature scaling)是指将变量数据经过处理之后限定到一定的范围之内。特征缩放本质是一个去量纲的过程,同时可以加快算法收敛的速度。

3)特征选择

当数据预处理完成后,需要选择有意义的特征输入机器学习的算法和模型进行训练。

基于Filter,主要采用了方差选择法、Pearson相关系数、卡方检验、互消息法四种方法进行特征选择,最后将选择结果进行汇总,得出最终使用的特征变量。

(3)指标权重计算

数据集划分。鉴于数据规模,本研究采用自助法来划分数据集,即每次从数据集D中取一个样本作为训练集中的元素,然后把该样本放回,重复该行为m次,这样就可以得到大小为m的训练集,在这里面有的样本重复出现,有的样本则没有出现过,把那些没有出现过的样本作为测试集。

评价指标。在模型训练结束后,采用AUC作为模型评价指标。为了直观表示逻辑回归中正负例的界定现象,引入ROC曲线,根据分类结果计算得到ROC空间中相应的点,连接这些点就形成ROC曲线。一般情况下,ROC曲线越接近左上角,该分类器的性能越好,其泛化性能就越好。同时,如果ROC是光滑的,那么基本可以判断没有太大的过度拟合。

3 算例分析

3.1 计算安全评价分值

本研究以5家外包单位的安全属性、安全行为、安全资质三个维度下设的各项指标数据做算例分析,采用随机森林算法,将其作为计算安全评价分值的基础技术。

首先,读取实验使用的数据集;接着,通过均等阶梯记分、功效系数法等评价方法,将5家外包单位各项指标数据得分情况进行计算,并基于计算结果生成相应热力图。

然后,通过最终的相关性计算结果,选取与外包企业安全评估相关性大于0.5的16个指标。基于这16个指标,对之前选定的所有指标进行筛选,去除其余指标,以确保最终外包企业安全评估得分的科学性与真实性。

最后,将筛选后的数据送入随机森林中进行训练,通过随机森林求得每一个指标占取外包企业最终安全评估指标得分的权重,见下表。

表 筛选后指标权重计算结果

观测计算结果可知,由于指标数较多,每一个指标的所占权重都较小。因此,本研究基于这16个指标的权重,与其对应的企业指标值相乘,并将计算得到的所有指标值相加,最终得到该企业的安全评价分值,实现外包企业安全量化评估。

根据计算,5家外包单位的安全评价分值分别为:企业A得分57.42分;企业B得分80.00分;企业C得分64.61分;企业D得分77.37分;企业E得分79.31分。

3.2 划分安全信用等级

在通过随机森林计算出外包单位安全评价得分后,针对得分情况,将其划分为五个等级,即差(D级,<60分)、较差(C级,60~69分)、达标(B级,70~79分)、良好(A级,80~89分)和优秀(A+级,90~100分)。基于以上指标,在每次计算出外包单位安全评价得分后对其进行归类,最终实现对外包单位的安全评级。

根据前述安全评价分值计算结果,企业A安全评价分值57.42分,根据划分结果,安全信用等级为D级,安全信用差,在安全准入评估时可以选择排除,不予考虑这类单位;企业B安全评价分值80.00分,安全信用等级为A级,安全信用良好,在安全准入评估时可以优先选择这类单位;企业C安全评价分值64.61分,安全信用等级为C级,安全信用较差,在安全准入评估时应尽量避免选择这类单位;企业D和企业E的安全评价分值分别为77.37分和79.31分,安全信用等级为B级,安全信用达标,在安全准入评估时可以多加关注这类单位。

3.3 算法对比分析

为验证随机森林在计算外包单位安全指标之间相关性的有效性,本课题将随机森林算法与SVM支持向量机算法、BP神经网络算法三种算法进行了对比。

从计算复杂度来看,神经网络由多个神经节点组合而成,每一个节点都要计算与另一个节点之间的权重。SVM支持向量机算法则需选择一个核函数,通过该函数对相关性进行求解,但这个核函数也较为复杂。对比之下,随机森林算法由于可对树数量进行设置,而本研究选用的指标为27个,树数量设置为10以下即可,因此计算复杂度相较于以上二者较低。

从实现时间来看,随机森林算法需5min,SVM支持向量机算法需12min,神经网络算法需17min,随机森林算法所需时间远远小于其他两种算法。

从实现效果来看,由于采集数据中含有人工生成的数据,整体数据规模也较小,使用神经网络算法和SVM决策树算法会导致过拟合的情况(即低复杂度的数据采用了高复杂度的算法实现),最终效果较差,而随机森林算法能够很好地解决该问题。

为了获得更好的算法对比计算效果,本研究搭建了算法对比所需的实验环境,具体软、硬件参数为:Ubuntu20.04.1操作系统,Intel(R)Core(TM)i7-9700K处理,七彩虹RTX2080super显卡(16GB内存),3.8.12版本Python软件、1.12.0版本Pytorch软件。

4 结束语

通过对验证集的指标进行计算,最终得出3种算法的最终效果,随机森林算法0.89,SVM支持向量机算法0.64,神经网络算法0.74。因此,随机森林算法在外包单位安全评估任务上,相较于其他两种算法所需时间更少、实现效果更好,更适用于本研究的外包单位安全指标权重计算。

猜你喜欢
分值单位指标
一类带临界指标的非自治Kirchhoff型方程非平凡解的存在性
一起来看看交通违法记分分值有什么变化
鸣谢单位(排名不分先后)
填单位 要推敲
看错单位
最新引用指标
莫让指标改变初衷
按病种(病组)分值结算:现状、做法和评价
协办单位
Double图的Kirchhoff指标