基于文本挖掘和复杂网络的事故致因重要度评估方法*
——以房屋市政较大以上事故为例

2022-05-19 05:37陈志远王铁骊
中国安全生产科学技术 2022年4期
关键词:词库词频分词

陈志远,王铁骊

(南华大学 经济管理与法学学院,湖南 衡阳 421001)

0 引言

项目施工,安全第一。工程项目施工参与方众多,施工现场复杂多变,安全管理任务尤为艰巨,不仅关系到各责任主体单位的经济效益,还直接影响到人民群众的生命财产安全。为明确安全管理工作的内容,进行事前风险管控,很多学者聚焦于寻找事故致因的研究,主要包括案例分析、统计分析和构建事故致因模型3类。基于案例分析,Zhou等[1]引入事故网络理论,详细分析杭州地铁重大基坑坍塌事故的经过,提取了11条主要事故致因。统计分析则运用统计学的方法,分析大量有代表性的事故案例,能揭示事故发生的普遍规律[2]。郑霞忠等[3]通过分析152起建筑工程高处坠落事故,揭示了人为失误在高空坠落事故中的作用路径。然而统计分析过程需要依赖专家的经验判断和归纳总结,具有较强的主观性。同时事故的发生具有复杂性,是人、物、环境、管理多因素耦合作用的结果。Suraji等[4]基于项目参与方的约束和响应时间,构建事故致因模型,揭示了风险因素之间潜在的复杂关系。构建事故致因模型虽能系统地分析事故致因间耦合作用的机制,但构建模型时需要依靠理论假设,同时事故样本数量也有局限性。

近年,文本挖掘理论和技术快速发展,为分析大量文本数据提供了有力支撑。如Goh等[5]将文本挖掘与6种机器学习算法(LR,RF,KNN,DT,NB,SVM)结合,对美国1 000起工程建设事故进行分类,总结了各类事故的主要原因。Zhong等[6]在文档分词的基础上,借助线性判别分析(LDA)将高维分词结果划分为34类,利用专家知识,归纳了34个风险因素。借助专家知识虽能准确地提取事故致因,但过度依赖专家的主观判断。多数研究还局限于提取事故致因,缺乏对风险因素的评估。基于关联规则(Apriori algorithm)的风险因素评估方法已运用于交通安全领域[7-8],在工程建设领域,结合关联规则的事故致因评估研究尚较为少见。

因此,本文在已有研究的基础上,把文本挖掘应用到房屋市政较大以上事故的分析中,采用最小词频阈值文档频的信息增益评估函数(DFn-IG)对特征集降噪,借助词频分析提取安全事故的风险因素,引入复杂网络评估事故致因因素的重要度。以达到充分挖掘事故调查报告中的有效信息,为安全管理工作提供参考的目的。

1 文本挖掘方法与流程

1.1文本挖掘流程

文本挖掘流程包括文本数据收集、文本预处理、构建自定义词库、文本特征抽取、数据分析、知识发现等步骤,其主要分析过程如图1。

图1 基于文本挖掘的事故致因分析流程

1)文本数据收集:根据2010—2019年国内房屋市政较大以上生产安全事故的通报信息,收集对应的事故调查报告文本。

2)文本预处理:提取事故调查报告文本中阐述事故致因的部分,去除无价值、重复、缺陷的文本数据。

3)构建自定义词库:添加目前已经广泛运用到文本挖掘领域的成熟词库,并在提取事故致因的基础上,构建添加与事故致因对应的同义词词表。

4)文本特征抽取:文本切分后,借助DFn-IG评估函数,对分词结果降噪。利用特征项词频,筛选降噪结果,回溯特征项在调查报告中的具体表述,确定事故致因。

5)数据分析:统计词频、文档频,并根据事故致因的互现情况,构建无向加权复杂网络,改进传统的TF-IDF算法,综合词频和事故致因因素的关联特征评估其重要度。

1.2 特征项降噪与致因提取

事故调查报告是非结构化的文本数据,主要有2类噪声词,第1类词频繁出现在各调查报告中,但无助于分析事故致因,如“直接原因”、“事故”等;第2类噪声词如地名、企业名称等,在各调查报告中有不同的内容,且在每一份调查报告中出现的频次较低。

设置最低词频阈值可直接去除第2类噪声词;陈晓云等[9]由信息增益(IG)、互信息(MI)、χ2统计(CHI)等方法的比较分析,得出在处理低频特征集和高维特征集时,信息增益法在查全率和查准率上相对其他方法更具优势,能有效去除第1类噪声词。因此,本文结合DFn和IG评估函数,处理噪声词。计算公式如式(1)所示:

(1)

利用DFn-IG评估函数,对分词结果降噪,然后根据调查报告中的语意,确定特征项代表的事故致因。在此基础上,构建与事故致因相对应的同义词词表。

1.3 事故致因的重要度评估

在TF-IDF的基础上,Xu等[10]引入信息熵对其进行改进,综合事故致因的频次和分布,评估事故致因的重要度。改进的TF-H算法虽然解释了事故致因重要度与其文档频DF正相关的问题,但在相同文档频下,事故致因的重要度与其频次呈反比。此外,以上2种方法仅从事故致因的文档分布特征来评价其重要度,缺乏对事故致因因素间关联关系的考量。

(2)

式中:wij表征网络节点i,j间的边权值;aij*表征边的关联边权值,以平均边权值为基准,判定2事故致因因素间关联关系的强弱。

节点的关联加权度为Ki*,以衡量与某1事故致因具有强关联关系的事故致因因素的数量,计算公式如式(3)所示:

(3)

式中:N表征事故致因因素的总数,Ki*用来衡量与某一事故致因具有强关联关系的事故致因因素的数量。

基于词频-关联关系的TF-K*评估函数的计算公式如式(4)所示,TF-K*值越大,事故致因对安全事故的影响越重要。

(4)

式中:i表征事故致因因素i;TF(i)表征事故致因因素i的词频。TF-K*(i)值越大,事故致因因素i对安全事故的影响越重要。

2 数据收集与事故致因提取

2.1 收集事故信息

从住房与城乡建设部官网,抓取2010—2019年的生产安全事故信息,共计6 000起房屋市政类生产安全事故,其中较大及以上生产安全事故共255起[11],历年生产安全事故情况如图2(a)所示。

图2 2010—2019年房屋市政工程生产安全事故分布

2.2 收集调查报告

针对较大以上事故的通报信息,从各地应急管理部门官网、易安网、安全管理网和建筑企业官网,搜集对应的调查结果,最终获得158份事故调查报告,事故类型分布如图2(b)所示。

2.3 创建语料库

事故调查中包含大量与事故致因无关的内容,如事故基本情况、责任人员和责任划分等。因此,仅将事故发生经过和原因分析2个部分的内容,作为文本挖掘的语料库。

2.4 构建分词词库

本文在Python3的环境下,使用PyCharm借助开源的Jieba算法对文本进行分词,通过自建停用词词库、分词词库和同义词词库的方式,以提升分析语料库的能力。

1)停用词词库:停用词是文档中经常出现,对文本分析无价值的一类词。如“派驻”、“广场”、“台阶”等。结合目前常用的停用词词表:HIT和MIL-SCU等,构建停用词词库。

2)分词词库:直接对调查报告进行分词,事故致因会丢失有价值的信息。如“安全意识淡薄”,经切分后变成“安全”、“意识”、“淡薄”3个词语,失去了原本所表达的信息。结合搜狗细胞词库、百度词库中收纳的大量土木建筑类专业词汇,构建出基础分词词库。

3)同义词词库:中文的表述中,不同的词语可表达相同的含义。如“工人违章操作”在不同的事故调查报告中,有“工人违规作业”、“违章操作”等表述。因此,从158份报告中随机抽取40份,分析统计同一事故致因的不同表述,形成文本挖掘的同义词词库。

2.5 文本分词与特征项降噪

对语料库分词,得到29 442个原始特征项。根据式(1),计算特征项的DFn-IG函数值。不同最小词频阈值下,特征集容量与单次噪声去除量如图3。随着阈值增大,单次去除量逐渐减小,为防止关键词被剔除,取新增幅度最低点n=8为分词用最小词频阈值。

图3 不同阈值下降噪结果

2.6 提取事故致因

结合降噪后特征项在调查报告中的具体描述,提取40个主要事故致因,如表1所示。

表1 房屋市政较大以上生产安全事故致因(部分)

2.7 网络构建与数据分析

根据事故致因在调查报告中的共现情况,计算风险因素的共现矩阵,利用Gephi软件绘制事故致因共现网络,如图4所示。为进一步评估风险因素的重要度,计算评估函数值如表2所示。

图4 事故致因共现网络

3 结果分析

3.1 事故致因因素分析

从表2可以看出,事故安全风险因素主要包括5类:自然环境条件、项目安全管理、相关单位安全管理、现场人员和材料设备,涵盖了张伟等[12]和Hoa等[13]研究中提及的施工安全事故致因。

表2 安全风险因素及其特征指标

A32,A33反映项目实施过程中的自然环境,由于工程项目的开展与施工环境密切相关,出现极端的环境时,现场组织和管理体系多难以应对,极易引发生产安全事故。

A1,A6,A7,A8,A10,A15,A17,A20,A29,A37体现房屋市政工程依然存在安全管理体系不健全、规章制度执行不到位的问题。贯彻执行合理的安全制度,可有效避免风险因素演变成事故。但在工程实践中,贯彻实施安全措施需要投入大量时间和资源,建筑企业常会因为经济上的压力和人员短缺等问题,缩减该方面的支出,带来一系列安全生产风险隐患。

A11,A14,A16,A30,A38,A39体现房屋市政工程中违法违规承发包项目的行为依然存在。由于工程项目建设具有专业性,不具备生产资质的企业开展生产活动,不仅违反相关法律规定,还存在大量的安全风险隐患,很容易引发生产安全事故。

A5,A18,A21,A22,A23,A31,A34,A40体现建筑单位编制施工方案的工作依然存在短板,在编制实施具体的安全措施方面还有很多盲点,这既是安全管理的短板,也是导致生产安全事故的高风险因素。

A2,A3,A4,A26,A27,A28,A35,A36体现项目参与单位的安全管理工作存在短板,施工企业心存侥幸心理,监理单位、政府部门等相关单位在工作中存在漏洞,风险管控工作还有很多不足。

A9,A12,A13,A19,A24反映房屋市政工程的从业人员,存在安全意识不足,专业素质不高,缺乏系统培训的问题。Tam等[14]研究表明技术交底和定期的安全训练能够提升工人的安全能力,但工程项目通常持续时间较短,工人流动性大,建筑工人一般只在工程建设的初期接受短暂的安全培训,这些培训并不能显著提升他们的安全意识和专业水平。

3.2 事故致因重要度分析

由于TF7=TF8=116,DF8=DF14=45,因此选择A7,A8,A14因素的数据进行对比。尽管A7和A8的词频相同,但A7的文档频更高、关联加权度更高,表明A7在调查报告中的分布更均匀,与其他致因因素的关联更紧密,更容易引发事故,因此其重要度应更高。表2中的数据显示,TF-H值和TF-K*值判别结果均为A7>A8,与分析结果吻合。以上数据的比较,验证了相较于传统的TF-IDF值,TF-K*值具备同TF-H值一致的判别能力。

A8和A14具备相同的文档频,表明其在相同数量的事故中出现,而二者的WD/K值仅相差0.08,表明二者与其他致因因素的关联强度基本相同,但A8的词频更高,表明其被强调的次数更多,因此综合词频、文档频和关联加权度来看,认为A8的重要度高于A14。表2的数据显示,TF-K*值的判别结果与分析结论吻合。以上数据较好地验证了相较TF-H值,采用基于关联加权度的TF-K*更能全面准确地衡量事故致因的重要度。

3.3 低频致因因素分析

Mitropoulos等[15]的研究显示,事故的发生与施工作业的自然环境密切相关,恶劣的自然环境会带来更多的风险因素,但在事故报告中很少提及相关内容,所有事故调查报告中仅14份提及恶劣天气。因此,尽管自然环境相关的致因因素出现的频次不高,但在项目安全管理过程中仍值得关注。Manu等[16]研究发现,不合理的进度目标,会给施工作业带来工期压力,出现材料积压、交叉作业、忽视安全风险等问题,极易引发生产安全事故。调查报告中很少提及工期设置不合理,所以其重要度评价靠后,但该因素的重要性仍不能忽视。

4 结论

1)基于DFn-IG评估函数对分词结果降噪,在保留大部分关键信息的条件下剔除噪声词,避免了在提取事故致因时出现维数灾难。

2)基于词频分析,从158份事故调查报告中提取40个事故致因因素,并构建事故致因的同义词词库,完整抽取调查报告中有关事故致因的信息。

3)引入复杂网络表征事故致因因素间的关联关系,提出基于词频—关联加权度的重要度评估方法,经数据验证,在比较相同文档频下的事故致因重要度时,该方法更具优势。

猜你喜欢
词库词频分词
基于词频比的改进Jaccard系数文本相似度计算
分词在英语教学中的妙用
一“吃”多用
输入法词库取证比较研究
结巴分词在词云中的应用
结巴分词在词云中的应用
词汇习得中的词频效应研究
输入法词库乾坤大挪移
词频,一部隐秘的历史
汉语音节累积词频对同音字听觉词汇表征的激活作用*