田水承,王雪晨,范彬彬
(1.西安科技大学 安全科学与工程学院,陕西 西安 710054;2.西安科技大学 安全与应急管理研究所,陕西 西安 710054)
随着中国社会的快速发展,建筑业已逐渐成为国民经济的重要支柱产业之一,但在生产过程中重特大事故仍时有发生。据统计,2012—2018年间,中国共发生房屋市政工程生产安全事故4 100起,死亡5 011人,其中坍塌事故占11.46%,死亡人数占比高达18.86%[1],这表明建筑施工安全生产形势依然严峻,因此探究建筑施工坍塌事故关键致因及其关系,对提高施工安全管理水平、有效预防事故发生具有重要的现实意义。
近年来,国内外学者从多种角度对建筑施工坍塌事故致因进行了研究。ZHANG等通过构建施工事故原因系统(CACS)模型和灰色关系分析方法(GRA)识别事故关键致因,将组织管理混乱等8个因素视为安全管理改进和事故预防的重点[2]。SOLIMA,BLAZIK等对比坍塌事故发生前、中、后3个时期的场地条件探究坍塌事故致因[3-4]。MATHEBULA研究发现质量问题、设计缺陷、缺少安全检查是宗教建筑坍塌的重要致因[5]。李华、牛丰等运用STAMP模型对具体事故进行实证分析,以控制层面为切入点识别出导致事故发生的致因因素,并构建了层次结构模型[6-7]。田水承、KYUNGSU等分别采用扎根理论、随机森林等方法对建筑坍塌险兆事件致因进行分析,得出建筑坍塌事件险兆事件受人和物两方面因素的影响[8-9]。李卉、孙世梅等利用“2-4”模型对100起建筑施工坍塌事故致因进行统计和分类,运用卡方检验和让步比(OR)确定致因间关联性大小及关键路径,认为管理人员安全习惯不佳、安全知识欠缺是导致事故发生的重要原因[10-11]。陈新亮以HFACS理论为基础,采用SVM-RFE算法筛选出对坍塌事故严重程度影响最大的因素[12]。KIM,TERESA运用层次分析法对坍塌事故的致因进行量化分析,得出施工过程中风险因素评估不到位、监督检查疏忽引起的操作失误是导致事故的关键因素[13-14]。上述研究成果大多利用统计法、专家访谈法和问卷调查法,从不同角度对建筑施工坍塌事故致因进行了分析,但其中致因识别环节工作量大且易受主观因素的影响,致使研究结果具有一定局限性,采用机器学习的方法从数据量大、内容复杂的建筑施工坍塌事故调查报告中挖掘出建筑施工坍塌事故致因,最大限度地发挥历史数据的应用价值成为当前的迫切需求[15]。
利用文本挖掘从非结构化文本数据中获取相关有用信息是一种非常成熟的技术手段,在煤矿、隧道施工、交通等领域的事故预测和原因分析中得到了广泛应用[16-18]。纵观已有文献,文本挖掘在建筑施工坍塌事故致因方面的研究甚少。文中拟采用文本挖掘与社会网络分析相结合的方法,从文本数据中自动识别出建筑施工坍塌事故的共性致因,构建建筑施工坍塌事故致因网络,并进行中心性、核心-边缘结构及凝聚子群分析,深入探究各致因间相互关系,为预防建筑施工坍塌事故的发生提供理论指导。
文本挖掘(Text Mining)[19]是指利用机器学习、归纳推理等方法,从大量非结构化文本集,抽取或标记文本集中词与词语间的关系,进而实现主题追踪、结构分析、信息可视化等功能的计算机处理技术,文本挖掘的主要处理过程如图1所示。
为满足海量数据处理的需求,众多统计分析软件被广泛应用[20]。R语言(R Language)作为免费的开源编程类软件,功能涵盖数据清洗、数据分析、挖掘建模及可视化等全过程,且各种统计学前沿理论方法的应用程序均以程序包的形式在R语言中得以实现,用户可针对具体需求选择相应的程序分析包,实现任何数据相关的操作。鉴于R语言开源性、全面性等特点,文中将选用R语言及其相关程序包对建筑施工坍塌事故报告进行文本挖掘。
事故调查报告是事故统计与分析的重要数据来源,对事故发生的单位情况、发生经过、救援情况等有全面的叙述。从中国应急管理部、住房和城乡建设部等网站共收集2014—2020年建筑施工坍塌事故调查报告420份,涉及34个省级行政区,将此作为文本挖掘的语料。为减少文本挖掘的无效工作时间,本次语料库只保留事故调查报告中“事故原因”和“发生经过”的内容,并按条列编号,将其保存为“.csv”格式。
分词是将连续的语句按照一定规则转换为词序列的过程。将420份建筑施工坍塌事故调查报告导入R,通过Jieba R和Jieba RD程序包对其进行分词处理。为使分词结果的效果达到预期目的,在分词前需自定义停用词词典、专业词语词典。将哈工大停用词表导入stop_words.txt中,避免虚词对文本的识别误差;将搜狗输入法中建筑工程、安全工程等相关细胞词库转换为.txt格式,导入user.dict.txt中,旨在消除类似含义但是不同表述词语的干扰,如将“安全知识不足”、“缺少安全知识”、“安全知识欠缺”等表述归并处理。因语料库选取对象为事故调查报告,所以无法避免出现“事故”、“原因”等词语,故需反复更新停用词表,对无关词语进行适当删除。
分词共得到1322项原始特征值,部分词频如图2所示。分词后特征项较多,会对后续分析造成严重干扰,因此对分词结果进一步筛选。
TF-IDF是一种用于信息检索和文本挖掘的加权算法,用以评估字词在某一文本或语料库的重要程度[22]。字词在语料库中出现的次数越多,表示该字词的区分度越差,重要程度越低。TF-IDF所提取的关键词在文档中具有强代表性,可有效区别于其他语料库。所以采用TF-IDF算法对特征项进一步评估,计算公式如下
(1)
(2)
TF-IDFij=TFij×IDFj
(3)
利用公式计算各特征值的TF-IDF值,将其作为特征项权重,并转换为向量空间模型。由于特征项较多,选取具有代表性且权重值排序前40项特征值,手动删除“施工”、“安全管理”等无关项后,共保留28项特征值,并对其进行编码,编码结果见表1,Fi表示建筑施工坍塌事故的第i项事故致因。
手动筛选泉州欣佳酒店“3·7”、丰城电厂“11·24”等坍塌事故致因,与表1进行比较发现,文本挖掘所得事故致因涵盖手动筛选结果,且能将事故致因具体化,说明文本挖掘分析建筑施工坍塌事故致因符合建筑施工安全管理实际。
表1 建筑施工坍塌事故致因编码
为更直观地展示所挖掘的事故致因重要度程度,本研究将29个特征项及相应TF-IDF值转换data.frame格式,运用WordCloud2程序包进行可视化,如图3所示。
图3中词语字体大小代表该词语的重要程度,安全意识淡薄、安全培训不到位、隐患整改不力、资质不达标占比较大,在建筑施工风险防控中应给予高度重视。
为探究建筑施工坍塌事故致因间的作用关系,采用Ucinet对其进行网络分析。通过Dichotomize函数得到密度为0.871,标准差为0.267的二值化矩阵。
事故的发生是多因素耦合的结果,同样,建筑施工坍塌事故的发生并不是由某一因素单独导致[23]。为明确建筑施工坍塌事故各致因间的共现关系、绘制可视化图谱,运用共现分析的方法统计某一组词语在同一文本中出现的次数,统计结果见表2。
表2 建筑施工坍塌事故致因共现矩阵(部分)
运用Ucinet-NetDraw模块绘制建筑施工坍塌事故致因网络关系图,如图4所示。节点间连线表示事故致因间的分布关系,线条粗细表示两者之间关系的紧密程度。安全意识淡薄、违章操作、安全培训不到位,安全重视程度不够与其他致因项共现频率高,在致因网络中起关键作用。
中心性表明一个节点占据网络中心的程度,度中心度是网络分析中常用的度量指标,反映某一节点与其他节点之间的连接情况,一个节点的度中心度越大表示该节点在网络中越重要[24]。通过Ucinet软件对建筑施工坍塌事故致因网络进行中心性分析,网络总体整合度数据见表3。节点中心度分析结果与词云显示结果基本相符。
表3 建筑施工坍塌事故致因网络中心性分析
安全意识淡薄、违章操作、安全培训不到位的度数中心度占比均在0.05以上,位于建筑施工坍塌事故致因网络核心区域,与其他事故致因具有复杂的因果关系,同时也处于词云的关键节点,在建筑施工坍塌事故预防与防控中应给予高度重视。根据海因里希理论,以上3项致因存在时极有可能诱发其他因素,导致人的不安全行为、物的不安全状态的发生,进而酿成事故。如违章操作往往是由于施工人员安全意识淡薄、企业安全培训不到位等多原因所致,而这些因素又会导致下一致因的出现,形成多米诺效应,进而造成事故。
由事故因果致因理论可知,事故是由人、机、环境、管理之间相互作用所导致。因此在分析建筑施工坍塌事故致因时,考虑核心因素的同时也要考虑核心因素与边缘因素之间的联系。核心-边缘结构能够精确地区分社会网络中的高密度核心区域与低密度边缘区域,建筑施工坍塌事故核心-边缘分析结果见表4。核心区域平均密度为27.409,边缘区域平均密度仅为7.680,表明核心致因因素间关系紧密,在网络中起到控制作用。在事故预防中应重视安全意识淡薄、管理混乱、资质不达标、荷载分布不均等11项核心致因项,制定具有针对性的管控措施,从而预防建筑施工坍塌事故的发生。
表4 建筑施工坍塌事故致因网络核心-边缘结构分析
采用Ucinet-Concor模块解释建筑施工坍塌事故致因网络存在的聚集关系,进而挖掘凝聚子群如图5所示。各子群内部因素在形成或致灾等方面联系紧密,各因素相互影响和作用,相关性较强。安全意识淡薄、资质不达标、未佩戴个人防护用品、安全知识欠缺等8个因素与人的职业素质、状态相关,如施工人员安全意识淡薄常表现为安全知识欠缺,作业中易出现擅自施工、冒险作业和违章操作等现象,致使工人不安全行为的发生概率增加,进而增大事故发生的可能性;管理混乱、安全生产制度不健全、隐患整改不力等8个因素与企业及管理层的决策情况相关,质量不过关、荷载分布不均等7个因素与施工过程方案及建筑物情况相关,气候异常、设备陈旧等5个因素与施工环境相关。减少建筑施工坍塌事故的发生既需减少子群内部的联系,也要避免各子群之间的相互作用。
1)采用TF-IDF算法明确建筑施工坍塌事故的28项致因,词云可视化结果表明,安全意识淡薄、监督检查不到位、资质不达标、隐患更改不力等致因占比较大,在施工管理中需重点防控。
2)通过对建筑施工坍塌事故致因网络进行中心性分析、核心边缘结构及凝聚子群分析,明确监督检查不到位、安全知识欠缺、违章操作等11项核心致因,17项边缘致因,且核心事故致因间关系紧密。
3)安全意识淡薄、管理混乱、资质不达标、隐患整改不力、监督检查不到位、违章操作、安全责任落实不到位、安全培训不到位8项致因项处于词云突出位置与社会网络核心区域,极易在施工过程中引发人的不安全行为和物的不安全状态,最终导致建筑施工坍塌事故的发生。