基于文本挖掘的石化安全管理及可视化研究

2020-09-14 11:04:10沈亮戴洪帅王天娇张峰冯等田
化工管理 2020年25期
关键词:词频分词云图

沈亮 戴洪帅 王天娇 张峰 冯等田*

(1.青岛理工大学商学院,山东 青岛 266520;2.山东财经大学统计学院,山东 济南 250014)

0 引言

城市作为国家和地区政治、经济、社会生活和环境发展的中心,因其特有的空间集聚性和流动性,一旦发生突发公共事件,诸如传染性疾病、油气管道爆炸、地震、毒气泄漏等各种自然或人为灾害,极易造成大量人员伤亡和严重财产损失,极大地影响城市的公共安全[1]。而仅仅依靠人工统计策略和传统信息处理技术,政府部门和企业很难做到快速反应与精准决策。大数据技术具有对公共安全数据进行信息收集、提取和分析的能力,能够为城市运行提供安全预警、统计分析、辅助决策等服务,从而提升城市公共安全管理水平。本文以石油化工企业日常检查所产生的安全事故记录为研究对象,利用大数据技术对其进行文本挖掘[2-4],找出导致安全事件可能发生的主要原因和规律,并将统计结果以可视化展示。在此基础上,本文提出切实有效的公共安全管理建议供石化企业与政府参考,增强员工安全生产(HSE)意识,预防安全事故的发生。

1 文本挖掘的背景

随着科技的发展、高通量手段的成熟以及时间的推移,在城市公共安全领域、经济领域、生物化学等领域都遇到了复杂数据的统计分析问题,数据价值将变得越来越重要。与传统所收集的数据不同,当今各领域数据呈现分散、破碎及信息尚待解析等特征,重点表现为数据复杂、不同的解析策略可能产生丰富的结果。近年来,大数据技术成为了各行业数据科学研究者的主要工具, 同时大数据技术在大样本、高通量的数据分析工作中起到日益重要的作用。

作为我国重要的能源与原材料产业,石油化工在国民经济中始终占据着举足轻重的地位。由于石化企业产生的数据量大、数据类型多、存储格式复杂,虽然研究者对石化数据的利用已经多年,比如安全生产指标、销售产品的品种,但大多只是运用传统统计方法和图表的形式来进行分析和研判,大数据技术的利用率并不高。由于在石化企业的日常安全检查中,记录信息使用最多的是文本格式,从而文本挖掘被认为比数据挖掘具有更高的商业潜力。因此,利用文本挖掘手段对可能影响石化公共安全的因素进行研究是有重要价值的[5-6]。

2 数据来源及数据的预处理

2.1 数据来源及分析软件

本文以官方统计的浙江镇海炼化数据为研究对象,数据共包含9685条安全检查记录的原始文本,其涵盖了从2001年至2015年间石油化工安全检查中的事故发生类型、事故处理方法、问题发生原因及整改措施等内容,并且也从技术改进和管理等方面对安全事故中的失误和不足进行了补充说明,因此比其他数据文件更具有代表性。

本文选取研究对象中的每日安全生产检查报告作为文本挖掘的语料,利用 R 语言进行数据提取[7],并选取信息完整、记录详细、数据量大且事故原因具有代表性的记录纳入数据集。本文所有的程序都在R-3.5.1 版本的环境下运行,此外本文还借助于jiebaR, jiebaRD, Rcurl, devtools, cidian 等软件包进行编程。

2.2 数据的预处理

由于采集的文本数据一般含有较多的无用信息,因此需要对其进行预处理。而对文本数据进行预处理的关键步骤是如何分词,即将每一句话分解为有意义的词语。如某个安全员的检查结论是“运用大数据的检测方法,压力表有泄漏”,分词之后变成“运用”“ 大”“ 数据”“的”“检测 ”“方 法”“压力”“ 表”“ 有”“泄漏”。由此可见,其并未将“大数据”以及“压力表”分解成一个词。因此,为使分词结果达到预期效果,避免专业词汇切分误差以及停用词的干扰,在分词时还需加入与石化安全工程相关的专业词典和停词。步骤如下:

(1) 首先利用R语言读入数据,并使数据形成语料库。R语言提供了多种读取不同类型数据的命令,常用数据存储类型有txt,csv等格式。在读取txt数据文件时,通常使用read.table(f ile,header = TRUE, sep = “,”, …);而在读取csv 数据文件时,通常使用read.csv(f ile, header = TRUE, sep = “,”, …)。

(2) 其次,本文在R语言中加载安全工程。scel、化工产品名。scel、石油专业词汇。scel、石油天然气。scel以及石油石化专业术语。scel这五个词典,然后将汉字词典的专业词汇与文档中文本遍历匹配完成初步的词语切分。在R语言环境下利用jiebaR程序包中的segment( )命令对文本进行分词,并生成列表向量。

(3) 对于分词后出现的某些虚字、词和数字,如“的”“我”“在”“这里”“不仅”“1”“2”等,由于这些虚字、词和数字的实际意义不大,因此被称为停用词(Stop Words)。为提高检索效率,本文将对分词中出现的这些停用词进行筛选和过滤。在这里导入现有的停词表,编辑关于停词与去掉停词的程序,检索停用词表并移除此类干扰词以过滤在安全生产记录文本中可能造成可视化分析偏差的停用词。 在R语言中,使用worker( )命令来达到去除停词的目的。

此外,本文主要研究引起安全事故发生的原因和规律,因此记录中的整改方法、解决情况、监察部门等暂时剔出研究范围。

3 基于文本挖掘的石化安全管理分析

文本挖掘是大数据技术的重要应用领域之一,它通过处理大规模的文本信息,进一步挖掘其中隐含的结构规律,以结构化方式表示为价值知识的过程[8-11]。文本挖掘主要包括数据的收集及预处理、统计分析和统计决策三个步骤。首先按照事先设定的规则批量提取信息作为源数据;然后利用软件将文本的句子按照结构切分为便于分析的词语组合,同时剔除研究意义较小的干扰词语,称为分词。统计分析是对评价文本的深入挖掘,通过词频分析、关联分析与聚类分析等技术对数据进行建模处理,获取知识或信息。

3.1 词频分析

虽然每一位安全检查员记录的事故内容不一样,但经过长时间的积累,运用数据挖掘手段仍然能找到影响安全生产的主要因素。一般来说某一问题被提出的次数越多,越能说明其在安全生产中的重要性,而词频分析恰恰能够处理这类问题。

在R语言中,引用strsplit函数并自定义多元抽函数,通过lapply 函数对其进行循环,它引用多元抽函数,将向量中的每个元素作为参数,对去掉停词的文档运用正则表达式进行匹配拆分。最后使用table函数得到各词组词频,词频越高的词语对于分析文本知识作用越大。为了从海量文本及时有效的挖掘到所需信息,本文针对由两个字(二元抽)、三个字(三元抽)、四个字(四元抽)及以上所构成的词语进行重点分析。本文分别将2元抽、3元抽、4元抽及以上统计的分词按词频降序排列,然后选择其中词频较高的词语生成文档词矩阵列表,见表1。

表1 分词词频统计表

在表1中可以看到,2元抽中“管线”一词出现的频数最高,共557次;对应的事故发生原因主要有管线冷凝、管线出现砂眼泄漏、管线腐蚀等。其次“泄露”“处理”“蒸汽”“出口”“检查”“法兰”的词频也高于400。在2元抽的结果下,可以看到管线腐坏泄漏等问题是引发安全事故的重要原因之一。此外,“检查”“班组”“联系”等与人相关的事故记录的词频也较高,可知许多安全事故的发生与各部门员工的工作素质也有较大的联系。

在3元抽的情况下,“压力表”一词出现频数最高,共出现369次,表明其为经常出现缺陷或故障的设备。其次,“灭火器”“过滤器”“控制阀”等词组频数也较高,体现了企业的不安全状态和安全管理缺陷。

在4元抽及以上的情况下,(不)“符合要求”出现的频数最高,共出现27次,这暴露出了部分生产人员或技术人员的不安全操作模式。“加氢裂化”一词出现22次,这是由于加氢工艺的主要设备是在高压、高温、且有硫化氢存在的状态下运行的,从而容易引发安全事故。此外,“回水温度”“飞灰仓泵”等与石化生产操作相关的专业词汇由于所抽单位扩增而逐渐显现出来。

3.2 可视化分析

可视化分析是通过计算机展示更直观的图像,然后多尺度渐进式地完成数据分析与提炼,发现目标领域知识的方法。词云图[11-13]是文本挖掘的一种可视化展示,本文利用词云技术对数据进行分析,并生成可视化图像进而分析其内在规律。

根据分词所得到的语料库,利用R软件中“Wordcloud”包制作词云图,词云图中每个词的大小与其词频数成正比增加。为了更直观的展现某些词标签的重要性,本文首先生成了整体词云图(图1)。 为了更详细地发现不同长度分词对石化公共安全生产造成的影响,在图1的基础上,本文还生成了二元抽词云图(图2)、三元抽词云图(图3)和四元抽及以上词云图(图4)。

图1 整体词云图

图2 二元抽词云图

图3 三元抽词云图

图4 四元抽及以上词云图

由图2至图4可以得到,相关安全事故记录中的高频词主要有泄漏、处理、压力表、灭火器、加氢裂化等。结合分词结果(表1)和词云图可以看出,在石油化工企业日常检查的历史安全事故记录中,引发安全事故的原因包括:所配置压力表可能因质量问题或无按时检查磨损情况无红线,使其失去了确保安全作用导致安全事故;在生产过程中对原油进行加工时,具有自燃性或腐蚀性的原材料或石油化工产物泄漏,或管线泄漏,带来安全隐患。此外,企业班组交接班不及时出现看管空档、员工没有按时对设备或工序检查、记录人员在日常检查记录中不认真等情况也是出现安全事故的重要原因之一;上述结论与近年石化安全事故报道基本相符。

3.3 基于TF-IDF算法的关键词检索与分析

在词云图中,虽然能够发现导致石化企业事故原因的分布情况,但是仅从词频上来分析,高频词语中出现了大量的诸如“故障”“现场”等对事故原因的判断没有明显作用的常见词语。从词云图上来看,一个致险因素可能被分成不同长度的词语重复出现,因此需要对词语赋予相应权重以突出关键词,找到安全事故频繁发生的关键点,以期利用数据做出更有价值的预测。

TF-IDF (Term Frequency-Inverse Document Frequency)是一种用于文本挖掘 (text mining) 与信息检索 (information retrieval)的常用加权算法[10-13],其主要作用是文本分类和对关键词的提取。TF代表某个词语的频数与词语总数的比值,而IDF为逆文档频率,表示某个词语的重要性与包含这个词语的文档数目成反比,即其他相关文档数越少,越能说明该词语对于企业安全事故发生的特殊作用性。TF-IDF主要用以评估某个字词对于一个文件集(或一个语料库)的重要程度。一般来说,某个词的重要性大小与其在文件中出现的频数成正比,但同时也会与它在语料库中出现的频率成反比。TF-IDF算法如下:

式中:N为文件集(或语料库)中文本的总数;N(x)为文件集(或语料库)中包含词x的文本总数。

词x的TF-IDF则定义为:

式中:TF(x)为词x在当前文本中的词频。

利用TF-IDF算法对关键词进行筛选和整理,得到部分词语的重要性大小如图5所示。为了研究导致安全事故发生的致险因素的具体来源,可根据图5中的关键词结合原始记录将石油化工安全事故发生原因分成以下四类。

图5 关键词TF-IDF统计图

(1)泄漏缺陷。产品生产的主要过程是对原油进行提纯和深加工,原材料以及中间产物通常存在易燃性,有自燃危险。同时由于产物或所用药剂通常存在腐蚀性或一些毒性,如果对所用材料或中间产物处置不善,承载设施出现老化或损坏等均可能会发生泄漏而引发安全事故。

(2)设备故障。石油化工生产设备体量大、相关配置多,需要小心使用并经常检修。在生产运行中,如果没有对设备进行按时检修及维护,则容易出现设备故障;为了实现石油原材料的高利用率,设备运行的条件通常设定地极为苛刻,若生产人员操作不当,则出现的设备运行错误等问题也会造成安全事故。

(3)人为因素。在一些石化企业中,往往缺乏生产安全管理技能、员工安全意识的培养。从而导致安全生产管理相关制度形同虚设,加深了石化生产中员工的错误认识,出现换班不及时、检修不到位、对安全事故处理不当、消防设施和管理不够完善等现象,导致石化生产处于不安全状态,安全隐患增多。

(4)其他因素。在安全事故记录中以较少出现或首次出现的安全事故发生原因,如恶劣天气影响、部分隐患缺陷等。

由上文所分析来看,引起石化事故发生的致险因素具有隐蔽性强,涉及方面多等特点。 因此要从实际出发,对石化企业安全管理过程应实行长期且有规律的监控,制定完备的设备管理制度,特别是对已检查出的问题进行及时有效的处理;同时要加强对企业生产操作、管理和技术人员的安全培训工作,进一步提高员工的操作技能和水平,减少或者避免安全事故的发生。

4 结语

本文利用大数据技术对浙江镇海炼化数据进行了统计分析。根据数据特征,利用文本挖掘手段提取影响城市安全生产过程中的潜在因素,并利用词云等可视化方式对统计结果做出展示。通过关键词的提取进行探索性的数据分析,作为对安全事故诊断和预测的重要手段。 强化信息化和大数据技术在城市安全管理的研究与应用,发挥它们在信息挖掘、关联因素分析、趋势预测和辅助决策方面的作用,是治理现代城市公共安全问题的紧迫需要;以风险防控为起点,以大数据技术为导向的治理模式将是城市公共安全管理的新利器。

猜你喜欢
词频分词云图
基于词频分析法的社区公园归属感营建要素研究
园林科技(2021年3期)2022-01-19 03:17:48
成都云图控股股份有限公司
中国农资(2019年44期)2019-12-03 03:10:46
结巴分词在词云中的应用
智富时代(2019年6期)2019-07-24 10:33:16
黄强先生作品《雨后松云图》
名家名作(2017年3期)2017-09-15 11:13:37
值得重视的分词的特殊用法
基于TV-L1分解的红外云图超分辨率算法
词频,一部隐秘的历史
云图青石板
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
图书馆论坛(2014年8期)2014-03-11 18:47:59