唐 桃,张麟豪,王浩多,周宇炜,周彤彤
(川庆钻探工程有限公司安全环保质量监督检测研究院,四川 广汉 618300)
目前对监督日常运行过程中产生的海量、多样的现场数据的利用,还停留在基本的数据统计分析上,对其初步进行筛选的方法也较为单一,未能充分考虑作业点数量变化等数据与分析结果的相关性,对于作业现场实际情况的评价深度仍有待提高。
一套能深度结合安全监督站海量历史数据量化各类变量相关性的安全监督数据分析方法对解决钻(修)井作业现场安全生产管理的实际需求极为关键。探究石油钻井行业大数据的分析和应用方法将逐步平衡大数据处理和人力消耗的平衡,进一步丰富数据分析层次和维度。
现有数据分析层次和维度不够丰富。就目前安全监督站编制数据分析报告所使用的方法及工作思路来看,侧重分析的角度较为单一,仅仅停留在数据初筛和基本走势上,没有更多具有针对性的分析对比,数据分析程度较低。
其次,待处理数据量与人力消耗不成比例。一方面,在数据量剧增和累积的大背景下,人工处理耗时耗力且标准难以完全统一的问题愈加突出。另一方面,人员精力耗费在数据的基础处理上,不利于数据的深度分析和进一步应用。面对监督站多年来库存的近百万条历史数据存量及与日俱增的数据增量,监督站急需一种全新的数据处理方法以提高工作质量及效率,减轻数据分析人员的工作负荷,集中人员精力于分析和应用深度的提高上。
煤矿安全领域[1]较早地启动了安全生产管理的信息化建设,行业开始兴建以“数据管理、安全预警”[2]为目的的安全预警系统,虽然以数据为管理依据的改变一定程度地减轻了经验主义带来的主观误判,但现场影响因子众多(如工龄、工况、季节、物资储备、设备状态等),分支专业交叉性复杂(如搬安、钻进、复杂处理等),架构和核心算法都过于简陋的“安全预警系统”[3]仅仅起到了数据存装和筛查的作用,并未在安全评价、预防性监督、过程管理、事故预测、应急救援、制度完善等方面给出量化的评测结果和针对性运行方案。既未针对煤矿领域的安全管理对现有成熟的大数据分析和应用方法进行专业化改良,更未自成体系地形成基于大数据分析和应用目的的核心方法理论。
基于现有的安全监督数据库,标准化处理、自动化分析“隐患违章”、“运行数据”和“事故信息”是后续过程管理、事故预测和应急救援的应用基础,因此实现安全评价和预防性监督是本次研究的侧重点。
数据预处理[4]领域中常见的文本预处理数据源多为完整的段落或文章,而安全监督站所收集文本源多为单一语句或词汇(隐患、违章、事故事件汇报等)。前者虽然文本结构复杂、信息冗杂、风格化严重,但文本信息也较为丰富,语言逻辑完整,但通过现有成熟的停用词表、jieba词库[5]漏筛、断词,再利用聚类分析和tfidf向量算法[6]便能较为完美地解决上述问题完成文本预处理,在后期数据的挖掘和应用中具有明显优势;而后者看似文本短小精干,但通常为人工输入或录入,用词多样、描述简洁,信息素不全的现象较为严重,去停用词处理、分词、特征文本提取、词频统计困难较大,因此还必须结合“场所”“工序”等其他信息进行综合判断,数据预处理的综合成本明显增加。
基于以上难点和现状,安全监督数据库文本数据的标准化流程仍然是数据筛查分析、应用预测的重点工作。
隐患栏中涉及的“作业项目”“施工单位”“区域”“整改情况”,违章栏中涉及的“二级单位”“人员岗位”“用工性质”“所属公司”都存在以上问题,对于每周动辄4000多项隐患(五万多栏单元格内容)和300余项违章(六千余栏单元格内容),一方面人工处理成本极高,同时还会侵占压榨完成其他价值工作的人力资源。
文本数据的清洗流程大致分以下三步,如图1所示:
图1 文本数据清洗流程图
(1)安全监督数据库数据来自于三大管理部及各巡检督查组,利用机器语言的读写查模块对各文件的同类内容进行合并,并自然导出为标准的excel表格。
(2)对数据录入、输入的常见问题进行汇总建库(例如符号混用、二级单位描述缺字、隐患区域描述过细、违章人员岗位套用等)。
(3)结合上述常见问题库,嵌套使用excel自带的文本处理函数对原始数据文本内容进行替换、修正,实现描述的标准化处理。
在最终大数据分析报告的成果展示部分,现场作业点、监督派驻、隐患违章及事故事件等综合信息需要汇总分析,因此需要将分布在不同位置的数据源合并存放,按时间先后统一管理。
安全监督大数据原始文件多为文本格式,相比数字化数据,在进行复杂的数据分析和挖掘时空间和时间的占用和耗费更为明显。对文本数据进行规约处理后,将能在保证数据功能性和完整性的基础上,降低无效、错误数据对分析过程和结果的影响。
文本数据的规约中常使用属性规约,即是对内容冗杂又对部分分析影响较小的列进行不相关删除或数字化替代,融合属性类似或存在逻辑或包含关系的列(例如二级单位与所属公司)创建新属性维度,进而减少总体维数。一方面可以减少文件占用的存储空间进而减轻分析难度,另一方面亦可在后续子集合并和分布概率的计算上提升分析的准确率和适用范围。
安全监督大数据的类型大致包括隐患、违章、事故事件信息及其他运行管理资料四部分。
4.1.1 词频统计
只要当累计周期足够长、数据量足够大时,各维度子集即可全面完整地展示出现场问题的客观规律。
若以隐患为例对所有隐患信息的维度进行相关性分析,首先就需要了解钻井专业隐患在形成中的影响因子及其因果关系。隐患的产生通常受时间(周期性的使用维保或季节性气候等)、工况(搬安、钻进等)、所处位置(钻台、泵房、循环罐等)等诱因的影响,而隐患在检查发现后则需要根据其具体情况对其分类分级。因此,时间、工况、位置等因素与隐患描述,隐患描述与类别、级别都存在一定的相关性,若要量化它们(各信息维度下各子集)之间的相互关系,首先便需要采取高效便捷的方法求出固定维度单一变量的情况下其他维度子集词汇的真实频次。对于标准化后的数据,excel表格即可清晰地展示每个信息维度下的所有子集。
4.1.2 相关性计算
为方便两两维度之间各子集相关性的量化,可使用对各维度子集进行数字化表征的方法进一步规约简化。基于两两维度之间各子集的出现频率(词频)以及在原始数据中的对应关系,并使用excel的“correl”函数、数据分析或通过python调用pandas进行批量处理得到多组成对维度之间子集的相关系数矩阵。相关矩阵及矩阵系列图的建立对运行安全的管理都具有较强的预见性、指导性和针对性,例如临近某个季节或特殊时段哪部分区域更容易产生哪些隐患,哪几个岗位更容易出现何种违章,哪几种工况更易发生人身伤害都将一目了然,现场巡查的重点、安全提示的要点和专项检查的切入点在思路上都将发生新的转变。
耗时长且处理复杂的事故事件后续信息难以准确跟踪闭环,对每一条原始信息依次标记时间逻辑,并使用次序标签,以保证闭环管理时能对同一事故事件准确定位。
实际生产运行的管理要精细于国家标准和上级公司要求,因此仅以以上标准要求仅能作为一级分类标签。而现场事故事件复杂多样,二级标签乃至三级标签是否全面精简在高效管理和数据输出时尤为关键。梳理历史事故数据时发现,相比细致的事故描述,事故事件在致因和结果上有更多的共通之处,便于归纳合并,在梳理管理时也更有逻辑。为进一步提升分析的精细程度,在初步分析的基础上寻找更多的可能性,在事故事件统计表中增加了事故致因和结果两个维度。
通过对现场数据的标准化处理,在现场安全领域需求范畴内分析维度的增加后,作业现场问题背后的产生逻辑和管理原因能够更为明显地暴露,更为准确地聚类,也更为直观地展示。以上分析结果便能对现场管理室在监督履职管理侧重、专项排查主题选择、事故事件统计上提供新的思路,节省人力,同时也能对现场监督的隐患违章查找、安全提示、现场风险把控有所助益。自分析模板投入使用后,现场违章处罚及专项检查效果上有了明显的提升,如图2所示。
图2 分析模板投入使用后生产数据变化趋势柱状图
参考分析模板而制定的月度专项检查计划更具有针对性,在查患纠违上能更好地反映出作业现场该时段存在的真实问题。
安全监督运行数据内容庞大,类型多样,各维度之间都存在深刻的并行、递进和因果关系,但现行的各数据资料管理库都相互独立存在,例如派驻信息、隐患数据、违章数据、事故事件统计、监督能力评估报告等。人员的违章行为既可能给事物状态埋下安全隐患,又可能直接导致事故事件的发生。无论是从特定的周期(季节、特定时段)、固定的人员(岗位、工龄或确切的某个人)还是确定的场所(石油片区或井场区域)某处隐患、某个违章和某起事故都存在较为突出的产生概率,因此运行的现状分析和管理的后期预测都不能忽视各个数据库之间的密切关联而独立分析,各库的持续优化和规约关联也可作为安全管理和预警的下步计划。
在企业传统的安全管理中,数据的采集一般采用手动输入,人工汇总的方式,对于规模较大、人数众多的安全监督队伍而言,这种方式不仅效率不高,而且容易因周期顺延、人为错误和描述多样导致数据在及时性、真实性和准确性上无法得到保证。数据采集作为前端管理的重要环节,如何利用信息化手段为监督开展和管理减负、提质、增效也会是后续安全监督大数据分析和板块里重点研究和推广的方向。建立严格对标、内容全面的隐患违章五级目录,利用直接选择的信息采集方式替代当前的手动输入,派驻打卡、培训签到、测试结果等运行资料采用请求使用的方式一步入库都能在规范数据内容、优化数据结构上有所助力。
为更为及时准确地获取现场监督的派驻动态、更为全面详尽地了解现场监督履职信息,并在实时获取、显示现场真实情况的同时减少信息上报、收集、统计过程中人力的浪费,为管理下放和人员减负提供新的可能,安全监督站将着手建立集信息填报、动态显示、实时分析为一体的安全监督数据管理系统。