李国清 李学玉 侯 杰 强兴邦 王 浩 国祯翔 赵 威
(1.北京科技大学土木与资源工程学院,北京 100083;2.山东黄金矿业(莱州)有限公司三山岛金矿,山东 莱州 261442)
矿山作业条件复杂、劳动环境恶劣,长久以来被视为高危险、高消耗的劳动密集型行业,安全生产在矿山企业中备受重视。在矿山生产过程中存在多种安全隐患,及时发现和治理这些隐患对于保障安全生产、避免安全事故的发生具有重要意义,因而安全隐患的精准辨识与迅速排查日益受到重视。许多矿山积极完善安全管理制度,建立相应的管理信息系统[1-3],以提升现场安全管理水平,治理安全隐患,完成安全检查的信息化与数字化,矿山的安全管理逐渐从事后总结转变为事前预防。
随着信息系统的长期应用,系统中积累了大量矿山监测监控、日常安全检查、安全隐患排查与整改、设备运行状态、人员安全记录等信息[4]。这些数据都是矿山在解决实际安全隐患过程中积累下的宝贵财富,不仅数量巨大,而且数据的类型多样、数据增长幅度逐渐增加,传统的数据分析方法对于这些数据的分析效果并不理想[5]。
大数据分析技术的发展以及数据挖掘等算法和工具的日益完善为矿山安全隐患数据的深层次利用提供了有效途径。例如,Lluís Sanmique等[6]利用数据挖掘技术对一个由西班牙采矿业2003—2012年中近7万起职业事故和死亡报告组成的数据库进行了分析;刘红宾等[7]构建了煤矿安全数据挖掘系统原型架构,确定了矿山安全数据的主题域,有效地对煤矿安全生产信息进行了管理。但是大数据分析技术学习成本高、难度大,需要用到的分析工具配置复杂,不利于该技术在矿山企业的广泛应用。综上所述,本研究的重点是融合现代安全管理理论、大数据分析、数据挖掘和系统研发等多种技术手段,探索以文本挖掘技术为主的大数据分析方法在矿山安全隐患分析与预警中的应用,从大量安全隐患数据中获取需要的规律规则和知识,实现矿山安全管理数据资源的有效利用;通过计算机软件技术封装复杂的数据分析算法,形成科学有效的安全生产大数据分析与数据可视化展示,提高矿山安全管理水平,最大限度地保障开采过程中人员和设备等要素的安全。
以国内某大型矿山安全生产管理系统中积累的7万多条安全隐患排查数据作为原始数据来源,这些安全隐患检查数据中包含了隐患发生时间、地点、隐患问题描述等大量有效信息。但是安全检查数据存在记录随意、用语不规范、行业习惯用语多、问题描述不清晰等问题,限制了其更深层次的有效利用;同时,矿山安全生产管理的特殊性和复杂性使得相应的采矿安全信息维度众多、内容庞大、层次多极化,因而在传统模式下,管理人员很难全面、实时、直观地掌控和分析矿山的安全生产状况。面对这些格式多样、标准不一、以文本数据为主的非结构化数据,矿山企业缺乏有效的分析方法,难以从海量的安全数据中提取出可指导安全生产的有价值信息,造成了数据资源的堆积与浪费。经过分析研究,这些安全隐患记录数据呈现出突出的大数据4V特征,即数据体量(Volume)大、种类(Variety)多样、数据增长速度(Velocity)快、价值(Value)密度低。受限于传统数据分析的方法与功能,这些安全数据只用于完成简单的安全问题处理、报表分析和数据统计,数据的生命周期相当短暂,在隐患排查完成后即以分散化、无序化的形式堆积,沉淀成为大量的历史数据,对于增加隐患排查的针对性、可视化描述安全隐患的分布规律和关联关系等远未起到支撑作用。
大数据分析技术是通过分析挖掘算法实现从海量的、价值密度较低的数据中,提取出其中潜在有用的信息的过程,而且分析的对象可以是任何类型的数据。因此本研究引入大数据分析中的文本挖掘与可视化方法,对这些矿山安全隐患数据进行分析,挖掘安全隐患中的隐藏知识,以实现安全管控从事后分析到事前预防、从被动应对到主动防控、从单一要素到精细协同的安全管理智能化的目标。
(1)面向大数据分析的危险源智能辨识。利用大数据分析方法智能辨识矿山生产过程中的主要危险源,从人的不安全行为、物的不安全状态、环境影响、管理层面、时间和空间等维度辨别出影响矿山安全生产的主要危险源,为矿山找到主要风险点内容和区域提供依据。
(2)面向大数据分析的安全风险主题挖掘。利用大数据分析技术完成主要安全风险问题的归集,分析出矿山安全风险的核心主题,获得的矿山安全风险主题对安全风险排查与治理具有重要参考价值。
(3)面向语义网络大数据分析的安全风险辨识。基于大数据分析中的语义网络分析模型进行安全风险辨识与分析,找到安全风险间的关联与隐性知识,对于矿山找到安全隐患致因具有重要意义。
(4)面向关联大数据分析的安全隐患诱导与演化分析。针对安全风险大数据间关联进行分析,梳理作业过程中风险相关性规律,直观地展示出安全风险间的关联关系,以此指导安全管理者对矿山安全风险形式快速做出分析,以及制定相应的隐患治理方案。
矿山安全隐患大数据平台以云计算平台和大数据分析平台作为基础性平台,云计算平台为安全隐患数据的存储、模型计算提供支持,大数据分析平台为安全数据抽取、加工、分析和深层次利用提供基础平台,系统整体架构如图1所示。从事务处理和服务角度,系统可以划分成数据资产管理和平台运维管理2部分,数据资产管理主要包括基础数据采集和数据预处理,平台运维管理包括知识库、算法库、执行分析脚 本和数据可视化管理等。
图1 安全隐患大数据分析系统整体框架Fig.1 Framework of big data analysis system for potential safety hazards
安全隐患大数据分析系统的整体框架分为大数据采集层、大数据预处理层、大数据分析层和大数据可视化层,其功能和作用如下:
(1)大数据采集层。将不同来源、形式的隐患数据按照统一的数据标准进行集中存储。安全隐患数据来源广泛,采集形式多样,安全隐患数据主要来源于不同周期、不同主题的矿山现场安全检查工作,数据表现为非结构化文本数据以及图像、视频资料,数据采集形式分为电脑端和移动端软件2种。
(2)大数据预处理层。将安全隐患文本数据抽取、转换、清洗、标准化处理后归集为不同主题的数据仓库,生成面向决策分析需求的数据立方体。安全隐患数据清洗包括缺失数据填补、错误数据修正、以及数据格式统一等;针对文本数据特征,需结合矿山安全知识构建安全隐患标准化词库,运用词库实现隐患描述的标准化分词,并从时间、空间、致因、类型、责任主体等维度构建安全隐患数据立方体。
(3)大数据分析层。以矿山安全知识库和大数据分析算法库为依托,定期执行大数据分析脚本,实现大数据分析结果动态更新。
(4)大数据可视化层。针对矿山安全隐患大数据分析结果特征,构建危险源辨识、危险源归类、安全风险主题挖掘、安全隐患知识图谱、安全隐患致因分析、安全风险预警等主题下的数据呈现方案。
矿山安全隐患辨识与预警系统的功能体系如图2所示,通过系统的各项子模块实现数据准备、数据模型化处理和数据可视化呈现,同时,系统将数据接口、知识库、模型库、可视化组件管理模块化,保障了系统的高拓展性和强兼容性。
图2 系统功能体系Fig.2 Software function system
系统功能体系如下:
(1)数据标准化。该模块以语料库、停用词库、多维数据集管理的形式为系统提供基础数据标准化支持。其中语料库包括常用语词库、矿山安全词库和自建词库等。停用词包括逻辑词、关联词、副词、数词、代词等。多维数据集的构建将安全隐患文本按照维、维的层次、维的度量进行标准化存储。
(2)数据挖掘模型库。该模块以数据挖掘模型为基础,结合安全隐患数据特征,将各个数据挖掘算法实例化,对加载数据按照数据挖掘模型逻辑顺序进行数据处理,并对分析结果进行结构化存储,便于数据可视化。
(3)数据可视化。该模块用于安全隐患大数据分析结果的呈现,服务于安全管理者进行风险预警与科学决策。模块以商务智能展示工具、图形库为基础,根据可视化工具的数据需求,定制个性化数据转化接口,实现可视化工具的数据填充。
(4)系统管理。该模块用于系统核心功能管理,保证系统能够在安全隐患数据来源增加、数据挖掘模型扩充以及可视化形式日益丰富的情况下具有良好的升级能力。
安全隐患大数据分析逻辑涵盖“四横四纵”,如图3所示。横向上以具体问题为导向,确定数据处理目的和途径,选择适合的大数据挖掘模型和方法。纵向上以数据处理逻辑为主线,分为数据标准化、隐患辨识和致因分析以及安全预警。
图3 安全隐患大数据分析逻辑模型Fig.3 Big data analysis logic model of safety hazards
(1)数据标准化。针对安全隐患数据的非结构、记录不规范问题,从缺失数据填补、错误数据修正、数据格式校正等角度完成数据标准化处理,主要方法包括数据清洗、词条分析和多维数据集构建。
(2)危险源和安全风险主题辨识。为明确矿山安全重点关注问题,按照隐患时间、空间、致因维度辨识重大危险源,并从“人-机-环-管”和隐患主题归集角度聚焦矿山主要面临安全风险,主要方法包括:词频统计、趋势分析、聚类分析和主题挖掘。
(3)安全隐患致因规律挖掘。针对重点关注隐患,分析其产生、表现、关联问题有助于控制和消除安全风险,通过构建词条共现矩阵和关联规则方式,呈现隐患并发性和关联性规律。
(4)安全风险预警。数据分析解决了事后规律分析问题,而隐患数据的深层次利用途径之一则是安全风险的预告预警,运用安全风险等级预测、事故规律推演等手段实现安全风险状态的监控和预警。
确定数据观察的角度与知识挖掘路径,是大数据分析的前提和基础,这需要对大量隐患信息进行维度化、标准化处理。安全隐患排查记录数据均以非结构或半结构化的文字形式记录,同时数据的记录方式受到检查人员用语习惯影响存在较大差异,为安全知识挖掘带来了难度,为此,探索一种安全数据结构化表达方式十分重要,满足从多个维度对安全问题进行描述的要求。为确保对安全问题描述维度抽取过程的全面性,本研究以“六何分析方法”为指导[8],它是在美国政治学家拉斯韦尔提出的“5W分析法”的基础上经不断总结完善,逐步形成的一套科学分析问题的模式。最终提炼出的矿山安全隐患描述模型如图4所示。
图4 矿山安全隐患维度划分Fig.4 Dimension division of mining safety hazards
大数据分析模型是安全隐患分析与辨识的核心部件。通过分析各类数据挖掘算法的优势与适用条件,结合矿山安全隐患数据特征,选择适合处理矿山安全隐患数据的模型,在将模型实例化后嵌入系统模型库,便于数据分析时的自动化、便捷化调用。
3.2.1 主题挖掘模型
主题挖掘模型可用于揭示矿山频发、高危、高风险的安全管理主题,实现安全管理主题域的挖掘与归集,以此提高矿山安全管理工作的针对性。主题挖掘模型是一种概率生成模型,常用于挖掘大规模文档集的潜在主题。其基本原理是通过词项在文档集中的共现信息,利用概率反推文档的主题结构,进而得到整个文档集的主题分布。
主题挖掘算法包括:HDP、LDA、DTM和 LSA等[9]。其中,LDA模型具有较强的泛化能力,适合处理大量数据集,同时该模型对于描述不规范、存在大量专业词汇的文本数据具有较高的准确度,因此,选用LDA模型进行安全隐患数据的主题挖掘[10]。
3.2.2 语义网络分析模型
随着矿山安全隐患数据容量不断扩大,安全隐患文本表现出海量、无序、离散特征,梳理安全隐患语义脉络成为矿山安全管理的难题之一。语义网络分析模型是一种以网络格式表达知识构造的模型,将语义网络分析模型引入安全隐患数据分析,通过计算语义距离及隐患要素词性,构建安全隐患要素及其共现关系的集合,深层次地表示隐患结构、层次及隐患间的因果关系,直接而明确地表达出安全隐患的语义关系[11]。语义网络构建的经典算法主要包括术语频率反向文档频率(TF-IDF),潜在语义分析(LSA)和BM25技术等[12]。
3.2.3 关联规则挖掘模型
安全隐患的各类危险源不是孤立存在的,它们之间存在潜在的、隐含的关联,矿山各类危险源之间隐含关联规则的揭示对提高危险源识别的准确性和隐患排查效率具有重要作用。Apriori算法是挖掘布尔关联规则频繁项目集的经典算法,利用Apriori算法,通过设置适当的支持度、置信度和提升度阈值可以挖掘出引发矿山安全事故的隐患间的内部关联规律[13],以此为基础构建一种关联隐患预警方法[14],为隐患的预测性排查和安全事故致因的隐含性要素揭示提供模型支持,有助于矿山企业实现本质安全。
3.2.4 隐患分类模型
矿山安全隐患数据中蕴含着大量安全隐患的规律、规则和知识,通过隐患的自动分类,可以实现非结构化矿山隐患文本资源的有序整合。常用的文本分类算法包括:支持向量机、K最近邻、人工神经网络和朴素贝叶斯等[15]。支持向量机方法可以保证解的唯一性和全局最优性,解决了神经网络等方法难以避免的局部极值问题,且算法复杂度与样本维度无关[16],具有稳定性、鲁棒性、高准确率等优点,因此,选用SVM算法进行隐患类型的分类。
3.2.5 事故预测模型
准确的事故隐患预测能够将安全隐患消灭在萌芽状态,使安全生产事故由事后处置转变为事前预防,保证矿山企业生产安全。常用的事故预测方法有统计回归法、时间序列法、马尔科夫链法、灰色预测法、神经网络法和链路预测等[17]。本研究采用ARIMA模型对由安全隐患积累导致的安全生产事故进行预测,通过揭示安全隐患可能的发展走向,使管理人员以全新的视角解决安全隐患特征提取及预测等诸多问题。
矿山安全隐患大数据由于其来源复杂、形式多样、数量巨大等特征,其隐含知识的可视化也面临着诸如时间跨度大、数据维度多、数据关联复杂等问题。为此,矿山安全隐患大数据可视化需要充分结合分析结果特征,选择能够呈现出数据内在的模式、关联和结构的可视化图形,使复杂的安全隐患信息易于理解与应用。
3.3.1 时序特征可视化
矿山安全隐患的形成、变化与时间紧密相关,其时序性表现在数据随时间呈现出规律性或者周期性的变化特征,因此,如何将动态变化的隐患文本与时间相关的规律进行展示,是隐患信息可视化的一项重要内容[18]。
利用时间线工具在对隐患频次进行统计并以柱状图的形式进行可视化的基础上,对安全隐患在时间维度呈现出的变化趋势进行拟合和预测,通过设置预警值的方式,可以实现基于频次特征的矿山安全隐患预警。时序特征可视化结果如图5所示。
3.3.2 多维特征可视化
矿山安全检查从多个维度上考量隐患发生的原因及具体情况,包括时间、地点、隐患问题、责任人、奖惩措施、整改办法等,多维数据可视化可以帮助安全管理人员发现数据多个属性维度间的关系,而高维可视化越有效,识别出潜在的模式、相关性或离群值的概率越高。
图5 矿山安全隐患时序特征可视化Fig.5 Visualization of time series characteristics of mine safety hazards
桑基图可以突出呈现安全隐患的关键信息流动,同时形象地展现隐患特征在不同隐患主体之间的比例关系,有助于管理人员把握安全隐患细节[19]。采用桑基图对安全隐患在时间、空间、责任主体和隐患类型等维度呈现出的多维特征进行可视化,结果如图6所示。图中的每个分支代表1条信息流,分支的宽度和流向分别呈现了不同维度安全隐患的发生频率及特点。
图6 矿山安全隐患多维特征可视化Fig.6 Visualization of multidimensional characteristics of mine safety hazards
3.3.3 层次特征可视化
矿山安全隐患数据量庞大且层次结构不清晰,需要借助可视化方法对数据的结构和形式进行转换,更好地呈现出数据间关联、层级与脉络。层次边缘捆绑可以用于表示节点间的网络关系,适合节点较多的数据关系可视化[20]。本研究利用层次边缘捆绑技术对矿山安全隐患的层次结构特征进行可视化,结果如图7所示。
图7 矿山安全隐患层次特征可视化Fig.7 Visualization of hierarchical characteristics of mine safety hazards
(1)数据抽取。通过数据接口对某大型矿山集成化安全生产管理系统在长期应用过程中积累的海量非结构化安全隐患排查数据进行抽取,作为安全隐患大数据分析的原始数据来源。
(2)数据清洗。为了保证文本挖掘效果,根据矿山安全隐患数据特征,对抽取出的隐患排查数据进行规范化处理,剔除对于隐患信息分析挖掘无意义的内容,并利用数据映射的方式对记录中不规范的格式及错别字进行纠正。
(3)语义分词库构建。在整合通用语义库、矿山生产专业词汇、安全管理专用词库等行业语义词库的基础上,分析矿山安全管理中普遍关注的要素[21],结合矿山安全管理特点构建专门用于矿山安全生产大数据分析的语义分词库。
(4)隐患多维数据集构建。采用jieba算法对隐患数据进行分词处理,完成安全主题数据的单元化、要素化拆分。利用文本聚类方法,将文本特征词归集到相应的维度,形成安全主题多维数据集[22]。通过对安全风险产生的频次数据进行加工,实现大量描述性的安全隐患数据的标准化和格式化。
通过模型的自组织与自调度,实现不同安全隐患数据分析需求的实时响应。借助商务智能分析工具完成可视化系统的搭建,将安全大数据分析结果以各种分析图表和模型的形式进行集成化展示。
(1)危险源智能辨识模块。根据矿山安全隐患的频率与程度数据,采用词云图、气泡图、柱状图和环形图等从人的不安全行为、物的不安全状态、责任主体、时间和空间等维度智能辨识影响矿山安全生产的主要危险源,为矿山找到主要风险点内容和区域提供依据。危险源智能辨识模块如图8所示。
图8 危险源智能辨识模块Fig.8 Intelligent identification module for potential hazards
(2)安全隐患知识发现模块。采用层次边缘捆绑、力导向布局、桑基图和词共现散点图表征矿山主要危险源之间的相关性与共伴生规律,为安全风险的分级管控与防治提供支持。安全隐患知识发现模块如图9所示。
图9 安全隐患知识发现模块Fig.9 Know ledge discovery module for hidden safety hazards
(3)矿山安全事故预警模块。以时间维度为依据,采用变化趋势图对不同致因的安全隐患的变化趋势进行可视化。结合知识发现模块挖掘得到安全隐患的诱导与演化规律和矿山安全生产事故的演化路径,用以指导矿山有针对性地开展安全管理工作,制定相应的隐患治理方案,提高矿山安全检查工作的效率,并在一定程度上实现对安全事故的预警。矿山安全事故预警模块如图10所示。
图10 矿山安全事故预警模块Fig.10 Accident warning module
系统应用于国内某大型矿山企业,实现了安全隐患智能识别、诊断、预测与预警,为矿山危险源分级、安全防控策略制定以及安全应急处置提供了决策支持,减少了矿山安全事故的发生,使传统的严重依赖直觉判断和经验的安全管理转向基于大数据分析的精准安全管控,大幅提高了安全管理人员对安全隐患认识、管理和决策能力。
针对矿山安全隐患排查数据具有数据量大、不规范、非结构化特征,定义大数据存储与分析的数据结构,部署安全隐患大数据的清洗、转换、抽取等数据结构化操作。通过开发安全隐患辨识与预警大数据分析系统,将大数据挖掘模型、算法加以封装,实现大数据分析功能的实体化与系统化。
(1)大数据分析技术在矿山安全隐患文本知识挖掘方面具有较好的适用性,可以有效解决矿山安全隐患数据规范化存储、深层次利用与可视化问题。
(2)根据矿山安全隐患数据分析场景,构建了一套体系完整的矿山安全隐患分析与预警系统解决方案,形成了以大数据采集、预处理、分析与可视化为核心部件的系统架构,设计了以数据标准化、数据挖掘模型库、数据可视化和系统管理为核心的功能模块,规划了安全隐患大数据分析“四横四纵”逻辑。系统成功应用于国内某大型矿山,验证了解决方案的可行性与有效性。
(3)聚类分析与主题挖掘模型解决了重大危险源和安全风险主题辨识问题,明确了矿山安全重点关注问题。语义网络分析和关联规则分析模型解决了重点关注隐患的产生、表现、关联问题,有助于控制和消除安全风险。分类模型与预测模型将安全管理模式从“事后分析”转变为“事前预防”,实现了安全风险状态的预测。