代鸿元,王勇飞
(国电大渡河流域水电开发有限公司,四川 成都 610041)
国电大渡河流域水电开发有限公司(以下简称“国电大渡河公司”)主要负责大渡河干流17个电站开发运营,总装机约18 000 MW,所属各单位广泛分布于大渡河流域及其他支流,工作呈现出点多、面广、战线长等特征,加之面临着库坝规模大、厂房结构复杂、设备形式多样等诸多难点难题,提升安全生产科技化水平至关重要。按照国电大渡河公司智慧企业建设的总体目标框架,大渡河安全风险管控数据中心于2015年开始建立,2018年正式投运,已经有了大量的数据积累。这些数据中蕴含着隐患的特征及演化发展规律,为安全管控从业务驱动型向数据驱动型的转变提供了基础,也为安全管控以人工经验为主转变到让数据说话提供了可能。为切实抓好安全生产,防范事故于未然,结合国电大渡河流域水电开发有限公司各单位安全生产实际情况,利用大渡河安全风险管控数据中心安全隐患历史数据,力图挖掘隐藏在数据背后的规律,发现隐患之间的关联关系,进而开展新生安全隐患预测分析,实现安全隐患超前管控。
该研究以国电大渡河公司所属16个单位的历史安全隐患为基础数据,通过机器学习算法分析出特定空间、时间范围内安全隐患的关联,深挖隐患载体、隐患现象之间存在的促进、依存、关联等关系,自动形成隐患之间的关联规则,以此作为新生安全隐患预测的依据,预测分析下一阶段可能出现安全隐患的类别及概率,根据预测分析结果加强对相关区域、设备设施、工作活动等重点管控,以期有效提升遏制安全事故发生的管控水平。
安全隐患预测分析以历史安全隐患数据为基础,建立安全隐患关键词数据辞典,通过对安全隐患关键词的辨识、分析及应用,选择恰当的空间、时间维度,通过改进Apriori算法挖掘不同安全隐患之间隐患载体和现象的关联,通过计算隐患载体之间的置信度、支持度和提升度,定量表征不同隐患载体之间的依存、促进关系,进而得到新生安全隐患发生的概率。
2.1.1创建安全隐患切词方法
基于历史安全隐患数据梳理安全隐患内容中隐患载体、隐患现象等关键信息的描述文本,采用基于词库的最大概率匹配方法及隐马尔可夫HMM分词方法,匹配语料库中已有词汇并发现可能的未知词汇,进行词性标注,筛选出名词、动词、形容词等具有信息量的实词,滤除“的、了”等无效字、词,形成临时词库;对于专业性强的安全隐患文本,当前还没有一种分词算法能达到人工分词的准确度,因此算法分词所得结果仅作为过程词库,在此基础上,由多名安全业务专家参与人工校验,结合实际的隐患记录,逐条进行校验,形成修正的词库,校验后的结果结合分词算法再次进行匹配,当过程词库与修正词库完全一致时,过程结束;否则,进入下一轮算法分词和人工校验的迭代,专用词库建立流程如图1所示。以上方法既发挥了算法分词的优势,又可综合不同专家的经验,为进一步的隐患分析提供基础。
图1 专用词库建立方法
2.1.2建成安全隐患专用词库
采用业务模型与数据模型相结合的技术路线,在算法自动分词的基础上,结合业务专家经验,通过迭代的方式创建了适用于国电大渡河公司的安全隐患特征词库;其中载体词库713个,隐患特征描述词库594个,关键词词库2 695个。词库有别于其他文本挖掘研究项目所建立的中文词库或是其他公开的常用语词库,建成词库均为经过人工校验的专业词库,安全隐患词库如表1所示。通用词库并不能直接用于对专业性较强的隐患进行切词,建立的专用词库,为后期建立有效的关联模型垫定了基础。
表1 安全隐患词库
2.2.1对Apriori关联算法模型进行适应性改进
经典的Apriori算法在工业、商业等不同领域有着成熟的应用,其遵循支持度、置信度框架,对于隐患关联关系的挖掘而言,具有特殊性:不只是要发现传统Apriori算法所能发现的后项RHS与前项LHS同时出现的伴随关系,更希望能得到前项能促进、诱导后项的发生,甚至是在一定程度上,作为后项出现的条件和原因。为此,本次研究中,除了支持度和置信度外,提出提升度和因果置信度作为关联规则的主要衡量指标。其计算方法是:
Lift(A→B)=P(AUB)/P(A)P(B)
(1)
casualConfidence=[confidence(X→Y)+confidence(!X→!Y)]/2
(2)
式中,Lift为提升度,其对于业务上的含义为,当某个载体A发生隐患之后,能显著提升载体B发生隐患的概率,如:不将A作为条件时,B发生隐患的概率是3%,一旦A作为条件,B发生隐患的概率为9%,则提升度为3;P(A)P(B)为A不作为条件时B发生的概率;casualConfidence为因果置信度,其对于业务上的含义为,当载体X发生隐患时,Y发生隐患的概率较大;当X不发生隐患时,Y不发生隐患的概率也较大。因此,因果置信度较之于经典算法中的置信度,具有更强的推断能力;confidence(X→Y)为X、Y同时发生的置信度;confidence(!X→!Y)]为X、Y同时不发生的置信度。
2.2.2形成安全隐患关联规则
在建立专业词库的基础上,为了挖掘隐患载体之间的正向关联关系,在改进Apriori算法的基础上,通过提升度和因果置信度来挖掘、过滤强关联模式,更加准确地提供了新生安全隐患的预测概率。
关联规则以7 d为周期,2018年9月30日前安全隐患关联规则如表2所示,安全隐患关联关系如图2所示(大圆代表隐患载体,小圆代表隐患现象,五角星代表关联性强的隐患载体),体现了不同隐患载体与现象之间的关系。
表2 隐患载体关联规则
图2 安全隐患关联关系
通过安全隐患预测与实际发生对比,选取7 d为窗口长度,以2018年10月出现的安全隐患验证之前形成的关联规则,正确率为100%;因2018年10月出现的隐患中较之前关联规则相比,新出现的隐患较多,所以规则对2018年10月的安全隐患覆盖率较低,随着数据不断积累,覆盖率将会增加,计算公式如下:
正确率precision=同一窗口期三天内包含同一规则后项记录数/窗口期内包含规则前项记录数
(3)
覆盖率recall=窗口期内记录中包含规则前项记录数/窗口期内记录数
(4)
通过10月隐患数据预测未来3 d的隐患正确率、覆盖率如表3所示。
2018年10月安全隐患实际发生结果与关联规则对比如表4所示,与电缆有关安全隐患关系如图3所示,与通风窗有关的安全隐患关系如图4所示。
安全隐患预测分析主要是以国电大渡河公司所属各水电站历史发生的安全隐患数据为基础数据库,建立安全隐患关键词数据辞典,通过对安全隐患关键词的辨识、分析及应用,选择恰当的空间、时间、维度,挖掘不同安全隐患之间隐患载体和现象的关联,应用改进的Apriori算法模型计算出安全隐患关键词之间的置信度、支持度、提升度、因果置信度等指标,得到新生安全隐患发生的概率。通过这一方法,可以及时预测、分析公司各单位安全隐患动态,将隐患扼杀于摇篮之中,同时也为安全管理提供理论基础,让安全管理决策有据可依,保障安全生产形势持续稳定。
表3 未来3 d隐患预测
表4 新生隐患预测与实际发生对比结果
图3 与电缆有关的隐患关联关系
图4 与通风窗相关的隐患关联关系
安全隐患预测分析从根本上解决了“无人值班(少人值守),远方集控”新型生产管理模式下的安全管理问题,也是现代企业安全管理的发展趋势,将安全风险管理与既有安全管理有机融合,抓好每一个环节的风险的辩识、评估、整治,最大程度地降低安全风险,使安全生产工作更具超前性、针对性,将“事后处理”向“事前防控”转变,使企业真正达到“本质安全”的最终目标。
安全隐患预测分析在国电大渡河公司的成功应用,可为水电站、流域电站的安全管理提供理论基础和借鉴,推动智慧电厂建设的步伐。
安全隐患预测分析研究是以企业安全生产预警体系论为指导,针对电力安全生产隐患排查治理和风险分级管控双重机制建立而提出的一种新型的、具有创造意义的研究课题。充分利用现有的安全隐患数据资源,结合信息化技术和模型特征对现场固有隐患排查数据进行分析论证,建立一种能够监测、诊断、预警、预控新生安全隐患发生的体系系统。
目前已初步实现安全隐患分析预警功能,但局限于采集的隐患排查基础数据完整性、准确性和关联性还存在欠缺,分析预警结果还存在一定的不稳定和偏差,尤其是关联规则覆盖率较低。下一步,通过持续的注入大量基础数据来优化模型结果,使其不断适应现场变化的因素,逐步实现分电站、分区域、分专业分析预警功能;同时,随着安全隐患预测预警结果有效性和针对性的提升,可进一步拓展其应用在整个安全生产领域中的关联性,将新生安全隐患和安全风险分级管控进一步关联,通过风险评估等方式方法将新生安全隐患自动转换为对应危险源点,按严重程度进行分级预警,不断提高安全生产领域安全风险自动预判、自主决策、自我演进的智能化功能提升,为安全管理提供有效支持和决策依据。