林 穿,徐启峰,黄奕钒
(福州大学 电气工程与自动化学院,福建 福州 350108)
电力安全事故(下文简称:电力事故)始终是电网运行中需要关注的重点。在电力生产中,作业人员必须遵守《电业安全工作规程》等章程,但是多年来电力事故屡禁不止。据国家能源局统计,2017年至2020年间,全国年均发生电力人身伤亡事故约42起,反映出国内电力安全生产中的不足,例如:安全法规执行不到位、预防措施不到位、预警不及时等。针对电力事故问题,《电力安全事故应急处置和调查处理条例》(国务院令第599号)中明确规定事故调查处理措施:必须理清事故发生的过程、原因与事故性质,并规定事故相关单位和有关人员应当吸取事故教训,防止事故再次发生。
在电力生产过程,众多影响因素相互诱发、转换、耦合,最终可能演化为电力事故。文献[1]基于关联规则挖掘电力事故的关键诱因,通过实例验证了该方法对电力生产安全决策控制的有效性;文献[2]借鉴“海因里希法则”从隐患因素角度出发,构建安全事故比例模型用于确定未来隐患数量并进行隐患消除;文献[3]利用多级模糊评判对评价指标量化赋权,基于贝叶斯网络训练发电企业的安全生产风险预警模型,分析主要风险因素、有针对地提出控制措施。上述方法虽然能够预测电力事故的多种影响因素,指导企业做出防范,但忽略了事故发展中多种因素之间的关联关系,未能清晰地刻画事故发展的逻辑演化关系。
事理图谱[4]的概念,开启了人工智能2.0时代崭新的研究领域。事理图谱从认知智能角度出发,重点剖析事件之间的顺承关系、因果关系和上下位等事理逻辑。相比单纯静态的实体知识图谱,事理图谱能够刻画事件的动态性,具有更强大的应用价值。文献[5]提出构建事理图谱框架,揭示突发事件新闻的演化模式和规律;文献[6]针对网络舆情事件摘要构建可视化事理图谱,从4个不同维度解读舆情事件的演化路径;文献[7]采用深度神经网络抽取航空安全事故因果关系创建事理图谱,深入分析事故发生过程;文献[8]构建政策影响事理图谱,梳理政策对利益相关者及市场的影响,发现关键节点并予以控制。但事理图谱的核心技术及应用模式尚处于探索阶段[9],在电力安全领域的应用尚未取得显著进展。
基于此,本文以国家能源局公布的全国电力安全生产情况为研究对象,通过对文本数据的知识抽取、知识融合以及知识加工,采用图数据库Neo4j构建电力事故事理图谱。最后,基于事理图谱从历史事故演化路径[10]以及新事故推演路径验证该方法的有效性。
电力事故事理图谱构建包含5个阶段,如图1所示,分别为:数据获取与预处理、抽取事件链与事件槽关系、泛化事件槽、构建事理图谱和新事件推演预测。
图1 研究框架Fig.1 Research framework
阶段1:通过python编程,获取电力事故数据,调用哈尔滨工业大学自然语言处理平台LTP工具[11]的Pyltp模块对文本进行分句分词、去除停用词、词性标注和句法分析等预处理。
阶段2:电力事故文本为半结构化数据,1条事故文本包含1条事故事件链,事件链由若干事件槽组成。通过设计标识词抽取文本中每个事故的事件链,依据句型结构划分事件槽,并编写规则模板判断事件槽的关联关系。
阶段3:利用Word2vec训练事件槽的词向量并采用相似度计算泛化事件槽。
阶段4:运用热力图矩阵记录泛化为同一类事件槽的次数权重(下文简称:权重),利用Neo4j图数据库构建以事件槽为节点、事件槽的关联关系为边、权重为边属性的电力事故事理图谱。
阶段5:对于新事件,采用阶段2和阶段3的方式进行事件槽泛化归类,再利用已经构建的事故事理图谱推演预测后续可能发生的事件。
电力事故文本的每1条事故描述均为半结构化数据文本,描述了[事故概率]、[作业种类]、[事故原因]、[事故类型]和[事故结果]。其中,[作业种类]、[事故原因]、[事故类型]以及[事故结果]的句子构成1条事件链,是需要保留的有效信息,而[事故概况]需要剔除。根据文本特点,设计事件标识词,事件标识词如表1所示,用于识别事件链。
表1 事件标识词Table 1 Event identifier words
半结构化文本事件链中含有明确的因果关系和顺承关系,通过标识词的句法模式设计规则模板[12-13]的方式抽取因果事件槽对和顺承事件槽对。
1.3.1 因果关系事件槽对抽取
假设电力事故事件链表示为E={w1,w2…,wm},是由m个词语w组成的集合,词性标注后的集合为E={w1/pog1,w2/pog2,…,wm/pogm}。根据“造成、导致、由于”等因果关系标识词,设计以
表2 因果关系抽取规则模板Table 2 Rule template of causal relation extraction
1.3.2 顺承关系事件槽对抽取
假设电力事故事件链表示为E={e1,e2…,en},是由n个事件槽e组成的集合。根据“在…时、在…期间”等顺承关系标识词设计了以
表3 顺承关系抽取规则模板Table 3 Rule template of continuation relation extraction
1.4.1 概念图谱
通过规则模板抽取的事件槽可能属于同一类表达含义,进行事件槽的泛化能够更高层次地表示出事件槽之间的关系且能简化图谱。实体图谱泛化形成的概念事理图谱的过程如图2所示(下文所述事理图谱均为概念事理图谱)。例如:事件槽e31和e32经过泛化后形成概念图谱中的同一类事件槽e3。事件槽之间的关系用箭头表示,箭头边上的数字表示泛化为同一类的事件槽权重。
图2 概念图谱Fig.2 Concept graph
1.4.2 相似度算法
聚类分析法常用于事件的泛化,但电力事故作业种类多、事故原因复杂,运用聚类法时聚类簇将随之增多,聚类簇选取困难。因此,本文改进文献[14]的句子相似度算法用于泛化电力事故事件槽。
1)词语相似度
每个事件槽分词后可表示为e={w1,w2,…,wi},每个分词w通过Word2Vec可转化为对应的词向量vec,通过余弦相似度计算可求得2个词语的相似度,如式(1)所示:
(1)
式中:sim(wi,wj)为2词语相似度;i和j为序号;vecik为词向量veci的第k个分量值;vecjk为词向量vecj的第k个分量值;x为词向量分量个数。
2)事件槽相似度
文献[14]的方法考虑了所有词语,而事实上事件的每个分词并非全部具有价值信息,必然造成信息冗余。本文在词语相似度的基础上重新定义事件槽相似度,如式(2)所示:
(2)
以国家能源局公布的2014至2020年间的307起人身伤亡事故的电力事故文本数据为研究对象。
根据事件标识词和规则模板提取事件链和事件槽,形成422条因果事件槽对和686条顺承事件槽对。
泛化流程示意如图3所示。
图3 泛化流程示意Fig.3 Schematic diagram of generalization process
步骤1:在运用事件槽相似度算法前,对事件槽中描述公司名、地点、数字和时间等干扰词语进行停用,提高泛化精度。
步骤2:随机选取一事件槽,运用式(2)计算该事件槽与其他事件槽相似度,相似度大于0.70的泛化为同一类。
步骤3:从剩余事件槽中随机再选一事件槽,重复步骤2,完成所有事件槽的泛化。
电力事故事理图谱的构建采用Neo4j图数据库显示[15],事件槽泛化后,共计371个节点,553条边,局部电力事故事理图谱如图4所示。
图4 电力事故事理图谱(局部)Fig.4 Event evolutionary graph of power accidents(partial)
基于Neo4j构建的事理图谱,通过Cypher语言能够可视化查询历史事故发生的演化路径。例如:在Neo4j浏览器界面输入Cypher语句“MATCH p=( )←(n:‘作业种类’{name:‘线路改造’})→( )→( )→( ) RETURN p”,将显示[线路改造]作业的事故演化路径,如图5所示。
由图5可知,[线路改造]作业顺承20种事故原因,其造成的事故类型有[坠落]、[触电事故]和[烧伤]3种,可能导致[死亡]和[死亡重伤]2种事故结果。采用热力图矩阵记录关系边的权重,局部示意如图6所示。
图5 线路改造作业事故演化路径Fig.5 Evolutionary paths of accidents in line reconstruction operation
由权重大小可以直观把握事故的关键风险节点。例如:由图6可知,[线路改造]可能发生[误入带电间隔]、[相距不足放电]等事件槽,其中[电杆抱杆倾倒]权重10最高,可认定为关键风险点。事故链[线路改造]→[电杆抱杆倾倒]→[坠落]→[死亡]应得到电力企业的重视,在作业前着重确认并加固电杆抱杆的稳定性,杜绝[坠落]事故的发生。
图6 “作业种类—事故原因”热力图矩阵示意Fig.6 Schematic diagram of thermodynamic diagram matrix of “operation type” and “accident cause”
以2021年1月份公布的1起新的电力事故为例,说明基于事理图谱的电力事故预控方案。新事故描述为:“2021年1月16日,某发电有限公司发生一起人身伤亡事故,1人死亡。该公司劳务分包单位1名作业人员,在清扫备用石膏排放输送皮带机上散落的石膏过程中,倒卧在备用石膏排放输送皮带机尾部机架上,经抢救无效死亡。”
该事故事件链为[清扫备用石膏排放输送皮带机上散落的石膏过程](记为E1)→[倒卧在备用石膏排放输送皮带机尾部机架上]→[无效死亡]。新事故路径推演和预控流程如图7所示。
图7 新事故推演与预控流程Fig.7 Deduction and pre-control process of new accident
将作业种类事件槽E1与所建事理图谱中的事件槽进行相似度计算,将匹配到[真空脱水机旁进行下槽石膏清理]事件槽(记为E2),2者相似度为0.88。通过Cypher语言查询E2,将显示后续事件链[晕倒在人行通道上]→[死亡],该事故发生于2019年7月17日,与新事故高度相似。石膏的清理工作一般处于粉尘污染较大的环境中,作业人员容易发生晕倒、倒卧的情况,最终将引发事故发生。
基于事理图谱的电力事故预测对提前采取防范措施、降低事故发生率有重要作用。在本例中,假设当作业人员接到E1任务时,事先通过历史事理图谱的事故映射推演,获悉面临的晕倒风险,作业人员与企业就能够采取必要的预控措施,有效地抑制事故的发生。
1)以国家能源局公布的电力事故文本为研究数据,应用事件标识词和规则模板提取事故事件链、事件槽以及事件槽间的顺承与因果关系,通过相似度算法泛化事件槽构建电力事故事理图谱。
2)通过事故事理图谱事件槽的热力图矩阵权重可以捕捉到事件链中的关键风险节点。
3)通过事理图谱可以推演历史事故的发展路径、动态分析事故的发展过程。
4)在完成新的电力作业之前,可以通过事理图谱推演出历史相似事故的演化路径,为电力作业提供风险警示,主动制定必要的防控措施。