基于类别关键词权重的煤矿安全隐患分类方法

2019-09-10 07:22林川武乐飞戴家佳
关键词:贝叶斯权重隐患

林川 武乐飞 戴家佳

摘 要:大数据时代,各行各业均产生海量信息,面临大量的信息,如何准确而高效地获取数据中的潜在规律和蕴含价值成为企业信息化的重点。为提升煤矿企业对安全监测数据的理解和监控能力,改善隐患排查治理工作水平,本文提出基于类别关键词权重的短文本分类模型,有效缓解了文本分类中特征稀疏的问题。该方法首先基于朴素贝叶斯算法,对不符合规范的非法数据进行筛选,然后构建基于关键词权重的短文本分类模型,利用中文分词技术、卡方检验方法构建关键词库,最后建立得分模型实现对隐患数据的分类。结果表明,该模型能较为准确地对矿业安全隐患数据进行有效的评级分类,进一步地改善隐患排查和治理的针对性和有效性。

关键词:关键词权重;短文本分类;煤矿安全隐患;朴素贝叶斯

中图分类号:TP181;TD76

文献标识码: A

生产安全永远是一个企业生产环节的重中之重,对于煤矿生产企业尤其如此。中国是传统煤炭大国,煤炭产业是工业生产的龙头,从政府到企业,对煤炭生产安全问题都非常重视。煤矿安全事故的引發多由于不规范生产导致的安全隐患,隐患管理工作已成为了煤矿企业安全监管的核心部分。随着安全管理工作的不断发展以及信息化技术的普及,据统计,仅2013年中国煤矿企业产生安全隐患523.1万项,数据量127.3 G[1]。如何从海量的安全隐患数据中挖掘有益信息,捕获重要安全隐患的特点及类型,最终形成可供辅助决策的可用知识集,成为了煤矿企业安全隐患管理的工作重点。

随着数字化矿山的不断发展与数据挖掘技术的普遍应用,煤矿安全隐患信息的分类与评级受到学术界的普遍关注和研究。KIM等[2]将朴素贝叶斯算法应用于文本分类领域,取得了很好效果,但受限于词袋模型的缺点,特征稀疏且维度高,导致计算较复杂;黄章树等[3]运用词频和卡方统计方法捕获短文本特征,但由于短文本长度限制,导致性能不高。谭章禄等[4-5]利用词云等数据可视化技术,从总体安全隐患概况入手,基于社会网络分析等数据挖掘技术分析了煤矿安全隐患之间潜在的关联信息,并基于潜在狄利克雷主题模型挖掘煤矿安全隐患主题,并利用桑基图展示了安全隐患与隐患致因及责任人之间的潜在联系;陈运启[6]、张大伟[1]、刘双跃等[7]挖掘并分析了维间关联规则。XU等[8]基于防护层模型讨论了事故隐患的定义、分类、分级、指标及评估等问题,建立了事故隐患分类分级框架。赵东风等[9]提出了基于事故发展与控制的隐患分级方法,引入隐患暴露频率、隐患纠正系数、事故后果初始分值等评价指标,利用隐患致因事故风险计算解决了具体隐患的风险分级与评估问题。

文本分类作为一种典型无监督的方法,可以实现文本的有效管理、信息的充分聚合以及潜在规律的捕获。煤矿安全隐患信息分类本质上属于短文本分类[10]。本文提出了一种基于类别关键词权重的短文本分类方法,可以表征更多的语义信息,可有效实现煤矿安全隐患的分类和评级。

1 数据来源及特征

选取来自煤矿企业专项检查、日常检查、安全大检查的37 584条安全隐患内容的检查记录。安全隐患内容是以自然语言描述的包括所在公司、检查形式、检查时间、隐患记录等文本内容,包含隐患状态、特点或致因。样例如表1所示。

按照《国家煤矿安全隐患等级评定标准》,各级煤炭行业管理部门、煤矿安全监察机构和煤矿企业(含新建煤矿)在自查、执法检查、举报等过程中发现的各类安全隐患,根据安全隐患唯一性、通用性、稳定性和可扩展性原则,煤矿安全隐患分4大类,45小类。样例如表2所示。

2 基于朴素贝叶斯的数据规范方法

安全隐患的检查形式和内容均由专职人员负责,由于记录方式和态度的差异,导致安全隐患记录中存在不规范数据。如“部分通信线路故障”,“adsfg”,“30031”等,即包含表意不明词语(如“部分”)、主体词(煤矿专业术语)、完全由数字或字母组成,含有此类词语的隐患记录数据很大概率属于不规范记录。不规范记录的存在将对安全隐患记录的分级性能带来不良影响。

分析规范数据的特点可知,对于陌生数据,无法通过正则表达式等传统数据清洗手段进行数据预处理,据此,本文运用统计机器学习的方法进行隐患数据的分类,已达到自动清洗非法记录的目的。

朴素贝叶斯算法是经典统计机器学习算法,由贝叶斯算法推广而来。朴素贝叶斯算法以属性的类条件独立性假设为前提,具有算法逻辑简单,主体结构清晰,训练时间短,运算速度快的优点,并且在大多数应用场景下表现良好。本文采用朴素贝叶斯对煤矿安全隐患数据进行自动化筛选,过滤非法数据,以增强安全隐患分类效果。

3 基于类别关键词权重的短文本分类模型

一直以来,文本分类都作为信息检索的核心研究技术,在数据挖掘和自然语言处理等领域有着广泛的应用。文本分类主要包括文本预处理、文本表示、文本特征选择和分类算法四个部分 ,文本特征选择主要有卡方检验方法、信息增益方法、互信息等算法;文本分类算法主要有决策树、贝叶斯、神经网络、支持向量机、KNN 等算法。

本文根据煤矿安全隐患数据的形式与特点,并基于短文本分类的思想建立了基于类别关键词权重的短文本分类模型,对工矿企业记录的安全隐患数据进行分类,捕获每一个类别隐患的状态和潜在规律,为煤矿安全隐患管控和安全事故的预防提供预防性支撑。所建分类模型针对的短文本形式如表 3所示。

基于短文本分类的思想,实现煤矿安全隐患的自动分类,即将煤矿生产中实际产生的安全隐患记录进行标准隐患内容、隐患小类和隐患大类的分类。以安全隐患样本为顶点,以其与标准隐患内容之间的相似性关系为边,通过构建基于类别关键词权重的关键词库,利用样本隐患记录和标准隐患内容之间的相似度进行构建短文本分类模型,模型结构如图1所示。

3.1 关键词库构建

首先,针对表3中隐患大类、隐患小类、标准隐患内容,利用中文分词技术获取初始关键词库;然后,进行初始关键词库去燥,清除无关关键词、表意不明词等去燥操作;最后,利用卡方检验方法对关键词库进行降维,流程见图 2。

符号说明如表4所示。

分类文本的特征提取算法对模型最终效果有着巨大影响,本文采取卡方检验方法进行关键词特征选取。卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否,即建立假设检验问题,卡方检验列联表见表5。

E11=A11+A12P0,

(3)

E12,E21,E22同理可求。

综上:

χ2(Key1,T)=∑i,jEi,j,

(4)

得到的卡方值越大,则拒绝原假设的把握性也就越大,得到的卡方值作为关键词Key1在类别T下的得分point1。

对于关键词Key1,Key2,…,Keyn,重复上述步骤可得到N个得分值:Point1,Point 2…Pointn,对这N个值按照从小到大的排序即可得到以上N个关键词重要性排序的结果。按照N个关键词的得分情况选择关键词个数。

3.2 类别关键词权重

短文本分类问题,常常具有如下特征,每个关键词重要性常与其频率大小呈现出相反特征,本文由以下三个权重入手,建立得分模型。

1.整体权重

整体权重可看作是每个关键词对标准隐患内容的重要性程度,定义:

wi′=1ni∑N0j=1

Nnj。

(5)

其中,N为标准隐患内容中关键词出现的次数,nj为第j个关键词频率。

2.隐患小类权重

定义:

wi″=wi′Ni,kni。

(6)

该权重可看作是隐患小类对每个关键词的影响程度,其中,Ni,k为第i个关键词在第k个隐患大类的数目,i=1,2,…,N0。

3.标准隐患内容权重

定义:

wi=NNj′∑N1k=1NNk′。

(7)

即标准隐患内容对每个关键词的影响程度,其中:N1为标准隐患内容数目,Nj′、Nk′分别为标准隐患内容中第j、k个对象所包含关键词数目。

3.3 得分模型

据上述所得权重,由式(5)、(6)和(7)得到得分模型:

key_pointj=∑N0i=1frei(wij′+wij″+wij)。(8)

其中:key_pointj为给定样本所在标准隐患内容中的第j个对象的得分;frei 为第i个关键词在给定样本中出现次数;对于wi′,固定i可得wij′,wij″和wij同理可得。

本文采用误判率作为最终分类的评价标准,定义误判率:

ER=n0′N1。

(9)

其中,n0′为误判数。

4 实验

4.1 数据

本模型实例数据包含国标数据和煤矿企业实际隐患样本数据两部分。其中国标数据包含隐患大类、隐患小类、标准隐患内容、隐患等级等 4 项指标,共4大类,45小类,共 487 条数据;隐患样本数据包含企业编号、检查形式、检查时间和隐患内容等 4 项指标,共37 584条数据。

4.2 非法数据过滤

选取数据集中的5 387条数据作为测试集,其余作为训练集。在测试集中共有合法数据4 763条,非法数据624条,训练朴素贝叶斯分类器识别非法数据。

根据表6,在4 763条合法数据中,共有7 条数据没有被正确分类,准确率99.8%。在624条非法数据中,仅有4条被错误识别,准确率99.3%。实验结果证明,基于朴素贝叶斯的分类器可以有效地筛选非法数据。

4.3 关键词提取及其特征选择

首先,使用python ̄jieba中文分词工具,将国标数据中隐患大类、隐患小类和标准隐患内容进行分词,经过降噪处理,得到初始关键词库,示例见表7。

为了获取国标隐患小类之间的差异性,通过卡方检验方法对初始化关键词库降维。关键词的选择遵循如下规则:当标准隐患内容的关键词数目小于等于6时,选取所有关键词加入关键词库;当标准隐患内容的关键词数目大于6时,据卡方得分从大到小的排序结果,取总体关键词数目的前 75%加入关键词库。

4.4 计算得分权重

通过对关键词库降维计算,可知国标隐患小类之间的差异性体现在两个方面:首先,就重要性而言,頻率较低的关键词大于高频率关键词;其次,就国标隐患大类而言,每个关键词的权重是不同的;再次,国标隐患小类包含的关键词数目对最终分类结果有着一定影响。

为了描述上述差别,需要进行得分权重的计算。为了得到安全隐患样本与国标隐患小类的相似得分,分别计算整体权重w′、国标隐患小类权重w″与标准隐患内容权重w得分权重,计算示例见表8。

4.5 安全隐患分类

通过上述关键词库构建、特征选取与类别权重得分计算,根据得分权重公式计算分数。分类结果示例见表9。其中,“Rank”列表示渐次得分个数,从高到低选取;标准隐患内容正确率表示分类正确的数目占总样本的比例;如当Rank=2时,表明选择得分前二个结果中必定存在一个判别结果为真实类别的概率为1;隐患小类误判率表示标准隐患内容判别结果误判率,如当隐患小类误判率=0时,表示如果选择得分最高的结果作为决策依据,那么国标隐患小类判别结果的准确率是100%。

5 結语

本文根据煤矿安全隐患数据的形式和特点,以短文本分类为基础,提出了一种基于关键词权重的煤矿安全隐患分类方法。该方法将中文分词、权重确定、卡方检验等技术方法应用于短文本分类,具有算法逻辑简单、体系结构清晰、易于实现等特点,且具有较高的准确度。但由于未考虑隐患数据的上下文信息,本方法在健壮性和泛化性方面有待改进,这将成为我们下一步工作的重点。

参考文献:

[1]张大伟.基于OLAM的煤矿企业安全隐患趋势分析[J].煤炭工程,2015,47(5):139-142.

[2]KIM S B,HAN K S,RIM H C ,et al. Some effective techniques for naive bayes text classification[J]. IEEE transactions on knowledge and data engineering,2006,18(11): 1457-1466.

[3]黄章树,叶志龙.基于改进的CHI统计方法在文本分类中的应用[J].计算机系统应用,2016,25(11):136-140.

[4]谭章禄,王泽,陈晓,等.基于LDA的煤矿安全隐患主题发现研究[J].中国安全科学学报,2016,26(6):123-128.

[5]谭章禄,陈晓,宋庆正,等.基于文本挖掘的煤矿安全隐患分析[J].安全与环境学报,2017,17(4): 1262-1266.

[6]陈运启.数据挖掘技术在煤矿隐患管理中的应用[J].工矿自动化,2016,42(2):27-30.

[7]刘双跃,杨蕾,彭丽.基于改进Apriori算法的煤矿物态隐患系统设计与应用[J].煤炭技术,2015,34(4): 318-320.

[8]XU M,WU Z Z,LUO Y,et al. Study on classification and ranking of APs based on LOP model[J]. China Safety Science Journal,2014,24(7):15-20.

[9]赵东风,申玉琪,赵志强,等.基于事故发展与控制的隐患分级方法[J].中国安全科学学报,2012,22(4):71-76.

[10]谢斌红,马非,潘理虎,等.煤矿安全隐患信息自动分类方法[J].工矿自动化,2018,44(10):10-14.

Classification Method of Hidden Danger in Coal Mine

Safety Based on Weight of Category Keyword

LIN Chuan1,WU Yuefei1,DAI Jiajia2*

(1.College of Computer Science and Technology,Guizhou University,Guiyang 550025, China;

2.College of Mathematics and Statistics,Guizhou University,Guiyang 550025, China)

Abstract:

In the era of big data, all walks of life generate a large amount of information and produce a large amount of information, and how to accurately and efficiently obtain the potential rules and hidden values in data has become the focus of enterprise informatization. In order to improve the understanding and monitoring ability of coal mine enterprises on safety monitoring data and improve the level of hidden dangers investigation and control, this paper presents a short text classification model based on category keyword weights, which effectively alleviates the problem of sparse features in text classification. Firstly, based on Naive Bayesian algorithm, this method screens the illegal data that does not conform to the norm, and then constructs a short text classification model based on keyword weights. And then the Chinese word segmentation technique and the chi ̄square test method are used to construct the keyword database. Finally the scoring model is established and the classification of hidden danger data is conducted. The results indicate that the model can accurately classify mining safety hazard data and further improve the pertinence and effectiveness of hazard investigation and management.

Key words:

keyword weight; short text classification; hidden dangers of coal mine safety; Naive Bayes

猜你喜欢
贝叶斯权重隐患
网上晒娃隐患多
Tough Nut to Crack
文具的隐患!
权重涨个股跌 持有白马蓝筹
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
贝叶斯网络概述
贝叶斯公式的应用和推广
各省舆情热度榜
食品中的隐患等