薛彦宇 杜志虎 吴同心
石油石化企业HSE信息系统是建立在国际先进的HSE管理理念和方法基础之上的信息系统,对全面推进HSE体系建设工作提供了重要载体和有效工具,对石油石化行业的健康安全发展具有重要意义。
随着信息技术的飞速发展,产生了大量的分散在各信息系统中的数据。面对大量孤立的数据资源,如何有效的管理和重用数据信息,挖掘出对企业有重要价值的信息从而为企业决策者提供风险分析和决策支持的有效依据,成为信息系统发展面临的一个亟需解决的问题。此时,数据仓库与数据挖掘技术的产生和发展为该问题提供了有效的解决方法。本文对数据挖掘技术在石油石化企业HSE信息系统建设中的应用做了初步分析,重点分析了决策支持树算法和关联规则在HSE信息系统中的应用。并举例表明,数据挖掘技术应用于HSE信息系统能够有效的挖掘出潜在的知识,并可为企业决策提供支持。本文主要是对数据挖掘技术在石油石化企业HSE信息系统建设中的应用做了积极的尝试,对企业的HSE信息管理、风险分析、决策支持具有一定的参考价值。
引言
石油石化企业HSE信息系统是建立在国际先进的HSE管理理念和方法基础之上的信息系统,对全面推进HSE体系建设工作提供了重要载体和有效工具,对石油石化行业的健康安全发展具有重要意义。HSE信息系统加强了数据录入管理,确保了数据的准确性、及时性及规范性,因此也累积了大量的数据信息。数据作为信息的载体,其存储工具(数据库)在过去几十年间得以迅速发展,使得数据存储问题基本得到解决。虽然这些大量存储在数据库中的数据本身是没有意义的,但由数据及对数据的解释和分析所构成的信息,却是一种价值菲薄的资源。因此,对大量数据进行分析,从中提取出对企业有重要价值的信息成为当下热点,在此情形下,数据挖掘技术在HSE信息系统中的应用成为企业风险分析和决策支持的利器。
随着科学管理方法的应用和推广,数据分析技术在企业信息管理中的作用得到了前所未有的发挥。数据挖掘则是一种有效的数据分析技术,在许多行业中扮演着越来越重要的角色。数据挖掘所固有的挖掘潜在有价值信息的特性,使其在众多领域得到成功运用,如市场预测、互联网营销、银行业务、通讯行业等诸多领域。美国钢铁公司利用基于数据挖掘技术的ISPA系统研究分析产品性能规律并进行质量控制,取得了显著效果。美国著名市场研究公司Information Resources等纷纷使用数据挖掘工具来应对迅速增长的销售和市场信息,通过市场预测取得了巨大收益[1]。
与国外相比,国内对数据挖掘技术的应用研究稍晚,并没有普及到各行各业中。石油石化企业HSE信息系统的数据挖掘是发现和利用企业安全、环保、健康数据内在知识,实现系统深层次应用的关键技术手段。然而,目前国内大多数石油石化企业HSE信息系统仅实现了数据规范化录入、存储及简单的汇总统计和分类查询的功能,并没有对原始数据进行深层次的挖掘,无法实现对企业健康安全环保未来趋势的分析、预测、等功能,无法帮助企业发现业务的发展趋势,预测未知的结果。本文首先介绍了数据挖掘技术的概念及关键技术,然后对数据挖掘技术在企业HSE信息系统建设中的应用做了初步分析,重点分析了决策支持树算法和关联规则挖掘在HSE信息系统中的应用。实例表明,数据挖掘技术应用于HSE信息系统能够有效的挖掘出潜在的知识,并可为企业决策提供支持。
数据挖掘技术概念及数据挖掘方法
数据挖掘技术的产生和发展使得人们可以从数据中挖掘出有用的、隐藏的知识,数据挖掘是一门多学科的综合产物,包括数据库技术、人工智能、机器学习、神经网络、模式识别、统计学等学科。数据挖掘通常定义为,从海量数据中抽取出隐含的、先前未知的并具有潜在价值的模型或规则等有用知识的非平凡过程,是一类深层次的数据分析方法。数据挖掘是一种决策支持过程,它可以对数据进行分析、归纳、推理,从而挖掘出潜在的模式,为决策者提供决策支持。
(1)数据挖掘的过程,具体分为以下步骤:
数据清理:消除重复的、不完全的、违反语义约束的数据。
数据集成:多种数据源可以组合在一起,通过数据提取程序聚集到数据仓库中。
数据选择:从数据仓库中检索与分析任务相关的数据。
数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作。
数据挖掘:通过数学的、非数学的、演绎的或归纳的数据挖掘方法提取规则模式。
模式评估:根据某种兴趣度度量,识别规则模式中真正有趣的模式。
知识表示:使用可视化和知识表示技术,向用户展示挖掘出的知识。
(2)数据挖掘主要方法
在数据挖掘的整个过程中,数据挖掘的方法是最为关键的。利用数据挖掘进行数据分析常用的方法主要有关联规则、决策树、聚类、神经网络、机器学习等,它们分别从不同的角度对数据进行挖掘。
1. 关联规则方法:基于关联规则法的数据挖掘是发现存在于大量数据集中的关联性或相关性。关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物进行预测。
2. 决策树方法:决策树方法主要用于分类和预测。基于决策树方法的数据挖掘是利用信息论中的信息增益寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分枝子集中,重复建立树的下层结点和分支的过程,即可建立决策树。然后把决策树的节点分裂过程转化为“if….then….”的规则,利用这些规则就可以对新数据进行分类。其中最具代表性的是CART,ID3,C4.5等算法。
3. 分类聚类法:基于分类的数据挖掘就是假定数据库中的每个对象属于一个特定的类,然后根据不同的分类方法将数据库中的数据分配到各类中去。而基于聚类的数据挖掘是将实体对象集合依照某种相似性度量原则划分为若干个类似实体对象组成的多个类或簇的过程。分类和聚类都是一个对目标数据进行划分,使类间的相似性尽可能的小,类内相似性尽量大的过程。他们的区别在于分类事先知道类的个数及特征,而聚类则事先不知道。
4. 神经网络法:人工神经网络通过模拟人类的思维行为,能够高效率地解决预测、模式识别、分类和聚类分析等数据挖掘问题。基于神经网络的数据挖掘无须事先建模,因此对于缺乏理论模型和先验知识的数据挖掘问题具有较好的适应性。人工神经网络具有分布式存储信息的特点,并且能够自组织学习和并行处理信息,因此能够解决众多以往方法很难解决高复杂度问题。
5. 机器学习法:机器学习的目的是根据给定的训练样本求输入输出之间依赖关系,使它能够对未知输出做出尽可能准确地预测。大多数机器学习方法使用人类的认识模型模仿人类的学习方法从数据中提取知识,由于机器学习经过多年的研究,已取得了一些较满意的成果,因此,在数据挖掘中可以利用目前比较成熟的机器学习方法。
数据挖掘技术在HSE信息系统中的应用分析
数据挖掘技术应用于石油石化企业HSE信息系统,能够帮助企业更有效的控制重大灾害事故的发生,并能预测将来可能会发生事故的重大隐患;能够降低企业处理安全、健康隐患的成本;更好的实现社会效益、环境效益及经济效益。HSE信息系统与数据挖掘技术的结合能够更有效的削减和控制企业在生产过程中存在的健康、安全、环境等危害因素,对规范企业HSE管理,降低企业运营风险,树立企业形象有积极的推进作用。本文通过介绍关联规则法和决策树法这两种典型的数据挖掘方法在HSE信息系统中的应用来分析数据挖掘技术对HSE信息系统数据分析能力的有效提升,实例说明数据挖掘技术在HSE系统建设中的意义之所在。
基于关联规则的数据挖掘在HSE系统中的应用分析
关联模式是数据挖掘的一种重要模式,其主要任务就是挖掘事物之间潜在的关联规则。关联规则的目的是在一个数据集中找出项与项之间的内在关系,也称之为购物蓝分析,即通过事物之间的关联规则,可以根据一种行为的发生,来推测另一种行为的发生概率,从而更好地掌握看似毫无关系的事物之间的发展规律,这也是基于关联规则的数据挖掘意义之所在。
关联规则的形式如下A => B[support, confidence],其中support为支持度,支持度为在所有事件中,A事件和B事件同时发生的概率;confidence为置信度,置信度是根据A事件的发生,推断B事件发生的可信程度、可靠程度。他们分别描述了关联规则的有用性和确定性。其中支持度support(A=>B)=support(A∪B)=P(A∪B),即A和B同时发生的概率;置信度confidence(A=>B)=P(B|A)=P(A∪B)/P(A),是一个条件概率,即在A发生的事件中同时发生B的概率。例如关联规则:购买面包 =>购买牛奶[10%, 60%],意味着10%的顾客同时购买面包和牛奶,购买面包的顾客60%也会购买牛奶。
关联规则数据挖掘主要分为两步:1)找出所有频繁项集,即根据最小支持度找出所有频繁项集,频繁项集为大于最小支持度的项集。2)由频繁项集产生强关联规则,在所有的频繁项集中,如果它们的置信度大于或等于最小可信度,就可以根据这些频繁集产生强关联规则。
本文以某石化企业HSE信息系统为系统原型,介绍关联规则算法在HSE系统中的应用。
本例属于多维关联规则数据挖掘,为了简化说明数据挖掘的应用,本文不一步一步按照关联规则算法的步骤进行关联规则的挖掘,而是假设存在一个既定的规则,我们通过计算来验证该规则的可信性。本文假设存在这样一个规则:承包商(X,"是" )∧事故日期(X,第三季度)=>事故类型(X,"交通事故" )。此处事故日期已经进行离散化处理,离散化后的数据集如表1。该数据为测试数据,仅作为挖掘算法在HSE信息系统中的应用分析所用。
经统计计算得,支持度support(承包商(X,是)∧事故日期(X,第三季度)=>事故类型(X,交通事故))=62?200=31%。
confidence(承包商(X,是)∧事故日期(X,第三季度)=>事故类型(X,交通事故))=(62/200)/(95/200)=65.3%。因此,该关联规则的支持度为31%,置信度为65.3%。意味着,在所有的事故事件中事故方为承包商、事故日期为第三季度、事故类型为交通事故同时出现的概率为31%,当事故方为承包商、事故日期为第三季度时,有65.3%的可能发生的是交通事故。因此,我们有理由相信承包商、第三季度与交通事故之间有较强的相关性,当承包商和第三季度这两个因素同时出现的时候,应该做好交通事故的防范。
基于决策树的数据挖掘在HSE系统中的应用分析
决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,通常用来形成分类器和预测模型,可以对未知数据进行分类或预测。基于决策树的数据挖掘是属于预测式数据挖掘的一种数据分析方法,其目的是根据样本数据集找出能准确描述并区分数据类或概念的模型,以便依据实体的属性值及其它约束条件将其划分到某个数据类别中去[2]。决策树的构成包括三个步骤:第一步为决策树生成阶段,根据部分训练样本集,按照广度优先递归算法建立决策树,直到每个叶子节点都属于某一类为止;第二步为决策树剪枝阶段,利用剩余的数据对决策树进行检验,去掉一些可能是噪音或者异常的数据,降低噪声数据对分类正确率的影响;第三步即使用决策树对未知数据进行分类,从决策树的根节点到叶节点的一条路径就形成了一条分类规则。
本文以ID3(Iterative Dichotomizer 3)决策树算法为例介绍基于决策树的数据挖掘在HSE信息系统中的应用。ID3算法是决策树算法的代表,用信息增益作为决策树各级节点属性选择的标准,在构造决策树过程中,每一步都是选择信息增益值最大的属性作为当前分裂属性。信息增益值越大,说明该测试属性对分类提供的信息越多,ID3算法即是在每个节点选择信息增益最大的属性作为测试属性,该属性使结果分区中对元组分类所需要的信息量最小,确保找到一棵简单的树。
对数据集D中的元组分类所需要的期望信息计算公式如下:Info(D)=-∑_(i=1)^m?〖p_i 〖log〗_2 (p_i)〗。其中,p_i是D中任意元组属于类c_i的非零概率。Info(D)是识别D中元组的类别所需要的平均信息量,Info(D)又称为熵。假设用属性A将D划分为v个子分区{D_1,D_2,…,D_v},在此划分之后,还需要多少信息才能得到准确的分类,该信息量计算公式如下: Info_A (D)=∑_(j=1)^v?〖D_j/D 〖Info(D〗_j)〗。Info_A (D)是基于按A划分对D元组分类所需要的期望信息。需要的期望信息越小,分区纯度越高。信息增益定义为原来的信息需求与新的信息需求之间的差,即〖Gain(A)=Info(D)-Info〗_A (D)[3]。
以某企业HSE信息系统废气监测模块中烟气记录为例介绍基于决策树的数据挖掘的应用,如图3。数据离散化处理后如表2。该数据为测试数据,仅作为挖掘算法在HSE信息系统中的应用分析所用。
根据ID3决策支持树算法对测试数据集进行处理后得到决策支持树如图4。将决策树进行广度优先搜索,对每一个叶子结点,求出从根结点到叶结点的路径。该路径上所有的结点的划分条件并在一起,即构成一条分类规则。根据该决策树可以生成以下产生式规则:
IF 烟气黑度=高 THEN 超标
IF 烟气黑度=中 AND 烟气温度=高 THEN 不超标
IF 烟气黑度=中 AND 烟气温度=中或低 AND SO2浓度=高 THEN 超标
IF 烟气黑度=中 AND 烟气温度=中或低 AND SO2浓度=中或低 THEN 不超标
IF 烟气黑度=低 THEN 不超标
产生式规则生成以后,可以对未知数据进行分类或预测,如监测到一条新的烟气记录为{黑度:4,烟气温度:76,O2:6,CO:280,SO2:160,NOx:300,HS:83},该记录中黑度为4,处于高烟气黑度范围,因此根据决策支持树可以直接判定该监测记录超标。因此基于决策树的数据挖掘可以辅助企业决策者进行风险预测等操作,以改善管理者的决策能力、降低决策风险,以此提高决策的科学性和准确性。
结论
本文首先分析了石油石化企业HSE信息系统的现状与缺陷,分析了HSE信息系统与数据挖掘技术结合的必要性和迫切性。然后对数据挖掘技术及挖掘方法做了比较宏观的介绍。最后重点分析了决策支持树算法和关联规则在HSE信息系统中的应用,并以某企业HSE系统为原型介绍了这两种数据挖掘方法的应用。实例说明,可以挖掘出事务各因素之间的关联规则,通过这些规则,可以根据一种行为的发生,来推测另一种行为的发生概率,从而更好地掌握看似毫无关系的事物之间的发展规律;也可以构造决策支持树,对未知的事务进行分类和预测,并可为企业决策者提供决策支持。因此数据挖掘技术应用于HSE信息系统能够有效的挖掘出藏于数据中的潜在知识。本文对数据挖掘技术应用于石油石化企业HSE信息系统建设中做了积极的尝试,对企业的HSE信息管理、风险分析、决策支持具有一定的参考价值。□
参考文献
[1] 冯国良. 数据挖掘在信息管理系统中的应用研究[D]. 天津工业大学, 2008
[2] 季桂树, 陈沛玲, 宋航. 决策树分类算法研究综述[J]. 科技广场, 2007
[3] 范明,孟小峰译. 数据挖掘:概念与技术第三版[M]. 北京:机械工业出版社.2012