周 俊
[摘要]以数据挖掘的关联规则为基础,从筛选数据入手,按照数据挖掘的步骤,对每个环节进行详细展开,分析故障数据的组成、模型以及存储方式,并在关系数据库中对提供的数据进行建模,建立基于多维关联规则的传输故障分析模型。
[关键词]传输故障数据挖掘关联规则
中图分类号:TN91文献标识码:A文章编号:1671-7597(2009)0820021-01
目前传输维护部门每个月都会对上月的传输故障进行统计和分析,以便对下月的工作做出针对性的调整。故障统计涵盖的内容有故障历时,故障段落,原因,是否超时等相关信息,这些数据之间到底有些什么联系,这些联系是否能对传输维护工作起到积极的促进作用单凭一眼无法做出判断,需要经过数据分析和挖掘,并通过一系列方法发掘出其中的关系才能下结论。本文中所用到的就是数据挖掘技术当中的关联规则挖掘,也就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。希望通过关联规则挖掘的应用解决一些维护工作中的问题。
一、数据挖掘技术概述
数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程,这些模型和关系可以被企业用来分析风险、进行预测。同时数据挖掘还是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘过程一般由确定挖掘对象、数据准备、模型建立、数据挖掘、结果分析表述和挖掘应用这几个主要阶段组成,数据挖掘可以描述为这几个阶段的反复过程。待挖掘的数据的模式有很多种,按功能分有两类预测型模式和描述型模式。
二、关联规则
关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则研究有助于发现交易数据库中不同商品项之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。
(一)APRIORI算法
APRIORI算法是挖掘产生布尔关联规则所需频繁项集的基本算法;它也是一个很有影响的关联规则挖掘算法。APRIORI算法就是根据有关频繁项集特性的先验知识(prior knowledge)而命名的。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生(k+1)-项集。具体做法就是,首先找出频繁1-项集,记为L1;然后利用L1来挖掘L2,即频繁2-项集;不断如此循环下去知道无法发现更过的频繁K-项集为止。每挖掘一层Lk就需要扫描整个数据库一遍。为提高按层次搜索并产生相应频繁项集的处理效率。APRIORI算法利用了一个重要性质,又称为APRIORI性质来帮助有效缩小频繁项集的搜索空间。APRIORI性质:一个频繁项集中任一子集也应是频繁项集。
(二)多维关联规则的挖掘
如果不是对交易数据库而是对存储在关系数据库或其它数据进行挖掘,这时的数据是以多维形式定义存储的。如为了分析故障原因。一个关系数据库可能记录了有关这些故障的其它属性,诸如故障类型、发生时间、故障历时,故障段落等如果将数据库或数据仓库中这些属性看成谓词,那么挖掘包含多个谓词的关联规则可能就是很有价值的。包含两个或更多的谓词的关联规则就称为多维关联规则。
(三)关联挖掘中的相关分析
一个规则是否有意义取决于主观与客观两方面的判断,但最终还是由用户来确定一个规则是否有意义。利用支持度-信任度基本结构挖掘出的关联规则在许多应用场合都是有价值。但是但是支持度-信任度基本结构在描述一个AB规则是否有意义时,可能会提供一个错误知识。因为有时的发生实际并不一定蕴含B的发生。这里就将讨论基于相关分析的描述数据项集之间是否存在有意义联系的有关方法,该方法构成了对支持度一信任度基本结构的补充。若有,则项集A的发生就独立于项集B的发生;否则项集A和B就是相互依赖或相关的。该定义可以很容易地扩展到多于两个项集的情况。利用相关分析的一个好处就是它是向上封闭的,也就是说若项集中的各项是相关的,那的每一个超集也都是相关的这也就意味着向相关项的集合中添加一个项并不能改变或消除现有的相关性。
三、基于多维关联规则的传输故障分析
通信传输维护部门每个月都会对上月的传输故障进行统计和分析,以便对下月的工作做出针对性的调整。故障统计涵盖的内容有故障历时,故障段落,原因,是否超时等相关信息,这些数据之间到底有些什么联系,这些联系是否能对传输维护工作起到积极的促进作用单凭一眼无法作出判断,需要经过数据分析和挖掘,希望通过关联规则挖掘的应用解决一些维护工作中的问题。
初始数据是原始数据,未经处理过。首先选择有针对性的数据,对数据进行预处理,主要包括数据清理、集成和归约。预处理是为了克服目前数据挖掘工具的局限性。数据将原来不必要的部分去掉,并且合并相同时间的故障,因为相同时间故障一般是由于干线发生问题引起,所以算做一次故障,否则会出现许多相同原因引起故障的重复计算,而造成结果偏离。
(一)利用静态离散挖掘传输故障关联规则
在这种方法中,定量属性在关联知识挖掘之前,就利用概念层次树进行离散化,其中就是将属性的取值替换为区间范围。符号属性则可以根据需要被泛化到更高的概念层次。此外与挖掘任务相关的数据可能会存放在数据立方中,由于数据立方是按照(多维)属性进行定义的,因此它非常适合挖掘多维关联规则。
(二)挖掘传输故障中的定量关联规则
定量关联规则就是关联规则所涉及的数值属性是在数据挖掘过程中,根据一定的挖掘标准,诸如使信任度最大或使挖掘的规则最简洁,而进行动态离散化。这里所需要的是基于图像处理基本思想所提出的关联规则聚类方法。该方法就是将一对定量属性映射到满足给定符号属性的二维方格然后搜索产生相应关联规则的点的聚类。目前已经提出了一个基于非方格的方法来帮助发现更一般的定量规则而在规则两边均可以出现无数目限制的符号属性和定量属性。
参考文献:
[1]钦臻文,通信传输系统在城市轨道交通中的应用发展[J].城市轨道交通研究,2009,03.
[2]迪丽拜尔·艾海提、库德来提·热西提,数据挖掘技术的应用[J].电脑编程技巧与维护,2009,06.
作者简介:
周俊(1978-),男,汉族,湖北省人,工学学士,工程师,计算机专业。