基于数据挖掘的数据库技术在转子故障知识发现中的应用策略分析

2015-03-18 10:47
郑州铁路职业技术学院学报 2015年2期
关键词:数据源决策树数据挖掘

张 倩

(河南经贸职业学院,河南 郑州 450018)

随着科学技术的进步,信息技术开始在旋转机械故障诊断过程中发挥越来越重要的作用。实现对故障诊断知识的有效获取,必须科学处理相关信息。然而,现阶段我们在采用该技术进行知识库构建、故障知识获取、开展知识管理的过程中仍然存在很多问题,很难实现大的突破。

1 数据库技术管理平台介绍

SQL Server 2005 属于关系数据库管理系统的一种。在设计和实施数据挖掘系统的过程中,借助分析服务功能(AS)中各种数据挖掘技术能够发挥良好的推动作用。该管理系统具备良好的报表服务功能,可以从某个数据集内顺利找出数据模式,同时针对具体结果实施全面检查分析,挖掘存在的问题,促进平台的有效实现。

2 数据挖掘中的决策树方法

决策树属于树形结构图的一种,通常选择的是自上而下的树形结构。对其具体结构进行详细分析可知,决策树的开始通常表现为根节点,针对某个属性值集的测试,通常表现为具体的中间节点;针对具体的测试结果,通常以决策树的分支进行表示,而针对具体类别,则以决策树叶节点来表示。依靠决策树方法,我们能够实现对其类别因变量具体分布的全面分析,并根据具体的预测变量对个例的发展变化趋势开展科学预测。

CART 以及C4.5 等均属于常用的决策树方法,此类方法一般在小规模数据集分析工作中的应用较为广泛,通常很难针对海量数据进行有效分析。现阶段,工程应用中充斥着各种复杂的数据挖掘工作,我们必须要对大量的数据集进行有效分析,才能促进工程应用的顺利进行,以分类回归算法作为基础的可伸缩决策树算法就是在这样的情况下被提出的。此决策树算法选择借助数据分析,利用深度优先策略,有效构建决策树。这种方式能够保证计算机在内存有效的情况下,针对大量记录以及属性开展训练,在训练过程中迅速而有效地在数据库内开展数据集挖掘。因为该方法能够克服普通挖掘算法中必须要多次访问数据库的弊端,可以大幅度减少错误的发生,因此受到越来越多用户的青睐。

应用数据库技术,能够针对海量数据实现科学管理,创造良好的管理平台,借助微软决策方法,可以针对海量数据集的具体分析创造有效的方法途径。为了实现对旋转机械故障的有效获取,进一步发展数据驱动,我们必须要全面了解旋转机械故障知识以及数据库技术的具体功能和特点,科学利用两者的功能耦合技术,针对故障知识的自动化获取制定科学的解决方案,同时针对具体工程应用方法开展深入研究。

3 基于数据挖掘的数据库系统总体设计

3.1 数据库系统的设计流程

为了能够针对转子故障特征数据资源进行有效分析,自动化获取相关故障知识,我们对故障知识挖掘数据库进行了设计和研究,具体设计流程如图1所示。

图1 系统设计及流程图

对图1 中相关流程进行分析,左侧部分对SQL Server 平台上的具体数据处理过程进行描述,主要包括数据库的设计和构建、挖掘模块的设计和构建以及数据挖掘三大部分。右侧部分则针对数据库的具体构建、数据挖掘模块的具体设计以及数据挖掘和数据库技术两者的耦合技术设计及其实现过程进行描述。

3.2 基于数据挖掘的数据库结构分析

图2 数据功能模块的具体结构

在数据挖掘的基础上设计的数据库结构中一般包括三大部分功能模块,第一个模块是特征数据库,第二个模块是故障案例库,第三个模块是诊断结论库。数据功能模块的具体结构如图2 所示。其中,特征数据库主要用于对采集获得的特征数据集进行处理,之后妥善进行存放;故障案例库中存放的故障案例类型是具有特殊要求的,要同时具备案例征兆表以及相应决策结果。前者主要针对规则中的条件内容进行存放,后者则针对决策结论内容进行存放,两者均选择“案例号”实现外键关联。故障知识库主要由故障案例库以及诊断结论库共同构成,针对知识库的具体维护,一般要求针对具体案例进行添加以及修改,同时做出删除处理以及保存处理。深入分析基于数据挖掘的数据库,其数据源的存储一般通过关系数据库的方式来开展。对于关系数据库来说,单一的关系就代表一个二维表,众多的二维表共同构成数据库,不同的二维表之间借助一样的属性名实现关联。

针对数据挖掘模块的具体设计,一般可以借助DMX 语言实现对其的有效创建以及处理,同时针对数据挖掘模块开展浏览管理以及有效预测。此外,可以借助可视化界面完成手动操作。本次研究采用手动方式完成对数据挖掘模块的构建,通过这种方式促进人机交互,同时对系统的具体运行过程进行实时监测,针对系统运行中存在的问题进行诊断,科学调节系统性能。

3.3 针对决策树挖掘模型进行科学构建

针对数据源进行科学创建,利用SQL Server 完成分析服务项目的创建,实现与数据库的有效连接,科学创建数据源。基于当下的关系数据源,确定哪些对象应该包含在数据源视图当中,构建数据源视图。

决策树挖掘模型一定要包括有一个键列,包含几个输入列,并且具备一个可预测列,通过输入列完成数据提供,以便开展信息预测工作,预测列一般存放各种挖掘模型需要预测的对象。程序针对不同数据列的具体属性进行自动化检测,之后针对数据类型开展科学定义,并将数据挖掘模型妥善保存,为协议阶段的规则提取奠定基础。

3.4 获取诊断规则

针对数据挖掘模型进行有效部署以及处理,构建的决策树可以通过挖掘模型查看器实现全面查看。对决策树挖掘结果进行分析,可发现决策树由各种拆分构成,能够针对诊断规则进行有效显示,从决策树的根节点到决策树的叶节点形成的路径即属于一条诊断规则。由决策树的根节点至全部叶节点的路径组合即为挖掘数据模型获取的所有潜在诊断规则。

针对具体诊断规则进行有效提取,完成相应验证之后能够针对故障诊断工作提供良好依据,将其保存至诊断规则知识库内,促进知识库的进一步完善。

3.5 开展实验验证

为了分析和评价设计完成的系统针对转子故障知识发现过程中的具体应用效果,应在转子实验台中对不平衡故障进行有效模拟,针对具体设计系统实施实验验证。在实验验证环节中分析转子振动信号的具体频率特征,选择其中几种特征构建故障识别的具体特征模式。

[1]李鑫颉,贾振华,吴以岭.数据挖掘方法在中医医案研究中的现状分析[J].中国中医基础医学杂志,2012,14(1):45-46.

[2]杜芳芳.基于数据挖掘的采购决策系统设计[J].中国商贸,2012,13(6):69-72.

[3]刘华.基于数据挖掘的数据库营销研究[J].中国商贸,2012,20(3):205-210.

[4]张翼飞,赵凯.基于决策树的转子故障自动诊断研究[J].计算机测量与控制,2013,16(9):114-115.

[5]刘凤娟,李建磊.耦合故障转子模型的分析[J].电子测试,2013,14(12):96-99.

猜你喜欢
数据源决策树数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
决策树和随机森林方法在管理决策中的应用
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
基于决策树的出租车乘客出行目的识别
基于模糊关联规则和决策树的图像自动标注
基于真值发现的冲突数据源质量评价算法
基于肺癌CT的决策树模型在肺癌诊断中的应用
WONCA研究论文摘要汇编
——初级保健晚期疾病患者照顾者的识别障碍:3个数据源的三角化测量