数据挖掘技术及在制造业的应用

2017-11-01 17:14吴雪峰
计算机应用与软件 2017年10期
关键词:决策树遗传算法数据挖掘

吴雪峰 马 路

(哈尔滨理工大学机械动力工程学院 黑龙江 哈尔滨 150080)

数据挖掘技术及在制造业的应用

吴雪峰 马 路

(哈尔滨理工大学机械动力工程学院 黑龙江 哈尔滨 150080)

随着信息化时代的发展,各行各业催生了大量的数据,为了能更好地提供决策支持,数据挖掘技术应运而生。在详细分析了中国制造业现状的情况下,中国政府发布了《中国制造2025》,将制造业列为国家重点发展支持项目。数据挖掘技术作为现代先进制造技术之一,在现代制造业中将具有独特的优势。首先介绍数据挖掘的基本概念、挖掘过程及数据挖掘的经典算法,然后重点介绍数据挖掘在制造业的应用,最后指出了数据挖掘的发展趋势。

数据挖掘 制造业 发展趋势

0 引 言

随着信息化时代的到来,各行各业迅速发展,积存了海量的数据信息。而在这些海量的、杂乱无章的数据里往往隐含着大量的对人们有用的信息。如何从海量的数据中快速的获得有效的数据并为决策提供支持成为当务之急,而依据传统的数据处理方法显然已无法满足所需,数据挖掘技术应运而生。数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动中扮演着越来越重要的角色[1]。

尤其在制造业,我国已经是世界上第一制造大国,制造业在我国国民经济中处于支柱产业。最近几年,制造业越来越受到国家领导人的重视,2015年5月中国政府发布了《中国制造2025》,将制造业推向高速发展行列,旨在2025年进入制造强国行列,这已经成为我国新时期经济发展的重中之重。随着大数据产业飞速发展为社会关系变革的一个主要推动力[2],而制造业以数字化、网络化、智能化为核心技术,成为“中国制造2025”的制高点、突破口和主攻方向,这将产生大量数据,更需要大数据技术的支持,因此数据挖掘技术在制造业方面将具有独特的优势。本文结合目前数据挖掘技术在制造业的应用,阐述了数据挖掘技术的理论支撑及算法,并结合现状指出了其发展趋势[3-5]。

1 数据挖掘概述

1.1 数据挖掘的定义

数据挖掘简单讲就是从大量的数据中挖掘或抽取出对人类有用的知识。对数据挖掘概念的定义有很多版本,总的来说,数据挖掘就是从大型数据库的数据中提取隐含的、事先未知的、有效的、新颖的、潜在应用的知识和信息,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)等形式,这种定义把数据挖掘的对象定义为数据库或数据仓库。也有一些文献把数据挖掘称为知识发现(Knowledge Discovery)、知识抽取(Knowledge Extraction)、数据考古学(Data Archaeology)、数据捕捞(Data Dredging)、智能数据分析(Intelligent Data Analysis)等[6]。

1.2 数据挖掘的对象及涉及的学科

数据挖掘的对象是非常广泛的,主要是面向关系数据库、数据仓库、文本(文本是非结构化或半结构化数据)、多媒体数据(主要包括图像、音频、视频数据)、Web数据以及复杂类型的数据(主要包括空间数据库和时间序列数据库)等。数据挖掘是一个跨学科领域,其主要涉及的学科领域如图1所示。

图1 数据挖掘涉及学科领域

1.3 数据挖掘的任务

数据挖掘任务就是从数据集中发现模式[7],按功能模式主要分为描述性挖掘和预测性挖掘两大类,其中描述性挖掘的重点是发现有趣的模式来描述数据,刻画数据的一般特征;预测性挖掘是在当前和历史数据的基础上进行预测推断,侧重于预测模型的行为。目前往往根据模式实际应用,将数据挖掘的主要任务分为数据总结、概念描述、分类、聚类、关联分析、偏差分析等。数据总结就是对现有数据进行浓缩,给出它一个概念性的表述;分类就是找出一个类别的概念描述,并用这种描述来构造模型,一般用规则或决策树表示,具体是利用训练数据集通过一定的算法而求得分类规则;聚类和分类不同,聚类是将数据库中的对象聚成多个类,同一类的对象相似度尽可能大,不同类的对象相似度尽可能小,较为常见的用于度量对象相似度的方法有距离、密度等;关联分析是发现数据关联性,数据关联是数据库中存在的一类重要的可被发现的知识,一般用支持度和可信度来度量关联规则的相关性,关联分为简单关联、时序关联和因果关联;偏差分析用于数据库中一些数据的异常记录,从数据库中检测这些偏差意义重大,偏差检验的基本方法就是寻找观察结果与参照之间的差别。

2 数据挖掘的过程

数据挖掘主要有数据准备、数据挖掘以及对挖掘结果的评估与表示[8]三阶段组成。如图2所示。

图2 数据挖掘的三阶段过程模型

2.1 数据准备

数据准备是整个数据挖掘过程中非常重要的一个阶段,我们在从各个数据源中对数据进行整合时,数据中往往存在很多噪声、冗余,数据的好坏直接影响挖掘模型的可靠性及决策的正确性。此阶段主要包括数据的选择、数据预处理和数据变换等。

2.2 数据挖掘

数据挖掘是整个数据挖掘过程中最关键的一个阶段,如何从众多算法中选择合适目标的算法是最重要的一环。此阶段主要是根据数据挖掘的目标选择相应的算法,对数据进行分析挖掘出相应的模式模型。

2.3 挖掘结果的评估与表示

模型评估即需对数据挖掘过程进行一次全面回顾,从而决定是否存在重要的因素或任务由于某些原因而被忽视;模型表示即可视化,使模型能够友好地呈现给用户。由于第二阶段挖掘的模式模型并不一定具有实际意义或者不是目标用户希望得到的模型。因此要对数据进行解释和评估。这一阶段也很重要,要以用户希望的、易于理解的、可视的模式模型呈现给目标用户。

3 数据挖掘的主要方法

数据挖掘的方法众多,主要包括遗传算法、神经网络方法、决策树算法、关联分析、粗糙集方法、模糊集方法、统计分析方法、覆盖正例排斥反例方法、可视化技术等,下面针对几种主要的技术方法进行简要描述。

3.1 遗传算法

遗传算法GA(Genetic Algorithm)是近年来迅速发展起来的一种全新的随机搜索与优化算法[9],它是模拟自然界生物进化过程与机制求解问题的一类自组织与自适应的人工智能技术[10]。它是在自然选择和遗传理论的基础上,将大自然生物进化过程中适者生存不适者淘汰规则与群体内部染色体的随机信息交换机制相结合的搜索算法,主要有编码机制、参数控制、适应度函数、遗传算子四部分组成。其主要过程如图3所示。

图3 遗传算法基本过程

遗传算法具有自组织、自适应、智能性、隐含的并行性等特点,广泛应用于函数优化、组合优化、生产调度、遗传编程、机器学习、智能控制、图像处理、机器人、人工生命、数据挖掘等领域。秦国经等[11]提出了一种基于遗传算法寻优的PID控制,他是以误差绝对值时间积分性能指标为参数,并结合遗传算法的全局搜索能力实现对全局最优解的寻优,解决了PID控制器参数整定难的问题。冷亮等[12]提出了一种基于遗传算法来解决路径诱导系统问题的方法,他是通过对遗传算法中的一些参数和细节进行改进来实现全局寻优。

虽然遗传算法得到了广泛应用,但遗传算法自身也存在着很多缺点,如容易产生早熟收敛、收敛速度慢,以及局部寻优能力较差等。因此针对遗传算法的特点如何结合其他算法的寻优思想对遗传算法进行改进需进一步深入研究。

3.2 神经网络

人工神经网络(Artificial Neural Networks)是指能够模仿人脑神经元联接结构特征并且进行分布式并行信息处理的数学模型[13]。人工神经网络能以任意精度逼近非线性函数映射关系,具有较强的容错能力,具有自学习、自适应、并行处理等特点。其中使用较为广泛的是BP神经网络和多层前馈式神经网络。其基本流程图如图4所示。

图4 BP神经网络流程图

神经网络广泛应用于自动控制、组合优化、模式识别、图像处理、机器人控制等领域。朱坚民等[14]提出了一种基于神经网络反馈补偿控制、PID控制和神经网络辨识器的磁悬浮球位置控制结构,解决了磁悬浮球位置控制精度不高的问题。谢宝剑[15]提出了一个动态生长的卷积神经网络并采用主动的样本学习方法构造训练集进行图像分类,提高了分类算法效率,识别效果更加明显。

目前,神经网络已经被应用到许多方面,发展前景广阔,但还存在着很多问题,如神经网络的稳定性、收敛性的分析以及单一神经网络分析无法达到理想效果、多种算法如何进行有效结合等都需要进一步深入研究。

3.3 关联分析方法

数据挖掘意义下的关联分析通常是指关联规则挖掘[16]。它是通过对当前数据分析,找出数据间的密切联系。主要根据用户预先设定的支持度阈值和置信度阈值,对当前数据找出满足这两个阈值的关联规则,满足最小支持度和最小置信度要求的关联规则即为强关联规则。目前最为典型的关联规则挖掘算法是Aprior算法。最典型的应用就是市场购物篮问题,还广泛应用于银行、金融数据分析、零售业、生物医学、DNA数据分析、推荐系统等方面。汪雪锋等[17]提出了一种将时间序列和关联分析相结合的方法,并将其应用于数控系统技术中,和整体关联分析相比较,更加凸显出基于时间序列的关联分析的优越性,深度揭示了技术领域的动态变化。周剑波等[18]提出将粒子群优化算法和灰色关联分析相结合即二次改进的灰色关联分析,并应用于航空发动机气路部件的故障诊断中,结构简单、计算量小、速度快、效果更显著。

目前,关联分析方法还存在很多不足,如何使关联规则算法体系标准化、模块化,如何对一些非结构化数据进行有效处理以及如何将关联规则与其他的决策方法结合都值得进一步深入研究。

3.4 决策树算法

决策树学习[19]是应用最广的归纳推理算法之一,是一种逼近离散函数值的方法。它是在分析和归纳信息理论基础上,采用树结构,从根节点到叶节点逐层划分,决策树的根节点包含样本的信息量最大,叶节点是样本的类别值。目前应用最为广泛的是ID3算法和C4.5算法。决策树算法具有分类精度高、模型可读性强、对噪声数据具有很好的健壮性等优点,广泛应用于各个领域。李定启等[20]为进一步提高煤层工作面突出预测的准确率,提出了基于决策树ID3改进算法的煤层工作面煤与瓦斯突出预测方法,结果该模型预测的准确率显著提高。杜英丽[21]利用Fayyad技术,根据Fayyad边界点判别定理,对C4.5算法中的连续性离散化过程进行了改进,并与原C4.5算法在客户分类中进行比较,结果表明,改进的C4.5算法分类准确率更高、计算速度更高。

目前,数据挖掘已进入大数据时代,决策树方法的效率以及对复杂数据的适应亟待提高。

3.5 粗糙集理论

粗糙集理论是一种刻画不完全、不确定、不精确的数学工具,能够有效地分析和处理不确定、不精确、不完整信息,从中发现隐含的知识,揭示潜在的规律。由波兰华沙理工大学Pawlak教授于1982年首次提出,在人工智能、模式识别、数据挖掘和智能决策等领域得到了广泛应用,粗糙集理论的核心问题是属性约简[22]。Chen[23]等利用从决策信息决策表中抽取少量样本,而这些样本所包含的知识量与整个样本基本相同,并以此样本进行属性约简,有效地节约了计算时间,提高了求解属性子集的效率。

目前,粗糙集理论虽然得到了广泛的应用,在处理不确定信息方面具有不可替代的优越性,但还存在着某些不足之处,如缺乏对噪声数据的适应能力,不确定性概念的边缘刻画过于简单等都需要进一步深入研究。

3.6 可视化技术

可视化数据挖掘是数据挖掘中的一个重要组成部分,是计算机和用户之间进行信息沟通的重要渠道。它将数据库中潜在的、有用的信息以直观的、易于理解的方式呈现给用户,便于用户正确的决策。可视化数据挖掘过程可分为数据可视化、数据挖掘过程可视化、数据挖掘结果可视化、交互式可视化数据挖掘四类。杨振舰[24]通过改进机器学习算法、空间和非空间的聚类算法并结合挖掘算法的相关可视化技术,研制了一套支持可视化数据挖掘的城市地下空间GIS原型系统。

目前,数据挖掘已进入大数据时代,可视化需求更加迫切,而可视化技术运用于数据挖掘一般是作为表达工具,在人机交互和用户自主性方面仍需加强,因此,如何将可视化技术和数据挖掘技术有效结合需进一步研究。

4 数据挖掘在制造领域的应用

数据挖掘几乎涉及各个领域,本文主要对数据挖掘在制造业领域的应用进行详细介绍。

和其他领域相比较,数据挖掘技术在制造业的应用,其技术特性更加明显[25]。在制造业总的来说主要应用数据挖掘技术来进行机器零件故障诊断、资源优化、生产工艺过程分析、车间调度、客户关系管理、决策支持系统等。本文主要介绍数据挖掘技术在制造业这几个领域中的应用。

4.1 故障诊断

设备的正常运转是保证产品质量和企业经济效益的根本所在,一旦设备出现故障需及时查找出故障所在的位置并维修才能保证企业经济损失降到最低,因此,故障诊断对一个企业来说至关重要。

张洪瑾[26]针对掘进机液压系统故障,提出了一种将模糊理论与BP神经网络相结合的故障诊断方法,并应用VC++与Matlab实现了故障诊断软件。焦朋沙[27]针对不同故障因素在故障诊断过程中具有不同的影响作用,提出了一种矩阵加权关联规则算法,利用故障因素权值来提高故障诊断的准确率,通过对剪切连接的改进降低了候选项集的生成规模,从而提高了故障诊断的效率。王飞[28]在已有的决策树方法的基础上提出了基于变精度粗糙集的决策树结构改进算法,提高了分类精度和噪声数据抑制能力,并运用到煤厂机械设备中,得到了较好的效果。薛詠舒[29]从大型旋转设备数据出发,结合Apriori算法并采用BS结构开发了用于旋转设备振动故障诊断的状态监测系统,在实际生产应用中取得了很好的效果。Wang[30]等针对机械设备的异常,提出了应用黎曼流行和协方差矩阵分布的可视化进行检测,并将其应用到风力涡轮机齿轮箱的故障检测中,得到了较好的效果。Jiao[31]等根据最小二乘法支持向量机并结合模拟退火算法,提出了一种黑洞粒子群-模拟退火算法,在分类速度和精度以及极值问题上都得到很大的改善,并将其运用到风机齿轮箱的故障诊断中,得到了较好的效果。

4.2 资源优化

资源优化的目的是改变工作的起始和完成时间,利用工作的机动时间(总时间差),使资源需要进行优化。

Sugimura[32]应用数据挖掘方法对透平机械进行了相关的优化研究,并取得了较好的效果。Gertosio[33]等使用线性回归分析方法,对汽车引擎测试参数和性能之间的关系进行了分析,并确定了他们之间的密切关系,将其投入到了生产应用中,大大节省了测试时间。李铁刚[34]等主要是通过影响因素分析和分类分析算法并结合关联发现的规则提出了针对结构件数控编程的切削参数选择和优化方法,并取得了很好的效果。王书易[35]等根据物流云理念并应用到车辆配送路径中,研发了一套基于数据挖掘的云计算车辆路径优化系统,具有一定的实用价值。张巍[36]采用了支持向量机与遗传算法相结合来实现锅炉燃烧优化,以支持向量机锅炉燃烧模型为基础,采用遗传算法对所建模型优化,获得燃烧优化调整方式,对我国电厂具有一定的实用价值。

4.3 生产工艺过程分析

一个完整的生产工艺过程是指将各种胚料或半成品通过一定的设备、按照一定的加工顺序,最终使之成为成品的方法与过程。因此生产工艺过程的每一个流程都至关重要,分析过程中的某一环节对整个生产来说具有重要的意义。

Sun[37]等采用神经网络技术对检测系统中的刀具状态进行识别,采用支持向量机方法分别调整每个刀具磨损状态的识别能力。对刀具后刀面磨损有效地进行识别。胡洁[38]主要是通过聚类算法、回归预测方法并结合相关报警规则提出了一种能够实现设备状态检测预警的方法。该方法能够为企业一些重要设备实时的给出其状态预测与诊断结果,具有非常好的实用价值。李海林[39]等为了有效地检测发动机试车实验中性能参数发生异常,提出了一种基于时间序列数据挖掘的发动机故障检测方法,该方法能够有效地对发动机性能参数进行故障分析,且具有较好的鲁棒性。

4.4 车间调度

对于现代的工业企业,生产环节及协作关系复杂,车间情况变化快,某一环节出现问题,往往会波及整个生产体系。因此,加强了解和掌握车间调度工作非常重要。

于艺浩[40]通过决策树的数据挖掘方法设计了车间实时调度系统,实现了有效的车间生产调度和生产过程管理,提高了生产过程的可视性和可控性。Ozturk[41]等采用基于数据挖掘技术的回归树方法去估算制造交货时间。Wang[42]等已经开发了利用决策树和BP神经网络的混合知识发现模型,根据噪声信息和预测规则的性能,确定了基于生产数据的合适的调度规则。Shahzad[43]等针对作业生产车间中的动态调度问题,提出了一种基于数据挖掘的调度策略框架结构,此框架通过决策树算法进行逼近学习而实现最优调度计划方案。Karimi[44]等针对柔性车间的调度问题,提出了一种基于知识模块的变邻域搜索优化方法,知识模块和变邻域搜索优化算法之间的交互反馈,从而使算法更加高效。Guldogan[45]将一种基于知识的专家系统与遗传算法相结合用于解决生产调度过程中的机器选择和操作分配问题,并用于木材切割机中,取得了较好的效果。

4.5 客户关系管理

客户关系管理是一个数据挖掘被广泛用于预测客户行为的领域。能够使企业更有效地为客户提供满意、周到的服务,提高客户的满意度、忠诚度等。

Tseng[46]等提出了一种数据挖掘方法,它是基于一种由对于特征选择来说是新的粗糙集算法和为了更精确预测的多类SVM方法组成的混合方法。此技术已经应用在一个供应商选择的案例研究中,预测一个视频游戏系统的首选供应商。Buddhakulsomsiri[47]等开发了一种新的关联规则生成算法来提取知识(以规则的形式),然后可以被用来识别特定保修问题的根源,并开发来自于汽车保修数据的有用结论。这方面的知识以IF-THEN关联规则的形式提出,其中,规则的IF部分含有产品的特征属性和THEN部分包括相关的劳动法的问题。Chen[48]等应用关联规则挖掘得到的规则,适用于客户需求模式直接来自于订单数据库。对于订单数据库中经常由某些产品项组成的客户订单的某些系列,通过应用关联函数功能可以被引导。

4.6 决策支持系统

正确的决策对一个企业甚至国家都至关重要,而决策支持系统能够为决策者提供所需的数据、信息、背景材料来帮助决策者识别目标和明确决策问题,提供多种方案模型,并评价各种方案的选择,为必要的正确决策提供支持。

朱付保[49]等综合运用粗糙集和决策树数据挖掘算法建立了数据处理模型,实现了对电力设备工作状态的快速、高效诊断,并根据其工作状态提供决策支持。Zhou[50]开发了基于智能预测和设备故障检测的框架的一个媒介,并且因此也支持装备故障预测与诊断。数据挖掘被用于智能预测引擎,这是该系统的关键部件。Kusiak[51]提出了一种基于数据挖掘的强大的报警系统结构,它被用于预测水化学故障的传入故障。Shao[52]等提出了一种基于数据挖掘的体系结构,在配置设计中发现基于客户群的配置规则。基于先验算法的关联规则挖掘被用来获得产品规格和配置选择簇之间的关联规则。

4.7 小 结

通过本节叙述可知,数据挖掘技术已经应用于制造领域的各个方面,而目前网络技术的发展已经迈进了大数据时代,大数据时代的到来不仅使数据的更新速度加快,还使得数据的规模和复杂性都出现爆炸性增长。制造业中的数据挖掘也面临着很多挑战,如何更加有效地对大规模数据进行分析、如何保证数据分析的效率和分析结果的准确性、如何管理大规模数据以及数据隐私的保护等,都是我们今后需要关注和急需解决的问题。因此,我们应在现有算法的基础上不断创新,具体问题具体分析,将数据挖掘功能和数据挖掘技术结合起来,使数据挖掘技术更好的服务于我们。

5 数据挖掘发展趋势

数据挖掘语言标准化:语言若能够得到广泛的应用,标准化必不可少。数据挖掘语言经过标准化必能提高多个数据挖掘系统和功能之间的互操作,有利于系统化的开发和设计。

Web挖掘:随着信息化迅速发展,Web现在已经成为信息传递的主要渠道,Web数据库和数据库在当前信息处理系统中成为主流,Web挖掘会成为未来数据挖掘的主要发展趋势之一。

可视化:可视化是数据挖掘一直需要亟待解决的问题。可视化技术是连接模型与目标用户的枢纽,能很好地进行人机交互。

数据挖掘和隐私保护:随着数据挖掘的迅速发展,个人隐私与信息安全问题日益成为人们关注的话题。数据挖掘使用不当就有可能涉及到人们敏感的信息,如何在不暴露用户隐私的前提下进行数据挖掘,也就成为人们非常感兴趣的话题[53]。

数据挖掘与物联网、云计算和大数据[54]:物联网、云计算和大数据都是新一代信息技术的主要组成部分,也是信息化时代的重要发展阶段,如何实现将物联网、云计算、大数据和数据挖掘紧密联系起来具有深远的意义,将会产生巨大的价值。

复杂的数据[55]:随着信息化时代的发展,数据挖掘的对象越来越多,不仅是一些简单的数据分析,还包括一些图像、音频、视频数据、Web数据甚至是空间数据库和时间序列数据库等,导致数据复杂化,依靠传统的数据挖掘方法很难达到理想的效果。如何对这些复杂的数据进行更加有效地挖掘具有巨大的价值。

多种数据挖掘方法结合:单一的数据挖掘算法有时不能达到令人满意的效果,其优劣特性明显。而根据算法的优缺点进行多种算法的结合使用往往能达到令人满意的效果,例如遗传算法与神经网络结合往往能达到令人满意的预测效果。

6 结 语

本文对数据挖掘过程中的相关技术和理论进行了比较全面的概述,阐述了数据挖掘在制造业各领域的应用,并指出了其不足和发展趋势。总之,随着信息化时代的到来,各行各业迅速发展,数据挖掘自然而然成为一种强大的应用工具,成为人们决策支持的重要辅助工具。制造业更应与时俱进,使数据挖掘在制造业能够真正意义上发挥作用[56]。

[1] 王梦雪.数据挖掘综述[J].软件刊,2013,12(10):135-137.

[2] 付长军,乔宏章.大数据产业发展现状研究[J].无线电通信技术,2016,42(4):1-4,28.

[3] 贺正楚,潘红玉.德国“工业4.0”与“中国制造2025”[J].长沙理工大学学报(社会科学版),2015,30(3):103-110.

[4] 周济.智能制造——“中国制造2025”的主攻方向[J].中国机械工程,2015,26(17):2273-2284.

[5] 郭朝先,王宏霞.中国制造业发展与“中国制造2025”规划[J].经济研究参考,2015(31):3-13.

[6] 包洋.面向制造业的数据挖掘技术研究与应用[D].上海:东华大学,2006.

[7] 李秋丹.数据挖掘相关算法的研究与平台实现[D].辽宁:大连理工大学,2004.

[8] 丁秀玲.数据挖掘算法和研究方向[J].办公自动化,2014(16):33-34,56.

[9] 吉根林.遗传算法研究综述[J].计算机应用与软件,2004,21(2):69-73.

[10] 郑立平,郝忠孝.遗传算法理论综述[J].计算机工程与应用,2003(21):50-53,96.

[11] 秦国经,任庆昌.基于遗传算法寻优的PID控制与仿真[J].中国西部科技,2011,10(11):12-13,09.

[12] 冷亮,杜庆东.基于遗传算法解决车辆最优路径诱导问题[J].信息通信,2012(2):14-15.

[13] 王雅轩,顼聪.数据挖掘技术的综述[J].电子技术与软件工程,2015(8):204-205.

[14] 朱坚民,沈正强,李孝茹,等.基于神经网络反馈补偿控制的磁悬浮球位置控制[J].仪器仪表学报,2014,35(5):976-986.

[15] 谢宝剑.基于卷积神经网络的图像分类方法研究[D].安徽:合肥工业大学,2015.

[16] 钱圣华,许谦,陈兰.基于关联分析的数据挖掘方法及其实证研究[J].甘肃联合大学学报(自然科学版),2011,25(2):23-25.

[17] 汪雪锋,赵晨晓,衡晓帆,等.基于时间序列的关联分析在技术监测中的应用研究[J].情报杂志,2013,32(4):10-15.

[18] 周剑波,鲁峰,黄金泉.基于灰色关联分析的航空发动机气路部件故障诊断[J].推进技术,2011,32(1):140-145.

[19] 付红伟,张爱华,张志强,等.决策树算法在数据挖掘中的研究与应用[J].应用技术,2008(7):133-135.

[20] 李定启,程远平.基于决策树ID3改进算法的煤与瓦斯突出预测[J].煤炭学报,2011,36(4):619-622.

[21] 杜英丽.决策树C4.5算法在客户分类中的应用研究[J].制造业自动化,2014,36(11):23-25,50.

[22] 丁浩,丁世飞,胡立花.基于粗糙集的属性约简研究进展[J].计算机工程与科学,2010,32(6):92-94,117.

[23] Chen D G,Zhao S Y,Zhang L,et al.Sample pair selection for attribute reduction with rough set[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(11):2080-2093.

[24] 杨振舰.可视化数据挖掘技术在城市地下空间GIS中的应用研究[D].河北:河北工业大学,2012.

[25] 梁凡.关于数据挖掘技术及其应用的分析[J].电子技术与软件工程,2015(22):200-200.

[26] 张洪瑾.基于模糊神经网络的掘进机液压系统故障诊断研究[D].南京:南京理工大学,2013.

[27] 焦朋沙.基于矩阵加权关联规则的设备故障智能诊断研究[D].河北:燕山大学,2012.

[28] 王飞.决策树算法在机械设备故障诊断系统中的应用[D].武汉:华中科技大学,2013.

[29] 薛詠舒.基于数据挖掘的旋转设备振动故障诊断应用[D].吉林:吉林大学,2013.

[30] Wang S,Sun X,Li C.Wind turbine gearbox fault diagnosis method based on riem annian manifold[J].Mathematical Problems in Engineering,2014,16(4):835-892.

[31] Jiao bin,Xu Zhixiang.Parameters optimization of LSSVM and application in fault diagnosis of wind power gearbox[J].Control Enggineering of China,2012,19(4):681-686.

[32] Sugimura K.Design Optimization and Knowledge Mining for Turbo machinery[D].Tohoku University,Sendai,2009.

[33] Gertosio C,Dussauchoy A.Knowledge discovery from industrial databases[J].Journal of Intelligent Manufacturing,2004,15(1):29-37.

[34] 李铁刚,范智广,王宛山.基于数据挖掘的切削参数优化[J].组合机床与自动化加工技术,2012(1):36-38,46.

[35] 王书易,王钦若,刘尚武.基于数据挖掘的云计算车辆路径优化系统[J].电子世界,2016(6):118,121.

[36] 张巍.电厂设备运行优化中数据挖掘的应用[D].河北:河北科技大学,2012.

[37] Sun J,Hong G S,Rahman M,et al.Improved performance evaluation of tool condition identification by manufacturing loss consideration[J].International Journal of Production Research,2005,43(6):1185-1204.

[38] 胡洁.数据挖掘在设备状态检测中的应用研究[D].南京:南京大学,2011.

[39] 李海林,郭崇慧,杨丽彬.基于时间序列数据挖掘的故障检测方法[J].数据采集与处理,2016(4):782-790.

[40] 于艺浩.基于数据的车间实时调度系统的研究与开发[D].辽宁:沈阳工业大学,2013.

[41] Ozturk A,Kayaligil S,Ozdemirel N E.Manufacturing Lead time estimation using data mining[J].European Journal of Operational Research,2006,173(2):683-700.

[42] Wang K J,Chen J C,Lin Y S.A hybrid knowledge discovery model using decision tree and neural network for selecting dispatching rules of a semiconductor final testing factory[J].Production Planning & Control,2005,16(16):665-680.

[43] Shahzad A,Mebarki N.Discovering dispatching rules for job shop scheduling problem through data mining[C]//8th International Conference of Modeling and Simulation-MOSIM,2010:10-12.

[44] Karimi H,Rahmati S H A,Zandieh M.An efficient knowledge-based algorithm for the flexible job shop scheduling problem[J].Knowledge-Based Systems,2012,36:236-244.

[45] Guldogan E U.An integrated approach to machine selection and operation allocation problem[J].The International Journal of Advanced Manufacturing Technology,2011,55(5-8):797-805.

[46] Tseng T L,Huang C C,Jiang F,et al.Applying a hybrid data-mining approach to prediction problems:a case of preferred suppliers prediction[J].International Journal of Production Research,2006,44(14):2935-2954.

[47] Siradeghyan Y.Association rule-generation algorithm for mining automotive warranty data[J].International Journal of Production Research,2006,44(14):2749-2770.

[48] Chen M C,Wu H P.An association-based clustering approach to order batching considering customer demand patterns[J].Omega,2005,33(4):333-343.

[49] 朱付保,霍晓齐,徐显景.基于数据挖掘的电力设备状态诊断系统建模[J].中原工学院学报,2015,26(3):85-89.

[50] Zhou J,Li X,Andernroomer A J R,et al.Intelligent prediction monitoring system for predictive maintenance in manufacturing[C]//Conference of IEEE Industrial Electronics Society.IEEE,2005:6.

[51] Kusiak A,Shah S.Data-mining-based system for prediction of water chemistry faults[J].IEEE Transactions on Industrial Electronics,2006,53(2):593-603.

[52] Shao X Y,Wang Z H,Li P G,et al.Integrating data mining and rough set for customer group-based discovery of product configuration rules[J].International Journal of Production Research,2010,44(14):2789-2811.

[53] 钱萍,吴蒙.同态加密隐私保护数据挖掘方法综述[J].计算机应用研究,2011,28(5):1614-1617,1622.

[54] 任冷.数据挖掘应用研究前沿和发展趋势[J].科技与创新,2016(16):7-8.

[55] 史尤昭.数据挖掘技术研究与应用[J].软件,2015,36(11):38-42.

[56] 李涛,曾春秋,周武柏,等.大数据时代的数据挖掘——从应用的角度看大数据挖掘[J].大数据,2015,1(4):57-80.

DATAMININGTECHNOLOGYANDITSAPPLICATIONINMANUFACTURINGINDUSTRY

Wu Xuefeng Ma Lu

(SchoolofMechanicalandPowerEngineering,HarbinUniversityofScienceandTechnology,Harbin150080,Heilongjiang,China)

With the development of the information age, all walks of life have spawned a large number of data. In order to provide better decision support, data mining technology emerges as the times require. “Made in China 2025” was issued by the Chinese government based on detailed analyses of current manufacturing situations of China, and manufacturing industry is regarded as a key project of national development and support. As one of the modern advanced manufacturing technology, data milling technology possesses unique superiority in manufacturing industry. This paper firstly introduced the basic concept of data mining, mining process and classical algorithmic of data mining. Secondly, it emphatically introduced applications of data mining in manufacturing. Finally, the development trend of data mining was pointed out.

Data mining Manufacturing Development trend

TP205

A

10.3969/j.issn.1000-386x.2017.10.012

2017-03-12。国家自然科学基金项目(51575144)。吴雪峰,副教授,主研领域:智能制造。马路,硕士生。

猜你喜欢
决策树遗传算法数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于遗传算法的智能交通灯控制研究
决策树和随机森林方法在管理决策中的应用
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于决策树的出租车乘客出行目的识别
基于模糊关联规则和决策树的图像自动标注
基于改进的遗传算法的模糊聚类算法
基于改进多岛遗传算法的动力总成悬置系统优化设计
基于肺癌CT的决策树模型在肺癌诊断中的应用