曹嘉杰++杨猛++徐新宇
摘要:在互联网技术快速发展和数据库技术广泛应用的同时,人类通过信息技术搜集数据的能力越来越强,而如何从大量数据中挖掘有价值的知识或信息也变得尤为迫切。为了解决上述问题,数据挖掘技术应运而生。研究发现,数据挖掘所需处理的数据多为非线性的、杂乱和存在噪声的数据,神经网络正是凭借其高度容错性、分布存储、并行处理、自适应性和鲁棒性等特征而被广泛用来处理一些数据挖掘的问题。据此,在本案,笔者首先介绍数据挖掘与RBF神经网络的相关理论知识;然后再重点讨论基于RBF神经网络的数据挖掘方法,以供同行参考。
关键词:RBF神经网络;数据挖掘;遗传算法
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)07-0151-03
Research on Data Mining Method Based on RBF Neural Network
CAO Jia-jie, YANG Meng, XU Xin-yu
(Beijing Satellite Manufacturing Plant, Beijing 100000, China)
Abstract: The rapid development of Internet technology and database technology is widely used at the same time, human through information technology to collect data is more and more strong, and how to from a lot of data mining valuable information and knowledge has become particularly urgent. In order to solve the above problems, data mining technology arises at the historic moment. It is found that the data mining the data for the nonlinear, messy and the presence of noise data, neural network is by virtue of the degree of fault tolerance, distributed storage, parallel processing, adaptive and robust feature is widely used to deal with some of the data mining problems. Accordingly, in this case, the author first introduces the data mining and RBF neural network of the relevant theoretical knowledge, and then focus on the RBF neural network based on the data mining method for peer reference.
Key words: RBF neural network; data mining; genetic algorithm
数据挖掘是从大量数据中挖掘有价值的信息和知识,以便为管理决策和战略部署提供数据支撑。数据挖掘作为信息技术发展的结果,其应用前景相当广泛。数据库技术主要研究数据的组织、存储、获取和处理,而信息技术主要经历以下发展历程:数据的简单收集和数据库的初期建设→数据的存储与检索、数据库的事务处理→数据的分析与理解,此时便出现数据挖掘技术。基于上述研究背景,下文首先分别介绍数据挖掘与RBF神经网络的相关理论知识,并在此基础上,讨论基于RBF神经网络的数据挖掘方法,目的是为了研究数据挖掘所用到的分类算法。关于神经网络,作为一种人工智能技术,其一方面可以省去繁琐的数学建模和数学推理,另一方面在处理含噪声的非线性数据时表现出无与伦比的优越性。
1 数据挖掘
数据挖掘是非平凡的数据处理过程,即识别数据集中具有潜在价值、新颖有效且最终可被理解的模式,其中潜在价值指的是挖掘出的知识具有实际效用;新颖是指识别出的模式新颖;有效是指识别出的模式在一定程度上是正确的;最终可被理解是指识别出的数据可被用户理解。图1所示为数据挖掘的工作流程。
如图1所示,数据挖掘主要经历数据准备、模式提取、结果解释与评估等阶段,其中数据准备的步骤为:数据清洗→数据选取→数据预处理→数据表示;数据提取阶段又称数据挖掘阶段,其实现步骤为:确定数据挖掘的目标或任务→选取适宜的数据挖掘工具或算法→进行数据挖掘操作;结果解释与评估阶段主要对所识别的数据进行评估、筛除。一般来讲,数据挖掘质量主要与以下影响因素有关:数据挖掘技术的可靠性与有效性;目标数据的数量与质量。总之,数据挖掘是一个反复反馈的过程,而可视化贯穿在数据挖掘的全过程。
数据挖掘的方法一般分为统计型、机械学习型两大类,而较为常用的算法包括遗传算法、神经网络等。遗传算法是一种以生物进化理论为基础的优化空间搜寻法,其在数据挖掘中,通常以搜索问题的形式来表述具体的任务,并通过选择、交叉、变异遗传等操作寻得最优解。神经网络是一种与人类大脑重复学习类似的方法,即通过学习和训练一些事先给出的样本,产生与样品有所区别的特征和模式,其中样本集应具有代表性。研究表明,神经网络具有准确预测复杂的问题、有效处理存在噪声的数据等优点。神经网络一般分为自组织、反馈式和前馈式神经网络,目前正被广泛应用于商业领域。
2 RBF神经网络
RBF网络结构是一种由输入层、隐含层和输出层组成的三层前向网络,其中输入层包含信号源结点;隐含层主要由节点数目描述的具体问题而定;输出层主要响应输入模式的具体作用。图2所示为RBF神经网络的拓扑结构模型。
如图2所示,RBF网络由输入层向隐含层变换的过程具有非线性的特征,而由隐含层向输入层变化的过程具有线性的特征。据此可知,RBF神经网络是一种基于前馈网络的拓扑结构。研究发现,RBF神经网络拓扑结构会对自身的性能产生影响,而以下因素又会对RBF网络拓扑结构产生影响:RBF的隐节点数目、中心矢量、径向基函数宽度和隐含层与输出层的权值矩阵。
RBF网络具有较强的非线性逼近性能。得益于此,其目前主要用来实现非线性系统的建模与数据挖掘、贝叶斯规则和连续输入/出数据对的映射建模。与其他前向神经网络相比,RBF神经网络具有以下优点:
1)RBF神经网络能逼近任意非线性映射,也能处理系统内部的规律性问题。就无噪声数据而言,RBF神经网络模型的预测精度高且拟合能力强;而就存在噪声的数据来讲,RBF神经网络模型的预测误差和拟合误差均偏低,且收敛速度相当快。得益于此,RBF神经网络在时序建模和分析中的应用十分广泛。
2)RBF神经网络的拓扑结构加快了学习速度和规避了局部极小的问题。RBF神经网络采用核函数,特别是高斯函数的使用使得核函数的优点更为突出:表示简单、光滑性好和解释性好等。
3)RBF神经网络的可解释性好。目前,以下理论均可用于RBF网络参数和拓扑结构的解释中:RBF网络能够对输入层转向输出层进行映射;核回归能够逼近存在噪声的函数噪声数据插值能够逼近输入缺少函数;规则化可以通过在一般化与精确匹配中寻求平衡;贝叶斯规则可以根据前概率计算出后概率。
3 基于RBF神经网络的分类数据挖掘
关于RBF神经网络的研究,其主要表现在以下两个方面: RBF网络结构模型; RBF神经网络学习算法。
3.1 RBF网络结构模型
在实际应用中,RBF模型的应用范围更广,其核函数使用的是高斯函数。但研究发现,在上述结构模型中,训练算法的优劣会对模型的应用效果和RBF网络性能的高低产生决定作用。鉴于此,研究人员提出一些具有新特点和新性能的网络模型,具体包括:
1)高斯型核函数一般化。当隐含层RBF采用以下高斯条函数时,将大大改善RBFN的综合性能:[Φ?x)=exp-(x-cj?T(x-cj)]/2σ2j]。对于普通高斯函数,其拥有半径相同的变量轴和超球面状的函数曲面。但与此相比,高斯条核函数拥有超椭球面状的函数曲面和半径不同的变量轴,因此它具有更强的样本点逼近能力和更大的网络训练工作量。
2)WNN(小波神经网络)。WNN是一种基于小波函数的函数连接型网络,因此在一定程度上应被看作RBFN的推广形式。WNN的激活函数为小波函数,具体以仿射变换的方式创建网络参数与小波变换之间的联系,因此所表现出的特点与RBFN有所差异。此外,WNN具有极佳的时频特征,因此被广泛应用于图像处理和模式识别等领域。
3)RBPNN(径向基概率神经网络)。RBPNN作为RBFNN与PNN综合发展的结果,其学习收敛速度比RBFN更快,同时也将模式之间的交错影响考虑其中。关于RBPNN,其结构主要由2个隐含层、1个输入层、2个输出层组成,其中第一个隐含层为非线处理层,具体包括隐中心矢量,此乃网络结构优化的核心对象;在输出层得出输入样本概率密度的估算值,可降低计算的复杂度。
4)GRNN(广义回归网络)。GRNN使用的也是高斯型径向基函数,一般被看作RBFN的变换形式。GRNN的结构主要由模式层、输入层、加和层、输出层组成,其中核函数所包含的平滑因子需采用优化或经验方法来选定。
3.2 RBF神经网络学习算法
在RBF网络设计中,最为核心的问题是如何合理确定中心点的位置、数目和训练网络权值。通常情况下,中心点的确定与权值的训练既可分开实现,又可同时进行。鉴于此,RBF网络可以采用以下两类学习算法:
3.2.1 静态学习算法
静态学习算法是一种离线学习算法,即在离线设计RBF网络时,中心点的确定与权值的训练分开进行。
1)随机确定RBF中心点,即随机从训练数据集中选取RBF中心点。当RBF选取以下高斯函数:[G(X-Cj2=exp(-m/d2maxX-Cj)j=1,2,...,m],其中,[Cj]——RBF的中心点;[m]——中心数;[dmax]——相邻中心点最大的间隔距离,因此高斯径向基函数的宽度[σ=dmax/2m]。利用上述算法,可以避免RBF的形状出现过平或过陡两种极端现象。如此一来,便可通过计算线性方程组的方式来确定输出层与隐含层的连接权值。
2)自组织学习确定RBF中心点。混合学习过程主要包括自组织学习阶段、监督学习阶段,其中自组织学习阶段的任务是采用聚类算法来估计隐含层RBF的中心点;监督学习阶段主要通过对输出层线性权重进行估计来设计网络,具体采用最小二乘法。输出层节点的LMS算法与隐含层节点的K-均值聚类同时进行,以加速学习过程。
3)有监督学习确定RBF中心点,即通过有监督学习解得RBF的中心点和自有参数,具体使用牛顿法或梯度下降法等。如果使用梯度下降法,则应从参数空间的某一有效区域开始进行搜索,即先利用RBF网络得到高斯分类算法,再以分类结果为搜索点,以免学习程收敛至局部极小。
3.2.2 动态学习算法
动态学习算法是一种在线学习算法,其主要在在线数据挖掘环境中使用。由于在在线数据挖掘环境中,通常不会全部给定训练样本,因此如果隐含层中心点与单元数目的确定采用静态学习算法,则解算结果不一定最优,而在线学习算法支持动态删除或加入隐含层节点,且隐含层中心点的确定和权值的训练同时进行,因此可以动态构造网络。
1)以分组优化策略为基础的在线学习法。训练神经网络是约束优化的过程,则需对特定的神经网络类型进行深入探讨。以下内容为在线隐含层单元的确定策略:当输入的训练样本同时满足以下条件时,则为之分配相应的隐含层但愿你:网络输出误差比误差的设定阀值大;输入样本与隐层中心点之间的距离比距离的设计阀值大。如果在RBF神经网络在线训练方式中引入分组优化策略,则网络输出与网络权值之间存在线性关系,同时与隐含层单元的宽度、中心点之间存在非线性关系,表明尽量采取不同的优化方法来处理两部分的参数。
2)最近邻聚类算法。最近邻居类算法作为动态自适应聚类学习算法,由其聚类得出的RBF网络不仅最优,且支持在线学习。最近邻聚类算法的实现过程为:
① 设定高斯函数宽度为r,定义矢量A(l)存放输出矢量的总和,定义计数器B(l)统计样本数量,其中类别数目为l。
② 对于数据对[(x1,y1)],于[x1]上创建1个聚类中心,并令[x1=c1],[y1=A(1)],[B(1)=1],那么在RBF网络中便仅存在1个中心为[c1]的隐含层单元,且隐含层单元与输出层的权矢量[w1=A(1)/B(1)]。
③ 对于数据对[(x2,y2)],解得[x2]与[c1]之间的距离[x2-c1]。假设[x2-c1≤r],那么[x2]的最近邻聚类为[c1],假设[A(1)=y1+y2],[B(1)=B(1)+1],[w1=A(1)/B(1)];假设[x2-c1>r],那么以[x2]为新的聚类中心,同时假设[c2=x2],[A(2)=y2],[B(2)=1]。根据上述要求创建的RBF网络,再在其中加入一个隐含层单元,其与输出层之间的权矢量[w2=A(2)/B(2)]。
④ 假设第k个数据对[(xk,yk)(k=3,4,...,n)]的聚类中心数为M,相应的中心点为[c1,c2,...,cm],则由此创建的RBF网络中便存在M个隐含层单元。据此,解得[xk]与M个聚类中心的间距为[xk-ci,i=1,2,...,M],假设两者的减小间距为[xk-ci],那么[xk]的最近邻聚类为[ci]。根据第一、二数据对的计算步骤,解得当[xk-ci>r]时,第M个隐含层单元与输出层之间的权矢量[wM=A(M)/B(M)];当[xk-ci≤r]时,隐含层单元与输出层之间的权矢量[wi=A(i)/B(i),i=1,2,...,M]。研究发现,动态自适应RBF网络的难易程度由r所决定,即聚类数目与r呈负相关,即r越小,聚类数目越多,则计算量越大和精度越高,反之亦然。总之,最近邻聚类法具有性能优点、计算量小河学习时间短等优点,不仅可以通过确定隐含层来建立RBF神经网络,还可以在动态输入模式在线学习中得到有效应用。
综上,RBF网络是一种具有最佳拟合和全局逼近性能的前向型神经网络,其无疑具有广阔的应用前景,但在实际应用中,应当考虑到局部极小问题的存在,进而保障其应用效果。
参考文献:
[1] 储兵,吴陈,杨习贝,等.基于RBF神经网络与粗糙集的数据挖掘算法[J].计算机技术与发展,2013,23(7):87-91.
[2] 宫晓曼,滕荣华.基于神经网络的数据挖掘在煤矿选煤中的应用[J].煤炭技术,2013(9):127-128.
[3] 魏文轩.改进型RBF神经网络在股票市场预测中的应用[J].统计与决策,2013(15):70-72.
[4] 曹东方,王玉恒.数据挖掘在员工考评管理信息系统中的应用[J].河北工业科技,2012,29(5):323-326.
[5] 姚应水,叶明全.RBF神经网络与logistic回归模型的对比研究[J].中国卫生统计,2011,28(4):397-399.
[6] 张会敏,叶明全,罗永钱等.基于RBF神经网络的老年痴呆症智能诊断研究[J].中国数字医学,2015(6):38-41.
[7] 习勤,米帅军.指标筛选技术在神经网络数据挖掘模型中的应用[J].统计与决策,2011(10):163-165.
[8] 林涛,葛玉敏,安玳宁等.基于 RBF 神经网络的钢构件质量追溯系统研究[J].计算技术与自动化,2015(1):20-24.
[9] 徐晓.基于RBF神经网络的数据挖掘研究[J].计算机与网络,2014(19):67-69.
[10] 任亚,李萍.基于RBF神经网络的中国CPI预测研究[J].西安财经学院学报,2011,24(1):62-65.