吕 嫄
(芜湖地区卫生学校,安徽 芜湖 241000)
神经网络是模仿人类的神经系统建立的网络,根据人类神经元和神经网络处理信息的基本特点,结合信息处理的特点,用神经网络结构本身来实现信息的输入、处理以及输出.在神经网络发展初期该技术并不被人看好,主要是因为神经网络比较复杂,并且受外界环境的干扰较大.随着网络算法和运算规则的不断提出和完善,神经网络在数据挖掘方面有了广泛的应用.
神经网络的数据挖掘过程主要由数据的准备、规则的设置以及规则的评估3 个方面组成,如图1所示.
图1 数据挖掘流程
数据是数据挖掘的基础和前提,但仅有数据是无法进行数据挖掘的,必须在进行数据挖掘前进行有效的数据准备,也就是数据的初步整理和定义,使用户的数据资源能够适应某种数据挖掘的方式.数据准备作为数据挖掘的首要步骤,对于数据的挖掘有着极其重要的作用.数据准备首先是进行数据的清洗.数据的清洗是为了补充数据中数值的空缺,去除干扰数据,对数据库中类型不统一的数据进行整理.数据清洗可以在数据装入之前进行,也可以在装入之后进行,灵活度比较高,然后就是数据的选择.所谓的数据选择就是根据本次利用的数据进行删选,比如某一数据库中有10 000 行和10 000 列数据,其中只有100 列和100 行数据能够对用户的决策起到积极作用,神经网络的数据选择作用能够帮助用户对这些数据进行筛选,通过建立一个模型,然后帮助用户进行数据的筛选,接着就是数据的预先处理.预先处理是对已经筛选后的数据进行增强处理,然后是数据的表示部分.数据表示就是将预处理后的数据转换成神经网络能够识别的形式.神经网络只能处理数值类型的数据,所以要将符号类数据转换为数值数据.如图2所示.
图2 符号类数据转换
数据的表示类型有多种,任何一种方法都要事先了解这些数据对神经网络的适应时间和处理精度.数据表示越明确,神经网络就越容易感知;而神经网络的规模越大,处理时间就会变长.在进行数据挖掘时,必须选择适当的模型,这样才能改善数据处理效果.
数据挖掘中规则提取的方法有很多,其中比较常用的有LRE 和黑盒的方式.第一种方法主要是利用LRE 对多层感知器进行规则的提取:首先对网络中的每一隐层结点和输出结点利用搜索功能使输入加权和大于结点的阈值,其次对每个数值组合设定一条规则.LRE 的优点在于产生的规则都比较容易理解,但搜索空间较大导致效率较低,黑盒方法是从神经网络的输入和输出两种行为来设定规则.这种方法的好处在于在提取规则之前不用了解神经网络的结构和类型,只要了解输入和输出的映射关系就能实现.
规则评估要根据每个应用的具体情况而定,但总体上要满足的规则是规则能对数据的处理产生最优的结果,评估时要重点检查规则的准确性,检测神经网络中还有多少内容没有被提取,以及检测神经网络与规则之间不一致的部分.神经网络中提取的过程还没有明确的顺序,但可以从健壮性测试和完备性测试以及警戒性测试3个方面来进行.
自组织神经网络数据挖掘是在无教师指导下完成的,整个数据挖掘过程基于数据组的特征或数据内容的内在关联而展开,通过挖掘不同数据之间的相互关联,分析数据组间的相互作用,最终判定数据类别的性质.如在进行数据特征挖掘过程中,能够通过分析数据组中数据分布的特征,并搭建神经网络结构的数据单元,以此检验不同数据组之间的性质差异.由于神经结构具有低纬度层次的结构空间,因此在进行数据组搭建过程中,应选择对应的神经网络结构,以保证自组织神经网络的数据信号处理速率,使数据特性能够得到及时的组织映射.
受神经结构自身条件的限制,神经网络无法对数据挖掘结果给出直观的说明.为提升神经网络输出数据的直观性,通常引入模糊神经网络数据挖掘技术,通过对BP 网络数据输出节点加以控制,有效简化网络结构的数据输出模式,以此使数据更为直观的输出.模糊神经网络结构的数据挖掘方式保留了神经网络结构自身记忆、分析和联想的能力,因此在数据挖掘过程中不会因BP 网络结构的引入而对神经网络的基本能力产生影响.在模糊BP 网络中,数据样本的期望值通过0 和1 两数值直观表现出来.这种方式提升了数据类型的隶属性,使得数据挖掘能够更具针对性地展开,并通过对数据组中的权系数进行模糊处理,进一步拓宽数据挖掘范围,保障了模糊神经网络的数据挖掘效率.
数据挖掘技术的高效开展是通过计算机联机构建神经网络得以实现的.由于计算机搭建的神经网络结构能够有效实现对多项数据的同时处理,因此其适用于规律性数据组的处理,和更具动态性的数据库数据整理等领域,针对不同的数据挖掘方式,神经网络的驱动方式也有所不同,主要包括数据自发驱动、数据查询驱动、交互式数据驱动以及专业式数据驱动等方式.
神经网络结构数据自发驱动是依赖于网络得以实现的.在数据自发驱动过程中,神经网络对具有一定规律和制式的数据进行简要处理,如对数据中的空缺值进行补充,对错误数据值进行纠错等.完成数据的简要处理后,再对数据组中特定的数据组值进行筛选,以保证数据挖掘的速率.在对网络结构中的数据进行挖掘后,通过接线的方式将数据组传输到网络中,通过网络中的在线数据库进行数据挖掘处理,使数据特性得以直观展现出来,当网络中的在线数据库数据规则满足该数据组的数据特性时,神经网络便会实现驱动.这种驱动方式便是数据自发驱动.
数据查询驱动方式与数据自发驱动不同,不需要依赖网络在线数据库进行数据挖掘处理,而是通过计算机中的预设程序对数据进行挖掘处理.数据查询驱动过程首先要对挖掘数据组进行分析和预处理.挖掘数据组的分析和预处理过程实际上是对数据组进行分类和统计.通过数据分析,神经网络结构能够掌握数据组的数据模糊性和结构类型,通过判别数据组的数据性质初步确定数据特性,为之后的网络结构驱动奠定基础.在完成数据预处理后,给定网络会对数据组进行收录,在判断数据的正负属性之后,建立起对应数据属性的集合.当正属性和负属性数据分类完成后,神经结构便会对两种数据执行自动挖掘.完成数据挖掘后针对数据组的结构特性触发神经网络的查询驱动.
专业式神经网络数据驱动更注重对数据的实时挖掘.在网络结构对数据性能进行分析整合后,专业式数据驱动要求对数据作进一步处理,即将数据网络结构进行重现并制定能够展现数据特色的网络规则,在将规则输入到网络系统后,通过系统对规则的处理与识别完成对数据结构的判定.在网络系统完成对数据规则的处理后,再将数据组内容输入到网络系统中,使系统依照数据规则处理的方式挖掘数据内容,最终完成挖掘处理.与其他神经网络驱动方式不同,专业式数据驱动更注重驱动效率,一旦网络驱动失败,便会对该神经网络部件构成伤害.因此,为保障驱动效率,应在数据挖掘过程中对数据规则处理进行多次验证,以保障数据挖掘后数据信息的完整性,进而提升网络数据驱动效率.为保证数据挖掘质量,提升神经网络的驱动效率,在实际过程中,通常采用图3的组合方式进行数据挖掘.
对神经网络结构进行协调处理,能够在不同网络结构之间建立联系,通过网络结构间的优势和缺陷互补,进一步完善数据挖掘过程,使数据中的信息和知识得以全面展现.多网络系统结合的发展方式也为神经网络的构建和发展提供了良好的参照依据,如在神经网络的搭建过程中能够通过进一步开发数据挖掘工具而简化数据挖掘过程,进而提升数据挖掘的质量和效率.多神经网络驱动形式的结合使得挖掘方式更为多样,不同方式之间的优势互补也对数据挖掘发展起到推动作用.
图3 数据挖掘组合方式
本文主要从数据准备和规则设定两个角度分析了基于神经网络的数据挖掘过程,介绍了自组织神经网络和模糊神经网络两种数据挖掘处理的类别.目前还没有一种相对较好的处理方式能够对任何问题的处理都优于别人的方法.因此,我们要基于现有的处理方式,根据自己的需要将多种方法组合在一起来满足数据处理的需要.虽然现阶段数据挖掘技术还处于正在发展的阶段,但这些问题都能被逐一解决.
[1]陈霞,陈桂芬.基于可视化的时空数据挖掘研究与应用[J].安徽农业科学,2012,40(17):9542 -9545.
[2]王健.基于隐私保护的数据挖掘若干关键技术研究[D].上海:东华大学,2011:20 -22.
[3]Lv X,Li Y J,Lu X.A web data mining algorithm based on weighted association rules[J].Key Engineering Materials,2011,1104(467):1368 -2777.
[4]何贤芒.隐私保护中k -匿名算法和匿名技术研究[D].上海:复旦大学,2011:32 -35.
[5]张朝晖,陆玉昌,张钹.利用神经网络发现分类规则[J].计算机学报,1999,22(1):81 -82.
[6]邵栋,周志华,陈兆乾.模糊神经网络研究[J].计算机应用研究,1999,16(7):76-78.
[7]陈手余.人工神经网络模拟实现与应用[M].北京:中国地质大学出版社,2009:97 -98.
[8]陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002:65 -69.
[9]Liu B.Distributed data mining for e-business[J].Information Technology and Management,2011,12(2):67 -146.