浅谈数据挖掘算法研究与实现

2013-03-05 09:53曾磊

电脑知识与技术 2012年36期

曾磊

摘要：该文基于交互式、多层次挖掘、复杂数据类型——时间序列相似挖掘，集成化挖掘，从数据挖掘平台的构建以及行业应用的角度，对数据挖掘中的相关算法进行研究，并且在此基础上，探讨了数据挖掘算法在实际应用中应该如何实现。

关键词：数据挖掘算法；数据仓库；时间序列；实现方式

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2012）36-8589-02

随着计算机信息技术的飞速发展，大容量的存储技术以及条形码等数据获取设备在生活中得到的广泛的应用，我们在生活中也在与不同类型的数据打交道，这些数据背后隐藏着巨大的价值信息，如何深入挖掘数据有效利用数据是当前我们关注的主要问题。数据仓库是面向主题的，集成化的，并且随着时间不短变化的数据集合，通过对不同的数据源进行转化和继承能够对历史数据和现有数据实现数据的综合管理，从而为进一步分析挖掘数据提供基础。笔者在下文中主要首先分析了当前数据挖掘的现状，探讨数据挖掘的基本技术和算法，最终研究基于数据仓库的联机分析挖掘平台的实现。

1数据挖掘的现状

随着数据库技术以及数据处理的人工智能haunted发展，数据挖掘技术应运而生，数据挖掘技术旨在从大量的隐藏数据中挖掘出切实可用的信息，从而更好地服务与我们日常生产和生活的各个领域。数据挖掘技术具有构筑企业竞争优势的特点，从而为其带来经济效益，因此当前许多知名企业和大型公司也纷纷加大了对数据挖掘的研究和应用。数据挖掘从不同的划分标准可以分为不同的类型，例如根据数据模型来划分；可以将数据挖掘划分为如下几类：关系的、事务的、面向对象的、对象-关系的等，从特定类型来划分，可以分为空间的、时间序列的。文本的、多媒体的等。复杂的数据挖掘系统一般会采用多种数据挖掘技术相结合，以集成化的数据挖掘系统支持毒品抽象层的知识发现。从应用的角度来划分，数据挖掘系统可以分类特定领域的数据挖掘工具和通用的数据挖掘工具，其中特定领域的数据挖掘工具主要是指针对某一特定领域的数据挖掘，在设计中针对数据的特殊性做了系统的进一步优化。相比较国外，我国对数据挖掘的研究起步还较晚，但经过长期大量的研究，已经开发出了一系列数据挖掘的工具，虽然还不完美，但总的来说取得了满意的效果。

2数据挖掘算法的内容

数据挖掘算法是对数据挖掘方法的具体实现，主要包括了以下三个部分主要内容，分别是模型表示、模型评价标准、发现方法。

1）模型表示：要提高模型的表达力，模型语言的恰当运用发挥着重要作用。语言的描述强度对模型的精准性产生着重大的影响，当语言表达能力过强的时候，可能会使得模型过分一般化，其精度也会相对下降，因此合理恰当把握模型表示的语言强度对于保证模型精准性具有重要意义。

2）模型评价标准：模型评价标准主要是指对一个模型的最终发现结果和具体的要求之间做出量化评价。针对预测类的模型，为了提高预测的精准度，可以利用测试数据集来进行评价。具体的评价内容可以从模型的精确度、新颖度以及实用价值来进行综合评价。

3）发现方法：数据挖掘的发现方法可以分类两类：参量发现、模型发现，发现方法是在完成模型表示和模型评价后，进行模型的最终优化数据挖掘。发现过程是一个尝试和探索相结合的过程，需要不断尝试和改变参量来寻找最适合模型评价标准的参量，最终确定出最优的模型。

总的来说，对于数据挖掘算法不存在一个普遍使用的算法，算法的适用性和有效性主要是表现在某一个领域，在实际的算法运用中，需要选择最恰当适用的数据挖掘算法，也就是说不能将已有的算法普遍运用于所有的领域中，是需要从新的领域的具体需求出发制定最优的数据挖掘算法。

3数据挖掘算法与实现

根据数据挖掘的不同角度可以将数据挖掘技术划分为不同的种类，例如从发现的知识种类来划分数据挖掘技术，或者从挖掘方法分类，再者是根据挖掘的途径来分类。笔者在此主要从技术的角度来进行分类，对数据挖掘技术中的几个重要的方法做了如下详细阐述：

1）决策树方法：决策树方法是数据挖掘算法中的一个重要方法，决策树下的每一个分支是一个决策过程，每一个过程中涉及唯一一个数据的属性，然后通过不断满足决策条件得到最终的决策结果。决策树的构造中蕴含着分类规则，其核心内容在于构造精度高、规模小的决策树，具体来说决策树的构造可以分两个主要步骤进行。首先是决策树的生成，其生成过程是由训练样本集生成决策树的过程，数据集一般来说应该是具有现实意义，有一定的综合程度并且用于数据分析处理的。其次是要进行数据集的剪枝，是指对上一步骤中构造的决策树进行检验、校正和修正。具体来说也就是要运用新的样本数据集来作为测试数据集中的数据检验决策树生成中产生的初步规则，将分支中阻碍预测准确性的部分剪除。

2）遗传算法：基于遗传算法的数据挖掘技术是一个模拟生物进化遗传的过程，是在生物进化的思想启发下得出的算法，遗传算法相比较其他优化算法，主要有以下提出特点：一是遗传算法将变量的编码作为运算的对象，传统的优化算法一般来说是直接利用决策变量的实际值来进行优化的计算，而遗传算法引入例如遗传操作的算子，采用决策变量的某种形式编码；二是通过概率搜索技术，以概率的方式进行搜索，从而增加了整个搜索过程的适用性和灵活性。遗传算法在当前的数据挖掘中得到了较为广泛的应用，在作业调度、自动控制方面发挥着重要的作用。遗传算法主要由三个基本的算子组成，分别是繁殖、交叉和变异。繁殖是指从一个旧的父代中选出生命力强的个体从而繁衍出后代；交叉是一个重组的过程，模拟生物遗传中的基因交换部分，通过模拟染色体的交叉组合过程，不断的尝试最优组合，最终形成一个新的组合结果。遗传算法是一个不断优化的过程，在优化计算中具有明显的优势。

3）神经网络方法：神经网络方法是模拟生物的有一个方法，是对人脑神经元结构的模拟。神经网络是由大量的并行分布式的处理单元组成的简单处理单元，基于神经网络方法的数据挖掘主要由两个阶段组成，分别是网络构造、训练、剪枝以及规则提取和评估。网络构造、训练和剪枝是选择拟采用的网络模型，选择或者设计一种网络训练的算法。通过寻乱后的网络略显臃肿，因此就需要在保持准确性的基础下，剪掉网络中的多余的节点，最终产生精炼的简易的网络。规则的提取和评估阶段主要是经过上一步骤以后已经相对简单的网络提取分类规则，最终转化为更加易于理解的形式表达出来，例如决策树、模糊逻辑等方法。最后再通过测试样本对规则进行评估。在实际应用中是和神经网络的数据挖掘问题主要有分类问题、时序预测、聚类等。相比较其他的数据挖掘算法神经网络具有如下优势：一是挖掘的层次更深，能够处理的变量更多，具有分布记忆性和快速计算的优势。但同时神经网络算法也具有一些不足之处，例如在非数值型数据的处理和数据质量方面相对较弱。

4）基于粗糙集的数据挖掘算法：粗糙集理论是针对不完整和不确定信息的数学工具，它能够分析数据中的不精确和不一致信息。在现实应用中，我们常会遇到许多粗糙数据的整理，如何在最短时间内找到有用信息，进行数据处理是当前面临的主要问题，而粗糙集的数据挖掘方法在处理这一问题方面发挥着重要的作用。基于粗糙集的数据挖掘处理过程一般来说包括了以下几个步骤：初始数据集、预处理、不可分辨矩阵、约减集、规则。预处理阶段是指把数据库中的初始数据信息转化为粗糙集形式，明确其条件属性和决策属性；接下来再进行属性约减，生成不可分辨据称，从而形成约减性属性集；最后在约减信息中去发现规则。在粗糙集的数据处理中，对象是行元素，属性是列元素，条件属性上的等价类和决策属性上的等价类存在以下三种情况：一种是下近似即决策属性上的等价类包含条件属性上的等价类；一种是上近似决策属性的等价类和条件属性的等价类之间有交集；还有一种是无关即决策属性的等价类和条件属性的等价类不想交。在具体的规则上，采用针对下近似建立确定性的谷子额而对上近似建立不确定的规则。

5）模糊集方法：针对实际运用中的模糊判断通常采用模糊集的方法，尤其是在系统复杂的数据库中期精确化的能力就越低，模糊性的就越强。基于模糊集的模糊关联规则的数据挖掘算法具体如下所示：首先输入数据库T={t1，…，tn}，输出：模糊观念规则1.采用FCM算法将数量型属性离散化，把取值划分成不同的模糊等级；2.将数据库T引入，加入数据，形成新的数据库，根据上一步骤中划分的模糊等级，赋予数据库新的模糊属性；3.计算并且得出所有的1-模糊频繁属性集，再对这些属性集进行组合，其中不包含同一个IK标记的1-模糊频繁属性集，最终将包含相同IK标记的1-模糊频繁属性集作为2-模糊候选属性集，以此类推，再将第一个模糊属性相同的2-模糊频繁属性集进行组合，一直组合下去，直到发现所有模糊频繁属性集，最终从所用的模糊频繁属性集中生成不小于用户级给定的最小信任的模糊关联规则。

综上所述，数据挖掘算法是多种多样的，要根据确定的领域寻找最优的算法，从而提高数据挖掘的准确性，更好地服务于现代生产和生活。

参考文献：

[1]李海滨.基于Web的数据挖掘[J].桂林工学院学报，2003，23（2）：222-225.

[2]陈莉，李焦成.Internet/Web数据挖掘研究现状及其最新进展[J].西安电子科技大学学报，2001，28（1）：114-119.

[3]LawrenceS，LeeGilesC.AccessibilityofInformationontheWeb[J].Nature，1999，400（3）：107-109.

[4]秦红.基于Web的数据挖掘[J].电子科技大学学报，2002，31（7）：56-59.

[5]JiaweiHan，MichelineKamber.名数据挖掘概念与技术[M].范明，孟小峰，译.北京：机械工业出版社，2001：14-22，149-159，290-295，301-304.

[6]Kantardzic.数据挖掘概念、模型、方法和算法[M].闪四清，陈茵，译.北京：清华大学出版社，2003：156-161.