基于数据库技术应用分类算法的比较分析

2013-10-17 06:09李国庆
网络安全技术与应用 2013年10期
关键词:决策树贝叶斯数据挖掘

李国庆

(江苏联合职业技术学院徐州财经分院 江苏 221008)

0 引言

数据库技术是计算机数据处理与信息管理系统的核心,研究和解决了计算机信息处理过程中大量数据有效地组织和存储的问题,其主要作用是通过技术实现在数据库系统中减少数据存储冗余、实现数据共享、保障数据安全以及高效地检索数据和处理数据,数据库技术的根本目标是要解决数据的共享问题。

在数据库系统中对数据库中的数据进行有效计算是数据库研究中的重点内容,对数据进行分类实际上是发现数据之间存在的联系,对具有共性的数据进行分类的一个过程。目前,在数据挖掘中已经成功应用多种数据处理方法,对数据库的发展起到了有效推动作用。

1 数据库系统中的贝叶斯(Bayes)分类方法应用

贝叶斯(Bayes)分类法是归于统计学的一种分类方法,主要利用概率知识对数据进行计算。大多数情况下,这种分类方法在效果上是能够与神经网络法与决策树分类法相比较的。贝叶斯分类法主要应用于较大型数据库当中,在计算效果上快速准确,尤其是在分类方面,能够对数据进行合理分类。但是,在使用贝叶斯(Bayes)分类法算法的过程中,要对某一属性值进行假设,假设它对相应类别的影作用是不受其它属性值影响的,而这种假设在实际情况中并不成立,因此对计算的准确程度上会产生一定影响。

1.1 贝叶斯(Bayes)分类方法原理

贝叶斯算法是一种实用性较强的技术,相对于决策树算法而言,这种算法不仅运用起来较为简单,且操作方便,不需要进行大量的数据搜索。但是,这种算法是基于假设进行的,而这类假设通常难以满足实际情况。基于这种情况,研究者研制出了一种形状类似网络图形的结构,并将其称为贝叶斯网络。贝叶斯网络的理论基础比较稳固,在建设上采用简单易懂的图解法来表示概率分布变更的情况。在这张图中,每个属性都存在于对应的节点,节点之间的连接具有方向性,但不能形成环状,其工作原理如下:

(1)在统计学中,要求每次试验的对象都相互独立,即对实验对象进行父辈节点属性设置,保障其父辈以及更高辈分的属性是相互独立的。

(2)在概率论中,存在一条链规则,这种规则设定了属性的数量,并通过公式将联合概率分解为乘积形式。由于这种网络是一种无法进行环状连接的排序,因此节点顺序也应按照大小进行排列。

1.2 贝叶斯算法的应用

由于贝叶斯算法的特点,其研究重点应该放在建立的过程。面对数据库中的大量数据,研究者必须优化计算方法,将数据进行合理的属性设定,保障其精度的准确。为此,研究者提出了一种较为折中的方式,被称为“树扩张”形式。这种方式的基本思想是将传统贝叶斯方式的属性假设做出合理设定,及在条件上稍微放松,将其结构进行合理扩展,让这种结构能够将属性之间原本存在的关系有效容纳。这种方式具体而言是在分类器上加上相应连线,并考虑将每个节点设置对应的父辈节点。通过实验不难发现,这种算法的性能是比较优异的。

2 数据库技术的决策树算法(Decision Tree)应用

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。

决策树在结构上呈现出树状,由一个根节点展开,对不同属性的数据进行测试,并对测试结果进行分类,每个分类都相当于这棵树的“分枝”,接着,将内个分类中的样本划分为不同的子集,子集的集合相当于树的节点。在生成的决策树中,每个叶节点都应该有一个相应的分类与之对应,保障从属关系能够被有效挖掘。举一个简单的例子,对某个周日下午是否适合打羽毛球进行分析,包含对户外三种情况的分析,每种情况又要进行具体湿度或是风力影响的分析,具体构建出的决策树如图。

使用决策树方法进行数据处理过程中,需要与数据仓库进行有效结合,以此来保障数据挖掘的有效性。数据仓库的存在能够对数据进行分层次的挖掘,帮助决策树能够更加准确,且在交互式方面运用合理。在概念层次树当中,与数据立方的有效结合能够在抽象概念上对数据进行有效分类,即在决策树建立完成之后还能够使用树中的概念层次将每个节点进行泛化。

决策树的应用在数据挖掘领域中存在的时间较长,但仍旧存在着一些亟待解决的问题。例如,决策树由于是对抽象概念的分析,因此在精度方面并不完善,提高决策树的精度是目前研究的重点。在规模上,决策树的规模越小,其知识要点就越简洁,人们对决策树的理解就越快捷,但是,结构简单并不意味着精度越高,对决策树的研究需要结合贝叶斯方法等将其进一步完善,保障精度的有效性。

3 数据库系统中基于关联规则的数据分类处理方法

关联分类法在分类器的建造上主要分为两个步骤,一是将右边属性为类别属性的类别进行有效发现,并将其标记;二是在已经发现的类别中计算置信度,置信度最高的规则可以作为主要规则,也就是第一规则,用于将训练集进行覆盖。在这种情况下,当类别左边相同时,若是右边被分为了不同的类,应该选用置信度高的来作为整个数据对象的可能规则。关联规则分类主要运用于大量事务数据的记录中,尤其是对数据库中隐藏在事务里面的关联规则具有显著成效。但是,基于关联规则的分类也具有一定缺陷,例如在设计过程中,为了确保没有规格被漏掉,设计者通常将最小支持度的值设置为零的状态,这样一来,关联规则法就无法发挥其对对象进行优化的作用。这样一来,系统会产生大量频繁的项目集,久之在内存上无法容纳,使得程序运行缓慢。

传统的关联规则挖掘算法是依照数据库中发生的具体项目进行非常细节的挖掘,然而有时用户可能想发现更高层次的规律,为此,提出了多层次关联规则的挖掘问题,解决了传统算法很难发现的数据处理规则,所以在归纳抽象层次上或多层次上挖掘关联规则具有重要的意义。目前关联规则发现已经从单一概念层次发展到多概念层次,在概念层次上一层层向下,从具体到一般,其发现的关联规则所提供的信息也更具体,逐步发展到深化的知识发现。以下是几种数据库技术应用中常见的数据分类方法。

3.1 ARCS分类法

ARCS实际上是以聚类挖掘为基础的一种分类方法,包含关联规则聚类以及量化挖掘。其准确性很大程度取决于离散化的程度,并且可扩展,在相比之下,C4.5在时间方面是具有指数运行的,空间方面,要求将所有存放于数据库中的数据全部放入内存当中。

3.2 关联分类法

关联分类方法中,其规则具有较高的支持度以及置信度,其具体表达形式如下:

Cond_set=>Y。式中,Y表示一个类别,cond set指的是对属性值对的集合。这种计算方式具有以下几个特征,一是最小支持度较为频繁,二是最小置信度较为精确。在计算过程中,若是在一个规则项集中存在相同属性值对的集合,则应选取置信度高的作为规则,并且作为该集合的代表。其规则主要表现为以下几个方面:

(1)系统需要将所有可能会出现的规则找到,并将其中频繁出现以及精度上有所保障的规则归为同一集合。在算法方面,系统会采用迭代方式,将规则进行裁剪再进行搜索。

(2)在分类的构建方面,可以使用启发式方法,将规则根据其置信度等方面进行先后排序,一般而言,会将支持度或是置信度较高的规则排放在前面。

4 基于数据库技术本身的分类方法

在数据挖掘的各项方法中,多数算法并没有有效利用数据库本身技术来进行,即数据库的参与性并不高。但是,研究者们研究的算法对象是数据库中的数据,若是不能够有效结合数据库,会造成资源的无端浪费,因此,这个问题已经成为了研究者们研究的重点之一。

5 结束语

除了上述分析的四种方法之外,还有一些其它的分类算法,像基于案例的推理方法、后向传播法、模糊数据集方法以及遗传算法等,都在数据库算法中发挥着一定功效。对数据进行分类时数据库发展中的重要课题,研究者应加大研究力度,在计算机技术不断发展的背景下充实自身能力培养,加强对算法的优化策略,并根据各类不同算法的优缺点在计算中选取适合算法,让数据库技术得以提高。

[1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京工业大学,2008.

[2]王清毅,张波,蔡庆生.目前数据挖掘算法的评价[J].小型微型计算机系统,2009(01).

[3]黄雯.数据挖掘算法及其应用研究[D].南京邮电大学,2013.

[4]胡斌.基于网格技术的分布式空间数据挖掘算法研究[D].中南大学,2008.

[5]刘长付.数据挖掘技术中的关联规则挖掘算法研究[D].江西理工大学,2009.

[6]赵艳芹.关联规则数据挖掘算法的研究[D].哈尔滨工程大学,2009.

猜你喜欢
决策树贝叶斯数据挖掘
基于贝叶斯解释回应被告人讲述的故事
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用