使用贝叶斯方法的数据挖掘及应用研究

2018-04-02 12:35:28
福建质量管理 2018年16期
关键词:后验先验贝叶斯

(河北经贸大学 河北 石家庄 050000)

本文主要是对数据挖掘以及对使用贝叶斯方法进行数据挖掘的研究。

一、数据挖掘

数据挖掘是一门交叉学科,它涉及到统计学、数据库技术、模式识别和机器学习,它主要对大型数据库进行相关分析,以发现先前未知的、用户感兴趣的有用知识。数据挖掘的目标是从数据集中发现隐含的、有意义的知识,它所处理的数据可以是结构化的,如关系数据库中的数据,也可以是非结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。这里所说的数据挖掘,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。

数据挖掘技术的一个重要应用就是挖掘先前未知的知识,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别之一是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的知识应具有先前未知,有效和实用三个特征。

数据挖掘一般分五个步骤,各个步骤解释如下:

1.问题定义:了解相关领域的有关情况,熟悉背景知识,弄清用户要求。定义要挖掘的目标。

2.数据提取:根据要求从数据库中提取相关的数据。

3.数据预处理:主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补。

4.知识获取:运用选定的数据挖掘算法,从数据中提取用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。

5.评估:将发现的知识以用户能理解的方式呈现,例如某种规则,再根据实际执行情况对知识发现过程中的具体处理阶段进行优化,直到满足用户要求。

二、贝叶斯方法

贝叶斯方法就是可以通过看结果来了解假设的一种方法,也就是说,在对一些必要信息之甚少,或者毫不知情的情况下,贝叶斯方法可以通过先验信息来推得后验结果。贝叶斯方法的一个特点是使用概率去表示所有形式的不确定性,学习或其他形式的推理都用概率规则来实现。贝叶斯理论在数据挖掘中的应用主要包括贝叶斯方法用于分类及回归分析、因果推理和不确定知识表达以及聚类模式发现等。贝叶斯统计是贝叶斯理论和方法的应用之一,其基本思想是:假定对所研究的对象在抽样前己有一定的认识,常用先验分布来描述这种认识,然后基于抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断均是基于后验分布进行。经典统计学的出发点是根据样本,在一定的统计模型下做出统计推断。而贝叶斯方法是在取得样本观测值X之前,往往对参数统计模型中的参数夕有某些先验知识,关于夕的先验知识的数学描述就是先验分布。贝叶斯方法的主要特点是使用先验分布,而在得到样本观测值X二x(xZ,…,x)r后,由X与先验分布提供的信息,经过计算和处理,形成较完整的后验信息。这一后验分布是贝叶斯推断的基础。

三、使用贝叶斯方法的数据挖掘算法设计及实现

1.贝叶斯方法用于聚类。首先根据先验信息假定数据集中可能要聚为一类的数据服从某种分布,再用某种距离测度检验先验信息给出的这种分布是否符合聚为一类的要求。如果达不到聚类的要求,则根据计算概率找出不符合要求的原因,重新确定其分布,或修正此分布的参数,以获得更准确的分布。分类规则是根据数据集的样本数据及其它约束条件将其分到某个类别中,在数据挖掘中,主要研究如何从数据或经验中学习这些分类规则。对于分类问题,有些情况下,输入的某些样本唯一的对应着一个类别,在这种情况下,可以直接对数据对象分而治之,无需用贝叶斯方法或者其它方法进行复杂的处理;而在有些情况下,则会出现样本重叠的现象,也就是说,来自于不同类别的样本数据从外观特征上具有极大的相似性,由于必须为一个样本选择一个类别,因此可以从某一样本属于某一类别的概率大小来判断。贝叶斯方法就是这样一种处理方法处理此种情况,即选择后验概率最大的类别。

2.贝叶斯方法用于发现关联规则。挖掘关联规则的目的就是找出所有这样的规则,它们的支持度和可信度大于用户指定的最小支持度和可信度。

3.贝叶斯方法用于偏差分析。偏差分析探测数据现状和历史记录或标准之间的差别,例如结果与期望的偏离,异常实例等。用于偏差检测的方法很多,其中数据挖掘本身的其它方法也可用于偏差分析,如前所述的关联规则挖掘方法、聚类方法等。偏差分析的目的之一就是去除异常点,从而不能使这些异常点干扰挖掘过程。

四、贝叶斯方法与其他方法的比较

在运用贝叶斯方法时,由于要对先验概率进行计算而得出后验概率,不可避免的多花费时间开销,特别是对数据量不大的数据集进行分析时,这种差距比较明显。即使这样,其准确率却是显而易见的。使用贝叶斯方法后,准确率增加是山于贝叶斯方法是一个修正的过程,通过后验结果来修正前面所得的结果,当然这有一个前提,就是先验信自、的正确性。如果先验信息不充分或者不正确,那所得的结果会与实际结果大相径庭。

总结:本项研究中,仍存在的一些问题,有待今后进一步探讨和解决,并阐明了数据挖掘的研究方向和应用前景。

猜你喜欢
后验先验贝叶斯
基于对偶理论的椭圆变分不等式的后验误差分析(英)
基于无噪图像块先验的MRI低秩分解去噪算法研究
贝叶斯统计中单参数后验分布的精确计算方法
基于自适应块组割先验的噪声图像超分辨率重建
自动化学报(2017年5期)2017-05-14 06:20:44
贝叶斯公式及其应用
一种基于最大后验框架的聚类分析多基线干涉SAR高度重建算法
雷达学报(2017年6期)2017-03-26 07:53:04
基于贝叶斯估计的轨道占用识别方法
一种基于贝叶斯压缩感知的说话人识别方法
电子器件(2015年5期)2015-12-29 08:43:15
基于平滑先验法的被动声信号趋势项消除
先验的废话与功能的进路
东南法学(2015年2期)2015-06-05 12:21:36