摘要:肥胖问题一直是人类难以摆脱的健康问题。为了更深入了解肥胖问题,本文从KDD Dataset下载有关公民身体各项指标的有关调查数据,选择的主要指标有性别(Gender)、种族(Race_Ethnicity)、婚姻状况(Marital_Status)、身体质量指数(BMI)、腰围(Waist)共5项指标来反映公民健康情况。本文使用数据挖掘分类规则中的朴素贝叶斯分类进行分析,对样本所属分类进行预测。
关键词:数据挖掘;朴素贝叶斯;分类
中图分类号:G254.11文献标识码:A文章编号:1008-4428(2019)03-0126-02
一、 引言
数据挖掘(Data Mining),是数据库中知识发现(KDD, Knowledge Discovery in Databases)的步骤之一,是从大型数据库或数据仓库中提取人们感兴趣的知识的过程,这些知识是隐含的、实现未知的、潜在有用的信息。数据挖掘作为一门交叉学科,涉及机器学习、模式识别、归纳推理、统计学、智能数据库、数据可视化高性能计算等多个领域。
数据挖掘的主要任务是从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式,挖掘数据背后蕴含的许多重要的信息以便充分利用这些数据。数据挖掘的两个高层次目标是预测和描述。前者是根据一些变量或数据库的若干已知字段预测其他感兴趣的变量或字段的未知的未来的值;后者是找到描述数据的可理解模式。根据发现知识的不同,可以将数据挖掘人为归纳为特征规则、序列模式、分类、关联规则、聚类、预测、变化和偏差分析。
在数据挖掘的各种方法中,分类是一种主要的分析手段,旨在生成一个分类函数或分类模型,由该模型把数据库中的数据映射到某一给定类别中,从而实现对数据的分类。目前研究的分类模型主要有决策树、贝叶斯分类、神经网络、粗糙集、统计方法、遗传算法等。
近年来,随着人民生活水平的普遍提高,人民的身体健康问题越来越被得到重视。在国家发布“健康中国”的号令后,健身、慢走等运动成了百姓们更热衷的休闲方式。为了探究什么因素对人类肥胖有影响,本文从KDD Dataset下载有关公民身体各项指标的有关调查数据,使用分类方法中的朴素贝叶斯分类进行分析,对样本所属分类进行预测,这能对人们有效地关注人类健康问题提供建议。
二、 贝叶斯理论背景
(一)条件概率和乘法定理
已知事件A发生的条件下,事件B发生的概率,叫作事件B在事件A发生下的条件概率,记为P(B|A),其中P(A)叫作先验概率,P(B|A)叫作后验概率,
计算条件概率的公式为:P(B|A)=P(B∩A)P(A)
条件概率公式通过变形得到乘法公式:P(B∩A)=P(B|A)×P(A)
(二)事件的独立性
设A,B为两个随机事件,如果有P(AB)=P(A)×P(B)成立,则称事件A和B相互独立,此时有P(A|B)=P(A),P(AB)=P(A)P(B)成立。
设A1,A2,…,An为n个随机事件,如果对其中任意m个(2≤m≤n)个事件Ak1,Ak2,…,Akm,都有P(Ak1,Ak2,…,Akm)=P(Ak1)P(Ak2)…,P(Akm)成立,则称事件Ak1,Ak2,…,Akm相互独立。
(三)贝叶斯公式
设B1,B2,…,Bn为互不相容事件,P(Bi)>0,i=1,2,…,n,P(A)>0,则在事件A发生的条件下,事件Bi发生的概率为,P(Bi|A)=P(BiA)P(A)=P(Bi)×P(A|Bi)∑ni=1P(Bi)×P(A|Bi)则该公式称为贝叶斯公式。
(四)极大后验假设和极大似然假设
首先介绍先验概率。先验概率(prior probability)表示的是还没有训练数据前,某一假设所拥有的初始概率,它反映了这一假设是正确假设的背景知识多少。令P(C)是假设C的先验概率,X为训练样本,P(X)为将要观察的训练样本X的先验概率。P(X|C)表示在假设C正确的条件下样本X出现的概率,根据贝叶斯公式可以得到后验概率的计算公式:P(C|X)=P(X|C)P(C)P(X),它反映了训练样本X出现后假设C成立的置信度。
设C为待选的假设集合,在给定训练样本X时,通过计算找到可能性最大的假设(或存在多个这样的假设时选擇其中之一)c∈C,具有最大可能性的假设被称为极大后验假设(maximum a posteriori),记cmap=argmaxc∈CP(c|X)=argmaxc∈CP(X|c)P(c)P(X)。由于P(C)与假设C无关,上式可变为:cmap=argmaxc∈CP(X|c)P(c)。确定极大后验假设的方法是用贝叶斯公式计算每个候选假设的后验概率。
如果没有给定类别概率的情形下,假设C中每个假设都有相等的先验概率(即对C中任意的ci,cj∈C(i≠j),有 P(ci)=P(cj)),进一步简化后,计算使P(X|c)达到最大的假设,这时P(X|c)被称为极大似然假设(maximum likelihood),记为cml=argmaxc∈CP(X|c)。
三、 朴素贝叶斯分类模型
朴素贝叶斯分类器(Naive Bayes Classifier, NBC)是贝叶斯分类模型中一种最简单、有效而且易于实现的分类器,多用于文本分类,比如垃圾邮件过滤。其基本思想是:对于待分类的样本,求解在此项出现的条件下各个类别出现的概率,将此待分类项归类为概率最大的类别。求解朴素贝叶斯分类的工作过程如下:
1. 设待分类样本为X={x1,x2,…,xn}。
2. 设类别集合为C={c1,c2,…,cm},预测X属于某一类的过程即为求解P(ci|X)最大值的过程。
3. 根据贝叶斯定理,要使得P(ci|X)最大化,需要P(X|ci)P(ci)最大化。其中ci类的先验概率P(ci)用频率Si/S去估计,Si是给定类别Ci中训练样本的个数,S是训练样本的总数。
4. 对待分类样本进行划分,如果有:P(ci|X)=max{P(c1|X),P(c2|X),…,P(cm|X)},则X∈Ci。
四、 朴素贝叶斯分类模型
(一)实验平台
本实验是在WEKA 3.6平台上完成的。WEKA(Waikato Environment for Knowledge Analysis)是一种具有全面功能的机器学习和数据挖掘应用程序平台。该软件集成了许多能完成数据挖掘任务的机器学习算法,其中包括对数据进行预处理、聚类、分类、关联规则挖掘等,它还能够提供丰富的可视化功能。
(二)数据来源及预处理
本文数据来源于KDD Dataset中的分类数据,通过删除一些不相关因素和缺失数据,再进行规约后,得到10149个公民的身体状况表。
(三)分析过程与结果
本次实验分为两次进行,第一次实验随机选择70%的数据作为训练集,剩余30%作为测试集。WEKA的分类结果展示如表1:
五、 总结
本文从KDD Dataset下载有关公民身体各项指标的有关调查数据,选择的主要指标有性别(Gender)、种族(Race_Ethnicity)、婚姻状况(Marital_Status)、身体质量指数(BMI)、腰围(Waist)共5项指标来反映公民健康情况。本文使用分类规则中的朴素贝叶斯分类进行分析,对样本所属分类进行预测。预测结果显示,基于朴素贝叶斯算法分类对结果的预测准确率很高,一个人是否肥胖,确实和性别、种族、婚姻状况、身体质量指数相关,但文中并没有指出他们之间的具体关系,这是本文的不足之处。
参考文献:
[1]王峻.朴素贝叶斯分类模型的研究与应用[D].合肥:合肥工业大学,2006.
[2]韩家炜,Kamber.M.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.
[3]蒋良孝.朴素贝叶斯分类器及其改进算法研究[D].武汉:中国地质大学,2009.
[4]段晶.朴素贝叶斯分类及其应用研究[D].大連:大连海事大学,2011.
作者简介:
张旭光,男,河南商丘人,新疆财经大学统计与信息学院硕士研究生,研究方向:大数据应用。