朴素贝叶斯方法在健康大数据中的应用

2020-04-10 02:19朱鸣宸
中国科技纵横 2020年21期
关键词:白球朴素贝叶斯

朱鸣宸

(上海市中国中学,上海 200235)

0.引言

大数据时代,人们在日常生活中会产生各种各样的数据。大妈们菜场中买菜的价钱、年轻人炒股花的钱、甚至我们在学校里学习的分数,这些都可以称之为数据。数据在我们的生活中随处可见,也成为支撑我们生活中的各类应用产品服务治疗提升的必要资源,如我们每天使用的手机,淘宝、京东等购物软件,美团、饿了吗等点餐外卖软件,大数据的搜集和训练调高了手机应用的可靠性,也为我们个人提供了更加个性化的产品服务。近年来,互联网等高科技产品迅速发展,“大数据”一次次引起人们的关注。作为与人类生活息息相关的健康问题,“健康大数据”这一概念出现在人们的日常生活中。朴素贝叶斯算法作为一种机器学习的分类算法,及时在大数据量和复杂问题的分类依然有良好的表现[1]。因此,本文探究了朴素贝叶斯算法应用在健康大数据方向上的表现。

1.健康大数据概述

1.1 概念

健康大数据是随着近几年数字浪潮和信息现代化而出现的新名词,与健康相关的数据都可以称为健康大数据。这些数据包括高血压人口的血压数据、超重或肥胖症的体重数据、糖尿病患者的血糖数据等。健康大数据的来源广泛且数量庞大,这些数量庞大的信息在没有进行专业化的分类处理分析前并没有实际意义,只有合理利用算法对数据加以处理和分析,才能对人类健康状况及时的监测和可控制,这对于未来医疗水平的提升以及疾病预防和人类健康发展趋势的预测都有正面作用[2]。

1.2 来源

健康大数据来源于人们的日常生活,如:每天出门带的手环上记录的步数,测量的心率、血压、卡路里;疫情期间测量的体温;去医院做检查报告单上的各项数据等,也有很大一部分来源于网络,如:百度、阿里。这些App通过智能设备手环、手表、血压计等,将数据传输到云平台上保存起来,这样医生便可以很方便快速地了解用户的状况,对日常生活做出有帮助的指导。这样可以说是充分利用了大数据的优势,将日常的健康数据及时传到平台里,形成自己的健康大数据库,人们就可以对自己的健康情况有着更好的了解与掌握。

2.朴素贝叶斯方法

2.1 概念

托马斯· 贝叶斯是18 世纪英国数学家、数理统计学家和哲学家,概率论理论创始人,贝叶斯统计的创立者。贝叶斯在解决“逆概率”的问题时发表的论文改变了人们对某一概率问题的认知[3],“从装有若干白球和黑球的袋中取出白球的概率”,在今天,学过概率知识的应该知道该概率的大小与黑球与白球在袋中的分布相关,也就是说与袋中球总数与和白球个数相关,这都要归功于贝叶斯。因为在这之前,人们认为答案不是1 就是0,即取得白球和未取得白球。贝叶斯对于概率的研究形成了贝叶斯派的统计理论,对某一事件的发生概率,加入前提条件,从而获取事件发生的后验概率,即人们根据以往的历史经验对事件A 发生的概率做出估计即为先验概率,而后根据实际得到的样本信息B,对先验概率进行修正,从而得到事件A 发生的后验概率,由此而发展的统计理论在很多的科学与实践都发挥了重大作用。后来人工智能进入发展热潮,以提供表现出人类智能的机器为目标,这一概念对人类未来的生活影响重大,而机器学习就是实现人工智能目标的中重要理论基础。而在机器学习的众多算法中,朴素贝叶斯方法在分类方面表现卓越,因其算法的简单与良好的效果在多个领域有着广泛的应用。

2.2 原理

朴素贝叶斯方法是以贝叶斯原理为基础,在其基础上进行了相应的简化,并假定了给定的目标属性相互独立。将数据的一系列特征X 作为输入,输出其最大后延概率Y。训练集中的数据是一组(X,Y)的数据,即给定标签的数据。通过训练样本数据确定Y 的先验概率P(Y),再通过训练样本数据确定P(X|Y),P(X),则我们可以通过贝叶斯公式求出当给定一个新的X,P(Y|X)=P(X|Y)×P(Y)/P(X)[4]。

3.朴素贝叶斯方法在健康大数据中的应用

目前,朴素贝叶斯方法在健康大数据中应用并不广泛,主要原因可能是在大部分情况下,人们并不需要在健康大数据中应用朴素贝叶斯方法;或是人们对朴素贝叶斯方法的陌生及不熟悉。但是对于不少老年人和慢性病患者来说,需要经常测量血压、心率等数据,这种方法可能会给他们的生活带来便利。

数据案例如下(见表1),以下面的数据举个例子:通过下表中的数据,假设一个人患有高血压、糖尿病、关节炎,但不患有心脏病,那么这个人是男的可能性大还是女的可能性大呢?

表1 患高血压、心脏病、 糖尿病、关节炎患者的性别分布

我们可以用朴素贝叶斯方法来解决这个问题:

如果将男女作为类型,男C1,女C2;

属性条件:高血压A1,心脏病A2,糖尿病A3,关节炎A4;

我们使用下列条件概率表示A1、A2、A3、A4 属性下Cx 的概率:

P(Cx|A1A2A3A4)。

根据贝叶斯公式,我们可以知道:

P(Cx|A1A2A3A4)=P(A1A2A3A4|Cx)P(Cx)/P(A1A2A3A4)

因为有两个类别,所以只要求得P(C1|A1A2A3A4)和P(C2|A1A2A3A4)的概率,然后比较哪个概率大即可。

则假设A1A2A3A4 之间是相互之间没有联系的,那么:

P(A1A2A3A4|Cx)=P(A1|Cx)P(A2|Cx)P(A3|Cx)P(A4|Cx);

P(A1|C1)=1/3,P(A2|C1)=2/3,P(A3|C1)=2/3,P(A4|C1)=2/3;

P(A1|C2)=2/3,P(A2|C2)=1/3,P(A3|C2)=1/3,P(A4|C2)=1/3。

所 以P(A1A2A3A4|C1)P(C1)>P(A1A2A3A4|C2)P(C2),应该是C1 类别,即男性。当然,虽然这种情况下算出是男性的概率大,但是并不能说一个人同时患有高血压、糖尿病、关节炎,且不患有心脏病,这个人就一定是男性。第一,表中的数据并不多,在生活中是否一定是这样的数据也不得而知;第二,这只是概率公式,当然也有可能不是男性,只是男性的可能性较女性来说大。如果我们能在生活中多应用这种方法,或许可以减少日后患病的概率,防患于未然。

4.朴素贝叶斯方法应用于健康大数据的优劣

4.1 优点

朴素贝叶斯方法因为其假设了所考虑要素之间相互独立,从计算上避免了元素耦合带来计算复杂度,且算法在不同类型的数据集的应用表现稳定。由于算法本身的简单,因此即使类型数量多、数据量大,朴素贝叶斯方法的复杂度并不会明显上升,仍是一种简便的方法[5]。在上述的例子中,我们通过短短几步便能计算出概率,有很高的效率,且当数据之间关联不大时,使用朴素贝叶斯方法能有很好的效果。而健康大数据中的很多数据实际上并无直接联系,朴素贝叶斯方法可以适用于大部分情况。

4.2 缺点

数据之间的独立性是朴素贝叶斯的一大缺点,这大大减少了它的使用范围。朴素贝叶斯方法虽然理论上有着很小的误差率[6],但事实并非总是这样。在上述的例子中,我们假设这些疾病之间没有任何联系,是相对独立的。不过在现实生活中,很多人的疾病是由于从前疾病的后遗症引起的,这种情况下便很难使用朴素贝叶斯方法,因而对一些要素之间有紧密联系的领域,便无法使用朴素贝叶斯方法得到良好分类。对于一些患者来说,他们的健康数据之间存在着一定的关联,如发烧会引起一系列指标的异常,而朴素贝叶斯假设了数据独立,可能因为数据间本身的联系而导致预测结果的准确度下降。

5.发展与展望

由于生活中健康大数据的获取比较困难以及对朴素贝叶斯方法的陌生,导致朴素贝叶斯方法在健康大数据中的运用并不广泛。文中通过具体例子说明了朴素贝叶斯在健康大数据中应用的简单、快速、便利,这种方法如果能应用在健康大数据中,将提高工作效率,对患者有不少帮助。不过,朴素贝叶斯方法的使用有一定的局限性,在应用时需要注意数据之间有无联系。例如身高体重、运动步数这些经常出现在日常生活中,彼此无明显联系的数据,适用于朴素贝叶斯的使用范围。朴素贝叶斯方法如果能多应用于我们的日常生活,或许能给人们带来意想不到的效果。

猜你喜欢
白球朴素贝叶斯
球的颜色
隔离朴素
朴素的安慰(组诗)
他是那样“笨拙”和朴素——30多年后,我们为什么还需要读路遥?
最神奇最朴素的两本书
贝叶斯公式及其应用
基于贝叶斯估计的轨道占用识别方法
走迷宫
一种基于贝叶斯压缩感知的说话人识别方法
把握教学要求 凸显知识本质