廖辰益
摘要:两百多年前英国数学家贝叶斯提出的贝叶斯定理,经过不断地发展,现在已经成为现代社会某些重要领域的基础。贝叶斯定理广泛运用于人工智能、机器学习、金融、医疗等领域,为这些领域提供了发展的基础。本文从贝叶斯定理的起源开始,紧接着对有关贝叶斯定理的基本概念进行阐述和对相关公式进行解释与推导,再对贝叶斯定理在医疗与过滤信息的应用进行简单分析,最后根据贝叶斯定理的优缺点对贝叶斯定理进行评价。
关键词:贝叶斯定理 全概率公式 联合概率 假阳性问题 过滤垃圾短信
一、贝叶斯定理的提出
贝叶斯定理最早是由英国的学者托马斯·贝叶斯(1702~1763)提出来的。他在生前主要研究概率论方面的知识,成功归纳出了概率统计的基本理论。他死后,他的朋友理查德·普莱斯将他的著作《几率性问题得到解决》发表了出去,但因为贝叶斯定理的应用不够完善,几个世纪以来都没有被广泛接受[1]。但是,随着科学技术的发展,计算机的出现和发展,社会的进步与发展,贝叶斯定理的重要性日益增加,现在已经广泛应用于金融、人工智能等方面。
贝叶斯定理的提出最早是用来解决逆向概率问题的。概率问题分为正向概率问题和逆向概率问题,正向概率问题就是像“箱子里有5个大小相同,质量相等的小球,2个黄球,3个红球,随机摸出一个,得到红球的概率为多少”这样的问题,而逆向概率问题相反,就变为了“从箱子随机摸出一个得到红球的概率为40%,问箱子里有多少球”,很明显,后者的难度远远大于前者。
二、贝叶斯定理
(一)贝叶斯公式
贝叶斯公式又称贝叶斯定理、贝叶斯规则,是概率统计中的应用所观察到的现象对有关概率分布的主观判断进行修正的标准方法,如下所示为贝叶斯公式[2]:
先验概率,人们在对事件进行主观判断中得到的概率,用P(A)表示。后验概率,即在客观调查的基础上所修正的概率,也称为条件概率。B事件发生情况下A事件发生的概率,A在B的条件下的概率,用P(A|B)表示。调整因子,是从先验概率到后验概率的修正,若先验概率为P(A),后验概率为P(A|B),则调整因子为P(B|A)/P(B)。当调整因子=1时,事件A发生的概率与不受事件B影响,当调整因子<1時,先验概率被削弱,当调整因子>1时,先验概率得到增强。联合概率,是指多个事件发生的情况下,另外一件事发生的概率[3]。联合概率的计算公式为:
(二)贝叶斯公式的推导
设有事件A、B,且P(B)>0,则由条件概率公式可得:
由全概率公式可得:
将两式联立,即可得到贝叶斯公式
三、贝叶斯公式的应用
(一)假阳性问题
医疗检测是我们生活中常见的一个问题,医疗正确检测率关乎到每个人的生命安全。运用贝叶斯公式可以解决医疗检测的概率问题。现假设某种医疗设备的报错率为1%,而被检测人员只能检测出阴性和阳性两种情况。在被检测人员中,有90%的人呈阴性,还有10%的人呈阳性,判断假阳性的概率。
我们先假设事件A为呈阳性,事件B为呈阴性,则事件A的先验概率P(A)=10%,事件B的先验概率P(B)=90%。
设事件S为阳性检出事件。可得
在检测人员呈阴性的条件下阳性检出的概率P(S|B)=1%
在检测人员呈阳性的条件下阳性检出的概率P(S|A)=99%
由全概率公式可得
阳性检出的先验概率P(S)=P(S|B)P(B)+P(S|A)P(A)=1%×90%+99%×10%=10.8%
最后由贝叶斯公式可得
P(B|S)=P(B)P(S|B)/P(S)=90%×1%/10.8%=8.333333%
P(B|S)是检测出阳性的条件下被检测人员为阴性的发生概率,即为假阳性的概率。
由此可见,我们直觉判断的概率与实际的概率相差甚远,贝叶斯公式对于医疗检测具有重要意义[4]。
(二)过滤垃圾短信
随着手机的使用越来越普及与广泛,手机短信成为了我们获取信息的一种重要方式。可是在日常的生活中,我们却时常碰到这样的问题:手机信息一大堆,有许多还是垃圾短信,而对自己有用的信息却不知怎么找,那我们该如何解决这样的问题呢?
现在的手机很多都有过滤垃圾短信的功能。只要设置了这个功能,垃圾短信问题就能迎刃而解。而这个功能实质上就是用贝叶斯公式为基础来实现的。通过对垃圾短信特定的词眼的分析,找到垃圾短信的标志,从而过滤垃圾短信。再加上不断地修正,使过滤垃圾短信的准确率不断提高。
假设现在有一条短信,含有“ox”词,它为垃圾短信或正常短信,由手机的数据库可得,在不知道有无“ox”一词的情况下短信为垃圾短信的概率为90%,短信为垃圾短信时出现“ox”这个词的概率为90%,短信为正常短信时出现“ox”这个词的概率为90%,要计算出这条短信是垃圾短信的概率,就先设垃圾短信为S,正常短信为H,而用A表示出现“ox”这个词的事件。
可得正常短信的先验概率P(H)=1-90%=10%
垃圾短信的先验概率P(S)=90%
在短信为垃圾短信时出现“ox”这个词的概率P(A|S)=90%
短信为正常短信时出现“ox”这个词的概率P(A|H)=90%
由全概率公式可得,出现“ox”这个词的概率为P(A)=P(A|S)P(S)+P(A|H)P(H)=90%
由贝叶斯公式可得,在出现“ox”这个词时短信为垃圾短信的概率,即这条短信是垃圾短信的概率为
P(S|A)=P(S)P(A|S)/P(A)=90%×90%/90%=90%
再结合其他词出现的概率,通过联合概率进行再计算,手机短信正确判定率会有所提高。
假设有另外一个词“leap”,其中,短信为垃圾短信时出现“leap”这个词的概率为50%,短信为正常短信时出现“leap”这个词的概率为30%。
我们可以设出现“leap”这个词的事件P(B).
那么短信为垃圾短信时出现“leap”这个词的概率P(B|S)=50%,短信为正常短信时出现“leap”这个词的概率P(B|H)=30%
由全概率公式可得P(B)=P(B|S)P(S)+P(B|H)P(H)=50%×90%+30%×10%=48%
再由聯合概率公式可得,短信为垃圾短信的概率
P=P(A)P(B)/{P(A)P(B)+[1-P(A)][1-P(B)]}=90%×48%/[90%×48%+(1-90%)×(1-48%)]=89.2562%
通过计算联合概率,修正了短信为垃圾短信的概率。以此类推,再结合其他词在垃圾短信和正常短信中出现的概率,利用全概率公式算出这些词的先验概率,再用联合概率公式求出短信为垃圾短信的概率,对概率进行不断修正,提高手机过滤垃圾短信的准确率。
四、贝叶斯定理的优劣
贝叶斯定理相比于传统的经典估计,以主观性为切入点,有着很大优势。能重复估计概率并不断修正概率,从而使概率的准确率提高。贝叶斯公式的创造,推动了概率统计学的发展,并广泛运用于现代社会,在以后的社会还会有更大的用途。
但贝叶斯定理也存在着一定的局限性,因为是以主观判断为前提,带有较强的主观性[5]。由于每个人对先验信息的解读不同,得出来的先验概率不同,从而得出的后验概率也是千差万别,这种估计的概率缺乏科学的客观性。
五、结语
贝叶斯定理的发现,大大推动了概率统计学的发展,由原本的无法修正概率的传统概率估计到可对概率进行不断修正的贝叶斯定理,提高了概率统计的实用性与可更新性。贝叶斯定理相对于传统概率估计是概率统计学中一扇新的大门。贝叶斯定理从提出开始就在不断的发展中,特别是到了我们今天日新月异的现代社会,它的用途越来越广泛。贝叶斯定理广泛运用于金融、医疗、人工智能等领域,像贝叶斯网络、贝叶斯机器学习等都得益于贝叶斯定理才能迅速发展并运用人工智能领域中,为我们的生活带来了诸多新奇与便利。随着社会的发展,贝叶斯定理也会不断地发展,从而贝叶斯定理也将会更好的运用于其他领域和更多的新领域。
参考文献:
[1]王丽.浅析贝叶斯公式及其在概率推理中的应用[J].科技创新导报,2010,(24):136-136.
[2]陶永祥.浅谈全概率公式和贝叶斯公式的应用[J].牡丹江大学学报,2009,(04):132+135.
[3]谢宏斌.贝叶斯公式的应用和推广[J].数学学习与研究,2017,(10):8-8.
[4]张秀英,陈梅华.贝叶斯(Bayes)公式及其在统计决策中的应用[J].河南广播电视大学学报,2000,(01):44-46.
[5]杨静,陈冬,程小红.贝叶斯公式的几个应用[J].大学数学,2011,27(02):166-169.
(作者单位:广东梅县东山中学)