刘倩
(西安电子科技大学 数学与统计学院,陕西 西安 710071)
由古典概型引入贝叶斯公式的一种教学设计
刘倩
(西安电子科技大学 数学与统计学院,陕西 西安 710071)
对贝叶斯公式的教学方案进行了设计,通过引入简单实例,尝试应用学生熟悉的古典概型的计算公式导出贝叶斯定理.结合案例直观解释贝叶斯公式中所包含的先验信息和后验信息等概念,使学生更容易理解和掌握贝叶斯公式,并逐步理解贝叶斯公式在贝叶斯统计中的重要地位.
贝叶斯公式;古典概型;教学设计
贝叶斯公式作为概率论课程中的重要公式之一,不仅证明过程涉及条件概率和全概率公式,公式复杂,难于记忆,更因为其在现实生活中的应用广泛,而成为概率论课程教学中的一个重点和难点问题.由于学生在高中阶段利用排列组合计算的概率问题都属于古典概型的范畴,所以对古典概型的概率计算公式较为熟悉.本文就贝叶斯公式的教学设计给出新的尝试,试图通过引入简单实例,综合应用古典概型的计算公式,让学生形成对新公式应用的直观性理解,在教学中取得了良好的效果.
先看一个鉴别次品来源的问题:假设2个车间(分别称为第1车间和第2车间)生产同一种产品,其产量分别占总产量的60%和40%,次品率分别为0.01和0.02.如果任取一件产品,该产品恰好为次品,问这件产品较有可能是由哪个车间生产的.
设随机事件A表示“任取一件产品,该产品恰好为次品”,已知2个车间的产量及其次品率这些信息,学生容易计算事件A发生的概率,这可以看作一个正向概率的计算问题.然而,一个自然而然的反问题就是:当你买了该厂的一件产品,经检验为次品,但是由哪个车间生产的标识已经脱落,让你判断该产品的归属问题.这个反问题,可以形象地理解为逆概率的计算问题.
即使学生不知道条件概率的计算公式,利用古典概型的概率计算公式,从频率估计概率的思想出发,也可以对这个问题进行判断.
表示在任取一件产品为次品的附加条件下,该产品是由第i车间生产的概率.
在计算过程中,事实上建立了一个极为有用的公式
其中:事件A和互斥事件B1,B2可以指代一切事物,而该公式的实质就是条件概率公式.
1763年,贝叶斯生前的朋友普赖斯将他的遗著《机遇理论中一个问题的解》[1]推荐给皇家学会并发表在当年的《哲学会报》上,后来的数学家将之简化为今天的贝叶斯公式.
称式(4)为贝叶斯公式.
现在已知有一个结果A发生了,在众多可能的原因中,到底是哪一个原因最有可能导致A的发生.这是一个在日常生活和科学技术中常遇到的问题.因此,贝叶斯公式可以形象地理解为一个由结果到原因的过程,不妨称为执果寻因.贝叶斯公式认为各个原因可能性大小与条件概率成比例.
从形式推导上看,贝叶斯公式平淡无奇,不过是条件概率与全概率公式的简单推论,那么看似平凡的贝叶斯公式,背后隐含着何种原理,有何实际意义呢.
这种情况在日常生活中是屡见不鲜的.伊索寓言中“狼来了”的故事大家都耳熟能详,那个说谎的孩子是怎样一步步丧失村民的信任的呢,借助于贝叶斯公式可以给出故事的概率论解释.诚信之所以重要,就在于人们会根据与你交往过程中发生的事件去修正对你的印象,用概率代替,而且这种修正会一次一次地进行,量化的工具就是贝叶斯公式.贝叶斯公式正是从数量上刻画了这种变化,因此,它是从先验概率到后验概率的转化公式.
(3)贝叶斯公式又称为逆概率公式.
由于日常生活所观察到的只是事物表面的现象A,这时必须提供一种猜测,很可能有许多种乃至无数种猜测Bi都满足目前的观测.那么需要计算并比较各种猜测可能性大小.对于不同的Bi,P( A)都是一样的,所以在比较后验概率时,完全可以忽略这个常数,尤其当P( A)难以求解时.根据贝叶斯公式,只需要知道,这在实际应用中是易于获得的.在A给定的条件下,与成正比,这就是逆概率的思想.可见,贝叶斯公式的结果在很大程度上依赖于先验概率,但不是完全接受或者拒绝先验假设,只是在观察到更多的信息A后,增大或者减小了这种假设的可能性.
基于这种思想,贝叶斯公式有很多有趣的应用.如拼写纠错,学生都有这样的体会,当在Word文档中输入一个不在字典中的单词时,电脑会提供若干种可能的猜测.类似的应用还有统计机器的翻译、图像识别、参数的最大后验估计以及假设检验等.可以说,凡是需要做出概率预测的地方都能见到贝叶斯公式的影子.
大多数概率统计教材对贝叶斯公式的探讨和应用都过于简单[3],所以有很多学者都对该公式的应用问题进行了广泛讨论[4-6].
面对真阳性率为95%的检测结果,有多少信心接受“有病”的判断呢.
由此可见,平均1 000名具有阳性反应的人群中,真正患病的人还是很少的,大约只有107人.
学生可能会想,这个试验对于诊断一个人是否患病到底有没有意义呢.如果不作试验,抽查一个人,患病的概率为0.005,这是先验概率,俗称为发病率.若在试验后,呈现阳性反应,根据这个新的信息,患病的概率变为0.1066,大约增长了21倍.因此,这个检测试验还是有意义的.只是在实际应用中,缺乏普遍执行的理由.
究其原因,从贝叶斯公式可以得到解释:尽管健康人呈现阳性反应的概率为0.04,但是由于发病率仅为0.005,实在太小,导致检测结果为假阳性的部分相对较大,从而造成值较小.所以通常情况下,医生可以先采取其他简单易行的辅助手段进行检查,当他高度怀疑某个对象时,才会建议进行该种检测,因为此时发病率(先验概率)已经显著地增加了.可以通过贝叶斯公式(4)进行说明:当先验概率时,后验概率将达到0.96.此外,医生还可以再进行一次检测,一旦呈现阳性结果,那么该对象患病的概率将上升至0.73;再做一次检测,还是呈现阳性,那么基本上医生就可以确诊了,此时患病的概率达到0.985.
例2(信号识别)[8]将A, B, C3个字母之一输入信道,输出为原字母的概率为a,而输出为其他一字母的概率都是.今将字母串AAAA,BBBB和CCCC之一输入信道,输入AAAA,BBBB,CCCC的概率分别为,已知输出为ABCA,求输入的是AAAA的概率(假设信道传输各个字母的工作相互独立).
贝叶斯统计分析是处理信号识别问题的一种有效手段,该例是一个比较简单的信号识别问题,运用贝叶斯公式就可以得到解答.
贝叶斯公式中渗透的执果寻因的思想,是这节课的精髓.在统计学中,正是依靠收集的数据(相当于事件A)去寻找所感兴趣的问题的答案,这就是一个执果寻因的过程,因此贝叶斯公式具有重要的实用性.依据这个公式的思想,统计学家发展了一整套基于后验概率决策的统计推断方法,冠以贝叶斯名字的学派,广泛地应用于社会生活的各个方面.
虽然贝叶斯当时的论文仅仅是对逆概率问题的一个直接的求解尝试,不清楚他当时是否已经意识到其中包含的深刻思想.然而,后来贝叶斯方法席卷了概率论,并将其应用延伸到各个问题领域.这其中的原因就在于现实世界本身就是不确定的,而人类的观察能力又是有局限性的.
在概率统计的世界中,到处都充满着和直觉截然不同的事物,面对表象,人们应该坚持实事求是的态度和锲而不舍的精神.
[1] 韦来生,张伟平.贝叶斯分析[M].合肥:中国科学技术大学出版社,2013:5-6
[2] 李贤平.概率论基础[M].北京:高等教育出版社,2010:68-69
[3] 杨静,陈冬.贝叶斯公式的几个应用[J].大学数学,2011,27(2):166-169
[4] 周丽华.市场预测中的贝叶斯公式应用[J].商业研究,2006(34):55-56
[5] 王丽.浅析贝叶斯公式及其在概率推理中的应用[J].科技创新导报,2010(24):136
[6] 廖杰.贝叶斯公式在河流水质综合评价中的应用[J].四川师范大学学报:自然科学版,2007,30(4):519-522
[7] 魏宗舒.概率论与数理统计教程[M].北京:高等教育出版社,2008:40-42
[8] 盛骤,谢式千,潘承毅.概率论与数理统计[M].北京:高等教育出版社,2008:22
The design of teaching in Bayes rule introduced by classical probability model
LIU Qian
(School of Mathematics and Statistics,Xidian University,Xi'an 710071,China)
Gives a plan of teaching design in Bayes rule. By introducing a simple example and integrating the classical probability model with which students are familiar,Bayes theorem is obtained. Combining cases,some concepts such as the priori and the posteriori information are intuitively explained,which makes it easier for students to understand and master the Bayesian formula and understand Bayes rule's important position in Bayesian statistics gradually.
Bayes rule;classical probability model;teaching design
O211.9∶G642.0
A
10.3969/j.issn.1007-9831.2016.06.018
1007-9831(2016)06-0056-05
2016-03-20
国家自然科学基金资助项目(61105065);西安电子科技大学数学与统计学院概率论与数理统计精品开放课程建设项目
刘倩(1979-),女,陕西西安人,副教授,博士,从事生物信息学和数理统计研究.E-mail:liuqian@xidian.edu.cn