珍贵的概率

2015-05-30 10:48岑嵘
大学生 2015年1期
关键词:垃圾邮件贝叶斯过滤器

岑嵘

2006年,美国佐治亚州亚特兰大市如期举行了一次大统考(CRCT)。不久,相关人员发现了这次考试的不同寻常之处:答题纸上出现了大量“由错变对”的更正痕迹,导致这次考试的分数出奇地高。

在现实中,学生在考试中肯定会对答案进行修改,而且总有一些学生会将错误的答案改成正确的,比如通过再次验算发现了错误,这也许是凑巧一大帮学生撞了好运,因此,这也不能判断为作弊。

不过,概率很容易让这种所谓“巧合”穿帮。一些考场的学生答题纸上“由错改对”的痕迹数量高于全州正常水平20~50个标准差,而在一个分布中,绝大多数数据都会落在平均值的两个标准差范围以内。

那么这么多学生在那么短的时间内仅凭“运气”,改正了那么多错题的概率是多大?打个形象的比喻,这个概率相当于有7万名身高7英尺(2.13米)以上的观众,同时出现在佐治亚穹顶体育场观看足球比赛。你能想象这个场面吗?

CRCT是佐治亚州的统一考试,而根据美国2002年开始实施的《不让一个孩子掉队》法案,如果学校的数学统考通过率不及58%,语文统考通过率不及67%,州政府就有权关闭这所学校。中南部地区的公立学校在教学质量和学生成绩上差一大截,因而面临关闭的危险。美国的媒体后来调查发现,正是这种制度,使得一些老师铤而走险,制造了这起美国历史上最大的作弊丑闻。

概率发现了作弊事件,更揭露出教育制度中的弊端。事实上,概率在生活中方方面面使用的广泛,超出我们的想象。

我们在享受电子邮件的便利时,也会碰到一种烦恼——垃圾邮件的骚扰。一个叫做“贝叶斯定理”的概率计算法则对我们摆脱垃圾邮件有帮助。

不同词语在垃圾邮件和正常邮件中出现的概率是不同的。比如,在垃圾邮件中常常看到“高薪工作”,而在正常邮件中很少看到它。但是垃圾邮件过滤器事先并不知道这些概率(即出现“高薪工作”这个词的邮件是垃圾邮件的概率),所以必须训练它,让它知道某个词有多大的概率是属于垃圾邮件的。为了训练过滤器,需要收集大量的邮件,并手工标注其是否为垃圾邮件。

对于每封训练邮件中的每个词,过滤器会调整它在垃圾邮件和正常邮件中的概率,举例来说,“贝叶斯垃圾邮件过滤器”会学习到“销售主管”是属于垃圾邮件的概率很高,而像朋友姓名、家庭成员这些只能在正常邮件中看到的词,具有很低的垃圾概率。经过训练之后,垃圾邮件过滤器就会像狗鼻子一样灵敏,如果某封邮件的垃圾概率超过某个预先设定的阈值(如95%),过滤器就将其标注为垃圾邮件。

贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes) 发展而来,用来描述两个条件概率之间的关系。贝叶斯1701年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论,并首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论。

内特?西尔弗是一位美国统计学家,他在纽约时报网站上开有一个博客,估算2012年两个总统候选人的得票,最终他准确预测了所有 50 个州的选举结果。他还把贝叶斯定理应用在家庭婚姻上。西尔弗说,假设你是一位女性,你在衣橱里发现了其他女人的内裤,这说明你的丈夫很有可能出轨了。但问题是如果他有外遇,应该很小心才是,所以内衣的出现可能还有其他原因。

首先假设他真的出轨了,那么其他女人的内衣会出现在你衣橱里的概率假定为50%(y)。他要是没有出轨,或许有其他无辜的原因。虽然这些情况也令人不快,比如那就是他自己穿的,或者他的行李被弄错了,也可能是他想送给你的礼物,但他忘记打开了。这些说法都站不住脚,就像家庭作业被狗给吃了的借口,这些加在一起把它们的概率定为5%(z)。

最后,研究表明,每年大概有4%(x)的已婚夫妇出轨。即使你没有看到任何证据,你丈夫也有4%的出轨可能,神秘内裤出现后,根据贝叶斯定理的计算公式xy/xy+z*(1-x),你丈夫出轨概率提高到29%,比一般情况的4%高很多,但仍然低于50%。所以你最好的选择是不露声色,继续观察。

然而真实的概率常会被噪音所掩盖(噪音是妨碍和误导我们寻找信号的无关信息)。以“9?11”恐怖袭击为例,这种袭击方法令人感到非常意外,但不是没有贝叶斯式的先例——1985年印度航空的例子和在那三年之后的洛克比空难,因此类似袭击的发生概率至少有4%。

在2001年夏天,明尼苏达州一家飞行学校的工作人员告诉FBI探员,有一位出生于摩洛哥的学员想学习如何在飞行途中驾驶波音747,略过起飞和着陆课程。几位探员认真对待这一消息,但其搜查和窃听要求被否决。还有一位飞行教师说,装满燃油的飞机是可怕的武器。至少,这些信号应该把使用飞机发起袭击的概率提高到比如15%,所以调查人员应该去认真调查飞行学校。

但令人遗憾的是,FBI和CIA每天得到海量的信息,所以忽视了这个珍贵的概率,最终导致了巨大灾难的发生。

责任编辑:张蕾磊

猜你喜欢
垃圾邮件贝叶斯过滤器
从“scientist(科学家)”到“spam(垃圾邮件)”,英语单词的起源出人意料地有趣 精读
一种基于SMOTE和随机森林的垃圾邮件检测算法
支持过滤器的REST模型研究与实现
声音过滤器
贝叶斯公式及其应用
基于贝叶斯估计的轨道占用识别方法
基于支持向量机与人工免疫系统的垃圾邮件过滤模型
一种基于贝叶斯压缩感知的说话人识别方法
IIRCT下负二项分布参数多变点的贝叶斯估计
基于LOGO!的空气过滤器自洁控制系统