杨海丽 郑治波
(保山学院数学学院 云南·保山 678000)
在实际生活中,会遇到基于事物的某种属性将其分类到已知的类别中的问题,例如,根据已获得的症状数据,判别一位新的病人是否具有某种疾病;根据已有的气象资料来预报明天的天气;多元统计分析的判别分析就是解决这类问题的一种方法。综合已有的文献写关于三种方法的比较多,[1]但是关于贝叶斯判别法的两种规则的详细讨论方面较少,为了便于学习全面学习贝叶斯判别法,本文将贝叶斯判别法的特点、规则、应用结合起来研究。
贝叶斯判别的思想是:基于样品的先验概率分布,从总体中抽取样本,用样本来修正已有的认识,得到后验概率分布,由后验概率分布来做判别分析。[2]
最大后验概率判别法的基本思想是:[3]通过计算出样品属于各个组的后验概率,将样品归类到后验概率最大的组。
最大后验概率法采用如下的判别规则:
最大后验概率法,未考虑误判的概率,在实际分析中有些情况不得不考虑误判概率,如,误将不合格药品判别成合格药品可能会危及生命。
最小期望误判代价法采用的是使得ECM达到最小的判别规则。即:
两组的一般情形:
密度函数与先验概率同前,现假设误判代价矩阵为:
实际应用中,如果先验概率难以给出,则通常把它们取成相等,应用此判别规则。
表1 某地区人口死亡数据表
当误判代价c(2|1)=c(2|1)时,上述简化为:
从以上的分析可以看出最大后验概率法其实是在默认误判损失相等情况下的最小期望误判代价法。
例1设有π1π2π3三个组,欲判别某样品x0属于何组,已知
解:分别计算出三个后验概率
所以应将x0判为组π3。
例2设有π1π2π3三个组,已知某样品x0属于这三个组的先验概率,以及概率密度如下:
判别样品属于何组?
解:按照最小期望误判代价法则,具体计算过程如下:
由于时I=2为最小值,故x0属于π2。
图1 预测结果图
以上的两个判别规则的实现基于同一组基础数据,分别根据最大后验概率法和最小期望误判代价法的判别规则来进行判别分析。在实际应用中当数据较多时,这两种方法的理论分析较为繁琐,考虑可以借助于计算机软件实现做判别分析。本文以最简单直观的数据分析软件SPSS给读者呈现。
借助于SPSS软件可以快捷地实现判别分析,以例题的方式展示数据分析的过程。
例3为研究某第地区人口死亡状况,按某种方法将15个已知样品分为3类,指标及原始数据如表1所示。
表1中指标说明如下:x1:0岁组死亡概率;x2:1岁组死亡概率;x3:10岁组死亡概率;x4:55岁组死亡概率;x5:80岁组死亡概率;x6:平均预期寿命。
为了对四个待判样品做出判别。借助于SPSS25软件,所得结果如图1。
图1是返回已知数据表得出的结果,可以看出已知数据的预测结果与实际结果安全吻合,第一、第四个样品属于第3组;第二个样品属于第1组;第三个样品属于第2组。
从合并图中不难看出,第一组和第二组,第三组和第二组能够和好地区分开,但是第一组和第三组存在重合的区域(图2)。
图2 判别分析结果图
表2交叉验证采用了留一个在外的原则,正确地对86.7%个进行了交叉验证,并对分组个案进行了分类。
表2 交叉验证
一般的决策方法所得结论三对结果完全接受或者反对,而贝叶斯判别方法给出的是决策概率,可以判断所获得信息的价值决定是否需要获取更多新的信息。贝叶斯判别方法则是对调查结果的可能性作出数量化的评价。贝叶斯判别方法根据具体的问题进行重复使用,进而使所作出的决策更加完善和科学。
贝叶斯判别方法的缺点是:需要采集的数据信息较多;分析计算相对复杂;数据采集带有主观概率;推广使用困难。