AUC统计特性概述

2021-07-29 14:04广东工业大学王彦光朱鸿斌徐维超
电子世界 2021年13期
关键词:协方差分类器方差

广东工业大学 王彦光 朱鸿斌 徐维超

接收机工作特性(ROC)曲线下面积(AUC)可从总体上对二类分类器的分类性能进行评估,已被广泛的应用与各个领域。本文从AUC定义出发,给出了AUC的概率解释,以及AUC与曼惠特尼统计量的等价性,最后给出了AUC均值和方差的表达式的证明,以及零假设分布下AUC的均值和方差。

接收机工作特性曲线(Receiver Operating Characteristic Curve),简称ROC曲线。ROC曲线起源于二战中的雷达目标检测领域,当时它主要用来整体评价探测的性能通过描述雷达的检测概率和虚警概率之间的相互制约关系。在此之后,ROC曲线以及ROC曲线下面积(AUC)在经济、医疗,科技等各个领域均有不同程度的发展与应用。在此,特别需要提及的是AUC在医疗研究领域的实际应用中得到了持续的发展,例如在医学影像的诊断结果的评估,新冠病毒等流行病毒的识别,医疗试剂的效果评价等。在上个世纪的九十年代以后,AUC开始逐渐被用在人工智能领域诸如模式识别、机器学习、数据挖掘中的分类器性能评估。此后,随着人工智能技术的发展,AUC成为一种主流的科学评估分类器算法性能与不同分类器之间性能比较的主要工具。一系列关于AUC的研究结论使得人工智能等科研人员对分类识别等算法的性能有了全面而又深刻的认识。

1 AUC的概率解释

定义1:对于一个由正例X={X1,X2, ...,Xm}和负例Y={Y1,Y2, ...,Yn}组成的数据集,存在一个阈值,使得,这里FX(x)和FY(x)分别是X和Y的概率分布函数。令。则ROC可以定义为:,ROC曲线下面积AUC定义为:

我们知道AUC是一种很好分类器评价方法,可以用来评估和比较与选择的准确决策阈值无关的分类模型的总体性能。AUC=1.0表示分类器性能最好,AUC=0.5表示分类器随机进行分类决策的性能,这个决策与抛硬币的概率是等效的。分类算法的AUC值越大代表分类器性能越好,这也是AUC最直观的理解和解释。其实,AUC还有一个更深刻的理解和解释,它还可以用概率解释。

证明:设X代表正例,Y代表负例,FX(●)和FY(●)代表相应的概率分布函数,fX和fY代表相应的概率密度函数。由AUC和ROC的定义,我们得到:

其中,上式中是利用ROC的定义中变量的转换。再根据正例X和负例Y之间的相互独立性,我们得到:

从上面的证明过程我们可以看出,从样例中随机挑选一对正例和负例组成的样本对,分类算法根据分类器计算得到的score值将正例排在负例前面的概率就是AUC值。AUC值越大,表明分类算法将正例排在负例前面概率越大,也就是分类效果越好。

从AUC的定义我们可以看出,AUC的取值范围是[0,1],而不是[0.5,1],这是因为我们并没在ROC曲线的定义中定义。这样在度量正例和负例的分布差异时,如果AUC小于0.5,它表示分类器预测的与标注的标签相反。

从AUC的概率解释,可以看出AUC能够度量两样本分布的差异,两样本分布差异越大,AUC值也越大。

2 AUC与Mann-Whitney U统计量的关系

H.B.Mann和D.R.Whitney提出Mann-Whitney U Statistics(MW)来比较两个样本的大小。令与;它们来自两个连续的样本,并且满足独立的相同分布。FX(x)和FY(y)分别用概率密度函数Fx(x)和Fy(y)任意分布来表示,假设和是相互独立的。根据Mann Whitney U的统计资料,X和Y之间的关系有如下关系:

在公式(5)中θ有另外的含义,它表示出X>Y的可能性等于在ROC曲线下的面积AUC。

3 AUC的均值和方差

定理2:用θ来表示ROC曲线下的面积AUC,FX(x)和FY(y)是一些未知的参数,θ的均值和方差可以计算为:

其中:

以上,X是X'的独立恒等分量,Y是Y'的独立恒等分量。

证明:利用公式(5),我们可以得到:

类似地,从公式(5)中,我们可以得到:

在式(9)中,S2协方差的和表示所有组合除了(i = l,J = k),对于公式(9)中的第一项,标注它为S1:

对于式(9)中的协方差项,注意到协方差S2除非在i = l或j = k的情况下是0。因此可以按照两种情况把S2分为两个部分,注解为R1和R2,进而有:

当i = l和j ≠ k时,有m种方式去得到,且有n(n-1)种方式使得j ≠ k,因此有mn(n-1)种式(9)中的协方差项形式,我们知道R1满足:

当i ≠ l和j = k时有m(m-1)种方式得到i ≠ l且n种方式得到j;因此有mn(m-1)种式(9)中的协方差项形式,我们得到R2满足:

由上面式(10)~(13),我们得到如下最终结果:

由公式(7)的子项表达式,可以得到:

将Q0,Q1和Q2代入公式(7),我们可以得到:

结论:接收机工作特性曲线分析当前广泛应用于医学、经济、机器学习等科学领域。接收机工作特性曲线下的面积(AUC)对二分类器的性能进行有效评估。对于AUC相关分析,本文使用应用比较广泛的非参数方法,即利用AUC与Mann-Whitney U统计量的关系对AUC的均值以及方差进行推导证明。除此之外,考虑到某些情况下需要对模型的进行假设检验,因此,本文还进一步推导了零假设情况下AUC的均值和方差的计算。

猜你喜欢
协方差分类器方差
概率与统计(2)——离散型随机变量的期望与方差
方差越小越好?
计算方差用哪个公式
用于检验散斑协方差矩阵估计性能的白化度评价方法
方差生活秀
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
二维随机变量边缘分布函数的教学探索
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器