相关系数在脉冲噪声环境下的稳健性综述

2015-05-10 06:25徐维超马如豹
广东工业大学学报 2015年3期
关键词:单通道稳健性双通道

徐维超,马如豹

(广东工业大学 自动化学院, 广东 广州 510006)

相关系数在脉冲噪声环境下的稳健性综述

徐维超,马如豹

(广东工业大学 自动化学院, 广东 广州 510006)

作为相关分析的重要工具,相关系数在众多科学与技术领域中都得到了广泛的研究和应用.基于文献中两种常用的二元混合高斯模型,本文回顾和对比了5种相关系数分别在单通道以及双通道中存在脉冲噪声时的稳健性.定量的研究结果表明,在脉冲噪声环境下,文献中最为常见的皮尔逊积矩相关系数性能急剧恶化.而另外4种相关系数则在两种噪声模型下均表现出良好的抗干扰能力.

皮尔逊积距相关系数; 斯皮尔曼秩次相关系数; 肯德尔秩次相关系数; 基尼相关; 皮尔逊秩变量相关系数; 脉冲噪声; 混合高斯模型

相关分析是从19世纪80年代发展起来的探讨随机变量之间统计关系的研究课题[1], 目前仍然是统计信号处理领域中的研究重点与难点. 所谓相关, 是两个随机变量或信号之间的统计关系强弱程度的度量. 具体来说, 如果一个随机变量随着另外一个随机变量的 增大(减小)而增大(减小),则该两个随机变量满 足正相关关系;反之,如果一个随机变量随着另外 一个随机变量的增大(减小)而减小(增大),则该两个随机变量满足负相关关系[2].

文献中经典的相关系数有3种, 分别是由统计学奠基人Pearson 提出的积矩相关系数(Pearson′s Product Moment Correlation Coefficient,PPMCC)[3-5],心理学家Spearman提出的斯皮尔曼秩次相关系数(Spearman′s rho, SR)[6], 以及统计学家 Kendall 提出的肯德尔秩次相关系数(Kendall′s tau, KT)[6].基于众多研究者的努力,这3种经典相关系数在二元高斯模型下的统计特性已基本明确.统计学家 Fisher 发现了PPMCC在二元高斯模型下的概率密度函数的精确表达式, 并且证明了PPMCC是母体相关系数的渐近无偏最优估计, 其方差在样本数足够大时达到 Cramer-Rao 下限[4,7]. 除了上述理论上的优点,PPMCC的算法复杂度与数据长度成正比, 运算速度快, 可以满足实时性的要求. 因此, PPMCC在各领域的应用中都占据了主导地位.与PPMCC不同, 在二元高斯模型下, SR和KT的概率密度函数无法求得. 在Kendall等一批统计学家的努力下,SR和KT的均值和方差的表达式已经推导出来[8-12]. 徐维超等证明了SR和KT相对于PPMCC的渐近相对效率(Asymptotic Relative Efficiency, ARE)最多达到 91%[13]. 然而, 由于只用到样本的排序信息(秩次), SR 和KT 在单调非线性变换下性能保持不变, 因而更适应于一些非线性的场合[13].

除了3种经典的相关系数之外, 其他相关系数, 如基尼相关(Gini Correlation, GC)[14]和皮尔逊秩变量相关系数(Pearson′s rank-variate correlation coefficient, PRVCC)[15]也引起了研究者的关注. GC由以色列经济学家所提出[14], 在经济学领域已经得到了广泛的应用, 并开始向生物学、社会科学和信号处理等领域延伸. 经过徐维超及其合作者的努力[11], GC在二元高斯样本下的均值和方差也已经得到了证明. 虽然早在1914年就已经由Pearson提出[15], PRVCC 在二元高斯模型下的统计特性一直未取得突破. 然而,如后文所示,从定义上可以推测,GC和PRVCC应具有类似的统计特性.

上述所有理论结果, 都是基于二元高斯模型,即假设两个随机变量符合一个联合母体相关系数为ρ的高斯分布. 尽管具有数学上的优点,高斯模型只是一种理想化的近似. 在现实世界中, 所采集的数据通常会受到脉冲噪声的污染,即样本中含有极少量方差巨大的异常值 (外值)[16- 19]. 为了模拟这种情况,文献中通常采用二元高斯混合模型(Contaminated Gaussian Model, CGM)进行建模[20].

本文的目的是在二元高斯混合模型下,对上述5种相关系数的稳健性进行比较与分析. 具体内容包括: 相关系数的基本定义和性质, 噪声模型的介绍, 多种相关系数在不同样本数据模型下的统计特性, 各种相关系数在不同环境下的适用性分析. 后文将按照这一结构展开论述.

1 基本定义

1.1 相关系数定义

rP(Xi,Yi)

(1)

rS(Xi,Yi)

(2)

rK(Xi,Yi)

(3)

另外两种相关系数GC(rG)[11]和 PRVCC(rH)[23]分别定义为:

(4)

(5)

令r一般地表示相关系数,则上述各种相关系数的共性有:

(1) 归一化, r的取值在区间[-1,1]内;

(2) 当Y和X严格线性相关或满足单调上升、单调下降关系时, r=±1;

(3) 当X和Y彼此统计独立时, r的均值为0;

(4) r(+,+)=-r(-,+)=-r(+,-)=r(-,-);

(5) 当样本数n足够大时, r 趋于高斯分布.

各种相关系数独有的性质:

(1)PPMCC、SR和KT满足对称性,GC和PRVCC则不然;

(2)PPMCC、SR和KT可以统一为广义相关系数(DaneilsGeneralizedCorrelationCoefficient)[24].

需要指出, 从定义式(1)~(5)中可以看到, 在各种相关系数的计算过程中使用数据值和秩次的信息不尽相同. 据此, 可以把上述5种相关系数分为3类:

(1) 完全利用数据值信息的PPMCC;

(2) 利用一个变量的数据值信息和另一个变量的秩信息的GC和PRVCC;

(3) 完全利用秩信息的SR和KT.

1.2 二元高斯混合模型

在双变量或双通道相关分析中, 噪声干扰的情况可以分为两类. 一类是单通道的噪声干扰, 另一类是双通道的噪声干扰. 与此相对应, 两种噪声模型可以分别建立, 统称为混合高斯模型(ContaminatedGaussianModel,CGM).

单通道的混合高斯模型(Signal-ChannelContaminatedGaussianModel,SCGM)的概率密度函数(probabilitydensityfunction,pdf)如下:

(6)

与(6)类似, 双通道混合高斯模型(Double-Channel Contaminated Gaussian Model, DCGM)的概率密度函数由下式定义:

(7)

2 SCGM下的性能分析

马如豹、徐维超等[23]证明了PRVCC在SCGM下, 当数据样本的数量n足够大时, 其均值和方差的渐进闭式表达式为:

(8)

(9)

此外, 在同一篇论文中,3种经典的相关系数PPMCC、SR和KT在SCGM下均值的闭式表达式也由作者导出[25]:

(10)

(11)

(12)

从式(10)可以看出, PPMCC只与干扰ρ′有关, 与真正想估计的母体相关系数ρ无关. 也就是说, PPMCC 完全丢失了母体相关系数的信息, 说明PPMCC在单通道的脉冲噪声干扰下失效. 而PRVCC、SR和KT都可以在相当大的程度上抑制ε和ρ′的影响, 对脉冲噪声表现出较好的抗干扰能力.

由式(8)、(11)和(12)可以分别定义PRVCC、SR和KT对母体相关系数的无偏估计[25]:

(13)

(14)

(15)

通过均方根误差(RootMeanSquaredError,RMSE)仿真分析,PRVCC在SCGM的场景下更有优势.GC与PRVCC在计算中所利用的数据信息方面以及计算表达式上都相类似, 它们在SCGM下的性能也相近.

3 DCGM下的性能分析

从上述分析中可知,PPMCC对单通道脉冲噪声极其敏感. 可以预见,在双通道脉冲噪声的干扰下,PPMCC的抗干扰能力仍然很差; 同时,PRVCC和GC因为直接使用了一个通道的数值信息, 也不具备在DCGM下的稳定性.

对于SR和KT, 徐维超等[13]证明了在DCGM下,样本数量n足够大时,SR和KT的均值的闭式表达式为

(16)

(17)

对比式(11)与(16)、(12)与(17), 两组等式的差别不大, 但都表现出了在DCGM下ε和ρ′的影响更大,SR和KT的稳健性有所下降. 从式(16)和(17)可以得出SR和KT在DCGM下对母体相关系数的无偏估计量与SCGM下的一致, 即式(14)和(15).

4 结论

本文介绍了两种脉冲噪声下的数据模型,SCGM和DCGM,并且总结了PPMCC,SR,KT,GC和PRVCC等5种相关系数在SCGM下的统计特性,以及SR和KT在DCGM下的均值. 总结上述分析可以得到如下结论:

(1) 在样本数据存在脉冲噪声干扰的情况下,PPMCC对母体相关系数的估计由噪声主导, 基本失效;

(2) 在只有一个变量或通道的样本数据受到脉冲噪声的干扰而另一个变量或通道的样本数据未受污染的情况下,PRVCC和GC比较有优势;

(3) 当两个变量或通道的样本数据都受到脉冲噪声的干扰时,SR和KT有更好的稳健性.

[1]SpeedT.Acorrelationforthe21stcentury[J].Science, 2011, 334(6062):1502-1503.

[2]GibbonsJD,ChakrabortiS.NonparametricStatisticalInference[M]. 3rd.NewYork:M.Dekker, 1992.

[3]FisherRA.StatisticalMethods,ExperimentalDesign,andScientificInference[M].NewYork:OxfordUniversityPress, 1990.

[4]FisherRA.Onthe‘probableerror’ofacoefficientofcorrelationdeducedfromasmallsample[J].Metron, 1921, 1:3-32.

[5]FiellerEC,HartleyHO,PearsonES.Testsforrankcorrelationcoefficients.I[J].Biometrika, 1957, 44(3/4):470- 481.

[6]KendallM,GibbonsJD.RankCorrelationMethods[M]. 5thed.NewYork:OxfordUniversityPress, 1990.

[7]FisherRA.Frequencydistributionofthevaluesofthecorrelationcoefficientinsamplesfromanindefinitelylargepopulation[J].Biometrika, 1915, 10(4):507-521.

[8]MoranPAP.Rankcorrelationandproduct-MomentCorrelation[J].Biometrika, 1948, 35(1/2):203- 206.

[9]EsscherF.Onamethodofdeterminingcorrelationfromtheranksofthevariates[J].Skand.Aktuar., 1924, 7:201- 219.

[10]DavidFN,MallowsCL.ThevarianceofSpearman′srhoinnormalsamples[J].Biometrika, 1961, 48(1/2):19- 28.

[11]XuW,HungYS,NiranjanM,etal.AsymptoticmeanandvarianceofGinicorrelationforbivariatenormalsamples[J].IEEETransSignalProcess, 2010, 58(2):522-534.

[12] 徐维超. 相关系数研究综述[J]. 广东工业大学学报, 2012, 29(3):12-17.

XuWC.Areviewoncorrelationcoefficients[J].JournalofGuangdongUniversityofTechnology, 2012,29(3): 12-17.

[13]XuW,HouY,HungY,etal.AcomparativeanalysisofSpearman′srhoandKendall′stauinnormalandcontaminatednormalmodels[J].SignalProcessing, 2013, 93(1):261- 276.

[14]SchechtmanE,YitzhakiS.AmeasureofassociationbaseonGini′smeandifference[J].CommunStatistTheorMeth, 1987, 16(1):207- 231.

[15]PearsonK.Onanextensionofthemethodofcorrelationbygradesorranks[J].Biometrika, 1914, 10(2/3):416- 418.

[16]TumanskiS.Principlesofelectricalmeasurement[M].NewYork:Taylor&Francis, 2006.

[17]SteinD.DetectionofrandomsignalsinGaussianmixturenoise[J].IEEETransInfTheory, 1995, 41(6):1788-1801.

[18]ChenR,WangX,LiuJ.Adaptivejointdetectionanddecodinginflat-fadingchannelsviamixtureKalmanfiltering[J].IEEETransInfTheory, 2000, 46(6):2079- 2094.

[19]ReznicZ,ZamirR,FederM.Jointsource-channelcodingofaGaussianmixturesourceovertheGaussianbroadcastchannel[J].IEEETransInfTheory, 2002, 48(3):776-781.

[20]ShevlyakovGL,VilchevskiNO.RobustnessinDataAnalysis:CriteriaandMethods[M].Utrecht:VSP, 2002.

[21]XuW,ChangC,HungYS,etal.Orderstatisticscorrelationcoefficientasanovelassociationmeasurementwithapplicationstobiosignalanalysis[J].IEEETransSignalProcess, 2007, 55(12):5552-5563.

[22]XuW,ChangC,HungYS,etal.Asymptoticpropertiesoforderstatisticscorrelationcoefficientinthenormalcases[J].IEEETransSignalProcess, 2008, 56(6):2239- 2248.

[23]MaR,XuW,ZhangY,etal.Asymptoticpropertiesofpearson′srank-variatecorrelationcoefficientundercontaminatedGaussianmodel[J].PLoSOne, 2014, 9(11):e112215.

[24]DanielsHE.Therelationbetweenmeasuresofcorrelationintheuniverseofsamplepermutations[J].Biometrika, 1944, 33(2):129-135.

[25]MaR,XuW,WangQ,etal.RobustnessanalysisofthreeclassicalcorrelationcoefficientsundercontaminatedGaussianmodel[J].SignalProcessing, 2014, 104:51-58.

A Review on Robustness of Correlation Coefficients Against Impulsive Noise

Xu Wei-chao, Ma Ru-bao

(School of Automation,Guangdong University of Technology, Guangzhou 510006, China)

As an important tool in correlation analysis, correlation coefficients have been extensively studied and applied in many science and engineering fields. Based on two commonly used bivariate contaminated Gaussian models, this paper reviews and compares the robustness of five correlation coefficients in environments with single-channel and double-channel impulsive noise, respectively. Theoretical results indicate that the most popular Pearson′s Product Moment Correlation Coefficient is very sensitive to impulsive noise interference. On the other hand, the other four coefficients demonstrate their robustness against impulsive noise in the two models.

Pearson′s product moment correlation coefficient(PPMCC); Spearman′s rho(SR); Kendall′s Tau(KT); Gini correlation (GC); Pearson′s rank-variate correlation coefficient(PRVCC); impulsive noise; contaminated Gaussian model (CGM)

2015- 06- 16

国家自然科学基金资助项目(61271380); 广东省自然科学基金资助项目(S2012010009870, 2014A030313515)

徐维超(1970-),男,广东工业大学“百人计划”特聘教授,主要研究方向为统计信号处理.

10.3969/j.issn.1007- 7162.2015.03.001

O212.4; O211.5

A

1007-7162(2015)03- 0001- 04

猜你喜欢
单通道稳健性双通道
单侧双通道内镜下腰椎融合术研究进展
基于视听双通道的音乐情绪冲突效应及优势通道研究
基于联合聚类分析的单通道腹部心电信号的胎心率提取
近端胃切除双通道重建及全胃切除术用于胃上部癌根治术的疗效
基于扩展卡尔曼滤波和奇异值分解算法的单通道胎儿心电提取方法
会计稳健性的定义和计量
电力信息网络双通道故障自动探测策略探究
会计稳健性的文献综述
基于感知掩蔽深度神经网络的单通道语音增强方法
基于扩频码周期性的单通道直扩通信半盲分离抗干扰算法