非参数统计分析在多样本研究中的应用

2015-07-04 22:16杨雯婷
今日财富 2015年36期

杨雯婷

摘要:非参数统计方法研究的出发点是假定研究总体的理论分布是未知的,是一个待检验的假设,可以减少实际应用中对假设条件的依赖,不受样本分布形式限制。本文通过研究正常肝核糖核酸(RNA)对癌细胞的生物作用,以对照组(生理盐水)、水层RNA组和酚层RNA组此3种不同处理方法诱导肝癌细胞的果糖二磷酸酯(FDP酶)活力为样本,运用非参数统计方法对其进行实证分析。

关键词:非参数统计分析;多样本;尺度参数检验;位置参数检验

一、研究背景

当今经济研究领域,运用传统的参数统计进行实证分析非常广泛。然而,在现实生活中,传统参数统计方法对总体分布的假定常常难以满足,比如数据并非来自所假定的分布,或者数据根本不是来自一个总体,又或者数据因为种种原因被严重污染等。这样,假定总体分布的情况下进行推断的做法就可能产生错误的结论,影响决策。为此,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息,这就是非参数统计的宗旨。

二、实证分析

以小白鼠为对象研究正常肝核糖核酸(RNA)对癌细胞的生物作用,试验分别为对照组(生理盐水),水层RNA组和酚层RNA组,分别用此3种不同处理方法诱导肝癌细胞的果糖二磷酸酯(FDP酶)活力,数据如表1所示.

3种不同处理的诱导结果

處理方法 诱导结果

对照组 2.79 2.69 3.11 3.47 1.77 2.44 2.83 2.52

水层RNA组 3.83 3.15 4.70 3.97 2.03 2.87 3.65 5.09

酚层RNA组 5.41 3.47 4.92 4.07 2.18 3.13 3.77 4.26

从上表可以看出,对照组的诱导的平均FDP酶活力最小,水层RNA组次之,酚层RNA组的最大。因此可以初步认为,3种诱导作用的效果有显著差异。

(二)、正态性检验

对样本做假设检验则首先必须知道总体服从的分布,本文针对3个总体分别进行正态性检验,原假设为H0:样本所来自的总体分布服从正态分布,备择假设为H1:样本所来自的总体分布不服从正态分布。具体检验结果如下:

显然,通过Kolmogorov-Smirnov检验可知,在给定的显著性水平0.05的条件之下,在3个总体所得P值均小于α,故拒绝原假设,可以认为出这3个总体均不服从正态分布。且从现阶段所知的分布来看,无法断定其到底属于何种分布,故采用非参数方法对该问题进行统计分析。

(三)、尺度参数检验

本文中尺度参数的检验采取Mood检验。原假设X和Y同分布,即H0:b=1,备择假设H1:b≠1。通过R软件检验结果如下:

Z检验统计量的值 P值

对照组与水层RNA组 -1.3956 0.1628

对照组与酚层RNA组 -1.4349 0.1513

水层RNA组与酚层RNA组 -0.41 0.6818

表4

结果显示,对于分布函数形状的检验,在给定的显著性水平0.05的条件之下,对照组与水层RNA组、对照组与酚层RNA组和水层RNA组与酚层RNA组的尺度参数检验均全部通过,接受原假设。即3个总体的分布函数(以及密度函数)的形状完全相同,若有不同仅有可能的是位置参数不同。

(四)、位置参数检验

1、Kruskal-Wallis检验

由于本文样本为3个独立同分布的总体,因此对于位置参数的检验采取Kruskal-Wallis检验。根据题意有,原假设H0:试验中3种诱导作用的效果无显著差异,备择假设H1:试验中3种诱导作用的效果有显著差异。结果显示p=0.01895,故在给定的显著性水平α=0.05条件之下,拒绝原假设。

2、Wilcoxon秩和检验

为了进一步检验3中诱导作用中产生显著性差异的是哪一种,本文对其进行两两的Wilcoxon秩和检验。其中,原假设H0:试验中某两种诱导作用的效果无显著差异,备择假设H1:试验中某两种诱导作用的效果有显著差异。通过R软件编程检验,结果如表5所示。

W秩和检验统计量的值 P值

对照组与水层RNA组 10 0.02067

对照组与酚层RNA组 8.5 0.01564

水层RNA组与酚层RNA组 27 0.6454

表5

结果显示,在给定的显著性水平0.05的条件之下,对照组与水层RNA组、对照组与酚层RNA组的位置参数检验没有通过,因此拒绝原假设,认为对照组与水层RNA组、对照组与酚层RNA组的诱导作用效果有显著性差异。但是水层RNA组与酚层RNA组的Wilcoxon检验结果显示,在给定的显著性水平0.05的条件之下,不能拒绝原假设,即没有证据表明水层RNA组与酚层RNA组的诱导作用效果之间存在显著性差异。

三、结论

通过本文可以看出,在生物医学领域,非参数统计具有非常广泛的应用前景。非参数统计方法不仅可以像参数统计方法一样用于处理定距、定比数据,更适合处理定类、定序数据。参数方法对数据要求较多,而非参数统计方法则不同,研究的出发点是假定研究总体的理论分布是未知的,是一个待检验的假设,实际应用中这种问题是非常普遍的。非参数统计方法减少了实际应用中对假设条件的依赖,进而使得对多样本问题的研究更加客观,不受样本分布形式限制的,应用范围、发生模型错误的可能性较小,有较大的稳定性,同时方法简便易行,直观性强,易于接受和理解。此外,在本文的实证研究中,所有检验均为应用R软件编程运算,因此 R 软件具有实现比较非参数统计分析的强大功能。