一种基于给定标准对数据进行正态修正的算法

2016-07-10 08:07杨毅宇
电子技术与软件工程 2016年8期
关键词:数据分布

杨毅宇

摘 要:在数据随机采样与统计的过程中,根据实际情况可能需要对数据分布进行正态化调整。本文研究的内容是在给定平均值和标准差的前提下,将样本数据的分布修正为理想正态曲线的一种方法,此方法可适用于数据信息偏离正态分布的各种情况,比如土壤元素、年降水量等。

【关键词】数据分布 给定标准 正态修正

1 引言

如果数据的产生过程受到独立随机因素的影响,那么数据的分布规律应当符合正态分布,然而在实际的测量与评价过程中,由于人为因素的影响,最终采集的数据可能偏离了正态分布,这时就需要对数据进行正态修正,以使其恢复本来的样子。

以往采用的方法之一是先计算出数据的平均值和标准差,据此构造出正态分布函数,并按照事先定义的划分规则,计算出各个划分上期望达到的分布频数,然后从较高划分开始,将每个划分的期望频数a与实际频数b对比,如果a大于b,则从下一个划分中将最高值“拉”到本划分中;如果a小于b,则将本划分中的最高值“推”到上一个高划分中,这两种操作都一直进行到各个划分达到期望频数为止。这种方法在一般情况下,处理以后的数据结果可以很接近期望的正态曲线,但是“推”或“拉”的操作,都具有向较高划分段跃进的趋势。

本文介绍的修正方法根据给定的平均值和标准差构造出正态分布曲线,并计算各个划分上的期望频数,然后根据各个期望频数值,从原始分布中按排名顺序提出相应数值,并按原始分布比例映射到相应区间上。本文所讨论的是进行正态修正的一种方法,可以应用在诸如土壤元素、年降水量等数据方面,在数据信息偏离了正态分布性,需要进行修正时,才是本文所讨论的范畴。

2 基于给定标准进行正态修正的算法

2.1 计算正态分布下的期望频数

设数据样本为,即共有n个数值,且这些数值按照从高到低有序排列。以5为一个划分,则0-100可分为20 个划分,用表示每个划分上的期望频数。给定平均值μ和标准差σ,则可得到期望的正态分布曲线:

以此作为概率密度函数在各个数值段区间上求积分,再四舍五入取整,即可得到各个区间的期望频数:

这一步需要注意的是,由于对各个划分的计算结果进行了四舍五入,所以最后得到的总频数可能会产生误差。比如对20个样本数据进行计算的实际结果为(1.5,2.6,6.2,5.8,2.4,1.5),四舍五入操作后变为(2,3,6,6,2,2),总和变为了21。对于这样的情况,本文的处理方式为:如果期望频数总和少于实际频数总和,将被减少的误差频数加到第二高划分上;如果期望频数总和大于实际频数总和,将被增加的误差频数从最低划分减掉。

2.2 将原始数据按期望频数映射到各个数值段

从最高划分开始,依次分别从原始数据中取出个数据,构成各个待调整区间,对应的调整目标区间为,设原始数值为,调整后数值为,则可按照下式进行映射:

另外,为了避免调整后出现前一区间的最小值与后一区间的最大值相同的情况,可以设定一个边界因子,在计算前进行如下操作:

这样做相当于扩大了待调整数值的上下边界,使得调整后的数值能够全部落在区间边界的内部。

比如,待调整的数值为(87,89,91,93),目标区间为[90,95],取边界因子,则,,调整后的数值为(90.63,91.88,93.13,94.38)。

需要注意的是,当取出待调整数值的时候,有可能出现l-1,即待调整区间末端的数值与下一个数值相同的情况,这样就需要将后面所有相同的数值也一并取到待调整区间中来,同时相应地调整这两个涉及到的区间的期望频数。

3 实验结果分析

采用本文的修正算法,我们在Java开发环境下进行模拟运算,以某门课程的期末考试数据为样本,样本容量为51,其原始数据分布如表1所示。观察直方图可发现频数的分布并没有较好地符合正态分布特性。

我们设定平均值68.8,标准差7.3,对数据数据进行调整后,数据分布如表2所示。观察直方图可发现,不仅数据的频数分布很好地满足了正态分布的特征,且不及格率也控制在了合理水平以内。

本文提出了一种基于给定标准对非正态分布的数据进行正态修正的算法,以某门不符合正态分布特征的课程考试数据为例,根据给定的合理平均值和标准差,用本文中的算法对数据按划分进行了调整,调整结果不仅没有影响原先的排名顺序,而且按比例保持了原始数据之间的距离,同时调整后的数据很好地符合了正态分布特性。

参考文献

[1]郑月锋,形春波,黄德才,朱凌.修正数据为正态分布的一种新算法[J].统计与决策,2008,13(142).

[2]赵逸云,黄兆雄,唐智杰,赵军平.一种简单、可靠的数值正态化及标准化换算方法[J].云南大学学报,2004,26(163).

作者单位

大理大学教务处 云南省大理白族自治州 671000

猜你喜欢
数据分布
关注数据分布,把握统计量本质
关注数据分布,把握统计量本质
高职学生心理测评一级心理问题数据探析
改进的云存储系统数据分布策略
自适应稀疏表示引导的无监督降维
数据分布特性对空调系统能耗预测的影响
无线电通信仿真的大数据分布管理
基于相对密度的加权一分类支持向量机
试论大数据之“大”
对数据分布特征测度的分析