大数据背景下非概率抽样的统计推断问题研究

2017-07-21 20:05胡俊红
数学学习与研究 2017年13期
关键词:大数据探究信息

胡俊红

【摘要】本文从大数据时代下分析数据的有效性这一前提出发,介绍有关非概率抽样统计的相关知识;并且就现有的非概率抽样方法结合互联网发展的趋势,提出对大数据背景下非概率抽样的统计方法的建议.

【关键词】大数据;非概率抽样;信息;探究

现在的社会已經步入了大数据时代,但是就其现状而言,大数据还不能完全与总体相提并论,且由于其具有的大量性、非结构化和来源复杂等特点,还会受到计算能力和存储能力的限制,使得传统的数据抽样判断理论运用到非概率样本上的难度较大.而且随着计算机网络的发展,网络调查也已经成为现代化数据搜集的一个重要组成部分;更重要的一点是,近年来,对于大数据背景下非概率抽样的统计的讨论越来越激烈.于是,合理有效地利用非概率抽样的统计推断问题已经成为信息时代发展的大环境下人们普遍关注的一个重点,也是对于相关工作人员来说的一个巨大的挑战.

一、现有非概率抽样方法简介

(一)时间地点抽样

顾名思义,时间地点抽样就是指在特定的时间和空间内对目标群体进行的一种抽样活动.正如它的名称一样,时间地点抽样具有如下特点:首先,它主要是在无法获取抽样框的情况下进行使用,以便能够达到最好的效果;其次,它的运用也主要是通过构造抽样框将时间和空间运用到改抽样框中进行的.当然,时间地点抽样也同样具有一定的缺陷,比如,虽然时间地点抽样将具体的抽样数据划分为很小的业务单元,但是在实际执行中对于合理的通过抽样数据来推断总体的情况仍然具有较大的难度,而且其变差的存在则是难以避免的.它的具体工作流程是先利用现有的数据来粉刺总体的大致情况,然后,再根据所具有的时空单元目录来完成具体的抽样过程.

(二)滚雪球抽样

滚雪球抽样的实际操作流程其实就是如其名称一样:首先,选择认为合适的目标对象作为抽样单元,然后,再依次选择符合条件的个体参与到抽样活动中,随着该工作流程的逐渐深入,参与到抽样的阉割版单元越来越多,最终就会像是堆积成为一个大雪球一样,使得参与抽样的个体数量充足,也使得抽样所得出的结果就有很好的说服力,更加具有信服力.

(三)目标抽样

目标抽样是一种较为简便的抽样方法.其工作流程就是通过多种不相关的延伸方法在总体范围中获得出样的单元.由于该抽样方法实现会大致对抽样单元的范围进行划分,导致该方法显得不具备随机性,使得该抽样结果的合理性不具有说服力,不利于更好地通过样本来推测总体.但是就其工作流程上来说,目标抽样和事件地点抽样难度较低,在总体数据量较大的情况下,使用该类抽样方法会大量地节省人力物力.

二、具体方法的讨论

虽然有关非概率抽样统计推断问题的方式有很多种,但是本文主要是以匹配样本的选择思路为例,对具体的方法进行探讨.例如,在对大规模的人群进行调查访问时,最开始需要做的就是选取合适的抽样单元,其选择要求就是需要符合样本单元选择的随机性;特别的是,当存在辅助变量为已知时,此时需要注意的就是在样本的选取时要更加注重各数据之间的对称关系.

为了更好地了解匹配样本,还需要对其特点进行分析.在保证匹配样本有效性时,还需要事先假定三个前提条件:首先,要假定其具备平稳性,指的是对于给定的数据之间能够形成一段平稳的三维函数,其间波动起伏不大且没有明显的端点;其次,还要假设样本的匹配是可以被忽视的,指的是在检测匹配量相同的网络访问时,不对固定网络成员与非固定网络成员的区别格外加以探究,在一定程度上对样本匹配之间的差异进行忽视;最后,假定样本的匹配变量之间会存在共同的依靠,指的是虽然样本在起分布上会有重叠的现象,但是在一定程度上排除了出现不能匹配的情况.

三、大数据下使用非率抽样方法的建议

(一)改进目标抽样方法

要充分认识目标抽样的优劣,合理地使用目标抽样方法,使得效果最优.比如,在互联网的环境下,当遇到目标数据的密度大且易于识别时,要在开始工作之前对目标抽样所涉及的数据范围进行筛查,选择最优的目标范围;并且还需要衡量选取目标的合理性,适当改进目标抽样的基础.

(二)充分运用已有信息

在进行时间地点抽样时,由于需要事先建立抽样单元框.为了提高非概率抽样的准确性和效率,需要在工作最初发现有关的信息,并且充分合理地运用该类信息,注重观察各类数据之间的关系情况,用不同的样本单元来划分目标群体,减少抽样带来的误差.

(三)充分利用科学技术

在日常工作中学会合理有效地运用已有的现代化信息技术,发掘出这些技术平台所隐藏的大量的有用的信息,来减轻工作的难度并且提高工作的效益.

四、结束语

大数据时代的发展是科学技术发展的反应,是一个不可逆的过程.非概率抽样的方法种类较多,但是大数据下更加强调的是使得非概率样本与概率样本相接近.本文从介绍大数据下非概率抽样的研究意义开始,通过对几种非概率抽样方法的介绍和分析其优劣来引出大数据下非概率抽样的思考,希望借此能够对于非规律的抽样的发展引起一些共鸣.

猜你喜欢
大数据探究信息
一道探究题的解法及应用
一道IMO预选题的探究
探究式学习在国外
一道IMO预选题的探究及思考
基于大数据背景下的智慧城市建设研究
健康信息
健康信息(九则)