随机抽样模型的两种算法设计与仿真

2014-09-10 17:44姚佳

电脑知识与技术 2014年6期

姚佳

摘要：在科学调查、质量抽检、福利彩票中需要用到随机不重复抽样算法，即抽中的单位不再放回总体，样本中的单位只能抽中一次。普通计算机程序在执行过程中，为串行计算方式，无法同时产生多个相互孤立的样本，文章设计了两种算法，在一次运行过程中，可产生多个不同样本值，并使用JAVA语言在不同应用环境下进行仿真测试，呈现算法思路，分析其复杂性和试用范围。

关键词：随机抽样；伪随机数；状态标记；数组；链表；约瑟夫问题

中图分类号：TP391.3 文献标识码：A 文章编号：1009-3044（2014）06-1299-04

Two Algorithms and Simulating of Random Sampling Model

YAO Jia

（Anhui Vocational Technical College of Posts and Telecommunications， Hefei 230000， China）

Abstract： In scientific researching， quality inspection and the welfare lottery need to use random sampling algorithm without replacement， means the sampled unit does not put back the overall， units in the sample can only been sampled one time. The implementation process of general computer program is serial computation， so can not produce more than one isolated samples. This paper designs two algorithms， can produce more than one different samples in one running process ，and does simulation test in different application environments by the JAVA language. Presents the algorithm thought， analyzes its complexity and scope of the application.

Key words： random sampling； pseudo random number； state marking； array； linked list； Issue of Joseph

随机抽样算法广泛应用于计算机系统、统计和科学应用中，用于那些不需要处理全部数据或者从时间和资源的角度考虑过于昂贵的场合[[1]]。

当调查对象数目巨大时，充分解每一个个体，非常困难。通常会让一部分样本来反映整体，由于不同个体存在差异，需要随机抽取样本，利用计算机平台进行随机抽样，可以避免各种因素的影响和人为干扰，保证调查结果的客观公正性。因此，随机抽样算法在社会调查和社会研究中应用较广泛[[2]]。

1 串行程序产生多个随机数执行过程

普通计算机程序为顺序执行，可利用java语言API 函数java.util.Random产生单个伪随机数，但无法同时产生多个互相独立的数值。如图1所示，为产生三个随机数的执行过程，每次执行相互独立，因此同一个数值会重复出现。在实际应用过程中，往往需要保证元素不会被重复抽取到，即不重复抽样，[Random1、Random2、Random3]两两不同，实现某次被抽到的元素不会被再次抽取[[3-4]]。

为实现这一目标，通常会采用的设计思路为状态标志，即定义一布尔型数组，赋值为全真或者全假，与采样元素一一对应，如采样元素被抽取，则其对应的状态标志元素发生改变，标记为已使用，在下次抽样过程中不会被重复抽取。另外一种常用的设计思路为，将已经抽取的元素从资源库中删除，实现不重复抽样。基于这两种设计思路，将分别设计论文抽检系统与彩票抽奖机，具体展示算法执行过程，并进行性能分析。

2 论文抽检系统设计

学位论文作为研究生教育的重要组成部分和研究生教育的总结性成果，集中反映了研究生的理论基础、专业知识、学术水平和创新能力。因此论文质量综合反映了研究生教育的水平和质量。论文抽检系统，如图2所示，即从学位论文资源库中随机调取一定比例的文献，进行质量评估分析，如是否存在抄袭，论文学术水准偏低等情况。利用计算机平台，可有效降低人为因素的影响和干扰，使抽样结果客观公正[[5]]。

图2 论文抽检平台系统结构

设计一包含十篇学位论文的资源库进行算法模拟，随机从中抽取三篇。对每篇文献进行状态标记，如果已经被抽取则算法重复执行，寻找未被抽取文献。

False False False False False False False False False False