宋英慧
摘 要 由于放射性测量的数据缺失在数据调查和采样中的广泛存在,而缺失数据对数据质量和分析结果的影响是至关重要的。因此,对测氡数据进行有效的预处理具有非常重要的理论和现实意义。本文主要针对数据预处理中缺失数据的处理问题进行研究和探讨。
关键词 活性炭测氡法 数据缺失 期望最大化法
中图分类号:P631.6 文献标识码:A
Radon Measurement Data Processing in
Applied Geophysical Exploration
SONG Yinghui
(Resources Engineering Department, Liao Yuan Vocational Institute of Technology, Liaoyuan, Jilin 136201)
Abstract Since the radiometric data missing in widespread investigation and sampling data, and the impact of missing data on the data quality and analysis is essential. Therefore, effective radon measurement data preprocessing has very important theoretical and practical significance. In this paper, data preprocessing for handling missing data problems studied and discussed.
Key words activated carbon radon measurement method; data missing; expectation maximization method
1 测氡数据的缺失模式
当选用活性炭测氡法进行实际工作时,主要分两部分:一是野外布线探测,二是数据的提取和处理分析过程。通过野外布线探测获得大量数据,它们是解决实际问题的主要依据,对其进行系统的有效的数据处理,将有助于我们对测量结果的推断解释。布置点的观测数据的处理主要包括:数据预处理;二次数据处理;数据结果成图解释。具体步骤如图1所示。
目前,活性炭测氡数据处理方法和软件的研究主要是从放射性测量的特点出发的,对数据缺失问题的关注较少,多数时候是通过经验手工填补或者就不处理,而数据缺失的普遍存在,以及对数据进行二次处理时的大多分析方法都要求数据必须是完整的。所以,对测氡数据进行缺失数据填补也是至关重要的。同时,这也为数据成图打下了良好的数据基础。
在对数据缺失及其处理方法做了认真研究和比较的基础上,对活性炭测氡数据的特点及各种影响因素进行了详尽的分析后,面向活性炭测氡数据处理和实际应用要求,采用期望最大化法、回归法,多重填补法对测氡数据缺失情况进行处理。同时,这些填补方法也可以应用于基于大量面积性数据的其他物化探等数据处理的研究与实践工作中。
测氡数据的缺失模式可以分为单调缺失(见图2)和任意缺失(见图3)两大类,图中问号表示缺失的数据。
2 测氡数据的缺失处理方法
2.1 期望最大化法 (EM)
如果我们假设缺失数据为随机缺失模式,而且建立了能正确反映出完整样本的模型,那么我们就可以利用已存在数据的边缘分布进行缺失数据的极大似然的估计。而通常期望值的最大化法是对参数进行极大似然估计的最常用方法。期望最大化法是对ML法的扩展衍生,属于一种迭代的优化处理法。EM法的主要思路就是先对缺失数据进行估计,然后再计算参数值。也就是说先假设数据是完整的不存在缺失的,进而求出最大似然估计值,在此基础上进行E步骤,在已经计算出的参数最大似然估计值与已有完整数据的基础上,求出缺失的数据的条件期望值,用以替代缺失值,重复进行一直到各参数估计开始收敛。这钟方法是适用在大样本这一重要前提下的,因为较多的有效数据的数量足以保证其极大似然的估算值满足渐近无偏估计,并同时服从正态分布。
2.2 其他填补方法
测氡数据的填补方法除了选用EM法外,还适用回归填补法和多重填补法,利用回归技术来填补缺失了的数据的方法就称为回归填补法。该方法运用多元回归法构建数据集中缺失变量与所有完整变量之间的回归模型,通过模型的估计值替代缺失的估计值。线性回归填补法是最为典型的一种回归法。
多重填补(MI)法,最早由Rubin教授提出,后来经过一系列的补充与完善才渐渐形成了现在这样一个更实用更系统的理论成果。它不仅保持了大部分单一值填补法所具有的优点,还弥补了它们所存在的不足,改善了它们的缺点,使缺失数据的填补替代值更进一步地靠近真实值。 MI法开始时候多用在社会普查等大样本数据集的分析处理上。
3 结束语
EM法、回归法和多重填补法较传统手工填补方法,不仅扩大了处理范围也大大的减少了工作量,传统的方法在缺失率大于15%时已经不再具有优势,而且单调缺失需要依靠于工作人员的个人经验,稳定性并不很好。
总之,EM法的填补效果与稳定性较优,回归法次之,MI法较差。三种方法在单调模式下的填补效果远不及任意模式的,在缺失率达到25%时就已经有明显偏差了,低于20%的填补效果还是可以接受的。
参考文献
[1] Dempster A.P.,Laird N.M.,Rubin D.B.Maximan likelihood estimation from
Incomplete data via the algorithm[J].J Roy statist Soc B,1977.39:l-38.
[2] 金勇进,朱琳.不同插补方法的比较[J].数理统计与管理,2000.19(2):50-54.endprint