王雅辰
摘要:通过对《女士品茶》这本统计学相关著作的阅读,结合金融专业基础课程应用统计学的学习及相关文献的研读,我对应用统计学的整体框架有了更深层次的认识和理解。本文认为,在应用统计学的学习和不断探索过程中,“求共存异”的思维在解决统计学问题中非常重要。在当前大数据时代下,非参数方法的使用将会是未来应用统计学的发展趋势。
关键词:“求共存异”;大數据时代;非参数方法;
下面本文从“求共”与“存异”两个方面来介绍“求同存异”的统计学思维,进而探索当今大数据时代下统计学的发展趋势。
一、“求共”思维
第一,中心极限定理下的“求共”思维。
《女士品茶》第9章“钟形曲线”中提到,中心极限定理、大数定律、数理统计基本定理这三个“基本理论”中最重要的是中心极限定理。中心极限定理阐明,无论初始数据是怎么来的,这个分布都可以用正态概率分布来逼近。这个正态概率分布与拉普拉斯的误差函数相同,有时也叫高斯分布,而在浅显通俗的普及书里,也常被称为“钟形曲线”。 由此可以看出中心极限定理理论中的“求共”思维。不管数据来自什么地方,以什么形式和渠道获得,大量数据的平均值都可以认为是近似服从于正态分布,中心极限定理下的“求共”思维让这些看似复杂的问题变得有法可循。
第二,建模中的“求共”思维。
《女士品茶》第九章钟形曲线讲到了运筹学这一学科的产生与发展。英国1948年经济就恢复到二战前的水平,比一战后到1925年恢复战前水平花费的时间要短的多。 二战期间不同专业研究领域的科学家们联合研究了有关战争的一些问题,由此“运筹学”诞生。这些科学家们要解决的问题包括远程轰炸机对战潜水艇的最优方案;军队的食物补给问题;为前线军火补给站选择最优位置等等。同样的步骤和许多相同的方法也能用来组织工厂里的生产,找出仓库与销售部门之间的最优关系,解决许多别的商务问题,均衡有限的资源,或改进生产与提高产量。 解决这些问题时需要构建模型,而同一类问题需要构建同样的数学模型。在模型的构建过程中会用到许多相同的步骤和类似的方法,提取其中的共性因子总结结论,归纳整理成一类问题,这就是建模中的“求共”思维。
第三,跨学科理论融合的“求共”思维。
《女士品茶》第八章“致死的剂量”中讲到了切斯特·布利斯在探究如何构建模型分析杀虫剂作用这一问题上发明出的一种叫做“概率单位分析”的方法。书中讲道,布利斯的概率单位分析已被成功应用到毒物学。从某种意义上说,源于概率单位分析的认识已经形成了毒物学这门科学的主要基础。 布利斯的概率单位分析方法的思想来源于皮尔逊的统计分布,而这种采用概率分布的新的数学思想与毒物学的结合体现了不同学科理论的融合。由此可以看出,“求共”思维在一定程度上推动了应用统计学甚至其他学科领域的发展。
二、“存异”思维
统计学的发展和革命中有许多“求共”思维的展现,其中也包括一些“存异”的地方。比如20世纪才逐渐发展起来的统计学中的思想与逻辑思想存在不相容的地方。美国数学家埃里克贝尔说过:“数字不会说谎,但它有个偏好,就是在存心说谎的时候讲出真相。”统计学思维给出了一个受用于实际生活的启示:问题和错误总的来说无法避免,重要的不是杜绝而是降低问题发生的概率,从而最大概率避免危害的产生。这就是统计学中的“存异”思维。比如说总有杀虫剂杀不死的虫子,没有“零缺陷”的汽车和产品。并不是说彻底杜绝问题的发生毫无可能,只能说不能有百分之百的把握认为杀虫剂一定可以杀死所有虫子,没有百分之百的把握认为生产线上的所有汽车和产品都“零缺陷”。因此需要有“存异”思维,不以杜绝问题的发生为最终目标,而以降低问题发生概率为目标。
目前,回归分析中的参数检验、t检验、z检验、时间序列数据分析中的许多模型都用到了假设检验。如果韦恩的概率定义不正确,那么应用到韦恩概率定义的各种理论和模型都是不可靠的。“存异”思维表示要接受这一定义存在争议的问题,为了最大限度降低错误发生的概率,未来的统计学研究中应该将概率论与数理统计结合起来加以研究。
《女士品茶》第十六章介绍到了非参数方法并在章节最后提到了非参数检验的发展过程中几个尚未解决的问题,包括参数检验和非参数检验的选择以及非参数方法的使用条件。随着大数据时代的发展,在大数据分析中,非参数方法相较于参数检验方法适用性更高。由于大数据样本容量大,类型复杂的特点,快速根据数据分布类型确定模型的难度很大,因此这时候就无法用参数检验的方法。此外,测量误差和离群值会影响数据的处理和分析以及对预期的估计。在过去的三十年中,已有的用来处理可能包含异常值的数据的方法大多是半自动的,或者在涉及大型数据集时需要大量的计算时间。 基于短时间内很难判断出大数据的模型这一现状,未来统计学的发展方向可能会向非参数方法模型的构造倾斜。
三、结语
统计学思维不仅仅体现在对待数据的认真,处理数据时的严谨,分析问题的全面,还应该有“求共存异”的思维。“求共”——将不同的问题提取共性因子归纳为一类;“存异”——接受不同,接受争议,将有争议的不同问题融合起来进行分析。随着当今大数据时代的变迁和发展,统计学也将会朝着更加完善,适用性覆盖性更强的方向发展。
参考文献
[1]萨尔斯伯格著:《女士品茶》,中国统计出版社,2004年,第80,89,74,273页。
[2]车效梅:“浅析第二次世界大战对社会生产力发展的影响”,《生产力研究》1998年第3期,第2页。
[3]林菁:“大数据背景下统计信息化的应用研究”,《中外企业家》2020年第17期,第94-95页。
[4]Dariush Khezrimotlagh,Wade D. Cook,Joe Zhu:“ A nonparametric framework to detect outliers in estimating production frontiers,” European Journal of Operational Research, Vol.286, No.1, 2020, pp.1-2.
[5]Dariush Khezrimotlagh,Wade D. Cook,Joe Zhu:“ A nonparametric framework to detect outliers in estimating production frontiers,” European Journal of Operational Research,Vol.286,No.1,2020,pp.1-2.