◎蒋亚飞
大数据情形数理统计和并行计算方法研究
◎蒋亚飞
当前时代对信息数据的分析与统计提出了更高的要求,数理统计作为其基础被广泛关注及研究,以便为实现数据的高效统计及应用提供必要有效的保障。并行计算相对于串行计算来讲,具有其独特的优势及发展前景,对实现数据统计具有重要作用。本文结合笔者的实践经验,对数理统计的基本情况及要点进行了分析,对并行计算的发展及模型建立进行了说明,并提出了优化措施以供参考。
大数据 数理统计 并行计算
大数据分析在这些年的研究较为广泛,且取得了较大的进展。然而,在大数据背景下对数理统计方法的研究及创新已出现了新的方式及变革,使得统计更具科学性及有效性,有利于当前大量数据的分析与统计。计算机技术是目前科学技术发展的重要成果,对现有数据的统计及分析具有重要意义。纵观现有数理统计方式及应用现状,各类性能高、专业性强的软件的使用为实现数据高效统计提供了技术支持;但数据的多样化及复杂化也对软件功能的发挥及效率提出了严峻的挑战。对此,本文结合现有计算机技术、并行算法模型的建立及应用可对其数据分析与统计提供必要的技术支持,对数理统计方法及并行计算模型的研究情况进行了分析与总结,以便后期数据统计方法的研究。
(一)大数据情形下的数理统计说明及思考
大数据时代下,数据的庞大及变化性呈现出较多的规律。就目前数据分析概率来讲,以应用概率学的基本理论结合数理统计的方法进行分析,将对数据规律的分析与创新具有极其重要的作用。同时,数据分析与其他相关类学科相比,复杂性与其他学科相互融合,在增加其分析难度的情况下,也提高了其数据统计分析的有效性。对此,在当前数据分析中,数理统计方法与其他学科的相互渗透已成必然趋势。但就目前数据分析情况,研究方法及模式还存在一些问题,导致其难以实现理论向实际快速的转变。因此,研究一套完整的可用于目前大数据时代的数据统计方法对当前数据的分析具有极大的应用价值。
(二)大数据时代下并行算法的解读与思考
对于目前大数据分析的实际情况及计算机技术的发展与使用,其串行的处理方式已无法满足目前时代的发展及人们的需求,并行算法已成为主要发展趋势。关于并行算法,现行的主要有以下两种模式,即细粒度并行计算与粗粒度并行计算。但基于目前并行计算方式,在数据分布处理中仍存在不少的问题:一是节点间通信对并行处理的代价,如一些操作中的搜索、计数等可在各节点独立执行,使得其各节点数据处理后的合并及通信不可避免。二是节点间的负载不平衡性。如何实现数据在各个节点的平均分布对数据平衡计算具有积极的意义。三是可靠性。如节点集群常出现的节点故障问题对其可靠性造成了影响,而通过节点复制数据可解决上述问题,不仅提高了数据分析效率,也可冗余应对节点故障。
基于目前数据分析与处理情况,大数据处理与分析中应用较多的主要集中在数据仓库技术、预测分析技术及数据统计方法等,其对于企业分析具有极大的应用价值。从当前情况看,实现数据存储并非难事,但如何对其进行高效存储应作为重点进行考虑,以实现其数据转换时不出现由于转储、抽取、整合所带来的数据延迟;同时,有效的数据预测分析技术将对其实现企业决策具有重要意义。在当前计算机技术高速发展的同时,大数据时代的到来将对并行算法模型的研究及应用提出更高的要求,特别是提高数据处理的质量及效率。因此,加强大数据处理并行计算模型的研究及优化具有重要意义。
(一)数理统计的重要性分析
各行各业在进行科研工作时难免会涉及各类变量大小、离散情况以及数据特征的描述,如何对其实施有效分析与统计至关重要。然而,数理统计学所关注的焦点就在于将各随机变量及其相互之间的关系进行定量定性描述;对此,数据统计学在大数据分析中具有极其重要的作用。如何使用数理统计方法及正确作出客观、可行的结论是进行数理统计分析的重点,也是关键所在。进行数理统计作用重大,一方面,可靠的数理统计数据可对各变量的变化趋势有较为清晰的了解与掌握,对于相关学者及决策者进行方案的制定将起到积极作用;另一方面,数理统计也是对方案实施效果的一种有效验证工具及手段,有利于问题反馈,对于推动事件有效发展具有重要意义。
(二)数理统计软件的选择
可进行数理统计的分析软件现在有很多种。采用EXCEL电子表格作为数据统计分析工具,在早些年被广泛应用于各行各业,其强大的数据统计功能及便捷的操作很好地满足了当时数据的计算与分析。但随着数据网络化程度的发展及人们对统计效率及效果要求的逐步提高,EXCEL电子表格已不能满足数据统计专业化的分析要求,如数理统计分析中一些特值的计算及趋势动态分析等。尤其对于特殊行业,如医学等。因此,选择合适的分析软件对实现数据合理分析具有重要的意义。
目前,国际上已开发出专门应用数据统计分析的软件,较为著名的有SPSS统计分析软件与SAS数据统计分析软件。另外,BMDP和STATISTICA等软件在实现数据分析统计中应用也较为广泛。如SPSS软件,具有极强的专业性,针对社会科学、自然科学领域研究设计,应用较为广泛,统计所形成的数据国际认证程度高。在日常交流中,采用该软件分析所得的数据可不必说明其具体算法,可见该软件的国际认可度及专业性。
SPSS是专门为社会科学领域的研究者设计的,但此软件在自然科学领域也得到广泛应用。BMDP是专门为生物学和医学领域研究者编制的统计软件。
(三)均值计算与相关性分析
在数据分析中,均值及其相关性的计算与分析是基础,也是表明数据变化趋势的主要指标。所谓均值,即反映随机变量大小的基本特征,可通过对均值的计算实现对数据数学期望的真实反映。如学者及统计分析人员在对数据进行统计分析时,常出现对相同采样或同一条件下的随机变量多次取值,为表证其数据观测总体大小值,相关人士常采用直接计算数据的算术平均值或标准差。采用这种方法虽然可以起到对数据大小进行表征的效果,但严谨性较差,部分统计结果可能是不正确的。
在分析中也常出现计算数据相关性的问题。因此,对相关性的分析,如秩变量一般别无选择,只能计算Spearman或Kendall秩相关系数。而对于数值变量,应尽可能使用检验功效最高的参数方法,以便做到有效的统计计算的目的。一般情况下,相关系数的选择依据是确定变量是否符合正态分布或变换后的数据是否符合正态分布。如样本数据不符合正态分布,可在对数据处理时应采用适当的方式对其进行数据变换,并针对变换后的数据计算Pearson积矩相关系数;否则,应改用检验功效较低的Spearman或Kendall秩相关系数,以保证数据的可靠性及有效性。
(一)并行算法的历史回顾
在计算机技术发展的初期,串行计算是其主要的设计及开发模式。可以说,当时的计算机从体系结构及应用软件等方面,基本采用串行计算方式;但该种方式计算能力有限,随着数据量的逐步增大及数据统计的愈发频繁,该方法的瓶颈则越发被人们认识,并体会到采用并行计算是解决串行计算瓶颈及提高计算能力的有效手段。如并行计算可分为以流水线为代表的时间并行及对处理器为代表的空间并行等,极大地利用了计算机资源,提高了程序的利用率。
但关于并行计算的研究,在一些重要领域如科学、军工等,应用得到了推广并取得了较好的效果。但在其他领域,却未得到有效的发展,具体存在几个方面因素:一是分布式并行门槛较高,且对于实现分布式并行程序执行具有其不确定性及异步性,需要复杂的通信及调度并发控制,但由于早期计算模型在容错性、可扩展性等方面存在不足且抽象层次低,实现高层次并行计算程序的编写比较复杂。二是并行计算对软件及体系结构的依赖程度高且存在扩展性差、管理难及能耗大的问题,对于一些大型单位,如国家实验室、航空航天等机构具有较多的资源可使用,但对于一般单位应用还存在一定的局限性。在目前大数据时代下,并行计算的发展带来了极大的机遇与挑战。如云计算为分布式计算机并行计算提供了有效的平台,另外数据密集型的生产及科研已成为行业发展的主要趋势,并行计算为实现大数据的有效处理可提供积极的支持推动并行计算的发展。
(二)并行算法模型的建立及优化
P-DOT并行计算模型是重要模型,对实现大数据处理与分析具有重要作用。在我国经济与科技不断进步的过程中,该模型的影响范围越来越大,其在应用过程中不仅呈现出传统并行计算模型所没有的功能,同时在其基础上形成的计算方式能够有效形成时间成本函数。同时,在目前的大数据应用中,对实现实时数据流的分析与统计是数据统计主要关注的问题,低延迟是对该列数据流最重要的要求;在使用面向批处理高度优化的MapReduce算法模型直接处理无界的数据流具有很大的应用局限性,无法满足流式应用对实时性的需求。而学者将MapReduce模型与典型的数据流系统进行融合形成更高效的并行处理架构,为保证其数据的有效处理提供了新的途径及解决方式,而这种面向流数据的专用并行计算模型作为解决上述问题的根本途径受到业内人士的高度重视。
综上所述,数理统计是当前大数据时代进行数据分析与决策的有效工具,对推动行业的发展具有重要的作用。而数据分析随着科学技术的进步及经济的发展,传统领域对数据统计的要求越来越高,数据统计方法的研究及应用已成为推动行业发展的主要动力。笔者对现有数据统计方法进行了分析与说明,对常用数理统计软件及要点进行了分析;同时结合当前计算机技术及大数据要求,对传统串行计算方式与并行计算进行了对比,指出并行计算是发展的主要趋势;最后对并行计算模型的建立及优化进行了确认。
(作者单位:江西财经大学)
责任编辑:张永辉