黄红贵 黄加生
摘 要:面向大数据的分析而构筑起了数据科学,来帮助人们分析、处理实际的问题。然而数据搜集的模式不断发生着翻天覆地的变化,使得统计分析往往因为受到大数据方面的影响而随之革新。另外,刨去以往常见的属性数据以外,目前非结构、半结构还有关系数据应运而生,极大充实了数据类型,统计的角度同样有所拓展。随着数据激增并展露在大众的视野之中,数据库涉及的关联信息逐步彰显了自身的价值。本文由现下统计学研究的状况以及暴露出的问题入手,面向数据科学统计加以了具体的解读和讲解,以求推动这一领域把握未来的机遇,实现持续的进步。
关键词:大数据;统计学;内涵
曾经许多数据由于记录能力方面的約束而只能存储一部分,但是由目前的知识经济来看,知识增长元素跟随着知识数字化元素不断突破,因而数据被视作21世纪新诞生的经济资产类型,所以我们当下既面临着机遇,同样要接受挑战。在数据发挥其作用的过程里,我们需要通过适宜的操作落实计量。然而,现行的大多数以往的经济统计手法并无法从整体上达到商品目标还有响应服务目标的条件。经济的持续的发展离不开三点:数据信息生产、数字分配还有数字使用内容。由于经济增长的作用因素、消费因素还有投资背景的影响过于明显,进而无法直观看到数据的贡献,所以面向数据科学的探析具有深远的含义。
1 数据科学的解读
通常来讲,统计学分析的大致内容就是数据,然而这一片面的印象让人们普遍认为数据科学元素以及统计学元素存在着千丝万缕的关联。曾经出现统计领域的研究者要求面向统计学的内容加以新的界定,其后统计学受到了数据科学领域的代替,然而二者并不能混为一谈。
以上涉及的数据在含以上相对宽泛,如果面向具体事物的演变过程以及外观表现等加以适当的记录,同时添加响应符号信息的区分,这些将被视为是数据,这里面涉及的还有数字信息、文字还有音频等。传统意义上的统计学包含的数据能够被划分成众多类别,这些数据纷纷归入系统结构化的内容,然而由数据科学的角度出发,数据涵盖的内容更加宽泛,被人们称为大数据。
2 数据科学统计学内涵要素
2.1 基本理论
面向诸如现实复杂数据集还有高位数据集等的要素,需要获取达到预测要求的方案,而突出的问题为其对应的可解释性不强,另外在计算效率以及拓展能力上相对优越。以算法为前提,形式对照非参数方法接近,但响应的要求明显要弱,因为非参数方法处于大部分实践中均需要满足平滑的条件,分析环节内将直接跳过函数机制来搜索预测条件。然而随之而来的检验环节的基本前提是预测结构。
2.2 技术维度
由具体实践来说,数据表现出的规模巨大以及内容繁杂将左右统计过程的效果,尽管基本的统计手法没有出现本质上的改动与优化,但是涉及的算法与之前截然不同。因此,由某种意义上来说,大数据的诞生既给统计学带来了机遇与挑战,同样波及到了计算机技术领域,面向技术的可行程度的把握,还有算法的适用与否都属于一次具体的检验。
2.3 应用维度
在面向商业方面时,数据科学受到了全进的诠释,这一环节涵盖商业信息数据化内容。统计学研究者还有数据科学分析者不仅需要具备数据分析必备的知识以及技术,还要能够灵敏地察觉到商业领域各方因素的变动。换一个角度加以解读就是:数据研究者既应该能够牢牢把握住数据来源形式信息,还有可涉及到的存储调用信息,同时明确分析基于的手法,以这两点为基本条件,面向具体实践进行有关原理的应用,进行合理的分析解读。在层面上的条件涉及两点:数据科学技术者还有科学家需要由落实工作之初面向数据探究过程加以分析,明确其中内容,这些不属于数据库的内容、机器学习的知识还有经济学和商业领域的技巧等。还有一点为,应当以较短的时限落实二级定义,换句话说就是优化行内体系,引导统计学专家还有商业分析人员协同交流。
3 数据科学范式面向应用统计分析环节的基本影响
由大数据分析可行性解读的过程内能够得到,数据的激增将显著影响到现下的存储水平,尽管还没有造成存储的困境,但是算法将占据大量内存,同时涉及的处理器规模庞大,出于这方面的考虑,数据激增时不可避免的事实。在可行性方面面临的问题集中于数据量庞大,这同样体现出数据科学范式带给统计分析的作用。伴随数据规模的进一步增长,算法难度上呈现正相关的关联。而普遍存在的大数据分析有效性的探索是说:尽管硬件设备已经达到了基本应用的条件,然而耗时方面依然没有得到优化,很难在时限之内落实任务。面向以上的影响因素,最佳解决手法就是采用并行模式,但是要强调一点,高性能计算机应当实施并行处理,大数据节点应当实施大规模数据访问,因而大部分节点均将受到宽带的约束处于空闲状态。获取节点元素内的数据存储手段相对普遍,它可以于某些情况中实现快速访问。
4 结语
通过以上的分析能够得到:首先,数据科学无法重复使用统计学的重命名,两方面面向数据的解读并不一致,数据科学由于基于相对宽泛的数据范畴,进而衍生出了大数据的概念。其次,由某些角度出发来看,大数据要检测的并非统计学理论,而是计算机技术能够达到相关要求。再次,大数据诞生的缘由离不开商业方面的影响,所以数据科学也存在一种解读方式,将数据过渡到具备价值的商业信息的环节。其后,数据科学范式将面向统计的方方面面带来新要求,其中主要涉及数据收集还有分析的工作。最后,由于现下针对大数据的解读主要涉及架构还有商业视角,故淡化了统计学方面的区分。本文面向数据科学的统计内容加以探索,其目的是帮助这一领域快速发展,为今后的优化做好铺垫工作。
参考文献:
[1]张程.数据科学的统计学内涵探究[J].电大理工,2016,(04):4142.
[2]杨京,王效岳,白如江,祝娜.大数据背景下数据科学分析工具现状及发展趋势[J]. 情报理论与实践,2015,38(03):134137+144.
[3]魏瑾瑞,蒋萍.数据科学的统计学内涵[J].统计研究,2014,31(05):39.
作者简介:黄红贵(1997),男,广东清远阳山人,本科。