广东省广州市执信中学 马梓程
大数据是信息时代的重要标志,为了谋求新的发展,各行各业将大数据应用到企业经营管理中,通过对市场信息、产品参数、营销数据等方面信息的统计和分析,预测市场发展趋势和产品价格变化,并制定有效的应对措施,以提高企业的效益增长速度。一般而言,大数据和统计学具有极强的关联性,借助统计学知识可以提高大数据分析效率,提炼有效的数据信息,服务于各项管理决策和经营行为。对此,在进行大数据分析中,要结合实际情况,加强对统计学知识的运用,对海量数据进行筛选、挖掘、分析和利用,借助建模方法处理复杂数据信息,用数据分析语言表述风险,这是统计工作的核心与难点,实现数据价值的最大化。在这样的环境背景下,探究大数据分析中统计学知识的运用具有非常重要的现实意义。
近些年,由于信息技术和网络技术不断成熟,数据储存和处理规模逐渐增加,以爆炸形式迅速增长,大数据时代也由此降临。各行各业将大数据技术应用到日常经营管理中,金融业、零售业、互联网业等行业收集大量的客户数据,若不对这些数据加以利用,不仅浪费资源,还会降低企业在市场竞争中的综合实力,有可能被市场所淘汰。对此,为了谋求更稳定的发展,企业加大对海量数据的处理和利用力度,大量的分析工作无法单纯依靠人力,要借助统计学知识和专业统计软件进行数据处理,通过大数据分析和应用,创造巨大的数据价值,形成数据工业革命。根据4V理论的定义,大数据具备以下特点:第一,Volume,量大,数据量突破TB级别,已到达PB级别;第二,Velocity,流量性强,只要发生经营活动或是经济行为,都会不停地产生新的数据,源源不断,也对数据处理的高效性和及时性有较高的要求;第三,Variety,数据类型多样化,大数据并不是传统单一化结构型数据,拓展了半结构化数据与非结构化数据,囊括文档、表格、音频、视频、图像、网页等数据类型;第四,Value,价值密度低,海量数据中的价值数据占比较少,这就需要后期的统计工作对价值数据进行挖掘,提炼价值信息,为企业经营管理决策提供准确依据。
大数据分析技术应用范围较广,包括电子商务平台的推荐系统、管理系统,为智能决策提供技术支持。现阶段,针对大数据分析统计技术包括储存技术、处理技术、分析技术以及可视化技术,大数据分析技术和传统分析技术之间存在数据挖掘、机器学习、统计学筹等方面的差异性,大数据中80%以上的数据均为半结构化数据、非结构化数据,包括文本、视频、音频等,这对结构化数据分析技术提出了更高的要求。
在数据处理角度上,由于大数据时代下数据量的增加,数据流运行中,数据信息会逐渐贬值,若依然选择传统离线式数据分析手段,将无法满足数据处理的实时性要求,要将离线分析转化为在线分析。
在数据库索引设计层面上,传统关系数据中的数据模式较为稳定,而大数据环境下的数据量不断增加,需要数据仓库索引可以按照数据模式变化而调整,满足数据分析处理要求。
在信息先验知识层面上,传统数据分析技术在分析前会获取相关数据先验知识,并提前了解数据,这种数据分析方式适用于结构化数据,无法构建半结构化数据与非结构化数据之间的内部关系,当数据喷涌而出,也有足够时间开展数据分析前的数据先验知识工作,这就需要数据统计人员改变分析方式,搭建适合大数据特点的统计分析平台,提高数据处理的综合效率,发挥出数据的价值和作用。
演绎推理最早由古希腊哲学家提出,并在几个世纪后通过数学家研究得以完善,从已经给定的前提或是公理入手,推证结论,这一结论的正确性全面取决于公理的正确性,而已经证明过的结论可以应用在其他论证中作为论证依据。一般而言,演绎逻辑法应用在理论科学中,无法出现超越前提的知识,所推算的命题在公理范围内,推理前提与概念定义全部来源于现实世界,新的公理和定义中包含了新的知识,也不能只有新前提。在大数据分析中,演绎逻辑法结合大数据分析技术,将推论清晰化,提高大数据的应用价值。
归纳法和演绎法有很大的区别,根据已经给定的结果判断前提,在实际应用中,归纳法主要根据不完全信息或是劣质信息进行明确判断,根据观测到的数据匹配假设,从特殊推向过渡为一般逻辑推理,形成新的论断。数据与假设中缺少一定的对应关系,形成的新论断和新知识存在一定的预测性和不确定性。和既定公理演绎推理方式不同,归纳推理出的数据判断精确性不高,这一缺失阻碍了归纳推理的发展和系统化。根据习惯性推演逻辑,若想发展一种理论或是导入推理规则,无法保证归纳结果的准确性,归纳法应用过程中,要求统计人员具备极强的技能、经验、直觉,提高归纳结果的精确性,保证数据应用价值。
由特殊过渡到一般规律所构建的知识和判断存在一定的不确定性,若量化这种不确定性,就可以确定获取知识种类,这一统计学逻辑结构即是风险管理逻辑方程,则知识是不确定知识和不确定性量度知识的总和。作为一种新的思维方式,可以推算风险管理方式,将未来可能事件放到基于决策的框架中,在无法确定的前提下做出决策,错误无法避免,在一定规律下进行选择,选择前掌握犯错误概率,明确制定决策的规律,降低决策的盲目性与随意性,将损失控制到最小范围。在已经知道各种事件结构发生概率后,这种不确定性决策纳入到演绎逻辑中,进行事件偶然性的处理。随着统计学知识深入到大数据分析中后,统计人员要寻求新工具进行不确定因素处理,提炼数据价值信息,为企业的经营管理决策提供依据。
在大数据时代下,大数据分析统计工作所面临的数据对象由样本数据转变为总体数据,试验和抽样调查被取替,优化数据统计运行环节。
大数据采集储存下,统计资料完整保存,处理后的数据具有巨量性、价值性等特点,传统的数据分组、汇总、编制、绘图等环节逐渐转变成数据资料的审核与储存,优化运行环节。同时,大数据的复杂性使得数据内部关系不稳定,在进行大数据统计分析中,可以根据统计学知识,从噪音数据中研究隐性关系模式与知识,提高数据对象的价值。
1.分析数据
数据价值被挖掘后还会形成新的价值,为了深入了解研究对象,要将部分数据进行整合,使得整合后的数据反映出研究对象情况,揭示数据间的匹配性与关联性,发现新问题,进而实现数据新价值的创造。
2.展示数据
大数据价值属性明显,在进行大数据统计分析中,数据结果解释与可视化极为重要,要求统计人员要做好数据展示工作,提高数据的可视化水平,提高数据利用价值。常见的方式有图谱法,设计统计图谱,将各类价值数据以“年轮”大小与颜色直观展示,设计相关参数信息,反映出各组数据之间的内部关联,提高结论的科学性和合理性,为相关管理决策提供依据。
本文通过对大数据分析中统计学知识的运用研究,明确大数据的含义,展示现阶段大数据统计分析关键技术,包括数据处理、数据库索引、信息验证等方式,并将演绎逻辑法、归纳推理法、风险管理逻辑方程等统计学知识应用到大数据分析中,并做好数据和数据挖掘工作,提炼出数据价值,进而为大数据的广泛应用打下坚实基础。
[1]林存洁,李扬.大数据分析仍需要统计思想——以ARGO模型为例[J].统计研究,2016,33(11):109-112.
[2]刘峰.大数据分析在配电网统计数据中的应用探索[D].华南理工大学,2016.
[3]刘英,南科毅.借鉴大数据分析方法提高统计分析“含金量”[J].东方企业文化,2015(15):345.
[4]张海洋.大数据的统计分析技术比较研究[D].南京大学,2014.
[5]王吉善,陈晓红,马谢民等.大数据时代统计分析的新特点[J].中国卫生质量管理,2015,22(1):59-60.
[6]祝君仪.大数据时代背景下统计数据质量的评估方法及适用性分析[J].中国市场,2015(29):41-42.