统计学在大数据领域发展思考

2020-04-08 09:30王贺超
电脑知识与技术 2020年3期
关键词:互联网技术大数据统计学

王贺超

摘要:伴随互联网技术的突飞猛进,大数据领域发展迅猛。门户网站、电子商务、社交网络、影视游戏等应用中产生了海量数据,这些数据需要统计学发挥作用来挖掘其中的价值。统计学作为交叉性、实用性很强的方法论科学,面对大数据这一新兴事物,需要积极变革,发展新的统计方法和工具。一方面帮助大数据领域有效地处理数据,另一方面借助大数据技术推动统计学的不断进步。在大数据时代,统计学要正视严峻的挑战,研究切实有用的方法,抓住新时代的发展机遇。

关键词:统计学;大数据;互联网技术

中图分类号:TP393 文献标识码:A

文章编号:1009-3044(2020)03-0007-02

1 统计学需要在大数据领域发展

统计学能够提供很多有效的工具和手段帮助大数据领域挖掘数据价值。大数据技术包含数据采集技术、数据存储技术、数据处理技术,其中至关重要的就是数据处理技术中的挖掘数据价值。传统IT数据所产生的数据量级小、单位价值高,可以看作是在黑土地上精耕细作。大数据时代的数据量级大、单位价值低,可以看作是在沙漠中淘金。在大数据领域经常需要分析某批数据的宏观特征、某批数据背后隐藏的要素相关性,传统IT的数据分析方法已经无法实现这些目标,这时就需要统计学发挥自己的特长,在不同时期、从不同角度挖掘数据价值。

统计学在解决大数据领域问题时会展示出统计工作的新生命力。统计作为一种古老的活动一直参与到生活、社会、经济领域中。起初统计服务于社会管理需要,搜集、整理有关历史、行政、科学、艺术、人口、资源、财富等社会和经济情况,并进行一定的分析和描述,展示数据的宏观特征。而后随着数据资料积累到一定规模,人们要求统计能够提供揭示事物内在规律的研究方法,以达到推断数据本质、甚至预测数据未来趋势的目的。在大数据时代,统计学需要面对更为庞大、更为丰富的数据,会产生新的统计方法,衍生出新的统计思路。

统计学在解决大数据问题过程中,借助大数据技术丰富和扩充统计工具。信息爆炸和互联网技术更新给大数据带来一系列的新技术,涵盖了数据采集、数据存储、数据处理。从数据采集上讲,传统统计经常使用统计报表、典型调查、电话访谈、调查问卷等方法,大数据领域有行为数据收集、内容数据记录等方式。从数据存储上讲,传统统计使用纸张文档、Excel表格、关系型数据库等载体,大数据领域有文件系统、日志系统、NoSQL数据库系统等工具。从数据处理上讲,传统统计使用人工分析、专用软件计算等方法,大数据领域有可视化分析、数据挖掘算法、语义引擎、流式计算等方式。这些技术能够被统计工作所吸收、采纳,推动统计学的发展。

大数据的意义不止于管理庞大的数据信息,更在于发现这些数据背后的潜在价值,这就需要统计学的分析能力参与其中,实现数据的增值。在大数据和统计学的合作过程中,后者也需要进行自我变革。

2 大数据领域的特点

大数据有很多种定义,获得广泛认可的是:大数据(big da-ta),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的数量级巨大。根据国际数据公司(IDC)的研究报告得知,2018年全球产生的数据为33ZB(约33万亿GB)。市场研究机构Synergy Research发布数据,2018年全球新增超大规模数据中心40个,每个超大规模数据中心一般拥有5万-10万服务器。腾讯董事局主席马化腾曾披露腾讯数据中心存储总量超过1000PB(约10亿GB),而且每天新增500TB(约50万GB)的数据;腾讯用户每天在微信朋友圈和QQ空间上传的图片达10亿张,腾讯视频(含微信公众号H5视频)每天播放量达20亿次,除夕当天红包支付超过25亿笔,每天移动支付超过5亿笔。由此可见,大数据时代的数据体量巨大,并且持续快速增长。

大数据的种类多样。传统的IT数据主要以数据库记录为主,这是一种规范的、层次分明的结构化数据。但是在大数据时代,数据不仅限于数据库记录,经常以行为日志、电子文档、语音视频、地图图片等形式存在,形成非结构化数据。

大數据的速度很快。这个“速度”包括数据的生成速度、数据的增长速度、数据的更新速度,从而要求数据的获取速度、数据的传输速度、数据的存储速度、数据的处理速度也要很快。进一步对数据的分析和解释速度提出了更高的要求。

大数据依赖互联网技术。大数据作为互联网发展的产物,其采集、存储、处理同互联网技术密不可分。数据采集是指将数据写入数据仓库,通常使用Flume NC、NDC、Logstash等工具实现数据的收集。数据存储用于存放大量数据、同时给数据的处理提供便利,通常采用Hadoop、HBase等分布式存储方案实现。数据处理是非常重要的环节,可以使用MapReduce、Oozie等技术实现数据的管理、计算,挖掘数据特性和价值。

统计工作者应该了解大数据领域的特点,掌握大数据的共性和特性。面对不同体量、不同形态、不同表现的数据,应该思考如何找到办法、工具将数据转化为可以进行统计研究的对象。在实际工作中,将统计工具同互联网技术相结合,采用合适的统计方法,分析和处理现实问题。

3 统计学在大数据领域的具体实践

统计学一直以数据作为研究对象,几百年来深入不同领域进行研究,逐步发展出成体系的收集和分析数据的方法,这些统计方法旨在发现事物特征,探索事物规律。在面对大数据,统计学继续发挥自己的作用,大数据的拥有者也在自发地进行统计工作。

3.1 统计工作发掘大数据中的价值

双十一购物节作为全网购物狂欢节,吸引了亿万消费者参与其中,2019年全网成交额超过4000亿,消费数据背后隐藏着巨大的价值。

中国人民银行公布双十一期间网络支付业务数据:网联、银联共处理网络支付业务17.79亿笔、金额14820.70亿元,同比分别增长35.49%、162.60%。“17.79亿笔”指明了金融支付系统需要在双十一当天完成交易笔数,这对其电子支付系统提出了严峻的挑战。为此多家银行、支付机构提前扩充系统资源、准备应急方案,在统计数据的帮助下,实现电子支付系统平稳运行。

京东双十一购物节的数据显示:3000元以上价位段手机销量同比增长200%,70英寸及以上电视成交额同比增长超过400%,2000元以上高端美容器产品成交额同比增170%,有机牛奶成交额是去年同期四倍,定制旅游行产品成交额同比增长6倍。由统计数据得知:中国消费者需要更高端的电子产品,更有机的食品,更个性化的定制服务,追求品质化的生活。商家会倾向于提供更多的类似产品,消费者能够获得更丰富的产品。

根据国家邮政局的监测数据,双十一全天各邮政、快递企业共处理5.35亿快件,是二季度以来日常处理量的3倍,同比增长28.6%。通过这些数据,物流行业能够识别出物流压力,并寻找合适的办法抚平波动,充分利用社会资源,提高物流效率。

通过对数据的分类整理、定量计算,进行计数分析、分布特征分析、评价判定分析,结合实际应用场景,评估出数据统计特征背后的潜在价值。

3.2 统计工作探求事物规律

百度地图发布了春运出行预测报告,基于铁路车次大数据、高速公路信息大数据、地图定位大数据等历年春运出行数据的统计特征,对春运期间人口迁徙情况、交通拥堵进行了预测。通过统计分析得出了诸如:上海地区用车订单或将是平日两倍且易拥堵、泰国大皇宫热度较高等具有指导意义的预判。

阿里巴巴以阿里电商数据为核心,基于网站浏览量、浏览人次、供求产品数量、公司数量等指标统计计算得出阿里指数。经过统计分析后发布市场行情、热门行业的综合趋势,进一步提供产业内贸易联系、行业上下游关系。

通过对数据的估计推算分析、动态预测分析、关联关系分析、系统评审分析、数据挖掘分析,解释信息要素之间关系,发现事物规律。

3.3 统计工作使用大数据工具

Python是一种面向对象的计算机程序设计语言,也是一种解释性脚本语言。由于Python简单易用、能够快速处理大数据,在大数据时代被广泛用作大数据处理工具,也成了统计分析的有力助手。第一,Python有专门的可算计算扩展库,例如:NumPy(数组处理)、SciPy(數值运算)、matplotlib(绘图功能)等,能够帮助研究人员快速进行数值分析。第二,用Python可以写简单爬虫,从而快速地获取大量网页数据,同时Pvthon提供了简单的文档处理功能,可以通过极短的代码完成大部分文档的处理。

大数据虽然量级大、种类多,但仍然是一种数据,一种统计学研究的对象。统计学作为方法论科学,结合大数据领域现状,深入研究各类现实问题,形成一系列具有实际价值的实践。4统计学在大数据领域面临的问题

大数据领域给统计学带来了新发展的同时,也给其带来了更多的挑战。统计学需要认真思考如何处理大数据带来的问题,才能实现自我变革。

大数据和样本。有人持有一种观点:大数据不用随机分析法(抽样调查)这样传统的分析方法处理数据,而是对所有的数据进行分析处理,所以大数据是总体。虽然大数据量级大、大数据技术可以做到对全部数据进行处理,但是这并不意味着已经掌握的大数据就是总体。结合现实来讲,已有数据不完全等同于所有数据,采集大数据的过程,只是从某一方面、某一时间段从远远不断地信息流中抓取数据。大数据虽然大,但仍然是客观事实的一个样本。这就引发了一系列思考:采集的大数据能否具有充分代表性,通过对大数据(样本)的分析能否获得总体的特征。

非结构化数据和统计方法。在采集、记录数据时,往往不知道这些数据有何用途,通常是为了记录而记录数据,这就导致了非结构化数据的大量存在。按照传统统计方法,在获取数据之前已经能够明确目标数据的类型,统计方法的确定早于数据采集。在大数据领域,一方面统计工作通常晚于数据采集,另一方面需要从多个角度对大数据进行多种统计分析。如何处理非结构化数据对统计方法有很大影响。

大数据技术和统计工作者。大数据时代的来临离不开信息技术的发展,传统的统计工具不足以实现大数据的分析处理。统计工作者需要学习掌握大数据技术,结合统计方法,创造出大数据时代的统计工具,才能充分发掘大数据的价值。

5 总结

统计学作为一门综合学科,从社会、经济统计向多分支学科发展,统计的范畴已覆盖了社会生活的一切领域,几乎无所不包,成为通用的方法论科学。在互联网蓬勃发展的年代,大数据领域陡然出现,既帮助统计学收集、处理数据,也向统计学提出了新的要求。统计学应该及时开拓进取,进行自我变革,扩展统计学的应用领域,创造大数据时代的统计方法。

参考文献:

[1]符一平,浅谈统计学在大数据时代面临的机遇、挑战及其发展趋势[J].中国管理信息化,2016,19(14):245-246.

[2]朱艳丽.大数据背景下对统计学课程建设的思考[J].科技经济导刊,2019(20):133-134.

[3]徐延军,左宇晓,王茹川.大数据时代下的统计探讨[J]市场研究,2019(9):24-26.

[4]赵博.基于大数据的战略预见研究[D].北京:中共中央党校,2016.

[5]张燕南,大数据的教育领域应用之研究[D].上海:华东师范大学,2016.

[6]李金昌,基于大数据思维的统计学若干理论问题[J].统计研究,2016,33(11):3-10.

[7]胡前防,连鹏伟,陈乾坤.Python在统计数据处理中的应用[J]市场研究,2019(8):33-35.

[8]齐慧.基于python的WEB数据挖掘技术实现与研究[J].软件工程,2019,22(8):21-23.

[9]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014,31(1):5-9.

[10]刘旭.探析大数据时代对传统统计学变革的思考[J].才智,2016(35):244.

[11]朱建平,张悦涵,大数据时代对传统统计学变革的思考[J]统计研究.2016,33(2):3-9.

[12]打造“智能教育云”平台标杆案例沪江与腾讯云达成战略合作,新华网[EB/OL].http://www. xinhuanet. com/itown/2017-04/28/c_13 6242662.htm.

[13]透过“双十一”数据单看中国消费市场新活力.人民网[EB/OL]. http://finance. people. com. cn/nl/2019/1112/c1004-3 1450983.html.

猜你喜欢
互联网技术大数据统计学
关于投稿的统计学要求
统计学符号使用的说明
统计学符号使用的说明
本刊对来稿中统计学处理的有关要求
网络时代大学生信仰教育问题探析
互联网技术在广播电视领域的应用与探究