大数据视野下统计数据质量演变的信息回归、分布与趋势

2015-02-12 15:25刘军华
统计与信息论坛 2015年9期
关键词:统计数据内涵信息

刘军华

(西安财经学院 统计学院, 陕西 西安 710100)

【统计理论与方法】

大数据视野下统计数据质量演变的信息回归、分布与趋势

刘军华

(西安财经学院 统计学院, 陕西 西安 710100)

从数据化技术、信息节奏以及信息回归趋势与大数据本质入手,研究统计数据质量演变主要特征与基本动力及信息分布,分析统计数据质量内涵信息演变的核心因素和实践探索关键路径以及统计学主要矛盾,认为大数据对统计学影响是系统性的,数据质量是其学科信息生态转换与介入的关键支点,其信息演变过程正在从需求入手,开启对统计学知识图谱的再造进程。受此影响,统计学未来也将从专业性研究学科走向工具性技术学科。

大数据;统计数据质量;信息演变

一、数据化节奏、形式与大数据信息回归及本质

(一)数据化技术与信息节奏

信息化从传统互联网WEB1.0中心化到WEB2.0社会化再到目前移动互联的数据化,每一次都推动信息生产、存储、传递成本大幅降低、传播范围与深度显著提升以及信息模式的改变[1]。这是1965年摩尔定律为其确定的技术节奏,在形态上主要以网络数据信息消费数量的快速提升为主要特征。有统计资料显示,全球网民每月使用平均数据流量从1998年1MB,2008年达到1GB,按此增速2014年达到10GB。根据思科的预测,2016年网民每月数据流量会增长到32.3GB[2]。互联网全网流量达到1EB(即10亿GB或1000PB)的时间2001年是一年,2013年则仅需一天。2013年中国数据总量约0.8 ZB,相当于2009年全球数据总和,预计2020年中国的数据总量将超过8.5 ZB[3]。目前全球数据正在以每天2.5EB(约10.7亿GB)的速度指数级增长[4]。 Jim Gray的新摩尔定理认为,每18个月全球新增信息量是计算机有史以来全部信息量的总和,新摩尔定律以信息量的维度确定了数据化演变的信息节奏。如果把20年前开启的以PC和传统互联网为载体的数字化称为“数据化1.0”,那么当前以云计算和大数据为主要形式并基于智能终端、Android系统以及4G为代表的移动互联则标志“数据化2.0”的到来[5]。

(二)大数据的信息回归与本质

无论人均使用网络数据流量、互联网全网流量还是中国与全球数据总量的变化趋势,所有这些都在阐释大数据时代的到来及其快速演变的过程化推进。这种趋势导致的基本形态就是数据信息空前丰富,正是基于信息超载数据泛滥态势,《自动化科学、深数据与信息的矛盾》作者布拉德雷·沃塔克(Bradley Voytek)提出“深数据”概念,而所谓“深”就是对于数据内涵信息的细致性认知与深度开发和利用。另一位大数据研究者安迪·克里克(Andy Kirk)则从信息需求角度,提出大数据将推动人类对信息的使用从“快餐到美食”的转变[6]。 其所催生不同于传统认知的“不合理需求”将成为数据内涵演变新因素。无论小数据还是大数据,数据需求还是其内涵自身,其本质均在于数据承载的信息属性。

1948年美国数学家、信息论创始人香农在“通讯的数学理论”一文中提出信息的定义:“信息是用来消除随机不定性的东西”。传统理论框架下数据是信息的基础,而本文中的数据是一个综合的范畴,既包括传统意义上的数据,比如统计数据,而更多的是数据化技术存在的结果形态与信息记录统称,也就是所谓的大数据。虽然大数据从形态到内涵以及需求与处理能力等维度推动了数据科学以及认知理论的发展,但是在“数据化2.0”推动的从IT进化到信息进化转型中,其目标显然不在于拥有数据,而在于获取数据蕴藏价值的信息基因。国内信息化(IT)20多年来,无论理论还是实践层面都把焦点放在“T”(Technology,技术)上,却忽略了信息化的起点却是“I”(Information,信息)。因此不论大数据,还是作为其承载主体的网络流量数据,其共同本质均是信息,只有承认这一点才能深刻理解与全新认知数据当中的“I”,从而解决和回答数据内涵演变中的基本动力与最终价值问题[7]。大数据的实践演变导致理论层面数据内涵复杂以及传统数据与信息界限进一步模糊。因此,对于数据认知只有回归信息本质并深入到内涵机理层面,大数据研究才具有实践价值,于是如何应对信息演变过程的复杂性与差异性成为新的研究课题。

二、大数据环境下统计数据质量内涵演变的主要特征与基本动力

大数据类型繁多,不仅包括文本、图像、视频等半结构化数据和非结构化数据,也包括现有的结构化数据,比如统计数据。大数据特征可以总结为4个V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(生成快速)和Value(价值巨大但密度很低),且具实时、多元的信息化特点[8];而统计数据类型单一,主要以结构化、体量小、标准化、价值密度高以及周期化数值为特征。目前大数据已经成为中国政府统计数据来源的“第二轨”,在应对需求提升数据质量方面大数据更全面有效,统计数据则显简单滞后。对统计数据质量而言,大数据将对其内涵维度向纵深拓展,而从结构化标准数据到非结构化非标准数据,在统计范畴扩大与数据类型复杂趋势下,统计数据质量内涵信息演变将成为研究的主要内容。

目前统计数据作为一种标准化数据正在经历着大数据的冲击,统计数据质量既是统计学研究的起点,也是统计实践的追求目标,而统计数据质量的核心在于数据价值最大化。英国当代数学家及人类学家托马斯·克伦普在其《数字人类学》中提到数字的本质是人。统计数据的内涵在于揭示数字后面信息与现实世界的关系,数据质量的本质在于实现数据信息的效率和价值。而信息效率价值的实时化与数据泛滥造成数据噪声增强与有效信息稀缺导致现有数据质量与价值总体下降,产生这种趋势的主要原因则来自于大数据推动下数据质量内涵信息的分布复杂化演变。于是如何认知统计数据信息属性以及判定其有效性,成为大数据环境下影响数据质量的主要因素,而正是这些因素使得现有统计数据质量定义与内涵开始变得不确定。

(一)统计数据质量的演变现状及其主要特征

关于统计数据质量的内涵,不论国际还是国内对其认知尚未达成严格共识。现有研究均从不同角度对信息内涵做出解释或说明,主要包括数据信息的准确性、及时性、完整性、可获得性以及方便性五个方面,其主要目的是对统计业务过程与结果数据状态的规范性进行评估[9]。中国政府统计以原始数据形态“真实性”与统计结果的信息“准确性”作为目标,则是对统计数据质量内涵的朴素认知与实践解读[10]。而国际上不论是IMF(国际货币基金组织)、ESS(欧盟统计局)还是OECD(经济合作与发展组织)的几种主要统计数据质量控制框架,在对其内涵信息维度分布上虽然存在一定差异,但都以强调满足用户信息需求为共同点[11]。显然国内与国际对统计数据质量内涵认知的关注点是有差异的。通过比较发现,其差异产生的直接原因主要来自于社会发展对数据及其有效信息的需求差距,而深层原因在于数据能力与认知实践的水平差异。基于目前现状和未来发展的趋势性,统计数据质量就是数据所蕴含信息属性满足用户信息需求的状态或者水平,在这个固定语境中主体是数据,客体是用户,统计数据质量本质就是主体满足客体信息需求,而其中要素主旨从数据本体向服务客体转移则是统计数据质量内涵演变的主要特征[12]。

(二)统计数据质量演变的基本动力

数据最终是为信息需求服务的,对用户信息价值最大化才是统计数据质量的关键所在。在数据化趋势下,随着人们认知实践与需求状态的变化,从满足基本特定信息到通过复杂数据属性解构多样化的信息需求,统计数据质量内涵演变正在从朴素的信息真实业务逻辑向获取复杂需求的数据化逻辑迁移。“统计数据质量”内涵演变的主导因素也正在从数据生产领域的管理驱动向需求领域信息服务评价驱动等多维度转化,而服务评价的前提是“有用性”,面对目前数据形态的混杂性,“相关性”选择成为大数据的基本逻辑。而数据形态与结构混杂和需求多样化进一步推动统计数据质量内涵信息分布的复杂重构[13]。从被动满足简单需求到主动发掘并提前掌握复杂新需求,进一步从繁杂数据中发现有效需求和用户,探知用户对数据信息需求更多差异性则成为大数据环境下统计数据质量内涵演变的新因素[14]。而基于服务“客体”从“快餐”向“美食”转变趋势下的“不合理”新需求,成为数据化环境下统计数据质量内涵复杂演变的基本动力。

三、大数据环境下统计数据质量内涵的主要信息分布

大数据和云计算作为“数据化2.0”的主要推进模式,正是适应数据信息形态混杂与内涵复杂演变的技术实践,其不仅在科学层面催生新的数据处理应用模式和学科形态,而且也在实践层面重新定义统计数据质量业务类型与信息分布[15]。从大数据信息属性与特征出发,统计数据质量内涵演变的主要信息分布如下:

(一)数据信息视角

基于培根逻辑支撑,统计学研究对象是宏观视角下有限随机样本(sample)数据,在信息化发展到产生大量冗余沉淀数据后,数据挖掘(data mining,DM)可以看作是“数据化1.0”时代的统计学,其研究对象是经过清洗的全样本数据,而大数据面对的则是原生态全样本数据(Population),也就是所谓的总体数据。从随机样本数据到经过清洗的全样本数据再到原生态总体数据,研究对象的变化不仅意味着数据边界扩展和数据内涵复杂,也标志着数据信息视角更加深入系统微观的多维度个体感知,具备传统数据无法拥有的信息能力与价值[14]。从随机样本到总体数据的转变,不论是来自技术的驱动,还是需求实践的牵引,数据信息视角扩散是内涵演变的主要特征,而基于此特征下新型数据处理与需求获取的技术能力成为内涵演变的关键因素,也正是这些进一步推动统计数据质量内涵总体信息视角从宏观向中观甚至微观的扩散。

(二)数据信息形态

数据对象差异与服务需求的不确定,从朴素真实、简单有限、准确性和被动有用性到目前主动探求、获取满足多种复杂差异性需求,对统计数据的直接催化就是其信息形态的改变。统计范畴和数据边界的拓展使得数据信息属性的集成与复杂,超规模数据信息形态混杂必然导致数据内涵信息集成和结构的系统复杂化,从结构化标准数据到非结构化非标准数据,从静态确定历史标准时点到动态实时时序数据,统计结果从精确唯一点数据到非精确多种相关性趋势数据,这些不仅使数据边界和数据模式从标准单维向复杂多维演变,而且分别在统计时间序列与数据空间上将其向更深层次拓展。而不论是数据边界还是类型结构以及时序特征等数据信息形态,所有这些又推动统计数据质量内涵总体信息分布向复杂演变,这成为其进一步蜕变的标志与数据质量构建的信息基础。

(三)数据信息逻辑

统计学的基础是基于分布理论,以概率为保证,根据样本去推断总体特征,其逻辑关系是“分布理论—概率保证—总体推断”,分析过程是“假设—验证”基础上的“定性—定量—再定性”。而大数据是以全体数据为基础,以数据信息相关为保证,其逻辑关系是“实际分布—总体特征—概率判断”,可以不受任何假设的限制而从中去寻找关系、发现规律,分析过程是“定量—定性”与“发现—总结”重要数量特征和关系基础上的“定量回应”[16]。由此看到,传统统计数据质量以有限信息逻辑的因果性、确定性、清晰且高度的结构化为主要特征,大数据则以既定边界内总体数据系统相关性的随机和自身的不确定性以及总体的非结构化为特征[17]。而信息逻辑层面放弃对精确性、因果关系的渴求,转而关注事物的相关性,这意味着科学探知的方法从经典严密系统因果性追索向事物相关性认知的扩展[18]。由此推动统计数据价值的实践路径也正在从“数据到信息再到知识和智慧”向“数据直接到价值”的大数据操作逻辑转变,正是这种信息逻辑的变化成为统计数据质量内涵信息分布重构的重要组成。

四、大数据环境下统计数据质量信息演变的核心因素与关键探索

(一)统计学主要矛盾与数据质量信息演变核心因素

以大数据为标志的数据化已超越工具、技术因素,成为未来社会发展中系统性主导驱动背景下,统计学在实践中面临快速增长的数据信息需求、有限统计资源与滞后数据能力的矛盾。数据化演变中信息技术应用成本的低廉化和性能效率的聚变在成为统计能力提升与统计方法创新重要因素的同时,也成为数据需求与质量期望快速增长的基本动力,这种动力不仅刺激数据供给,同时也激发更高的社会数据质量期望。问题的关键在于数据供给能力与数据需求增长水平之间的差距,而社会数据需求期望与统计数据供给之间的博弈与碰撞是数据化演变中统计学面临的基本问题与主要矛盾,两种趋势的此消彼长已经成为数据化环境下影响统计数据质量内涵信息演变的核心因素。

(二)信息优化是统计数据质量的关键

在数据快速增长、数据内涵复杂演变态势下,信息形态层面数据的大小与多少并不是构成统计数据质量与价值的重点,只有对其内涵的科学解构与信息属性全面认知和数据需求有效管理才是实现统计数据质量的实践逻辑。目前统计数据质量的困境与尴尬现状正是统计数据质量内涵现有信息分布、管理实践与社会需求认知多重演变的复杂结果。而统计数据质量内涵信息分布认知理论缺陷及数据信息解构能力滞后的常态性存在具备诱发数据危机的潜在风险,因此,不论来自需求的演变,还是技术的推动,对数据内涵信息解构理论与方法和能力构建,均成为实践探索的关键。

数据社会化大生产塑造了全新的统计需求与业务环境,而数据需求获取与内涵的认知能力决定了统计数据质量实践过程的差异,它包括理论、实践和预期三个方面,同样的数据,由于认知能力与期望差异导致的理念与体制要素形成不同的行为与后果,并由此决定了统计实践的运行方式和主要内涵。因此,在数据化所导致海量数据已经成为用户信息负担的情况下,对数据属性的信息优化就成为“数据化2.0”时代统计数据质量实践探索的关键[19]。虽然需求是其演变最现实的客观驱动,但统计数据质量最终水平状态依然取决于数据内涵信息认知理论专业化的成熟和完善程度,而对其认知维度、实践区间构建和信息标准建设则成为主要内容,以此为基础的信息优化方法与技术,以及数据能力研究成为主要方向,而如何在两者之间保持一定的平衡与协同,将给统计数据质量信息演变增加新的弹性。

五、结 语

现在的大数据离商业太近,离科学太远,如果对大数据的认识只停留在“大”的表象层面,且简单认为其就是在科学层面放弃对精确性的追求,这在认知上本来就是一种“囫囵吞枣”式的错误。在需求碎片化推动数据内涵分布从传统固定(标准)视距转向浩瀚繁杂多重微距视角态势下,构建全新数据信息认知框架,既是全球范围信息技术与认知方法和数据质量实践经验的总结,也是数据内涵信息演变与社会需求发展催生的趋势性要求。对于统计数据质量未来最大的不确定在于需求预期的演变,而目前很难基于现有统计学理论框架的内涵与信息标准,以及体制和技术需求给其未来以清晰定义。如何应对则是数据化环境下统计学与信息科学需要关注的紧迫主题。大数据对统计学的影响是系统性的,而“新需求”趋势下数据质量是其学科信息生态转换与介入的关键支点,目前其信息演变过程正在从需求入手开启对统计学知识图谱的再造进程。统计学的基本目标在于将不确定性改变为确定性,而大数据将推进科学认知从信息简单确定性向系统精确性演变。由于大数据所蕴含的工具特性和信息基础特征,在社会数据化进程中扮演着不可或缺的角色,其对统计学理论与实践演变是系统而深刻的,受此影响,统计学的未来也将从专业性研究学科走向工具性技术学科。

[1] 罗超.大数据预测4个特征,11个典型行业[EB/OL].[2014-07-17].http://luochao.baijia.baidu.com/article/22475.

[2] 小行踪.2016年全球网络流量预测[EB/OL].[2014-05-31].http://www.guokr.com/article/206485/.

[3] 薛一波.大数据的前世、今生和未来[J].中兴通讯技术,2014(3).

[4] ZOL中关村.“大数据”时代:信息爆炸倒逼数据分析[EB/OL].[2014-01-28].http://tech.huanqiu.com/cloud/2013-01/3590808.html .

[5] 韩晗.“数据化”的社会与“大数据”的未来[J].中国图书评论,2014(5).

[6] 刘胜义.Mega Web时代来临 人机共生定义连接价值[EB/OL].[2014-08-29].http://tech.qq.com/a/20140829/035136.htm?tu_biz=1.114.1.0.

[7] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012(6).

[8] 张家平,马强,王天琪.2000 年以来统计数据质量研究综述[J].长春师范学院学报:人文社会科学版,2014(1).

[9] 黄恒君.政府统计调查质量研究历程与现状[J].兰州商学院学报,2013(4).

[10]程开明.三种国际统计质量管理框架的比较及启示[J].统计研究,2011(4).

[11]李先锋.DZ市政府统计数据质量影响因素研究[D].西安:西安科技大学硕士学位论文,2013.

[12]曾嵩.加强政府统计数据质量管理研究[D].昆明:云南大学硕士学位论文,2013.

[13]许小乐.“大数据”与政府统计改革[J].调研世界,2013(5).

[14]环球网科技.《云计算:大数据时代的系统工程》发布[EB/OL].[2012-12-13].http://tech.huanqiu.com/cloud/2012-12/3378016.html.

[15]李金昌,大数据与统计新思维[J].统计研究,2014(1).

[16]张亚勤.云计算重塑未来[EB/OL].[2013-06-05].http://www.csdn.net/article/2013-06-05/2815567 .

[17]卢朵宝.《大数据时代》引热议 美国学者质疑大数据理论[N].经济参考报,2013-06-14.

[18]邢帆.语义智能搜索推进信息优化[J].中国信息化,2012(3).

[19]朱嘉明.中国国情的八个关键问题(一)[EB/OL].[2013-03-08].http://cn.wsj.com/gb/20130308/OPN072206.asp?source=mostpopular.

(责任编辑:张治国)

Information Regression, Distribution and Trend of Statistical Data Quality Evolution in the Perspective of Big Data

LIU Jun-hua

(School of Statistics, Xi'an University of Finance and Economics, Xi'an 710100,China)

Based on the analysis of the nature of big data and information regression trend, this paper studies the primary features of statistic data quality evolution and its driving force and information distribution.It further discusses the core elements of statistic data quality evolution and critical approaches of its practical exploration.It is held that big data has a systematic effect on the statistics and that data quality plays the pivotal role in the information ecological transition and intervene of other disciplines.The information evolution is now beginning to reengineer the knowledge mapping of statistics with the increasing demand, which will gradually turn the statistics a professional field of research to an instrumental technology subject.

big data; statistic data quality; information evolution

2015-04-03;修复日期:2015-05-27

全国统计科学研究计划重点项目《云计算环境下联网直报统计数据质量控制体系构建研究》(2012LZ003);全国统计科学研究计划项目《大数据趋势下政府统计转型研究》(2014LY0038)

刘军华,男,陕西凤翔人,硕士,副研究馆员,研究方向:信息化理论与技术管理。

C829.2∶TP391

A

1007-3116(2015)09-0007-05

猜你喜欢
统计数据内涵信息
创新视角下统计数据的提取与使用
活出精致内涵
理解本质,丰富内涵
挖掘习题的内涵
国际统计数据
2017年居民消费统计数据资料
内涵漫画
订阅信息
展会信息
统计数据