大数据:颠覆的力量(一)

2019-08-01 06:29
中国信息化周报 2019年22期
关键词:画像粒度单车

大数据本身在概念和应用上已经与我们越来越密切了。今天在开始大数据这个话题前,先从两个国际事件说起。一个是纠结了很长时间的英国首相要辞职了,另一个是美国不断“退群”。实际上这两个事件都是和英国脱欧和美国大选有关。这三四年来,大家已经看到这些事件在他们国家带来的社会撕裂、对世界格局的冲击,以及国际秩序、多边关系的挑战。非常巧的是这两个事件的背后都有一家公司的影子,就是英国剑桥分析公司,简称CA。这家公司用数据做选民分析,做助选服务。这家公司的服务主要做的是心理画像,它根据收集到的大量数据,包括千万级的Facebook数据,采用国际心理学界比较有名的Ocean心理模型来刻画选民的人格特征,它能刻画一个人喜欢什么、担忧什么、对什么感兴趣、宗教的取向以及价值的态度。用这家公司CEO的话来讲,“我们可以预测每个美国成年人的人格特征”。其实这家公司并不是那么出名,还有更加出名的公司也在选举中提供各种服务,但是其他公司的服务基本都基于人口统计学的信息,也就是性別、肤色、宗教、收入、年龄、教育等信息,但是这家公司从另外的视角,即从心理的视角刻画一个人的心理历程或者叫做数字脚印。另一方面,他们可以获得更加细粒度的数据,使得心理层面、人格层面的刻画成为可能。这就是我们所说的大数据的影响。

大数据时代的两个阶段

我们现在处在一个数据的海洋当中。2019年的春运是世界上最大的人口迁徙,有30亿人次的流动。2018年“双十一”有2135亿的销售额度。现在,每天会产生450亿的微信条目。手机的网民已经达到8.17亿。总体来说,我们国家的GDP数字经济占比已经达到了34.8% ,超过了1/3,这方面实际能够体现出我们这个社会已经开始越来越数字化了。

说起大数据、大数据时代,主要的时代背景是什么?现实世界有多大程度上可以被数据表示?用一个形象的话来讲,我们的社会像素正在急剧提升。这个“像素”来自到处可见的感测设备——探头、智能手机、可穿戴设备、车载设备,林林总总。这些使我们这个社会的数字化程度越来越高,数据的粒度因此也越来越细。也就是说,数字化生活的两个要素之一:像素,数据的粒度已经具备。像素够高的时候我们要干什么?形象地说是“成像”,就像手机、相机,像素越高成像的质量可能越好,因此,成像是我们数字化生活中另外一个重要的要素,像素和成像对应起来,就把数据和算法联系起来了,这就是我们所说的大数据时代。

大数据时代可以分成两个阶段,我们用商务的形态来说明这个问题。第一阶段是数据商务阶段。不断地把现实生活中的要素,人财物,都进一步数据化,同时根据这些数据化的人财物进行算法的应用。第二阶段是算法商务阶段。当像素足够高,重点就变成了成像,变成算法应用了。数据商务阶段和算法商务阶段都围绕着数据和算法进行,但是重点有所不同。数据商务阶段就像做菜一样,数据化的过程就是不断准备材料的过程,不停地增加和丰富材料,然后根据已有的材料提供不同的菜品。但是算法商务阶段是材料已经足够丰富了,这个时候要比的就是手艺了,你是不是能够做得更好、更多。这就是我们所说的算法进阶及应用创新,如“智能+”,我们可以用更加高尖的智能技术,包括人工智能的很多技术在现有的大规模数据下进行应用。

大数据的数据特征

那么什么是大数据?可以从4 个维度来理解,即 4V:volume(规模)、variety(多样)、value(价值)、velocity(速度)。大家对这四个维度没有什么大的争议,但是对它们的含义的理解还是有相当不同的认识的。

第一规模,我们称之为超规模。大数据规模会很大,但是没有绝对的量纲,没有说一定要达到多少G、多少P、多少Z才是大数据,这个不一定,因为大数据的大规模和问题、领域有关。只要这个大的规模超出了这个领域和问题的传统边界,那就是大规模里的超规模。第二多样,即富媒体的意思。现在80%-90%的数据都是文本、语音、图像、视频,不再是特别传统的二维的整齐的结构化的数据了。第三价值。我们处在数据的海洋中,但是跟我个人有关,跟我企业有关的那种有价值的信息相对少了,因为数据量的分母太大了,即密度在降低,这个后面直接的隐喻就是要深度挖掘才能发现我们希望的价值。第四速度。数据就像开着的水龙头一样,源源不断地出来,而不是我们上传下载图片要等很久。因此,大数据里的数据是一个流数据的概念。

大数据的问题特征

什么样的问题才是大数据问题?这要看它的问题特征。第一个特征,是粒度缩放。粒度缩放是指我们碰到的问题的要素一定是数据化的,即这个要素不管是宏观的还是微观的,一定可以通过数据表示。同时,可以像地图一样,可以在特别大的范围和特别小的范围之间缩放,能够在宏观、微观之间进行映射。

第二个特征,是大数据外部性导致的特征,称之为跨界关联。考虑问题的时候要看视角,问题边界在哪儿,如果考虑问题的时候这个边界到了传统边界之外,就是跨界了,而且你把这个外部的要素和内部要素联系起来了。比如管理学中,传统企业管理最常见的就是怎么把业务流程做好,优化流程,提高质量,同时改进人力资源环节、财务环节,制定企业战略,基本是站在企业内部看不同的部门,站在里面稍微往左看一看是供应商,稍微往右看一看是客户。企业花了很多努力,突然有一天一个人在网上拍了一板砖,说这个企业产品有问题、服务不好,还没有容得辩解,成百上千万跟贴,瞬间就把企业的产品、形象、品牌定格成了某一个形象、某一个状态,然后企业可能还很委屈,因为觉得这些人既不是我的客户,也不是我的员工,他们好像就是原本跟企业没有联系的社会大众,但是他们的口碑却对产品、质量、品牌、形象产生影响。因此,当管理决策的视角不仅是考虑内部,而且要考虑外部和企业相关的因素时,这个问题就开始变成大数据问题了。你要跨出你的传统边界。第三个特征,全局视图。大数据实际是希望了解全貌的,它最后是要看画像,因为前面我的每一个点、每一个环节的数据叫做粒度缩放,同时和我相关的要素我又关联了,但是我最后要干什么?要了解全貌,要有个人画像、企业画像、政府画像、社会画像等,所以这个画像本身又是全景式的,从范围来讲是全景式的,从内涵来讲,既关联又因果。

举两个简单的例子。一个例子是旅游。比如某个景点,经常在一些时间和假期人满为患,因此可能出现游客不满意投诉的现象。如果我们仅从景点这个边界出发来提供优化的方案,解决质量的问题就很困难。实际上如果要解决景点的问题,一定要走到景点之外,当我们考虑了景点内外要素时,就有了跨界关联的属性,作为整个的旅游我们来看景点内外时,我们有这样一个全局的视图,我们面对的就是一个大数据问题了。

另外一个例子是共享单车。现在每辆共享单车都有自己的感应器和定位装置,也就是说感测的数据粒度到了车和部件。这时候就不单是一个单车了,可能我走到什么地方,共享单车的App就告诉我附近有什么商圈、酒店、餐馆,当视角从单车走到了其他行业、要素时,就开始跨界关联了。共享单车的平台应该清楚什么地方需要车,什么地方不需要车,怎么样调动,这就是全局视图。当共享单车具备粒度缩放、跨界关联和全局视图时,共享单车的运营、优化,就是一个大数据问题。

这些年社会上比较流行一个论断,说“大数据只讲关联不讲因果”。这个论断虽然有一定道理,但是总体来讲是误导的。特别是在重要决策的时候,如果涉及到的后果可能会有严重的人、财、物的损失,谁敢做决策?所以在大数据环境下做管理决策,既要看关联也要看因果。

(根据清华大学经济管理学院EMC讲席教授陈国青演讲整理而成,未经确认)

猜你喜欢
画像粒度单车
威猛的画像
共享单车为什么在国外火不起来
粉末粒度对纯Re坯显微组织与力学性能的影响
基于矩阵的多粒度粗糙集粒度约简方法
“00后”画像
画像
飞吧,单车
对恶意破坏共享单车行为要“零容忍”
共享单车(外四首)
基于粒度矩阵的程度多粒度粗糙集粒度约简