没有大数据神话

2014-04-29 00:44:03
管理学家 2014年4期
关键词:样本空间业务部门生态圈

今天的大数据就是明天的小数据,这个是做大数据的人都知道的,其实我们现在处于在数据里跑马圈地的时代。当你以为数据是很大的时候,其实只不过是冰山一角而已,在未来更多数据会出现,当数据多到覆盖整个样本空间的时候才是大数据。

今天我们所讲的大数据,从科学的角度来看,更多用的是样本空间的观点。过去我们从新样本中找到特征,实验了之后得到结果,但是在大数据时代,因为有海量数据样本,所以我们用简单模型取代复杂模型去解释数据。

现实中,企业其实很少用大数据。企业一般会用大数据先找到方向,之后用传统的方法来提炼自己的数据。有人问我怎么开始用起数据?企业得忘掉大数据,理解业务的场景,然后回答是否能解决问题,以及日后怎样改进。企业最困难的是用数据的文化,以及用数据的管理。我们倡导“数据的生态圈”的概念:用数据帮企业做判断,解决问题,这个叫“数据欢迎你”;反过来,我们又从无限数据中寻找数据,获取运营数据。实际上,这个生态圈转起来是很困难的。我一般都说这个圈越小越好,不要搞得很大。

阿里用了很多时间去健全大数据工具。例如,我们已经开始建立数据地图,用大数据的原数据告诉我们这个地图是从哪里来的。过去我们只是用数据,但是今天我们要知道数据是从哪里来的。过去我们是有问题找数据,今天我们用数据找问题。因为大数据,阿里的决策支持部开始变化了,未来我们要每个业务部门都有做数据分析的能力,而不是让数据技术部门帮助业务部门。这是因为当我们做分析的时候,只要业务部门的人稍做改动,底层数据就全变了,数据分析要重新来过,这对我们来说工作量太大了。所以我们要做更多的工具,让更多的人很容易的找到他所要的数据。

大数据里还有非常多的问题需要解决。例如,没有人知道拿着手机上网的一个人和用电脑上网的是不是同一个人。再比如,在大数据中,我们有多少数据就收集多少数据,因为这个数据可能未来会有用,但当数据大到一定程度的时候,我们不可能无极限收集下去,需要放弃一些数据。这也是我最近在思考的事情之一,数据存还是不存?数据现在有用,未来是否有用?我思考的另外一个问题是数据开放不开放?数据的安全很重要,选择数据开放是否会侵犯别人的隐私?此外,大数据是否安全?在控制安全时,两个数据加起来可能是非常不安全的,这种情况下,你不会知道这个数据是安全还是不安全,此时监管是失效的。

最后我说一句,让人做人擅长做事,机器做机器擅长的事。其实数据都是实效的,对企业来讲,并没有什么大数据的神话。

猜你喜欢
样本空间业务部门生态圈
高中数学新教材一个探究试验的商榷
中学数学(2023年23期)2023-12-16 10:47:46
概率统计中样本空间刍议
新区制造生态圈
商周刊(2017年7期)2017-08-22 03:36:28
电力企业构建纪检监察与业务部门协同工作机制的研究
大经贸(2017年7期)2017-08-21 07:44:55
浅谈高校古典概率的教学
在当前形势下“业财融合”的发展
供电企业纪检监察与业务部门协同工作机制建设研究
财务人员深入业务部门的重要性和策略分析
经营者(2016年23期)2017-03-11 08:46:51
全概率公式的教学方法研究
考试周刊(2016年26期)2016-05-26 20:19:51
跑步生态圈
小康(2015年27期)2015-11-30 01:45:28