今天的大数据就是明天的小数据,这个是做大数据的人都知道的,其实我们现在处于在数据里跑马圈地的时代。当你以为数据是很大的时候,其实只不过是冰山一角而已,在未来更多数据会出现,当数据多到覆盖整个样本空间的时候才是大数据。
今天我们所讲的大数据,从科学的角度来看,更多用的是样本空间的观点。过去我们从新样本中找到特征,实验了之后得到结果,但是在大数据时代,因为有海量数据样本,所以我们用简单模型取代复杂模型去解释数据。
现实中,企业其实很少用大数据。企业一般会用大数据先找到方向,之后用传统的方法来提炼自己的数据。有人问我怎么开始用起数据?企业得忘掉大数据,理解业务的场景,然后回答是否能解决问题,以及日后怎样改进。企业最困难的是用数据的文化,以及用数据的管理。我们倡导“数据的生态圈”的概念:用数据帮企业做判断,解决问题,这个叫“数据欢迎你”;反过来,我们又从无限数据中寻找数据,获取运营数据。实际上,这个生态圈转起来是很困难的。我一般都说这个圈越小越好,不要搞得很大。
阿里用了很多时间去健全大数据工具。例如,我们已经开始建立数据地图,用大数据的原数据告诉我们这个地图是从哪里来的。过去我们只是用数据,但是今天我们要知道数据是从哪里来的。过去我们是有问题找数据,今天我们用数据找问题。因为大数据,阿里的决策支持部开始变化了,未来我们要每个业务部门都有做数据分析的能力,而不是让数据技术部门帮助业务部门。这是因为当我们做分析的时候,只要业务部门的人稍做改动,底层数据就全变了,数据分析要重新来过,这对我们来说工作量太大了。所以我们要做更多的工具,让更多的人很容易的找到他所要的数据。
大数据里还有非常多的问题需要解决。例如,没有人知道拿着手机上网的一个人和用电脑上网的是不是同一个人。再比如,在大数据中,我们有多少数据就收集多少数据,因为这个数据可能未来会有用,但当数据大到一定程度的时候,我们不可能无极限收集下去,需要放弃一些数据。这也是我最近在思考的事情之一,数据存还是不存?数据现在有用,未来是否有用?我思考的另外一个问题是数据开放不开放?数据的安全很重要,选择数据开放是否会侵犯别人的隐私?此外,大数据是否安全?在控制安全时,两个数据加起来可能是非常不安全的,这种情况下,你不会知道这个数据是安全还是不安全,此时监管是失效的。
最后我说一句,让人做人擅长做事,机器做机器擅长的事。其实数据都是实效的,对企业来讲,并没有什么大数据的神话。