李昊原
数据应用四阶段论。
电商企业有两个鲜明的特点,第一是,有许多促销运营的活动,比如“双十一”、“双十二”;第二是,对大数据的依赖性很强,借助对数据的分析进行精准推送。
一家企业一天可以产生多少数据呢?几个例子可以说明问题:一家中大型的游戏公司,每天玩家可以产生600GB的行为数据;一家互联网企业,用户每天的点击流和行为数据可以达到500GB;而一家医疗行业,或是生物分析行业的企业,假如想对几十万甚至上百万人做基因的数据分析,人类的DNA是30亿个碱基对,那每个人DNA的数据大概就是3GB,分析的数据量将逼近甚至达到PB级。对一些企业来说,大数据能力不仅是一种追求,而是企业运营的必需品。
在这样的数据量面前,一个显而易见的问题是如果电商企业自建机房,只为应对促销活动时的IT压力,这意味着购进大量设备,而在平时,这些资源是被闲置的,这是成本上的浪费。另外,大数据平台的运营和维护成本也比较高。
随着云计算的兴起,企业纷纷将数据迁移到云上,以金山云为例,其存储企业的总数据量已超过400PB,并以每天500TB的速度在不断增加,在云上提供大数据服务成了一种必然。
在电商企业使用云平台之后,实时数据则会通过万兆网的专线,传输到金山云KMR(Kingsoft MapReduce,金山云托管Hadoop服务)集群进行处理与分析,然后将处理结果传回电商的数据中心。在促销活动时,可以按需购买资源,只需几分钟就能灵活扩容与收缩,成本下降效率却大大提升了。同时,也不必在运营维护上投入过多资源,能更专注于本身的业务。对大多数技术不够强的企业来说,面对突发情况,KMR的安全性也比自己搭建的大数据平台要更高。
金山云大数据和AI技术总监张东进将企业对云上数据的应用分为四个阶段:最基础的是将数据放到云上,包括对数据的存储和分发;第二个阶段,是使用数据驱动决策和运营,包括商务智能和统计分析;第三个阶段,不仅仅用数据来驱动决策和运营,还会利用数据来支撑一些关键业务,比如电商的商品推荐功能,一些传统制造业企业,也会用数据配合人工智能,去优化生产制造流程;第四个阶段,完全以数据为核心去构建业务模式,比如今日头条。
“要是简单地把企业分为互联网企业和传统企业,前者的数据意识比较高,又拥有较强的技术实力,业务模式通常也跟数据深度绑定,在数据应用上会走得比较深入。而传统企业,早期主要是在商业智能(BI)上应用数据,现在也开始思考如何来应用大数据。我们发现一个趋势,两年前,传统企业认为大数据重要,是因为国家和媒体的宣传,并没有真正的体会;而现在,他们的竞争对手在用大数据,他们能感受到差别,也真的认为大数据很重要了。不管哪种企业,都可以在这四个阶段中满足自己的需求。”
硬件革命推动大数据“上云”
大数据的关键是建立一个稳定高效的大数据分析平台。2011年Hadoop开始流行时,大数据在实际部署中有一系列难以解决的问题:多租户模式导致对数据安全性的诟病;搭建大数据平台时,需要采购大量设备,对人员的技术要求高,時间长达数月,难以快速部署;对计算能力进行扩容,从采购机器到完成会耗时长,系统缺乏灵活性和可靠性。
与之对应的是,当时网络还在千兆网时代,硬盘是每秒写次50的SATA,计算方面是Westmere处理器,硬件的不足导致移动海量数据的成本高,计算需要在数据所在的地方进行,限制了大数据技术的落地。而现在,100G网络已经出现,CPU的计算能力提升了10~20倍,最近发布的英特尔闪腾P4800X固态硬盘,每秒写次达到50万。硬件的革命性进步,让计算和存储可以分开到两个独立的集群中,通过高速互联网来连接,云上大数据平台的实现成为可能。
KMR就是金山云依托英特尔在硬件方面的实力,推出的云上大数据服务,通过数据打通,企业客户在金山云上以及在自己的数据中心产生的数据,可以在平台上一站式地做计算、做分析。
起家于IaaS的金山云,过去两年深耕PaaS领域,更擅长于偏基础性的平台服务。“我们发现,SaaS更像是点上的需求,而PaaS则是广泛的需求。比如说在一个大型集团中,都会用同一个PaaS来做大数据服务。”针对企业对SaaS方面的需求,尤其是传统企业所需要的能够直接面对运营和分析人员的数据服务,金山云除了自己开发,还通过与合作伙伴合作的方式在KMR上达成。云上大数据平台可以满足企业在数据处理第一和第二阶段的需求,更高阶段的数据应用,需要云上大数据和人工智能进行深度融合,这也是金山云接下来的重点方向。“我们可以通过人工智能技术改进大数据平台,在数据的接入、转换、挖掘,和支撑、赋能企业业务做到更好。”