陈振华
2016年1月20日,2016云栖大会-上海蜂会在上海科技馆举行,阿里云展示新产品,计DT未来的体验再次触手可及。
罗金鹏飞快敲击键盘的节奏被电话打乱了。他接到的是一通测试报警电话,这说明数据在测试的时候可能出现了异常。他停下手中的活,立马去处理这个异常。
这就是罗金鹏每天的工作状态。他是阿里巴巴数据技术及产品部高级技术专家。像他这样从事着看似枯燥却非常重要的工作的工程师,在阿里巴巴有数千。
正是这些技术人员日复一日的谨慎小心,才保障了这个中国最大的电商平台的正常运行,使之可以实现2016财年电商交易额突破3万亿元这一里程碑式的业绩。
这些技术人员所维护的,可能是这个时代最复杂、运算量最大的系统之一。在这个系统上,大数据和云计算成为最鲜活的技术手段。
包括阿里巴巴在内的所有电商平台,也是依托着这些最先进的技术不断拓展辐射的深度和广度,不断地开辟蓝海。
“今天,我们把大数据和云计算定位成一个商业的基础设施。但大数据成为新经济的石油,云计算成为新经济的引擎,真正产生成果,还需要一个过程。”阿里巴巴集团CEO张勇告诉《瞭望东方周刊》。
当他们在中国这个巨大的市场和消费人群中历练过后,电商平台的技术实力,已经不仅仅能够为自己提供服务,也已具备了输出的可能性。
“互联网成为基础设施,数据成为生产资料,而计算成为公共服务。通过数据和计算,拓展全新的领域,才是数据产生价值更重要的发展方向。”阿里巴巴集团CTO王坚在接受《瞭望东方周刊》采访时表示。
实际上,技术的发展可以分为三步:首先是为了保障系统的运转正常;第二步,是从大数据中挖掘商业规律和价值,为商业判断提供参考;第三步,则是挖掘出大数据潜在的价值,并对外输出技术能力,用技术拓展商业的边界。
确保峰值不崩溃
技术的最基础功能,是保证系统正常运行。但这对于天猫和淘宝这种日成交额动辄数十亿元的电商平台来说,并不是件简单的事。
3月21日下午14时58分37秒,阿里巴巴中国零售交易市场2016财年商品交易即时总额累计突破3万亿元。
3万亿元背后的成交高峰,出现在“双11”——当天全天交易额达912.17亿元,全天支付笔数达7.1亿笔。
如此大规模的交易量和支付量,是对技术的“大考”。而最难的“题”,则是确保峰值来临时不能崩溃。
“‘双11之所以能顺利通过考验,靠的是阿里巴巴多年的技术沉淀,有赖于4个主要技术单元的通力合作。在当天其实最紧张的就是技术支持团队,面对那么大的交易洪峰,一点差错都不能出。”王坚说。
在阿里巴巴主要的4个技术单元中,数据技术及产品部是负责将数据进行流式计算并实时呈现在媒体大屏幕上的关键团队。
在“双11”之前,这个团队与上下游技术团队共同进行了数十次大大小小的压力测试。只有通过最严苛的压力测试,才能保障双十一期间的系统性能和稳定性。
当天00:05:01,阿里巴巴系统交易创建达到14万笔/秒的峰值;00:09:02,支付量达到8.59万笔/秒峰值。在2015年的“双11”,共有超过200家银行与支付宝共同支撑了支付洪峰。
这是什么概念?Visa在实验室测试的支付峰值是5.6万笔/秒,实际支付峰值是1.4万笔/秒;而MasterCard实验室测试的支付峰值是4万笔/秒。
从历史数据来看,2015年的交易峰值,是2014年“双11”交易峰值3.85万笔/秒的2.23倍。而相比2009年的首届“双11”,订单创建峰值增长了350倍,支付峰值增长了430倍。
从“坐车”到“造车”
2008年,中国的电子商务开始了井喷式发展。
在驶入快车道的同时,阿里巴巴也敏锐地意识到它可能会面临的瓶颈——其购买的软硬件已经不能满足交易的高速增长,因为当时的数据规模已经超过了全球传统软硬件巨头的技术极限。
一个更大的背景,是阿里巴巴IT发展策略的变更:从依赖“商业软件”,到拥抱“开源软件”,转而靠自主创新,提升技术研发实力。
而这一变化,始于2008年王坚加入阿里巴巴。
“成本降低是我们投入技术研发最先能够看到的,因为购买许可是非常贵的。但更重要的原因在于,以IOE 为代表的传统IT企业架构,无法满足互联网业务的极速扩张,约束了企业长远的发展。”王坚总结道。
在王坚看来,直面这一前所未有的挑战,最好的解决方式是采用云计算。2009年,王坚牵头成立了阿里云。
阿里云的代表作之一便是超级计算引擎MaxCompute(原名ODPS)。2013年底,这一工具已经开始支撑包括淘宝、天猫、支付宝、菜鸟等电商平台所有的大数据业务。
不过,所有的新生事物都非一帆风顺,研发自有技术难度之大超乎想象,并且从一出生就在与外部的PK中残酷成长。
阿里云大数据专家李淼告诉《瞭望东方周刊》,在2010?2011年,与业界开源产品Hadoop相比,它大概三四个小时就能做完的,MaxCompute可能需要近30个小时,毫无优势。
而现在,MaxCompute比Hadoop系统的处理速度要快数倍。2015年“双11”之前不久,MaxCompute参加了排序基准评估竞赛SortBenchmark,把100TB数据的排序时间缩短到了377秒,而此前的纪录是1406秒。MaxCompute获得4项世界冠军。
在加入阿里巴巴之前,李淼的头发还是乌黑的,如今,他的头发已经花白。而阿里巴巴的“去IOE”行动,被业界认为是成功的。
“我们相当于从坐车的变成自己造车。这种领先,有技术和架构上的原因,但更多是技术经验的积累,要一点一滴地不断打磨。”李淼告诉本刊记者。
这期间,阿里云的工程师对开源数据库进行了大量的升级工作,并于2015年1月进入由Facebook、Google、Twitter和Linkedin四家公司发起的WebScaleSQL组织,开创了中国公司在全球开源项目中的先河。
除了不断进化地应用他人已有的技术成果,阿里的自主研发技术也开始结出成果,用于替代开源数据库的自主研发数据库OceanBase开始应用于支付宝。这是全球首个应用在金融业务的分布式关系数据库。
2014年,OceanBase承担了支付宝10%的流量,而在2015年,它支撑了“双11”时支付宝100%的核心交易流。目前,OceanBase已经在支付宝、淘宝、天猫等多处使用。
在李淼看来,“对技术而言,金融系统的难度是最大、也是要求最高的。以前,技术的增长根本没能力承担这么大的业务量。”
实际上,阿里巴巴在2015年“双11”期间所创造的纪录,正是阿里云与淘宝、天猫、支付宝共同构建的全球最大规模混合云实践。
打破数据壁垒
在硬件和基础技术准备成熟后,用王坚的话来说,就是对数据这一“生产资料”进行价值生产。
而在此之前,阿里巴巴还率先做了业界的又一件大事。从2013年起,阿里云自主研发的MaxCompute开始成熟,阿里巴巴集团自有的数据业务开始采用这一技术平台,使之成为统一底层,该计划取名为“登月计划”。
漫长的“登月”,困难重重。
“大规模数据的搬迁,一定会出现小概率的数据丢失或损坏,就好像买彩票一定会有人中五百万一样,我们需要做的工作就是,把这个中了500万的人规避掉。”李淼说。
“登月”之难还在于,需要校验数据的正确性。李淼打了个比方,比如复制100万个视频文档,得保证不丢失,同时还得把这100万个视频全部打开,从第一秒看到最后一秒。
又因为阿里巴巴集团内需要整合的业务数据单元太多了,于是这个计划中就从“登月一号”取名,二号、三号,一直到数字排不下,换成字母排到xyz,最后排到登月Z1,Z2……
整个数据搬迁的过程,直到2015年年初才差不多结束。
罗金鹏告诉本刊记者,由于不同的数据源会造成格式或者逻辑上的差异,用户使用起来成本非常高,并且容易造成资源上的浪费。
“只有当全集团所有的数据放在一起,才能打通数据,进而挖掘更多的价值。”罗金鹏说,阿里数据技术及产品部建立的统一数据公共层,直接带来数以亿计的资源节约。
据他介绍,阿里巴巴的数据公共层分为离线数据公共层和实时数据公共层。此举不仅带来更为可控的成本,而且极大提高了下游分析人员使用数据的效率,也减少了数据质量问题出现的频率。
“我们以OneData体系建立的集团数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。”罗金鹏说。
大数据如何赋能商业
对于电商平台来说,大数据分析最直接的作用是描摹出用户的特征和消费偏好,更好地营销。
典型的例子是淘宝的“千人千面”。
“每个买家登录的淘宝页面,都是不一样的。‘千人千面看起来简单,实际上的技术挑战不小。我们根据用户的不同数据,给他们打上不同的标签,再推荐出买家搜索过或与买家消费能力和喜好匹配的不同商品。”罗金鹏说。
据他介绍,目前标签有300多种,如此多的标签,都是为了更精准地定位用户,从而实现更好的精准营销。
“技术和业务的关系是相辅相成的。你能承受多大的业务体量,你的技术才能有多强大。也只有数据技术做好了,才能做好精准营销,为卖家提供更及时的策略,消费者体验也能更好,自然也会反哺三万亿元的GMV增长。”罗金鹏说。
据他介绍,他们已经将阿里的数据能力通过产品对外孵化。目前已经对商家提供的数据产品“生意参谋”,能提供多维度的数据服务,帮助商家通过数据分析来进行商业决策。
“比如店铺浏览量多少,从哪个入口进来,不同区块和图片点击量多少,成交量多少,可能喜欢什么东西等,为下一步的商业决策提供参考。”
在阿里巴巴的数据系统里,ID匹配月调用次数多达200多亿次,ID画像月调用次数近20亿。而统一用户画像还依赖统一的用户ID,这在阿里巴巴内部代号为OneID。罗金鹏透露,在2016年,阿里巴巴数据技术及产品部下一个要攻克的难关是One ID。
“实现One ID,能让广告主能更精确的投放广告,同时避免对用户的过度骚扰。这项技术国内外都没有成熟的经验可供借鉴,多是靠我们自己摸索。”罗金鹏说。
王坚的目光更长远,在他看来,2016年是数据元年。
“数据本身是没有价值的,它需要开发和挖掘价值。就好像原油本身没有用,经过炼油才能为人类所用。”王坚对本刊记者说,现在,产生数据价值的技术已逐渐成熟了。
技术输出时代来临
阿里巴巴的技术实力已不仅仅为己所用。
当技术已发展成熟到能很好地服务集团内部时,阿里巴巴就会将技术封装成工具,通过阿里云这一平台对外提供服务,这被称为“技术对外开放”。
在2011年7月,阿里云自主研发的“飞天”开始以公共云计算服务的方式对外提供云计算商业服务。
2016年初,阿里云又发布了大数据平台“数加”,对外开放阿里巴巴十余年累积的大数据技术。该平台集合计算引擎、开发套件、可视化工具和行业解决方案,是全球首个囊括前、中、后台的大数据一站式开发平台。
阿里云的MaxCompute也已经商用:12306网站用阿里云承接春运高峰期75%的余票查询流量;华大基因用阿里云进行基因测序;蚂蚁金服旗下的蚂蚁小贷也是阿里云的客户。
蚂蚁小贷是王坚看好的一个项目,它完全基于大数据,通过阿里巴巴平台上积累的信用与行为数据,最终实现了“3分钟申请、1秒放款、0人工干预、最小贷款额为1元”等多方面的金融借贷领域突破。
“除了挖掘传统的数据价值,比如商业洞察、营销推广等,我认为通过数据和云计算,拓展全新的领域,是数据产生价值更重要的发展方向。”王坚说。
这也是王坚对阿里云的期待:成为输出计算能力和大数据技术的平台,为这些梦想要创新的“独角兽们”提供更好的服务和支持。
云计算市场潜力巨大,阿里云先后扩建了位于美国西岸和香港的数据中心,并将在美国东岸、中东、欧洲等地建立新的数据中心,不断完善“全球网”布局。
2013年11月11凌晨,位于杭市的阿里巴巴集团淘宝总部员工在岗位上忙碌
在2015年第四季度财报中,阿里云营收8.19亿元,比去年同期增长126%,连续第三个季度保持三位数增长。
外界评论普遍认为,云计算市场的第一梯队已基本形成,并且会不断固化。研究机构IDC最新的统计数据显示,截至2015年上半年,全球公共云计算市场占有率最高的前五家服务商分别为亚马逊、微软、IBM、RackSpace和阿里云。
有业内人士认为,云计算全球市场或已形成“3A鼎立”的格局(AWS、Aliyun、Azure)。
而在王坚看来,计算能力或将成为企业乃至国家的核心竞争力。
“在未来,我们评估一个国家或企业的发展时,可能不是看消耗了多少电,多少石油,而是看消耗了多少计算能力,从数据中挖掘了多少价值。计算经济,是实现弯道超车非常重要的机遇。”王坚说。