“不是任何一朵云都能撑住像‘双11’这样的流量。”阿里巴巴集团CTO、阿里云智能总裁张建锋表示。
2019年天猫“双11”再次刷新世界纪录:总成交额2684亿元,订单峰值54.4万笔/秒,单日数据处理量970PB。这是在阿里巴巴核心系统今年已100%上云的情况完成的创纪录之举。阿里巴巴这朵云经受住了“双11”这一世界级流量洪峰。
用公共云承载一个万亿规模的核心系统,阿里云做到了。可以肯定的是,未来阿里的全部系统都将运行在阿里云上。
其实,从去年开始,阿里已经决定将整个阿里巴巴的核心系统全部迁移到云上。阿里为什么敢为天下先?首先,阿里云是阿里自己从头研发的一朵云,每一行代码都是自己的,累积、验证、迭代了十年,这就是大家今天看到的“飞天操作系统”;阿里云将原来专用的技术变成公共云,所有核心系统都在公共云上,让所有人都可以来享受普惠的服务。
今年的“双11”已经证明,阿里云100%核心系统上云是成功的。这背后不仅仅是简单的替换,上云之后,系统整体性能有了非常大的提升。在交易开始的前十分钟,消费者基本没有感受到任何抖动,购物非常顺畅。这主要得益于阿里云在以下几方面的优化:
首先,在核心虚拟机层面,阿里自研的神龙架构基于自研的服务器实现虚拟化,其性能的输出是稳定的、线性的;其次,阿里自研的OceanBase 金融级分布式数据库与PolarDB 数据库同样表现优异,其每秒峰值远超原来采用的Oracle 传统数据库;再次,实现计算与存储的分离,阿里巴巴有一个专门的存储池,所有数据都是从远端存取,存储的扩展非常方便;最后,大规模采用RDMA 网络,保证访问性能。
今年的“双11“总共处理了970P 的数据。在每个一个时间点,所处理的工作负载又各不相同,同时还要实现实时处理,难度就更大。阿里采用了分而治之的措施,在零点时,将大部分计算机资源分配给交易等应用,在一点之后,则把数据分配给数据处理系统。
今年“双11”除了数据的批处理以外,还有大量的流处理,即实时处理所有数据,每生成一笔订单,系统就会自动将数据逐层汇集上来。阿里采用的这一流式处理系统,每秒能处理25 亿笔记录。
飞天操作系统能够在10万台级别以上的服务器中做调度。管理如此庞大的服务器,除了飞天操作系统之外,还需要管理所有的消息流转。因此,阿里自研了MQ 消息系统,这是目前全球最大的一个消息系统。从飞天操作系统、大数据处理平台到智能化应用,这些技术叠加起来,构成了一个强大的分布式的云平台,才掌起了阿里整个经济体的所有核心应用。
特别值得一提的是,阿里今年发布了自研的芯片含光800。明年的“双11”,阿里大量的人工智能应用都会跑在自研的芯片之上。
硬件、数据库、云计算操作系统,再加上核心应用平台,阿里以自研为起点,始终保持快速创新、快速迭代,才能在“双11”这样的硬仗面前,游刃有余,从容不迫。