张成松
联想大数据平台主要包含行业智能应用平台、数据智能平台、大数据计算平台以及物联网采集与边缘计算和IT系统数据整合等。而物联网的采集和边缘技术的产品,可以把企业传统的IT系统进行整合,并统一放到大数据平台和数据库中。当数据进来以后,大数据平台就可以进行数据存储、计算、构建分布式计算框架和统一调度。在其之上就是数据智能平台,该平台可以把企业的预测、优化以及挖掘,通过预测库、优化库、知识库的形式,制定行业模型。
在最上一层的行业智能应用平台上,我们就可以给一些企业做各种行业解决方案。对于联想大数据平台而言,我们还添加了制作软、硬件的安全产品和数据资源管理平台。为什么要提数据资产管理?我们本身做的是开源组件,没有对数据目录和数据访问权限方面进行很好的管理,所以我们添加了数据资源管理模式,在数据资源管理之上就是第三方智慧集成平台。在我们自主开发的产品中,我们利用开源技术,包括在Spark和Hadoop基础上进行大量的优化工作,并自主开发了很多工具,包括边缘计算和数据集成工具等。在联想大数据平台,我们也广泛应用了开源技术,不管是在数据采集存储、数据管理、数据分析上,还是用算法平台或者可视化技术,在我们的产品中,都有开源技术的身影。
我们在产品中运用了很多开源组件和平台技術,那么基于这些组件和平台,我们在大数据产品中有哪些技术的创新和突破?用大数据平台支持传统数据仓库的应用场景,那么需要什么样的应用场景呢?就是传统的企业可能需要大量的数据存储、数据计算以及各种管理系统,而这些数据都会存在数据库中,当数据量越来越大时,数据库已经无法满足使用者的需要。这时企业就想把自身的数据迁移到Hadoop中,但是Hadoop不支持数据存储。若要解决此问题,就得投入大量成本,推翻原有系统开发新型系统,这对企业来说是一种损失。
所以把Hadoop的功能进行增强,使Hadoop支持所有数据仓库,这样企业可以将自身的原有系统,迁移到Hadoop和大数据生态链中来避免损失。怎么实现大数据支持传统数仓的场景?当用户将大数据输入到数据仓库后,要对语法进行识别,之后我们将识别出的语法进行解析,最后将解析模块放入执行系统的子系统中,最终实现该场景。对于这一运行结果,我们还做了一项工作,解决数据倾斜的问题。Spark系统在工作中,会出现数据倾斜问题。当我们识别到有数据倾斜的任务时,我们会将数据拆分成一个个小任务,用分布式的方法执行。我们对Spark数据倾斜进行测试时发现,当开启Spark数据倾斜组件时,至少能提升6.5倍的性能,如果不开启,运行速度则会大大降低。另外我们解决了跨集群数据计算和访问的问题。联想在全球有十个计算中心,每个计算中心会存储一部分的业务数据,当北京的用户执行了查询任务时,会把请求发到北京集群中,而集群会把世界各地的数据融合后进行计算。这个时候就会遇到Spark、Hadoop访问集群的情况。假设有A集群和B集群,当A接受请求任务时,会识别所计算的数据是属于哪个集群。当任务执行时,A集群会访问另外一个集群的组件,通过组件去代理访问B集群的数据,最终将A、B集群的数据融合一起,实现跨集群数据的访问和数据计算。
分享一下机器学习和人工智能的组建和平台,在联想的大数据平台里怎么落地。我们将这部分分为三个层次:第一层,统一计算资源池。该产品可以把传统的CPU或GPU管理起来,形成统一的计算池和资源池。在资源池的基础之上,把GPU划分成多个租户,并按照租户的需求进行资源分配、训练数据模型等。第二层,Leap Manager,该产品可以管理整个计算引擎,并提供可视化的安装部署,最终将机器学习引擎安装在平台中。第三层,Leap AI,它是做算法的试验运行和执行的平台,主要功能有两大块,第一是提供可视化的拖拉拽组件,用户可以把界面上所提供的各种组件拖过来,进行算法的训练和执行。第二是对底层开源的算法引擎进行封装,并提供各种API,用户可以通过API,执行算法的训练。
我们在开源基础上有哪些突破和创新?第一,支持SQL和存储过程。第二,在性能上,率先通过50TB TPC-DS的99个复杂业务场景测试。第三,分布式事务处理能力增强。第四,完善图形化数据处理工具。第五,封装了大数据挖掘和机器学习平台。第六,从硬件资源和软件环境上去进行资源的统一划分。
简单介绍一下联想大数据。我们从2011年开始搭建大数据平台。目前在全球有十个数据中心,包括北美、欧洲、亚太等。超过3000台服务器的计算节点,每天处理的数据量约4TB。
联想大数据平台为客户提供端到端服务,推动合作伙伴数字化转型。联想大数据在成都、北京和香港,都有超过600人的专业团队,来打造国内一流的大数据产品。在2017年12月8日,联想携手80企业多家包括百度、腾讯、三一重工等,共同构建工业大数据产业联盟,来推动中国工业大数据的发展。
(根据演讲内容整理,未经本人审核)