王永
数据量在以前所未有的速度增长,从 TB 级暴增至 PB 级,甚至 EB 级。传统的本地数据分析方法不具有充分的扩展能力,同时价格太贵,无法处理这样大量的数据。企业需要从多个孤岛提取所有的数据,然后将这些数据集中在数据湖,从而直接对这一数据进行分析和机器学习处理。
不过,在这样一个数据“迸发”的趋势下,企业挖掘数据价值的挑战也愈发明显:从结构化到半结构化再到非结构化数据的指数增长、复杂的使用场景和实时数据的快速决策能力。
“在此之前,一个数仓隔几天跑一个报告是习以为常的,但是现在企业的整个业务和场景变化会驱动企业的决策能力加快,甚至很多决策会是分钟級的,这就要求在一些实时流分析时给到决策。”亚马逊云科技大中华区服务产品部总经理顾凡在接受笔者的采访时表示,面对细分的应用场景,目前市面上单一、通用的数据解决方案在性能上会有所妥协,很难满足客户的真实需求,用户亟需融合了易用、易扩展、高性能、专门构建、安全及智能等特性于一体的新一代数据管理架构。
2021年6月24日,亚马逊云科技针对数据及数据分析等服务持续发力,推出引领大数据未来的“智能湖仓”架构,围绕着“智能湖仓”,亚马逊云科技提供的数据分析服务包括:底层上,从数据库把数据注入到数据湖中的DMS,从弱网的环境把数据搬到数据湖中的Amazon Snowball,以及有实时的流数据服务Amazon Kinesis系列。
中间层,Amazon S3是核心数据湖的关键构成组件,数据进入到Amazon S3,在EB级以及在高可用、高扩展的情况下支撑结构化、半结构化、非结构化的数据,并在Amazon S3上也会有针对分析专门优化过的存储层。
上层是真正数据的处理和数据的消费层。在数据分析领域里针对不同的分析场景会有不一样的分析引擎——Amazon Redshift、Amazon EMR、Amazon Athena等。同时除数据处理和分析的引擎之外,还有商业智能BI类的像Amazon QuickSight以及大量的机器学习类的服务。
“智能湖仓并不是一个产品,而是为解决客户现实挑战而生,为处理复杂场景而设计的架构。”在顾凡看来,亚马逊云科技在数据分析整个产品设计的想法有三层方面的考量:首先,为云优化。无论是Amazon Aurora还是Amazon Redshift,这些都是云原生的数据库、数仓,其天然在弹性方面是没有限制的,可以做到非常好的线性扩展。
其次,专门构建。数据分析场景越来越多元化,使用的人也会越来越多元化,所以,必须要去专门构建不一样的分析引擎。
最后,完全托管。这个是贯穿于云计算始终不会变的原则,针对客户业务无差别的繁重的工作都由亚马逊云科技来做,而不需要去重复地做整个仓、湖的管理、构建、甚至是数据的无缝移动。
在智能湖仓这个概念里,有一个方面是反复被提到的——数据的无缝移动。
在客户的业务场景中,数据移动大概分为三类:由外向内,数据入湖。例如,在Amazon Redshift数据仓库做查询,按照区域来划分今年的销售,查询跑出结果之后,数据不会只呆在数仓里,会从数仓重新注入到数据湖中。因为机器学习的Amazon SageMaker直接就对接着数据湖,数据可以从数据湖再注入到Amazon SageMaker,Amazon SageMaker通过分区域产品销售的分析数据去建立模型,即先由湖仓完成查询,查询的数据入湖,机器学习调用数据。
由内向外,数据出湖。当客户用实时数据流的服务,将客户在网站上的Web点击流的数据注入到湖里面,这些数据已经在湖里面。
环湖移动。简单来说是数据并不会只从外面往里进和从里面往外出,无论是数据库、数据仓库,还是不一样的分析引擎,环湖有不一样目的的专用数据存储。
“亚马逊云科技智能湖仓架构提出已经有几年的时间,在2020的re:Invent上谈到如何迭代这样一个智能湖仓架构的时候,我们非常强调未来的整个数据做一个更好的支撑。”顾凡说到。
从亚马逊云科技的角度来看,智能湖仓的架构必须要有一个快速构建可扩展的数据湖,即Amazon S3。围绕着Amazon S3,客户使用专门构建的这些数据分析的服务集合,例如,结构化数据的复杂查询Amazon Redshift和Amazon Aurora交易型数据库等,在湖、仓和专门构建的数据服务之间做好移动数据,包括 Amazon Glue和Amazon Glue Elastic view 等功能。以一种统一的方式管理湖里面数据的安全性、访问控制和审计。最后,以低成本扩展系统,但同时不降低性能。
“构建一个数据湖要有专门构建的数据分析服务,要能做到数据、湖、仓和专门构建的数据服务的无缝数据移动,统一管理、低成本,这是我们所定义的亚马逊云科技智能湖仓架构。”在顾凡看来,智能湖仓不仅仅是湖和仓的打通,更是湖、仓专门构建数据服务连接成一个整体。
亚马逊云科技“智能湖仓”架构优势体现在五个方面:第一,灵活扩展、安全可靠。这个架构最重要的是Amazon S3数据湖的基础组件,它拥有无与伦比的持久性是11个9。其可用性不仅可以跨3个可用区做数据复制,可扩展性甚至可以做到EB级。更重要的是,可以在数据湖高扩展性、高可用性的情况下,很好的控制成本。
第二,专门构建、极致性能。任何一个技术都会各有优劣,所以并不存在一个技术,既能在功能、性能以及扩展性上做到一个产品打天下。
第三,数据融合、统一治理。未来的整个的智能湖仓架构里面,数据会在各个点之间移动,亚马逊云科技把数据移动归纳为几种方式:一种是传统的ETL,提取转换加载;一种是可视化数据准备。例如,Amazon SageMaker里面的Data Wrangler,可以快速从数据里面提取特征。
第四,敏捷分析、深度智能。谈到数据永远分不开三个话题:如何把数据基础设施现代化,采用云上的云原生数据库;如何从数据中真正产生价值;如何用机器学习更好地辅助决策,甚至是驱动决策。
因此,在智能湖仓的架构下,亚马逊云科技首先集成就是Amazon SageMaker和湖仓的融合。然后是机器学习的再扩圈——不是只有数据科学家、机器学习的数据开发工程师在用机器学习,更要鼓励今天的DBA、数据分析师都可以用机器学习。
第五,拥抱开源、开放共赢。无论Amazon EMR,还是Amazon Elasticsearch以及Amazon MSK,都是针对开源API的一种全面的支持和兼容。
值得一提的是,当前已经有数十万的客户在借助亚马逊云科技全球服务构建数据湖,并将数据分析和机器学习等工作负载搭载其中。
“以客户为先,让亚马逊云科技推动数据架构不断演进的同时,自身也在通过客户的反馈,汲取创新的源动力——亚马逊云科技90%的创新来自于直接听取客户的建议。未来,亚马逊云科技还将不断通过技术创新和实践创新,加速其在中国区的业务布局的同时,帮助客户轻松应对海量业务数据,充分挖掘数据价值。”顾凡如是说。