亚马逊云科技：构建云原生端到端的“数据战略”

2023-05-30 10:48王永

数字商业时代 2023年1期

王永

“re：Invent，中文可以理解为重塑，是亚马逊云科技一直以来坚持的‘精神内核’，将客户需求作为技术重塑的源泉，赋能各个行业的业务创新同样是亚马逊云科技追求的目标。” 亚马逊云科技大中华区产品部总经理陈晓建日前在re：Invent中国媒体沟通会上表示，今年是亚马逊云科技第11年举办re：Invent，来自全球的5万多客户和合作伙伴参加了在拉斯维加斯举办的线下盛会，超过30万人线上参会。

其中不乏宝马集团、拳头游戏、纳斯达克以及西门子等行业“翘楚”，同时，许多独角兽和初创企业也都在使用亚马逊云科技实现创新。Pitchbook的数据显示，全球有超过1千家独角兽，其中83%都在用亚马逊云科技；Cloud 100榜单上超过90%的初创企业都将他们的业务放在亚马逊云科技上运营。

那么，云是怎样帮助大家在当今不确定环境下保持探索的？亚马逊云科技CEO Adam Selipsky认为，通过思考和总结人类过去的探索方式，将为今天应对不确定性提供宝贵的经验和教训。“人类曾经探索过各种各样的环境，有些浩瀚无垠，有些深不可测，有些充满着极端的挑战，但有些也充满着无限可能。当我们使用正确的工具，人类就可以自信地去战胜各种环境的挑战，不断地发现新的可能性。”

如今，像星空一样广袤的数据“大爆炸”成为现实，分析师判断：未来5年所产生的数据是整个数字时代所产生数据的重量两倍还要多。如何去管理海量数据，挖掘数据的价值，对每个企业来说既是挑战，同样也蕴含无限的价值。

“虽然数据是整个应用程序业务逻辑的核心，但处理数据非常棘手，这也是亚马逊云科技一直致力于建设云原生的数据战略的原因。”陈晓建认为，亚马逊云科技希望提供工具，让客户在整个数据全生命周期从存储到最后的AI，每个环节都能帮助用户把数据利益最大化，通过提供完整全面的数据解决方案，帮助客户更安全、更高效的去挖掘数据价值。

也就是说，亚马逊云科技提供了一个端到端的数据战略，帮助客户从数据的摄入、存储、查询、分析，到可视化展现以及人工智能，在各个方面通过安全、合规的方式帮助客户实现数据的共享和输出。

在陈晓建看来，构建云原生的数据战略有三个关键因素：建立面向未来的云原生数据基础设施；实现高效、跨组织的数据一体化融合以及借助教育和工具，使数据普惠化。

其中，建立面向未来的云原生数据基础设施时需要注意的是：首先，面对不同类型的工作负载，提供合适的工具。从亚马逊云科技的统计数据看，前1，000 名亚马逊云科技客户中有94%使用超过我们的10项数据库和分析服务。

“亚马逊云科技一直致力于来构建专门构建的云原生服务，为了特定场景而定制化开发最合理的工具。”陈晓建透露，亚马逊云科技拥有完整的关系型数据库和专用数据库，为客户的分析负载提供最全面的服务：包括EMR的大数据分析、Amazon OpenSearch的交互式的日志分析等，同时提供了大量人工智能的工具支持深度学习框架可以更轻松建立AI/ML的Amazon SageMaker服务，具备内置机器学习功能的AI服务，例如Amazon Transcribe和Amazon Polly。

此外，亚马逊云科技不仅宣布推出适用于Apache Spark 的 Amazon Athena，让用户使用Athena来调用Spark，在短短一秒内即可开始在Apache Spark运行交互式数据分析任务，用户无需准备基础架构配置。同时，客户还只需为使用的资源付费。

还宣布了针对 Apache Spark 的新 Amazon Redshift 集成预览，通过这一功能，客户可以通过Amazon EMR 或者Amazon Glue这样的Spark引擎来消费Amazon Redshift中的数据。与现有的 Amazon Redshift-Spark连接器相比，这种集成使Spark引擎对Amazon Redshift的数据抽取速度提高了10倍。

除了发布新特性，亚马逊云科技也在持续优化性能，现在，客户在 Amazon EMR、Amazon Glue、Amazon SageMaker、Amazon Redshift和Amazon Athena 上运行经过优化的Spark runtime，可以获得比开源版本 Spark 快 3 倍的性能。

其次，為保持大规模运行下的的高性能，Amazon Aurora的自动扩展功能可以将每个数据库实例可自动扩展到最大128TB，而只有其他传统企业级数据库大概1/10的使用成本；DynamoDB在2022年的Amazon Prime Day期间每秒处理超过一亿次的请求。

在这些强大能力的基础上，本次re：Invent再次发布了多项数据库新特性，包括：Amazon DocumentDB Elastic Clusters，将Amazon DocumentDB集群弹性扩展到支撑百万级读写每秒和PB级存储容量的规模；Amazon RDS写优化，将数据写入吞吐量最高提升两倍；Amazon RDS读优化，将数据查询性能最高提升50%。

再次，以智能化手段和工具为客户降低运营复杂性，有效提高工作效率，亚马逊云科技通过自动化和机器学习的内置智能来减少手动任务。例如，DevOps Guru 使用 ML 在数据库问题影响客户之前自动检测和修复它们；Amazon S3 智能分层通过自动将不常访问的数据放入成本较低的存储类来减少日常维护，迄今为止为用户节省了7.5 亿美元。Amazon SageMaker降低了机器学习的的使用门槛。

新发布的Amazon SageMaker 现在支持新的地理空间机器学习功能，客户只需单击几下即可从Amazon SageMaker访问不同的数据源上的地理空间数据。

最后，数据库升级往往是数据安全的隐患，每一次数据库升级涉及到许多操作，而且会涉及不可避免的数据库停机时间。为提供最高级别的可靠性和安全性，保护数据存储，亚马逊云科技新发布了Amazon RDS蓝/绿部署，客户开辟一个测试环境进行补丁或者新配置的测试，当测试成功之后快速将测试环境切换为生产环境。这样的功能极大地节省了数据库团队运维中的操作压力，同时提升运维效率，保证数据零损失。

实现高效、跨组织的数据一体融合比较关键的地方在于连接数据的能力与云原生数据基础设施同样重要。从自动化数据路径到数据治理工具。这种一体化融合不仅是数据，还包括组织部门、团队和个人。

“ETL是挖掘数据价值，进行机器学习建模的必要前置步骤。在现实情况中，绝大多数数据都是多源异构的，ETL将把分散、零乱、标准不统一的数据整合到一起，通过抽取、清洗转换之后加载到分析服务。”陈晓建表示，作为自化数据路径之一，亚马逊云科技提出“零ETL”的未来，客户无需再次手动构建数据管道。

为此，亚马逊云科技在本次大会上发布了多项全新的集成功能，帮助客户实现“Zero-ETL”（零ETL）。例如，Amazon Redshift流式注入功能正式可用，日志数据无需从MSK进入Amazon S3再通过代码拷贝进入Amazon Redshift做分析；Amazon MSK和Amazon Redshift可以直接打通，同时把数据同步从分钟级别提高到了秒级，极大地提升了实时性。

同时，针对客户越来越依赖于外部第三方各种各样的数据源，亚马逊云科技新增22个新的Amazon AppFlow 连接器，现已总计支持 50 多个连接器。客户不必编写任何代码，就可以通过Amazon AppFlow在数分钟内轻松设置数据流，抽取像Facebook Ads和Google Ads等新的营销数据；MailChimp、SendGrid等客户服务等营销数据，以及Microsoft Teams、Zoom Meetings和 GitHub 等业务运营解决方案等。抽取完成之后，Amazon Appflow会把数据连接到S3数据湖，Amazon Redshift等数据分析服务中进行后续分析。

当然，强大的数据存储、分析和处理能力，也需要完整的数据治理和规范化管理能力的加持

Amazon DataZone是一项数据管理服务，助力客户更快、更轻松地对存储在亚马逊云科技、客户本地和第三方来源的数据进行编目、发现、共享和治理，同时提供更精细的控制工具，管理和治理数据访问权限，确保数据安全。

机器学习治理工具Amazon SageMaker ML Governance由3个新工具组成：Role Manager，帮助用户定义诸如算法工程师、运维工程师的权限；Model Cards，发现并自动填写训练数据集或者模型构建环境，还可以输入模型的预期用途、风险评级和评估结果等等信息供使用者参考；Model Dashboard，通过统一的仪表板监控所有部署的模型。

借助教育和工具实现数据普惠化，亚马逊云科技新发布了Amazon QuickSight Q，不仅仅预备了预测的能力，而且还能揭示数据背后的原因。

推出低代码机器学习Amazon SageMaker Data Wrangler、Amazon SageMaker Canvas、Amazon SageMaker AutoPilot、Amazon SageMaker JumpStart，它们可以帮助使用者从数据准备到模型构建和开发，到训练和调整直到部署和运营管理，全生命周期的每个阶段轻松上手，快速进行业务需要的机器学习。

对未知的海底世界进行探索需要安全做支撑，在数字化转型中也一样。只有有了强有力的安全做保证，企业才能在业务拓展中走得更好，更远。

亚马逊云科技帮助客户处理海量的请求，同时追踪和监测千万亿量级的事件（15个0），需要从中找出可能的威胁事件并解决他，并快速让全球所有的客户受到同等级别的保护。

“安全是亚马逊云科技的Job Zero，从未停止脚步，在云自身的安全和云中的安全上持续创新。”陈晓建表示，亚马逊云科技树立了安全的四大目标：帮助用户快速提升安全水平、降低安全成本、减少安全事件的处理时间以及提高企业安全的效率，帮助企业提高整体安全态势。

为此，亚马逊云科技新发布Amazon Verified Permissions，通过将授权与业务逻辑分离，加速应用程序开发，通过权限集中和策略生命周期管理，节省时间和资源，使用自动化分析来确认权限是否按预期执行，从而大规模简化合规性审计工作，通过动态、实时授权决策构建支持零信任架构的应用程序。

针对数据湖安全，亚马逊云科技发布Amazon Security Lake专门构建的安全数据湖，客户只需几次单击就可以创建，实现对数据的聚合、规范和存储，更快地响应安全事件，同时支持不同的分析工具。

数据的增长会驱动用户在安全上的持续投入。亚马逊将持续在安全上投入，通过更好的配置、更好的工具、更智能的分析、以及更好的监控与警告机制帮助用户在云中提高安全态势。

在底层架构服务方面，本次2022 re：Invent更新包括三个方面：极致性能的自研芯片战略，包括四代虚拟化定制芯片 Nitro；三代基于ARM架构的通用处理器芯片Graviton；两款用于机器学习的训练和推理的芯片、极速构建的云原生应用以及面向极限未来的HPC需求。

值得一提的是，Amazon Nitro 系统的研发可以追溯到2012年，在过去10年间共发布了4代Nitro芯片。Nitro最大的创新点在于可将架构演进与技术复杂性进行了解耦。类似于云原生架构的思想，服务原子化，封装功能到模块内部，接口标准化，从而大大降低了系统的复杂性，并且提升了系统的可扩展性。

Nitro V5的发布，让晶体管数量大约是上一代Nitro芯片的两倍。Nitro V5 每秒的数据包能力提高了60%，延迟减少30%，每瓦特性能提升40%。

Graviton3E 处理器的发布，专门为浮点和向量指令运算而优化，这在高性能计算工作负载里非常重要；相比于 Graviton3 实例，Graviton3E在 HPL（线性代数的测量工具）上性能提升35%，在 GROMACS（分子运动）上性能提升 12%，在金融期权定价的工作负载上性能提升 30% 。

机器学习训练和推理芯片方面，新发布了Amazon EC2 Trn1n，一款基于Trainium的网络优化型训练实例。该实例将网络带宽进一步增加一倍，每个Trn1n实例支持1.6Tbps EFA 网络带宽，强大的网络吞吐能力也使亚马逊云科技能够将超过1万个Traniumn芯片构建在一个超大规模集群里，实现对超大模型的并行训练。

“我们一直在探讨，亚马逊云科技应该如何通过不断地创新，将更多更好的云服务为客户创造价值——从大量复杂的数据中获得洞察，充满信心地探索未知领域，有足够的安全感承受外部压力，在最极端的环境下能够有信心应对挑战，以及拥有无限可能的想象力。我想云的出现，恰恰为实现这一切提供了坚实有力的基础。”陈晓建表示，亚马逊云科技在每年的re：Invent全球大会上都会发布许多重磅的新服务、功能和应用，来支持遍及全球各地、来自千行百业的客戶进行不断的创新和重塑。面临全球经济的不确定性，各种规模的客户都希望能进一步削减成本、增强业务的灵活性并加速创新。亚马逊云科技希望能通过技术的不断创新，让全球包括中国的客户能凌云驭势、重塑未来。