华为锻造数据基础设施

2019-12-30 09:38郭涛
中国信息化周报 2019年46期
关键词:鲲鹏开源虚拟化

郭涛

华为希望通过端到端的整合优化,在数据的全生命周期内,让数据好用,实现每比特价值最大化、每比特成本最优化。这就是华为数据基础设施的本质和价值所在。

启动 加速

时间回溯到2019年5月15日,华为北京研究所,华为面向全球发布人工智能原生数据库GaussDB和高性能OceanStor分布式存储,同时旗帜鲜明地提出,将以“数据+智能”的理念重新定义数据基础设施。

时间来到2019年9月19日,在华为全联接2019大会上,华为Cloud & AI产品与服务总裁侯金龙清晰阐述了华为计算产业战略,用一句话概括就是“一云两翼双引擎,全面拥抱开放生态”。

此刻,2019年11月19日,华为全球数据基础设施论坛正在深圳举行。面向鲲鹏计算产业,侯金龙宣布全面启动数据基础设施战略。这也是继基于“鲲鹏+昇腾”双引擎全面启航计算战略后,华为从数据角度对计算战略的再度深入诠释。

从提出数据基础设施的理念,到创新整合的数据基础设施解决方案的推出,再到通过共建生态加速数据基础设施的落地,2019年可以称为华为的数据基础设施年。在数字经济时代,数字产业化、产业数字化加速推动实体经济与数字经济的融合,数据成为关键生产要素。数据驱动体验、数据驱动决策、数据驱动流程,数据成为一切的核心。数据是新的生产资料,算力是新的生产力,而5G、AI和云则是新的生产工具,这三者的共同作用,将有力地推动数字经济的发展。在这样的大背景下,华为致力于打造“一云两翼双引擎”的产业布局,构筑开放的产业生态,让AI与数据基础设施深度融合,让“智能+数据”全面普惠,使能不同区域与国家、不同行业与实体更好实现可持续发展。

数据基础设施是这样的

今天,越來越多的企业认识到,数据基础设施是数字经济成功的关键。正是数据“存不下、流不动、用不好”等问题促成了各行业积极构建新型数据基础设施,加速实现数据价值变现。在本次全球数据基础设施论坛上,《数据基础设施白皮书2019》发布。白皮书对数据基础设施的定义、数字应用的现状、构建数据基础设施的挑战以及未来发展趋势等进行了详细阐述。

基于“鲲鹏+昇腾”双引擎的强大算力,华为持续围绕数据构建计算、存储、智能化能力,加强研发投入和技术创新。华为数据基础设施包括数据存储、数据处理、数据管理系统、数据虚拟化引擎等。华为智能数据与存储领域总裁周跃峰指出,华为提供融合、智能、开放的数据基础设施,支持交易型、数据湖、边缘计算等不同场景,让客户和合作伙伴可以像使用数据库一样使用大数据,更简单、高效地从数据中获取价值。

业务与数据的多样性,以及所有场景、所有数据类型的处理都需要多样化且充沛的算力。只有融合的数据基础设施才能满足多样化的应用需求。基于在存储、数据库、大数据等领域的技术创新与突破,华为致力于打破数据基础设施内外存在的各种壁垒,让数据融合得更彻底。比如,通过打破存储内部壁垒,采用一套架构实现生产、分析、备份、容灾、归档的统一管理、数据平滑流动,从而减少副本冗余,降低30%以上的TCO ;再比如,通过打破存储、数据库与大数据之间的壁垒,采用存算协同、算子下移、融合分析等技术,可以实现数据的零搬迁,分析效率提升100%。

在“智能+”时代,计算将无处不在,智能也将无处不在。以数据为核心的基础设施本身必须具有足够强大的智能化功能,同时还要支持智能化的数据应用。华为创新地提出数据基础设施三层AI协同管理架构,通过云上云下结合,进行大规模的云上模型训练和云下推理。比如,依托昇腾处理器的AI能力,自动学习和识别IO流,提升Cache预取命中率,系统整体性能提升20%;再比如,依托鲲鹏处理器的多核算力,根据不同的数据类型,实时优化数据缩减算法,让TCO降低25%。结合华为云自身大规模运维运营经验,当前可以实现提前14天预测硬盘故障,提前60天预测性能瓶颈,提前365天预测容量不足,其中30%的故障可以自我修复。从芯片到软硬件系统再到云,华为将智能化融入到数据基础设施和云服务中,融会贯通。

如今,开放、开源已经成了基础架构领域最知名的标签。华为面向企业级通用服务器架构平台的操作系统EulerOS开源(开源名是openEuler),它能够支持鲲鹏处理器和容器虚拟化技术,在系统可靠性、安全性和保障性方面具有很强的竞争力。华为自研的关系型数据库GaussDB开源(开源名是openGauss),它首次将AI技术融入分布式数据库的全生命周期,实现自运维、自管理、自调优、故障自诊断和自愈,首创基于深度强化学习的自调优算法,调优性能比业界平均水平提升85%。在本次论坛上,华为再次发出开源强音:数据虚拟化引擎HetuEngine开源(开源名是河图引擎,openHetu),以实现更快、更好的业务系统对接。

华为数据虚拟化引擎HetuEngine向上可以接入海量应用,向下可以接入海量数据,通过一个标准、统一的接口,轻松解决海量业务应用与数据基础设施对接的难题。数据虚拟化引擎屏蔽了数据基础设施的复杂度,让开发者可以像使用数据库一样使用大数据,将开发效率提升2~10倍。据了解,openHetu将于2020年6月上线。华为将开源内核,开发者可以基于开源代码进行定制,包括数据源扩展、SQL执行策略等,实现应用快速对接,提升开发效率。

服务器操作系统开源、数据库开源、数据虚拟化引擎开源,华为针对数据基础设施的这套开源组合拳,目标明确,就是简化数据基础设施的构建与部署;路径清晰,通过开源开放的方式,联合数据基础设施领域的各路合作伙伴,互惠共赢,共同推动数据基础设施的创新与发展;措施有利,依靠鲲鹏智能数据产业联盟旗下的数据库、大数据、智能边缘等几个产业推进组,分工合作,由点及面,积小赢为大胜,从数据库、大数据、智能边缘等不同层面和领域不断夯实数据基础设施。

“数据+智能”是主脉络

对于企业数字化转型和新型数据基础设施的打造,不同行业的用户也有自己的独特体验和深刻洞察。

招商银行与华为成立了联合创新实验室,主要在华为GaussDB数据库,以及基于华为鲲鹏计算平台打造容器平台等方面进行深入合作。展望未来,招商银行信息技术部总经理周天虹指出,整体软件架构向云转型、微服务化、平台化和开放化将是招商银行实现数字化转型的主攻方向。

深圳市打造数字政府,核心在政务,难点在资源共享。以前,业务和应用的“烟囱”、数据孤岛导致了数据碎片化,也是造成行政效率低下的主要原因。今天,深圳市是政务信息共享国家示范市,它在解决数据共享问题时,从制度、平台开发和促进应用三个方面入手,建立了深圳市政务大数据中心,以及两地三中心容灾系统,让数据融合有蓝图所依、数据融合更具客观性,实现了秒批秒办、一站式创业创新等。

成立26年的金蝶公司,每天超过8000万用户在使用金蝶的产品和云服务。2014年,金蝶从一家传统软件公司向云转型,当前金蝶云苍穹PaaS平台、EAS Cloud等都运行在华为云上。金蝶集团董事会主席兼CEO徐少春深有感触,“数据+智能”是企业数字化转型之道,而思维模式的转变是最难的。把笔记本电脑、服务器、办公室甚至ERP都砸了的徐少春,正带领金蝶“化茧成蝶”,成为一家云服务公司。

华为数据基础设施主要包含数据存储、数据处理、数据管理系统和数据虚拟化引擎等,其特征可以归纳为六个字——“融合、智能、开放”。其实,这不仅仅适用于华为的数据基础设施,也是整个数据基础设施行业未来发展的主要方向。我们必须清醒地认识到,企业向数据驱动型企业转型的过程不会一蹴而就,随着企业在每个阶段对自身数据认知的不断加深,对数据基础设施的要求也会逐步增加。不断成长的数据基础设施,需要依靠开放的产业生态来推动,更需要在各种不同的场景实践中不断打磨和提升自己。

猜你喜欢
鲲鹏开源虚拟化
奇瑞瑞虎8鲲鹏版
五毛钱能买多少头牛
基于OpenStack虚拟化网络管理平台的设计与实现
国产“大运”名鲲鹏
对基于Docker的虚拟化技术的几点探讨
“大力鲲鹏”运-20
虚拟化技术在计算机技术创造中的应用
怜他世上鲲鹏小,欲踏千峰渡北溟——赏析郑力风光诗
大家说:开源、人工智能及创新
开源中国开源世界高峰论坛圆桌会议纵论开源与互联网+创新2.0