夏添
作为数据洞察产生过程中最重要的一环,数据分析的速度、精准度、可扩展度,以及数据分析应用的普适度都是企业衡量数据分析平台的重要标准。而英特尔与Cloudera则计划在这一领域携手并进,从硬件和软件全面加速数据分析应用。
“目前90%的数据量,都是过去两三年时间产生的,尤其是到2020年的时候会有500亿互联设备,他们会产生10000ZB的数据量。” 英特尔公司软件与服务事业部副总裁、系统技术和优化部门大数据技术总监马子雅女士表示,“大数据的价值就是通过对大量数据进行分析,可以给我们带来更好的商业洞察力。英特尔在这方面已经做了很多年,我们最终目标是希望任何大数据用户能够在英特尔的平台上,他们的数据洞察力最好,数据分析速度最快捷也最方便。”
为了实现大数据目的,英特尔在硬件层面—无论从网络、存储还是运算—做了大量的创新,英特尔对很多大数据项目进行了优化,保证他们能够在英特尔的平台上实现性能的大幅度提升。此外,英特尔也持续和Hadoop和Spark等大数据开源项目开展合作,希望推动开源未来的技术进一步提升和英特尔的黏和度。
“英特尔也推出了一些开源项目,比如TAP,Trusted Analytics Platform等用来加速基于云的分析应用程序开发的项目。英特尔和很多业界同行、客户有很多的合作关系,来帮助他们加速大数据和数据分析以及机器学习在英特尔平台上的部署,实现商业价值。”马子雅表示。
由于硬件性能和软件优化对大数据应用生态的发展有重要作用,在数字服务经济时代,要借助数据分析技术更快地完成大规模机器学习与深度学习,从而更好、更精准地指导商业决策,仍需进一步的软、硬件创新与优化。为此,作为全球计算力创新的引领者,英特尔在加强至强处理器、至强融核处理器以及固态盘、FPGA等技术和产品创新的同时,也一直支持开源社区的创新和发展、并与Cloudera这样业界领先的Hadoop数据管理软件与服务提供商进行深入合作,在英特尔开放架构硬件产品技术上进行不断优化,使系统平台运算、分析能力实现不断提升。
而英特尔面向实时数据分析最快的处理器至强E7 v4、面向大数据应用横向扩展的最新处理器至强E5 v4,以及最新的非易失性存储技术3D XPoint等工作,都为大数据应用带来新的价值。有的客户通过迁移到新一代的英特尔的硬件技术,大数据的机组性能提高7倍。
英特尔在未来希望把物联网和终端的数据分析进行更多的结合,尤其是物联网越来越发展的情况下,英特尔将关注如何把数据收集和商业决定实时结合在一起,以及如何提升机器学习模块的可扩展性,如何缩短机器学习的周期等领域。
在深度学习方面,英特尔也做了大量的努力—包括至强处理器的优化、机遇至强融核(Xeon Phi)的计算密集型的工作及FPGA等其他的硬件创新,有些工作目前已经有了非常好的进展。目前,英特尔深度学习解决方案在系统的扩展性方面相较竞争对手有较大的领先性,在京东、奇虎等互联网用户中已经有丰富的案例。马子雅介绍,在未来的18个月中,英特尔会推出至强融核(Xeon Phi)和FPGA的最新版解决方案,为机器学习用户提供更好的体验。
英特尔对于当下数据分析技术发展与应用现状的洞察,以及对自身大数据创新策略的解析,与Hadoop之父、Cloudera公司首席架构师Doug Cutting的想法不谋而合。“当越来越多的大数据应用在数据中心部署的今天,英特尔和Cloudera双方的合作非常成功,在许多的领域,我们的工程师共同合作,保证Hadoop能够非常好地在英特尔的硬件上运行。”他介绍。
目前Cloudera的业务主要涵盖在电信、金融、制造、基础设施、零售等行业。在主要的免费发行版本中,基于Apache Hadoop的Cloudera商业发行版已经占据70%以上的市场占有率。而在商业版本方面,在过去的18个月中,Cloudera在大型企业、电信、金融、制造以及零售等方面也有非常好的进展。
在Doug Cutting看来,Hadoop技术诞生、发展至今已有十年之久。而在这个不断发展、快速发展的生态系统中,每一年开源社区中都会出现Spark、Impala那样能够提供更好功能的项目以替代原有的技术模块。
“我们仍要坚持技术创新与开源分享,携手英特尔这样的合作伙伴一同推动、支持整个生态系统的发展,为机器学习、深度学习等数据分析应提供性能最好、最稳定安全的大数据应用环境,以满足金融、电信、制造、零售等不同行业用户的特定应用需求。”他表示。