云计算就是大数据这匹骏马所要的好鞍,只有通过弹性、可靠、自助服务的云计算平台,才能充分发挥大数据的威力,让它纵横驰骋业务的各个疆场。
自从V Mwa re在2013年的全球用户大会上推出vSphere Big Data Extention(B D E)以来,大数据这匹骏马越来越受到大家的追捧。当然B D E主要针对是Hadoop的大数据应用,其实大数据不仅仅是Hadoop,即使只算Hadoop也还有不同的发布版本。但是无论Hadoop的哪个版本或者哪个大数据平台,都蜂拥开始追随云计算,就像好马配好鞍一样重要,那怎样的云计算平台才是大数据的好鞍呢?运行环境平台:多租户、资源供应和管理。
在过去几个月的客户沟通中,我学习了运行大数据的多种不同平台,包括Twitter使用的Mesos、Fedex使用的虚拟化和Yahoo使用的Yarn。而不同的云计算平台特性能解决大数据应用的不同问题。比如:Yarn的目标是支持Hadoop上的非M-R应用。而Twitter使用的Mesos则可以支持混合的负载,并且会利用操作系统的虚拟化。由于企业的大数据应用场景往往是多样的,所以需要选择一种平台适合不同的应用场景,这包括:
●部署新的大数据应用极其简单:可以通过自动化和自助服务来完成;
●可以支持多种不同的负载:也就是能运行多种大数据应用,不仅仅限于Map-Reduce,还可支持一些Hadoop生态圈应用、SQL服务和其他通用应用;
●可靠的安全隔离:如果需要将某些敏感信息隔离,该平台有能力确保数据集和环境安全;
●安全的资源隔离:为了能够提供足够的资源来满足整体SLA要求,可以将吵闹的邻居隔离来确保性能;
●多版本支持能力:能运行多个不同版本的运行环境,满足不同用户、开发者要求;
●企业级的可用性:确保整个系统的强壮性,提供企业等级的可用性。
对网络而言,挑战和机遇并存。今天两层核心聚合交换网络不能跨机架提供足够的带宽。机架内的带宽应该没有问题,经常可以达到每秒几百Gbit,但机架间的带宽往往十分有限,为此往往需要优化流量到本地,也就是数据和计算完全整合的模式。幸运的是,新的网络拓扑,包括CLOS和主干加分支设计都提供了很好的解决方案。使用这些新型的网络拓扑,可以在整个集群延时基本恒定的情况下确保足够的带宽,无论是机架内还是机架间都不会有带宽问题。
随着存储技术的不断发展,大数据的存储选择越来越丰富。当然Hadoop的HDFS处于最核心圈,但其他的存储平台也可以提供跟Hadoop类似、即插即用的兼容能力,并且提供了某些独特的价值。几个主要的存储选项如下:
●传统的SAN或者NAS:这应该算是支撑大数据应用的最佳存储选项,因为目前大量的数据中心都可以提供这样的存储选项,并且也包括了各种存储服务,例如:快照、归档、复制等;
●服务器内置磁盘构建的软件定义存储:这方面HDFS是主要的代表,其他的选项包括CEPH、Gluster和MAPR,他们都可以建立文件系统,满足大数据的应用;
●横向扩展存储方案:很多独具特色的新兴公司提供了可以替代H D F S横向扩展存储,很好解决了成本和带宽问题。比如I s i l o n的横向扩展存储方案,提供了3到144个节点的解决方案,可以扩展到15PB、每秒85GB吞吐能力,成为横向扩展存储的典型代表。
VMwa re推出的BDE方案也在不断进步中,为各种不同版本的Hadoop运行提供了强大的支撑。目前BDE已经可以和vCloud Automation Center结合来提供Hadoop集群的自助创建,借助vSphere平台让最终用户可以快速自助创建应用,大数据的部署难题迎刃而解。大数据平台具有了自动化、自助服务能力,让大数据再也不是极客的专利,任何大数据应用的开发者、管理员都只需要专注自己的大数据应用本身,而无需关心底层的架构。