本刊记者│张鹏
Hadoop如何应对混合云框架下的大数据分析
本刊记者│张鹏
虽然混合云的存在符合企业市场的客观发展规律,但却给大数据分析带来了不小挑战,如何在混合云框架下进行大数据的挖掘分析成为了业界新难题。
向云迁移与大数据分析可能是2016年全球首席信息官的头等大事。调查显示,全世界大约90%的数据都产生在过去10年中,互联网、云计算、大数据等技术革命的影响不断渗透到世界的各个角落,最早收益的就是IT和互联网公司,但从近几年的发展趋势看,传统产业IT转型速度加快,包括电信、医疗、制造、保险等,企业管理者试图通过IT转型捕捉关键数据,由此产生更多的盈利能力和商业洞察。
Gartner在2015年2月公布了一份题为“各行各业云部署相似性多于差异性”的研究报告:预测到2018年末的近4年中,公有云IT支出的年复合增长率为18%。这也进一步证明,云IT支出远远超过平均IT支出,而且这种趋势没有任何减速迹象。Ovum分析师Tony Baer也表示,云是下一波Hadoop大量采用之处。“专用设备和云部署将推动下一波Hadoop和大数据分析的大量采用。”
中国市场也不例外,国内企业在经历了近20年的商业化运行之后,已经深切体会到了信息化对于企业运营的重要性,在云时代,目前已经有大量企业前赴后继地拥抱云计算,从最开始的资源池、私有云到现阶段逐渐接受以BAT为主导的公有云服务,由此也形成了“混合云”这一市场局面,企业主们通常将核心生产业务存放于私有云,将需要大量计算能力和资源空间的非核心业务上传至公有云,业界普遍认为,混合云将是中国IT市场的新常态,并将长期存在。
虽然混合云的存在符合企业市场客观发展规律,但却给大数据分析带来了不小挑战,如何在混合云框架下进行大数据的挖掘分析成为了业界的新难题。
一家国内咨询公司的CTO对通信世界全媒体记者表示:虽然企业入云是趋势,但目前的公有云还存在很多不足,当数据量较大时,缺陷就暴露出来了——效率低下,当月活跃数据超过1亿后,查询时间过长,影响业务时效性;单位成本高;IO瓶颈明显,与线下集群相比,即便是高配置下的公有云性能还是相差甚多;防护策略少,大量数据存储于云端,数据安全防护薄弱,很容易受到网络攻击。
也就是说,企业需要为可能长期存在的混合云架构,设定更加合理的大数据分析策略。目前,业界基于大数据的应用开发大多基于Hadoop的开源平台。对于目前以开源社区模式茁壮成长起来的Hadoop平台,由于一直采用开源、开放的原则,近几年得到迅速发展,但更多的IT工程师认为,对于大数据而言,开源Hadoop仅是一块“敲门砖”,如果需要实现更加完善的功能,显然还需要更多的技术能力,或者说更深层次的产品开发。
很多IT企业都从中看到了商机,一系列商业解决方案也不断面市。比如“IT大鳄”微软公司,从智能云Azure,到大数据智能的SQL Server 2016,再到混合云Windows Server 2016,以及最新推出的数据可视化PowerBI,微软正在践行云计算、大数据、商业智能的发展思路。
在近期召开的微软技术大会上,微软公司执行副总裁,全球销售、市场营销和业务运营总裁让·菲力浦·古德华(Jean-Philippe Courtois)就表示:“全球86%的CEO相信,未来5年内,数字技术将是驱动企业转型的首要动力。云计算、大数据、人工智能,这些引领变革的技术趋势超越了传统IT的范畴,正在推动企业核心业务的转型和创新。”
目前,Azure公有云已经覆盖了全球38个区域;全球“财富500强”企业中,有85%的企业采用了微软云服务。在微软亚太研发集团首席运营官、微软亚太科技有限公司董事总经理、微软中国云计算与企业事业部总经理申元庆看来,公有云平台应具备全面的解决方案能力,无论是公有云、私有云、混合云架构,还是企业级云服务、大数据分析、人工智能、物联网、开发工具和移动应用等,应该满足企业的各类业务需求。
Novantas是一家美国银行领域的解决方案和咨询服务提供商,其CTO Kaushik Deka表示,他们每天都在AWS上处理成千上万的关键事物,通过为银行客户提供洞察力而获得业务方面的增长,数据可以在公有云环境下做到灵活部署和调用,但一部分银行客户对数据的安全性等级有较高要求,因此他们不能将数据迁移到公有云平台上,因此必须搭建适合混合云架构的大数据平台。
事实上,与Novantas拥有相同业务需求的企业并不在少数,总结而言,企业跨云处理大数据通常包括以下3点原因:
● 降低采购、配置和维护运行大数据应用所需的客户端硬件的成本;
● 增强数据工程师和数据分析师通过自助服务配置解决业务问题的能力;
● 实现向云迁移的战略目标,减小公司自有数据中心的规模。
基于以上市场诉求,从事大数据分析与挖掘服务提供商Cloudera公司的联合创始人、首席战略官Mike Olson也表示,混合云架构下的大数据分析,需要企业级的大数据平台能够处理任何种类的大数据工作负载,无论工作负载是临时性的还是长久性的,都能够处理成批作业以支持建立数据采集管道,或支持先进的SQL分析和复杂事件处理。这才是跨云而生的大数据分析能力。
电信研究院的大数据专家告诉记者,电信领域的大数据应用场景近年来也在不断增多,总体而言可以分为两种,首先是旧平台迁移,传统经分系统多承载于类似Oracle、IBM的数据库中,伴随数据量的逐渐增大,以及设备扩容所带来的成本压力,一些运营商会考虑将经分系统逐渐迁移至开源的大数据平台上;其次是新业务,物联网是电信行业全新的市场领域,物与物之间的全新通信方式将带来海量的连接数据,面对这部分数据压力,运营商更多选择用开源平台来承载。
据悉,目前国内运营商均已分别建立了开源的大数据平台,这其中以中国联通最为积极和完善,尽管最初采用的都是免费的Hadoop版本,但随着系统升级和能力扩展,运营商也在引入大数据领域的合作伙伴以及采用Hadoop商用版本。
其原因在于,伴随Hadoop平台上的组件越来越多,运营商需要投入更多人力和精力去维护这些组件,这很可能会加重运营商的IT负担,如果找本土软件商进行二次开发,由于贡献代码无法返回开源社区形成标准,很容易陷入无法正常升级的尴尬境地,因此在针对扩展性、安全性、生产就绪性等方面的考量时,更多客户选择了商用版本。
在多云和混合云架构下,越来越多的公司希望在客户端运行某些工作负载,在云中运行另一些工作负载,这么做也许是为了扩大规模、执行开发和测试任务或者满足服务级别协议及行业监管要求。更重要的是,企业更不希望将数据锁定到特定云服务中,以降低风险。
由此,诸如微软、亚马逊等国际公有云服务商率先推出了混合云架构下的大数据分析能力。
微软最近面向用PowerBI Desktop建立报告的Microsoft Azure客户推出了新的Impala预览版连接器。这些客户可以利用Impala的速度优势,将大量类型不同、数量不等的数据置于数据分析状态显示板中,供任意数量用户访问。微软公司总经理Jeana Jorgensen表示:“Azure客户认识到,云中大数据分析可能对其业务产生重要影响。”
A m a z o n也联合C l o u d e r a针对A ma zon S 3等云原生对象存储运行Apache Impala。这意味着,客户现在可以针对Amazon S3中的数据运行高性能SQL分析和BI工作负载,而不必转换这些数据,或在AWS上将这些数据移动到另一个位置。据悉,Cloudera还可直接针对Amazon S3中的数据运用处理和查询引擎Apache Hive、Apache Spark和Hiveon-Spark。
编辑|张鹏 zhangpeng@bjxintong.com.cn