基于商业智能系统的大数据分析平台架构研究

2020-10-20 06:48肖寒
数码设计 2020年9期
关键词:商业智能

肖寒

摘要:本文构建一套具有巨量数据分析计算平台架构的商业智能系统,它整合Apache Hive、Cloudera Impala、BDAS Spark SQL使平台支持SQL命令的巨量数据检索能力。大数据环境要求高性能的运算,系统优化成为首要问题。因此本文所设计的最优程序通过存取单一接口后,由程序自动选择执行性能最佳的巨量数据仓储平台执行工作。再则运用Memcached分布式内存存储系统以及Apache HDFS分布式文件系统对查询结果进行快取,因此输入相同的SQL查询则会经由高性能的快取系统取得检索结果,避免重复执行巨量数据仓储平台所导致冗长的检索时间。

关键词:商业智能、巨量数据处理、数据仓储、分布式文件系统

中图分类号:TM76 文献标识码:A 文章编号:1672-9129(2020)09-0034-01

1 引言

近年来,企业能够即时掌握巨量数据,便能掌握商机,巨量数据对于企业的影响日益明显。但对于巨量数据的处理与分析,使用传统的方法却无法有效进行,尤其当数据量越趋于巨大,数据的存储无法由少数的服务器或是存储设备进行,且数据的存取所带来的严重I/O延迟问题,都随着数据的成长而更严重。在预估未来即将发生巨量数据问题前,利用集群架构分布式计算与存储是近期相当热门的解决方案,不仅具有加速运算与大量存储的特性,更提供了高性能、高可用性的行环境,却又相当符合经济成本,且拥有优异的纵向和横向扩充能力。

2 系统方案设计

本文的研究目标是在基于OpenStack上构建一套具有高性能、高可用性、高扩展性的多重巨量数据处理平台并希望达成能与任何现存的商业智能与分析工具相容。构建的平台可以支持SQL-like的Query命令语句对巨量数据平台进行操作。运用Open Source的资源构建平台。由于各种巨量数据处理平台在执行时,所需耗用的内存容量不同,而且集群剩余的内存容量将严重影响各平台的执行性能,因此本文将通过侦测集群剩余的内存容量进行自动化的平台选择,选出目前执行性能最佳的一组平台,以便进行Query命令的检索任务。利用Memcached分布式内存存储系统进行对检索结果进行高性能的快取,并辅以Apache HDFS作为第二层的快取,延伸快取的容量。

2.1 方案算法。为了评估在本文几个平台的性能,从最初在所导出的必要方程式(1),该方程式在任何指定的环境中,进行下各种命令在所有提及目标平台上来测量平均存取时间。

紧接在任何指定的环境中的各种数据大小的文件上使用方程式(2),该方程式计算加权平均存取时间。

然后根据所有指定环境中的各平台使用方程式(3),该方程式可导出正规化性能指标。

最后根据上面的不同测试使用4),该方程式获得性能指标。

2.2 执行步骤。

(1)整合多重巨量数据分析平台:本文使用CDHClouderaDistribution Including Apache Hadoop)来构建Hadoop、Hive、Spark及Impala,Spark SQL則需另外装。多重巨量数据处理平台内的Hive、Impala、Spark SQL是安装在Openstack所构建出来的Virtual Machine(CentOS)中执行。

(2)平台自动选择程序:本文在实验时发现当剩余内存容量在每台服务器 2GB 以下时,Impala与Spark SQL会产生大量的分页swap动作,导致性能极度低落。当剩余内存容量在相当充足时,Spark SQL在执行速度上领先Hive及Impala。而Impala所需的内存介于两者之间,在达到此之间的内存剩余量可以发挥Impala最大性能。本文每台服务器分配内存20G给集群计算使用,以集群整体内存剩余量Level 1:3%0.6G) 、Level 2:15%(3G)、Level 3:75%15G)为分界点,当剩余量低于15%时程序自动选择Hive 进行任务,剩余量15%~75%区间时采用Impala进行任务,剩余量高于75%时采用Spark SQL进行任务。最优程序具有相当高的可扩充性,若需要新增支持的分析平台,只需要撰写JDBC界面程序即可,撰写完成后的界面程序仅需放入bin数据夹即可与主程序进行连结,使用者可以通过enforced指令对新增支持的分析平台进行SQL操作。

3 总结

通过巨量数据平台的整合,本文发现到即使是同质性功能的分析平台,仍会于不同的实验环境下产生极大的性能差异。通过程序自动侦测集群状态,并选择最佳的平台进行数据检索可以大幅节省时间。在多人使用同一集群的情况下,自动选择程序更可以妥善的选择合适的平台,有效避免资源竞争导致的整体性能低落问题。

参考文献:

[1]王觅也,黄勇,毕永东,等.医院商业智能系统的应用[J].医疗卫生装备,2012,(1).82-84.

[2]于洋,房坤,刘丹,等.基于Power BI的大数据分析在医用耗材管理中的实践[J].中国医学装备,2020,17(7):145-149

猜你喜欢
商业智能
什么是商业智能?它的定义和解决方案
程序理解中的商业智能恢复方法
网站服务中的自动化商业智能恢复方法
关于实时商业智能的文献综述
商业智能分析模式在医保病人住院化管理当中的应用研究
商业智能在当下出版社中的运用
制造企业中商业智能系统的实现与应用
浅谈中小企业的商业智能之路