文/张颢
随着大型企业业务不断拓展,业务部门对数据分析的需求更加多样,对于数据分析的时效性、数据分析范围都有更多的需求,需要在现有技术平台上引入大数据技术予以支持。混合数据平台的开发建设,在技术性、扩展性内容中,表现出了明显的科技优势。但在技术成本上,也具有较高的科技型要求,并且需要兼顾开放性、可延续性和安全性,避免受制于当下业务目标等因素而建立较高边际成本的竖井式应用。为了搭建统一管理的大数据开发平台,快速高效的支持后期应用建设,并降低私有技术条件的锁定效果,需要在私有云与物理服务器的混合状态下,搭建起混合型的数据平台。而这一技术条件的应用,需要将异构数据与云平台技术条件作为基础,以此保证混合数据平台的有效开发。
私有云技术又被称作“Private Clouds”,是为客户提供单独服务的计算机系统,带有数据化、安全性、服务性的基本的特征。在实际操作中,通过此项技术体系,可以在原有硬件基础设施的基础上,形成网络化的应用程序,并在私有云部署的结构上,加设防火墙系统,并通过安全主机的托管场所,完成特定资源内容的整理与控制,实现用户对于数据资料的处理。
建立条件上,私有云技术可以由专业的IT机构作为主导,也可以将企业作为技术核心,完成自身云服务内容体系的构建与组成。在形成托管模式的前提下,IBM、Sun等计算机公司,都可以在安装、配置、运营中,完成独立客户服务中,对象私有云技术体系的搭建。
应用私有云技术的过程中,可以形成明显的技术优势,并主要表现为以下四点特征。
(1)数据安全性。虽然每个公共云系统运行公司,对外都宣称自身系统带有绝对的安全性,并在数据管理条件上具有绝对优势。但在实际使用中,尤其是大型企业的公有云系统中,其主要业务内容与数据信息,都会受到来自网络环境威胁,成为影响企业运营发展与技术管理的重要阻碍。而在搭建私有云系统之后,可将企业的数据信息从Mission-Critial中解放出来,形成独立的运行系统,以此,更加绝对的保证数据管理的安全状态。在技术管理中,还可以通过私有云技术体系,形成完整的防火墙体系,从而进一步巩固企业网络数据信息的安全状态。
(2)服务质量。私有云在形成防火墙程序之后,解决了数据中心设置的局限性问题,并明显地提升了SLA的稳定性状态,即便是发生大规模的技术问题,也不会对网络造成毁灭性影响。
(3)资源充分开发。在公司运用LEGACY技术的过程中,通常使用静态程序语言,在应用私有云技术的过程中,这种语言程序的开放性得到了充分补充很,可以在衔接与转换的技术条件下,以Java技术为核心,完成私有云技术体系的优化。
(4)私有云技术体系的建设基础上,不会对现有的IT管理体系造成影响,并在串联整体管理系统上,起到了积极的影响作用。
将云服务器与物理机进行整合,应明确两者之间的差异与关联性,并在形成完整技术体系的同时,保证混合数据平台的建设水平。技术条件上,要明确物理机服务器的独立主机状态,并在维护与托管运行的过程中,需要消耗大量的管理经费。而云服务器,作为一群服务器的镜像系统,可以在分割虚拟机的同时,保证使用成本价格的稳定状态,并在取消宕机的条件上,展现技术优势。
混合型数据平台的框架体系构筑中,将一其中的一部分结构按照基本平台设计原理,使其物理服务器的专职作用可以在数据平台计算与存储中发挥作用。而在另一部分的物理服务器系统中,则按照云计算技术要求完成定植,并构筑起云计算场景空间。在两批服务器体系的多个冗余对接中,完成与数据中心网络的连接。将两组服务器中共享集群的技术交接内容,统一接入交换机设备,可以在Rack aware的配置条件下,使管理员与系统可以清楚地定位数据所处的位置信息。以此,在云技术与大数据平台的关系上,建立起高速率的信息交换通道,保证混合数据平台整体功能系统体系的建设条件。
PaaS(Platform as a Service,平台即服务),是企业云计算重要组成部分。虽然IaaS(基础设施即服务)硬件管理等方面已经较为成熟,但在部署扩容方面却是很复杂的。相对来说,PaaS提供完整的开发和部署,免去服务器、操作系统、网络和存储等资源的管理,可实现更高资源利用率,提供更强大的处理能力。另外,对于大型企业而言,PaaS的整合率和经济性也是远高于IaaS,PaaS平台能承载上万应用,而普遍的IaaS在10-100。
但为兼顾原先平台私有云IaaS项目,可采取分层式平台架构设计。运用PaaS构建大数据应用开发平台,提供基础技术能力,向下作为基础设施的IaaS层的结合与支撑,向上与应用(SaaS)的结合与支撑。从而整合和集成已有开发平台体系,实现平台整体的松耦合架构,使得平台具备足够的灵活性以支撑更多的应用场景,并在最大程度防止组件之间的相互影响,提升整体系统的可靠性和可用性。
搭建分层式平台结构的过程中,可以根据功能完成技术条件的逻辑设置。上层面向应用开发者设置应用开发层,提供完善的平台功能SDK封装,并通过IDE开发环境、命令行、控制台等工具与开发者交互,最大程度实现平台与开发者解耦;面向业务应用设置一个访问中间层,向上提供应用开发层的能力支撑,向下通过路由控制、服务调度等组件进行分装,屏蔽内部差异;并设置计算层,提供分布式计算功能,同时作为容器;资源管理层对CPU、内存、网络等资源进行管理,实现资源灵活调度;存储层实现海量数据储存。另外还有运维管理、元数据管理、安全管理等模块。
数据平台技术的设计中,需要形成系统化组件体系。将Hadoop中的HDFS与YARN作为技术核心,可在形成资源调度系统的同时,保证整体网络的系统化管理结构,尤其在针对控制结点的技术处理中,能达到高可用方案的实际操作效果。而具体技术配置设置,也可以总结为以下几个方面
3.3.1 文件系统
应用Hadoop系统的过程中,将其中的HDFS作为文件系统存储功能的基本组成。在HDFS系统内,通过NameNode完成文件系统元数据的而存储,在向其提供热备功能支撑的同时,维护NameNode长时间的在线运行条件。而在NameNode中,还会内置了HA系统。在默认的ZKFC数据中,通过Apache Zookeeper完成集群化信息的同步锁定技术。
在数据平台系统中,也会形成以HA为核心的应用方案。方法上,通过物理节点完成NameNode启动,并在配置3个独立结点日志的基础上,形成“JournalNode”,维持两个NameNode系统的数据同步状态。同时,还需要保证ZKFC与Zookeeper集群系统的活跃性状态,即便是其中一个没有形成响应,也会在系统中完成主动切换,保证运算的执行效果。
3.3.2 作业调度
作业调度控制系统中,将Hadoop YARN作为技术核心,在保证部署用户任务自动调节状态的同时,使其可以连接到不同的机器系统中。通过YARN系统中的资源管理器设备,完成任务资源的调度。而这一技术条件下,需要整体资源管理器设备,带有较高的HA配置条件,并在两个结点均匀化配置的前提下,通过内置的Zookeeper集群,实现自动检测的索引,将失败的资源内容,转移到处于活跃状态的资源的管理器中。
3.3.3 查询计算
查询与计算的过程中,需要保证整体数据计算框架的普适性,将包括SQL在内的多种信息形式进行转换,使其调整为MapReduce任务中的Apache Hive,或者应用Spark计算框架中的原生任务,形成MapReduce与Streaming。另外,在查询与计算中,对于并不适应命令的用户,也可以应用HUE机芯能够便捷化处理,在网页查询提交的技术前提下,对于任务进展与错误信息进行知识。而对于熟悉IPython Notebook数据形式的用户,也可以在Jupyter Hub的结构中,完成数据信息的交互,使其在数据样式转换的过程中,满足用户使用需要。
3.3.4 数据集成
将具体数据信息导入到数据平台系统中,可以应用的方式大致可以归类为以下三种类型。
(1)对于流式数据,需要应用Apache Kafka完成实时数据交换与分享,并在导入数据平台后,完成离线计算;
(2)对于结构化数据,可以应用Apache Sqoop选取相关数据表,并尽量按照原有的表结构转换到数据平台系统中,并在Hadoop中完成储存;
(3)在其他类型的数据形式,也需要在完成格式转换之后,才能存储到数据平台系统中,以此完成数据管理。
3.3.5 其他配置
访问控制条件下,搭建Kerberos系统,可以完成用户身份的验证。同时,在对文件资料进行管理的过程中,也可以形成用户分组,并保证对于访问信息的控制。而针对Hive查询内容,可通过Sentery系统完成对于访问信息的控制。
在数据监控的需求条件下,可以在系统结构中布置Zabbix、netdata、Grafana等数据结构,并在完成资源实时共享的基础上,对历史数据的日志信息进行查询,以此保证数据的全面性。
另外,在数据系统的配置条件上,为了保证整体系统的备份状态与恢复管理条件,在进行应用层管理的过程中,需要设置三个独立的数据副本,以此保证整体程序的可用状态,以及数据访问信息的高吞吐量条件。在三个数据副本的设置中,应将其分别放置在不同的机器结构中,从而避免计价结构重叠的数据丢失。而对于重要性较强的关键性数据,还需要形成关系型数据库,并在搭建MySQL集群的基础上,使其维持一定的可应用性条件,使备份数据的应用价值得到保障。
为了保证整体技术体系的应用条件,在建立混合型大数据平台的基础上,还需要对其私有云与物理机的使用条件进行部署与测试分析,并通过如下三个步骤,确定具体混合性大数据平台使用过程中的实用性条件,以此保证整体技术体系分析的完整性。
数据凭条服务器的部署工作,需要按照其基本分类条件,对控制结点与存储结点进行系统分析。在控制结点处理上,需要对存取源数据进行管理,并在对内存与存储型能保持严格要求的前提下,使用256GB的内存结点,完成4+性能结构的搭建,并在SSD闪存固态硬盘的条件下,完成RAID10的阵列模式,以此维护整体技术体系的高容错率条件。
而在搭建云平台体系的过程中,在保证实际应用条件的前提下,提高平数据平台的兼容性状态。在形成弹性扩展池结构的同时,即便是平台资源相对较为匮乏的状态下,也要对计算资源进行整合,并在形成至少40台2U服务器系统的基础上,保证现代化云计算平台的使用条件。
完成混合型大数据平台设置的前提下,需要对其实际操作的设备配置进行测试,以此验证其运行过程中的功能条件。在进行数据化平台建设的过程中,应遵照基本开源软件的配置条件,完成系统协调处理的同时,提高数据处理系统的兼容性状态,并在符合性能预期条件的前提下,判断测试数据性能的实际任务耗时条件。由此,在相关数据平台结构的性能测试中,可以对接中国科学院计算研究所的Big Data Bench程序和英特尔公司开发的HiBench,完成具体数据的检测处理,确定混合型大数据平台的使用价值。尤其在多组用户的兼容性分析中,可以在接通Hive,并产生MapReduce的前提下,对系统中的CPU、内存、网络资源链接等内容都进行应用价值判断,以此实现对于Spark框架体系的系统化评估。
在进行测试的过程中,还需要对极端状态下的运行状态作出判断,并在具体内容分析的前提下,保证数据系统的管理效果,使其在使用过程中,可以更好地发挥技术优势,以此实现整体技术体系的应用升级。
例如,当混合型大数据平台的物理集群资源处于占满状态下时,其中新形成的任务信息,会在任务队列中进行等待,或是在小型资源配置条件下,完成较为缓慢的运算处理。针对这一问题的技术管理中,需要在物理集群饱和状态中添加虚拟机,并通过系统内的调度体系,完成对于资源任务反向分配。在这一过程中,应对主机性能作出补充,并在保证集群化内容高于主机的前提下,使主机结构中的网络宽带被限速控制在0.5Gbps内。通过这一数据行管理,可以将物理集群技术控制在双万兆聚合条件下,并达到20Gbps的数据参数。
又如,在进行集群任务管理中,还需针对其系统的扩展性能做出判断,并通过对不同虚拟机设备启动条件的控制,形成实验对比,并在物理集群的影响条件下,利用YARN调度技术,完成对于Terasort内容的任务排序。尤其在执行HiBench质量的过程中,需要对任务状态时间的变化条件进行控制,并在参照虚拟机数量的前提下,确定运行数据是否符合技术分析中的预期条件。同时,还需对参与试验测试三台物理机进行对比,以完成物理机能力的验证分析。
综上,通过对开源软件系统的设计,在构筑混合型大数据平台设计中,添加了私有云与物理机的技术应用条件。通过大数据平台结构中物理服务器的设置,保证了其基本的功能结构,并在性能分析的过程中,消除资源紧张带来的内容使用影响,使其可以凭借私有云平台的扩展,完成内容的检索与分析。尤其在应用条件上,这一混合型数据平台,可以在开源评测工作中,起到积极的影响作用,并在多性能测试工作中,形成影响调度性能的优势性能条件。