私有云和物理机在混合型大数据平台设计中的应用

2019-12-03 04:56张颢

电子技术与软件工程 2019年21期

文/张颢

随着大型企业业务不断拓展，业务部门对数据分析的需求更加多样，对于数据分析的时效性、数据分析范围都有更多的需求，需要在现有技术平台上引入大数据技术予以支持。混合数据平台的开发建设，在技术性、扩展性内容中，表现出了明显的科技优势。但在技术成本上，也具有较高的科技型要求，并且需要兼顾开放性、可延续性和安全性，避免受制于当下业务目标等因素而建立较高边际成本的竖井式应用。为了搭建统一管理的大数据开发平台，快速高效的支持后期应用建设，并降低私有技术条件的锁定效果，需要在私有云与物理服务器的混合状态下，搭建起混合型的数据平台。而这一技术条件的应用，需要将异构数据与云平台技术条件作为基础，以此保证混合数据平台的有效开发。

1 私有云技术分析

私有云技术又被称作“Private Clouds”，是为客户提供单独服务的计算机系统，带有数据化、安全性、服务性的基本的特征。在实际操作中，通过此项技术体系，可以在原有硬件基础设施的基础上，形成网络化的应用程序，并在私有云部署的结构上，加设防火墙系统，并通过安全主机的托管场所，完成特定资源内容的整理与控制，实现用户对于数据资料的处理。

建立条件上，私有云技术可以由专业的IT机构作为主导，也可以将企业作为技术核心，完成自身云服务内容体系的构建与组成。在形成托管模式的前提下，IBM、Sun等计算机公司，都可以在安装、配置、运营中，完成独立客户服务中，对象私有云技术体系的搭建。

应用私有云技术的过程中，可以形成明显的技术优势，并主要表现为以下四点特征。

（1）数据安全性。虽然每个公共云系统运行公司，对外都宣称自身系统带有绝对的安全性，并在数据管理条件上具有绝对优势。但在实际使用中，尤其是大型企业的公有云系统中，其主要业务内容与数据信息，都会受到来自网络环境威胁，成为影响企业运营发展与技术管理的重要阻碍。而在搭建私有云系统之后，可将企业的数据信息从Mission-Critial中解放出来，形成独立的运行系统，以此，更加绝对的保证数据管理的安全状态。在技术管理中，还可以通过私有云技术体系，形成完整的防火墙体系，从而进一步巩固企业网络数据信息的安全状态。

（2）服务质量。私有云在形成防火墙程序之后，解决了数据中心设置的局限性问题，并明显地提升了SLA的稳定性状态，即便是发生大规模的技术问题，也不会对网络造成毁灭性影响。

（3）资源充分开发。在公司运用LEGACY技术的过程中，通常使用静态程序语言，在应用私有云技术的过程中，这种语言程序的开放性得到了充分补充很，可以在衔接与转换的技术条件下，以Java技术为核心，完成私有云技术体系的优化。

（4）私有云技术体系的建设基础上，不会对现有的IT管理体系造成影响，并在串联整体管理系统上，起到了积极的影响作用。

2 物理机与云服务器对比

将云服务器与物理机进行整合，应明确两者之间的差异与关联性，并在形成完整技术体系的同时，保证混合数据平台的建设水平。技术条件上，要明确物理机服务器的独立主机状态，并在维护与托管运行的过程中，需要消耗大量的管理经费。而云服务器，作为一群服务器的镜像系统，可以在分割虚拟机的同时，保证使用成本价格的稳定状态，并在取消宕机的条件上，展现技术优势。

3 混合数据平台结构设计

3.1 整体系统

混合型数据平台的框架体系构筑中，将一其中的一部分结构按照基本平台设计原理，使其物理服务器的专职作用可以在数据平台计算与存储中发挥作用。而在另一部分的物理服务器系统中，则按照云计算技术要求完成定植，并构筑起云计算场景空间。在两批服务器体系的多个冗余对接中，完成与数据中心网络的连接。将两组服务器中共享集群的技术交接内容，统一接入交换机设备，可以在Rack aware的配置条件下，使管理员与系统可以清楚地定位数据所处的位置信息。以此，在云技术与大数据平台的关系上，建立起高速率的信息交换通道，保证混合数据平台整体功能系统体系的建设条件。

3.2 搭建兼容私有云结构

PaaS（Platform as a Service，平台即服务），是企业云计算重要组成部分。虽然IaaS（基础设施即服务）硬件管理等方面已经较为成熟，但在部署扩容方面却是很复杂的。相对来说，PaaS提供完整的开发和部署，免去服务器、操作系统、网络和存储等资源的管理，可实现更高资源利用率，提供更强大的处理能力。另外，对于大型企业而言，PaaS的整合率和经济性也是远高于IaaS，PaaS平台能承载上万应用，而普遍的IaaS在10-100。

但为兼顾原先平台私有云IaaS项目，可采取分层式平台架构设计。运用PaaS构建大数据应用开发平台，提供基础技术能力，向下作为基础设施的IaaS层的结合与支撑，向上与应用(SaaS)的结合与支撑。从而整合和集成已有开发平台体系，实现平台整体的松耦合架构，使得平台具备足够的灵活性以支撑更多的应用场景，并在最大程度防止组件之间的相互影响，提升整体系统的可靠性和可用性。

搭建分层式平台结构的过程中，可以根据功能完成技术条件的逻辑设置。上层面向应用开发者设置应用开发层，提供完善的平台功能SDK封装，并通过IDE开发环境、命令行、控制台等工具与开发者交互，最大程度实现平台与开发者解耦；面向业务应用设置一个访问中间层，向上提供应用开发层的能力支撑，向下通过路由控制、服务调度等组件进行分装，屏蔽内部差异；并设置计算层，提供分布式计算功能，同时作为容器；资源管理层对CPU、内存、网络等资源进行管理，实现资源灵活调度；存储层实现海量数据储存。另外还有运维管理、元数据管理、安全管理等模块。

3.3 数据平台技术

数据平台技术的设计中，需要形成系统化组件体系。将Hadoop中的HDFS与YARN作为技术核心，可在形成资源调度系统的同时，保证整体网络的系统化管理结构，尤其在针对控制结点的技术处理中，能达到高可用方案的实际操作效果。而具体技术配置设置，也可以总结为以下几个方面

3.3.1 文件系统

应用Hadoop系统的过程中，将其中的HDFS作为文件系统存储功能的基本组成。在HDFS系统内，通过NameNode完成文件系统元数据的而存储，在向其提供热备功能支撑的同时，维护NameNode长时间的在线运行条件。而在NameNode中，还会内置了HA系统。在默认的ZKFC数据中，通过Apache Zookeeper完成集群化信息的同步锁定技术。

在数据平台系统中，也会形成以HA为核心的应用方案。方法上，通过物理节点完成NameNode启动，并在配置3个独立结点日志的基础上，形成“JournalNode”，维持两个NameNode系统的数据同步状态。同时，还需要保证ZKFC与Zookeeper集群系统的活跃性状态，即便是其中一个没有形成响应，也会在系统中完成主动切换，保证运算的执行效果。

3.3.2 作业调度

作业调度控制系统中，将Hadoop YARN作为技术核心，在保证部署用户任务自动调节状态的同时，使其可以连接到不同的机器系统中。通过YARN系统中的资源管理器设备，完成任务资源的调度。而这一技术条件下，需要整体资源管理器设备，带有较高的HA配置条件，并在两个结点均匀化配置的前提下，通过内置的Zookeeper集群，实现自动检测的索引，将失败的资源内容，转移到处于活跃状态的资源的管理器中。

3.3.3 查询计算

查询与计算的过程中，需要保证整体数据计算框架的普适性，将包括SQL在内的多种信息形式进行转换，使其调整为MapReduce任务中的Apache Hive，或者应用Spark计算框架中的原生任务，形成MapReduce与Streaming。另外，在查询与计算中，对于并不适应命令的用户，也可以应用HUE机芯能够便捷化处理，在网页查询提交的技术前提下，对于任务进展与错误信息进行知识。而对于熟悉IPython Notebook数据形式的用户，也可以在Jupyter Hub的结构中，完成数据信息的交互，使其在数据样式转换的过程中，满足用户使用需要。

3.3.4 数据集成

将具体数据信息导入到数据平台系统中，可以应用的方式大致可以归类为以下三种类型。

（1）对于流式数据，需要应用Apache Kafka完成实时数据交换与分享，并在导入数据平台后，完成离线计算；

（2）对于结构化数据，可以应用Apache Sqoop选取相关数据表，并尽量按照原有的表结构转换到数据平台系统中，并在Hadoop中完成储存；

（3）在其他类型的数据形式，也需要在完成格式转换之后，才能存储到数据平台系统中，以此完成数据管理。

3.3.5 其他配置

访问控制条件下，搭建Kerberos系统，可以完成用户身份的验证。同时，在对文件资料进行管理的过程中，也可以形成用户分组，并保证对于访问信息的控制。而针对Hive查询内容，可通过Sentery系统完成对于访问信息的控制。

在数据监控的需求条件下，可以在系统结构中布置Zabbix、netdata、Grafana等数据结构，并在完成资源实时共享的基础上，对历史数据的日志信息进行查询，以此保证数据的全面性。

另外，在数据系统的配置条件上，为了保证整体系统的备份状态与恢复管理条件，在进行应用层管理的过程中，需要设置三个独立的数据副本，以此保证整体程序的可用状态，以及数据访问信息的高吞吐量条件。在三个数据副本的设置中，应将其分别放置在不同的机器结构中，从而避免计价结构重叠的数据丢失。而对于重要性较强的关键性数据，还需要形成关系型数据库，并在搭建MySQL集群的基础上，使其维持一定的可应用性条件，使备份数据的应用价值得到保障。

4 技术体系应用部署与测试分析

为了保证整体技术体系的应用条件，在建立混合型大数据平台的基础上，还需要对其私有云与物理机的使用条件进行部署与测试分析，并通过如下三个步骤，确定具体混合性大数据平台使用过程中的实用性条件，以此保证整体技术体系分析的完整性。

4.1 部署数据平台

数据凭条服务器的部署工作，需要按照其基本分类条件，对控制结点与存储结点进行系统分析。在控制结点处理上，需要对存取源数据进行管理，并在对内存与存储型能保持严格要求的前提下，使用256GB的内存结点，完成4+性能结构的搭建，并在SSD闪存固态硬盘的条件下，完成RAID10的阵列模式，以此维护整体技术体系的高容错率条件。

而在搭建云平台体系的过程中，在保证实际应用条件的前提下，提高平数据平台的兼容性状态。在形成弹性扩展池结构的同时，即便是平台资源相对较为匮乏的状态下，也要对计算资源进行整合，并在形成至少40台2U服务器系统的基础上，保证现代化云计算平台的使用条件。

4.2 测试系统配置

完成混合型大数据平台设置的前提下，需要对其实际操作的设备配置进行测试，以此验证其运行过程中的功能条件。在进行数据化平台建设的过程中，应遵照基本开源软件的配置条件，完成系统协调处理的同时，提高数据处理系统的兼容性状态，并在符合性能预期条件的前提下，判断测试数据性能的实际任务耗时条件。由此，在相关数据平台结构的性能测试中，可以对接中国科学院计算研究所的Big Data Bench程序和英特尔公司开发的HiBench，完成具体数据的检测处理，确定混合型大数据平台的使用价值。尤其在多组用户的兼容性分析中，可以在接通Hive，并产生MapReduce的前提下，对系统中的CPU、内存、网络资源链接等内容都进行应用价值判断，以此实现对于Spark框架体系的系统化评估。

4.3 测试内容分析

在进行测试的过程中，还需要对极端状态下的运行状态作出判断，并在具体内容分析的前提下，保证数据系统的管理效果，使其在使用过程中，可以更好地发挥技术优势，以此实现整体技术体系的应用升级。

例如，当混合型大数据平台的物理集群资源处于占满状态下时，其中新形成的任务信息，会在任务队列中进行等待，或是在小型资源配置条件下，完成较为缓慢的运算处理。针对这一问题的技术管理中，需要在物理集群饱和状态中添加虚拟机，并通过系统内的调度体系，完成对于资源任务反向分配。在这一过程中，应对主机性能作出补充，并在保证集群化内容高于主机的前提下，使主机结构中的网络宽带被限速控制在0.5Gbps内。通过这一数据行管理，可以将物理集群技术控制在双万兆聚合条件下，并达到20Gbps的数据参数。

又如，在进行集群任务管理中，还需针对其系统的扩展性能做出判断，并通过对不同虚拟机设备启动条件的控制，形成实验对比，并在物理集群的影响条件下，利用YARN调度技术，完成对于Terasort内容的任务排序。尤其在执行HiBench质量的过程中，需要对任务状态时间的变化条件进行控制，并在参照虚拟机数量的前提下，确定运行数据是否符合技术分析中的预期条件。同时，还需对参与试验测试三台物理机进行对比，以完成物理机能力的验证分析。

5 总结

综上，通过对开源软件系统的设计，在构筑混合型大数据平台设计中，添加了私有云与物理机的技术应用条件。通过大数据平台结构中物理服务器的设置，保证了其基本的功能结构，并在性能分析的过程中，消除资源紧张带来的内容使用影响，使其可以凭借私有云平台的扩展，完成内容的检索与分析。尤其在应用条件上，这一混合型数据平台，可以在开源评测工作中，起到积极的影响作用，并在多性能测试工作中，形成影响调度性能的优势性能条件。