◆钟煜明
大数据场景下的云计算性能研究
◆钟煜明
(广州番禺职业技术学院教育技术与信息中心 广东 511483)
为解决云计算中大数据分析和云计算系统管理等问题,通过对框架的集成,提高了大数据场景下的云计算性能。通过使用深度学习方法来对所提出的框架进行改进,主要采用了混合优化FPA-GA和FPA-PSO算法,涉及基于云的服务器的计算和存储。实验结果分析表明,该方法在成本、时间、安全性和准确性等方面有了显著的提升。
大数据;云存储;深度学习;云计算
Khan等人为云计算机制提供了简要的评估[1]。Bittencourt引入了一种分类[2],整合了当前的进展,特别是在云计算环境中的分类。AntonyJoelMesselli等人引入了云控制器来处理云框架,通过主云控制器去达到物理资源池的配置要求。Senyo等人展示了数据框架中云计算分布式研究的元检查[3]。此外,还讨论了大量信息数据和基于云的计算、大量信息数据存储大纲以及Hadoop的创新。在本文中,讨论了关于云计算中的安全存储问题,并提出了一种架构来保证大数据场景下的云存储性能。
如图1所示,云的分布式计算主要包含三部分:客户端、数据中心和分布式服务器。
图1 云计算的基本组成
在云环境中,客户端在用户工作的区域,可能同样是工作站、平板电脑、手机或PDA,考虑到它们的通用性,分布式计算具有巨大的驱动程序,客户端在云上充当数据的小工具。
数据中心是服务器的集合,在其中可以容纳应用程序。在IT发展中的一种模式是虚拟化服务器,可以引入编程,使许多虚拟服务器得以使用,可以有大约六个虚拟服务器运行在单独的物理服务器上。
分布式服务器通常位于不同的区域,具有不同领域的服务器。
云计算有三种模式:平台即服务(PaaS)、软件即服务(SaaS)和服务即基础设施(IaaS)。
一个推进阶段作为PaaS中的管理被提供给客户,因此客户可以发送他们自己的产品和编码,还可以自由开发自己的应用程序,并在供应商的基础上运行。PaaS组织提供了工作框架和应用程序服务器,以获取应用程序的管理限制。例如,LAMP(Apache、Linux、PHP和MySQL)、Ruby、J2EE等等。
将应用程序作为Web上的管理传递的方法,通常理解为SaaS的管理。这使得客户端无需处理不可预测的编程和设备。SaaS客户端不需要购买编程或设备、更新和维护。主要的客户端必须有一个Web关联,之后可以很简单地进入应用程序。
IaaS提供了许多计算资源,包括存储设备、网络、存储和硬件。IaaS的客户端可以(例如,Web)访问管理部门。例如,客户端可以通过登录到IaaS阶段来创建虚拟机。
公有云或开放云是由外部供应商在开放网络上提供的注册管理系统,任何需要使用这些管理机制的客户都可以使用,他们只需要向获取资源的管理付费即可。
通过网络或私有系统提供的数字管理处于私有云之下,这些管理被明确地提供给选定的客户,而不是普通用户,更高的安全保护机制是通过内部的私有防火墙所指定的。
混合云是公共云和私有云的结合,在混合云结构的情况下,每个云都可以独立地处理,并且信息和应用程序可以在混合云环境中的云之间共享,这些都是公共云和私有云的混合体。在这种类型的云中,每个云都可以被自由地监督,但也可以在云的混合环境中共享应用程序和信息。
图2显示了所提议的体系结构,客户端和服务器之间进行的是双向通信,一个服务器创建了一个云系统。在客户端和云端分别进行数据收集、敏感数据和非敏感数据的分类。分类部分对文本进行预处理,并通过TF-IDF提取特征,然后对敏感数据和非敏感数据在不同分类器中进行分类,使用不同的分类器模型进行学习。
分类器部分的主要目标是减少误差,提高精度。最后一个执行云的模块优化了任务调度,降低了云端的成本和时间。主要改进了使用混合优化的云调度过程,在本工作流程中,首先收集文字,然后预处理,使用句子分数函数提取文字特征标签。
图2 方案架构
发送分数文本的函数分为三种类类型,即正、负和中性,正和负放置在敏感数据类中,中性放置在非敏感类中。在这个步骤之后,特征和类标签的学习过程将启动,在本文中,使用了监督学习的概念,分类过程后,收集敏感数据的形式。该框架的主要目标是启动使用混合优化方法改进云调度机制的过程:对于单个优化器,一次只执行一个工作。但在混合方法的情况下,两个进程同时工作。本文使用了两个过程,第一个用于确定未被充分利用的虚拟机,第二个涉及将任务从一个虚拟机迁移到另一个虚拟机,以降低成本。
虚拟机迁移的过程需要本地和全局优化,在这里只有一个优化器,不能在截止日期内发送阈值,因此,它一次需要一个优化器。但是单个优化器的应用并没有快速收敛,从而导致不当优化,算法和优化器所采取的随机决策不成熟。
首先使用REST API从推特中收集数据,然后预处理文本,进行分词,停止文字输入并阻塞。以n-grams的形式提取已处理的推文,其中分别为=1或2或3。使用等式1和2对2-gram进行评估,使用等式3和4对3-gram进行评估。
在实验中,通过基于成本参数来分析混合优化方法和单一优化方法,使用大量基于任务的存储和计算资源来定义成本,系统的时延表示执行存储或计算过程的所有任务的总处理时间。
表1 不同算法的开销与处理时间
算法开销时延 FPA13412343 PSO12013421 FPA-GA10010001 FPA-PSO1029432 GWO11011345 CNN958543
图3 不同算法的准确度
表1对FPA算法(single optimizer flower pollination algorithm)、PSO算法(Particle swarm optimization)和GWO算法(grey wolf optimization)进行了对比分析,并对混合优化器FPA- GA、FPA-PSO和CNN进行了分析。时间以毫秒为单位,从8543到13421不等,相比之下,开销在95-134之间(以Rs为单位),这表明混合优化有效地优化了成本开销。使用不同算法的准确度如图3所示,可以得知,混合优化可以提高整体准确度。
本文通过使用混合优化PA-GA和FPA-PSO算法,对云计算中的大量数据进行处理,对于存储有效地优化了成本开销,并减少了处理时间。使用混合优化的情况下,该框架的准确度得到了提升。
[1]Srivastava,P.& Khan,R. A review paper on cloud computing[J]. International Journal of Advanced Research in Computer Science and Software Engineering,2018,8(6),17–20. doi:10.23956/ijarcsse.v8i6.711.
[2]LfbA,Ag B,Ermm A,et al. Scheduling in distributed systems:A cloud computing perspective[J]. Computer Science Review,2018,30:31-54.
[3]Senyo P K,Addae E,Boateng R. Cloud computing research:A review of research themes,frameworks,methods and future research directions[J]. International Journal of Information Management,2018,38(1):128-139.
2021年度广州番禺职业技术学院“十四五”(第一批)科技类项目一般项目“校园一卡通大数据集成及应用前景透析”(2021KJ20)