陈静
摘 要: 针对当前很多改进的MapReduce调度算法都未将计算节点安全性考虑在内的问题,通过分析云计算任务调度机制,基于Vague模糊集的理论知识,将模糊决策理论引入到云计算安全调度应用中,提出一种基于模糊决策的云计算安全模型。其基本思想是对云资源进行筛选评判,同时考察多个节点的资源,动态接受可信度高的资源池,拒绝可信度低的资源池。通过模糊评判选择安全的节点,同时结合云计算的调度运算,从而达到资源的最佳利用率,同时兼顾云计算的安全问题,使得分布在云上的资源能满足日益增长的安全需要。并在此基础上进行算法实现与实验分析,实验证明新安全模型对“危险”云进行识别,该模型满足云计算的安全性、高效性,加强了云计算的安全环境。
关键词: 云计算; 云安全; 模糊评判; Vague集
中图分类号: TN915.08?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)23?0089?04
Abstract: Currently, the security of the computing node isn′t considered into a lot of improved MapReduce algorithms. By analyzing the task scheduling mechanism of cloud computing and using the theory knowledge of Vague fuzzy set, the fuzzy decision theory is introduced into the application of the cloud computing safety scheduling to propose a cloud computing security model based on fuzzy decision. According to its basic thought, the cloud resource is screened and judged; the resources of multiple nodes are explored; the resource pool with high reliability is accepted dynamically, and the resource pool with low reliability is refused. The security node is selected by means of fuzzy evaluation and the cloud computing schedule operation is combined to realize the best utilization of resources. The cloud computing security issues are combined to make that the resources distributed on the cloud can meet the growing demand for security. The algorithm realization and experimental analysis were performed. The experimental results prove that the new security model can recognize the "dangerous" cloud, meet the security and efficiency requirements of cloud computing, and strengthen the secure environment of cloud computing.
Keywords: cloud computing; cloud security; fuzzy evaluation; Vague set
0 引 言
云計算是当前IT领域最热门的话题之一,代表了IT技术发展的方向,它最重要的理论就是“网络即计算机”,将大规模、易用、可访问的虚拟资源连接起来形成一个资源池(包括计算资源、存储资源、软件资源等),为终端计算机提供“召之即来,挥之即去”且似乎“能力无限”的IT服务[1?2]。虽然云计算代表了未来IT技术发展的方向,云计算确实能为社会创造巨大的价值,但是云计算的发展也面临很多问题,例如安全问题。因为只要这个云计算的资源池越大,被终端用户依赖的程度越高,那么访问这个资源池所带来的安全问题就越严峻。用户的隐私、网络节点抵御入侵的能力、选择怎样的云资源池更加安全等问题就值得关注。
本文提出一种基于模糊评判的云计算安全模型,主要对云资源进行筛选评判,兼顾多个云节点的资源利用情况,动态接受可信度高的资源池,拒绝可信度低的资源池。通过模糊评判选择安全的节点,结合云计算的调度运算,提高云计算的安全性,同时综合考虑云计算的效率问题,使得分布在云上的资源能满足日益增长的安全需要。
1 算法及模型的理论依据及设计思想
1.1 Vague集
1.2 Vague关系
假设待模糊评判的云资源集合用[N]来表示,置信的安全云计算集合用[D]表示,模糊评判的结果集合用[B]表示,从而得出[B]就是一个由0~1数字元素组成的布尔值变量的集合,用1表示完全符合的云资源,0表示完全拒绝的云资源,云安全模型识别的结果依据于识别器[D]到检测结果[B]的Vague关系集合,体现了模糊检验的肯定以及否定的程度[3]。
设定识别器集合的Vague集合[D]与表示模糊检验条件的Vague关系[RD→B,]对这两个集合做max和min交并运算可以得出表示模糊评判结果的Vague集合:[B:B=D?R]。其中,表示真假隶属度的函数的计算规则用下面的公式[4]表示:endprint
1.3 云计算调度机制
MapReduce是云计算领域一种主流的模型,图1显示了MapReduce的任务调度流程。在MapReduce运行过程中,用户向云端发起的请求需要被主节点Map到相关的子节点,子节点完成Reduce的功能。
一般情况下,Hadoop平台中MapReduce的任务调度采用默认的“先进先出”(FIFO)的调度算法,主节点根据子节点的空闲情况来调度,总节点分配任务给空闲节点,是按请求的先后顺序来的,类似于队列机制。按照这种算法,节点处理存在任务效率不高和资源占用高的问题。
对于这种FIFO算法的明显不足,云计算领域也发展了很多改进的算法,比较著名的有Facebook公司提出的平均调度算法(Fair Scheduler)[5]和雅虎公司提出的计算能力调度算法(Capacity Scheduler)[6],他们的共同特点是提高资源的利用效率,让云环境中每个节点都保持高效。
这些算法都只关注了云计算的效率问题,对云计算的安全问题却没有引起足够的重视,因此本文从这点出发,结合模糊决策的基本算法,改进云计算的任务调度算法。
2 新的云计算安全模型及实现
目前云计算领域发展了许多改进模型,但是都未将计算节点安全性这个根本问题考虑在内。本文针对这个问题,提出一种基于模糊评判的MapReduce任务调度算法对节点进行安全性选择。当计算节点运行任务时,通过计算用户程序与节点的模糊评判值,分析各节点的安全因素,当主节点运行Map时,综合考虑节点的资源利用情况,将显著提高云计算的安全环境。
2.1 运用Vague集合筛选云服务
通过前面Vague集的基础定义,找到了将Vague应用到云计算安全的一个途径,即通过将安全的云划分为一个集合,形成一个模糊的识别器,通过计算得出每个元素的子集合[{D1,D2,…,Dm},]其中[n=c3m,][n]是每个识别器的数量。检测结果集合={1,0},假定云计算的检验知识集就是一个定义在集合与集合之间Vague集关系的集合,设为:[R={R1,R2,…,Rn}]。
具体步骤如下:
(1) 计算云节点与用户集合的匹配度,用Vague集表示;
(2) 将模糊检验知识集的Vague集关系用二进制代码表达;
(3) 通过求最大、最小的合成运算得到检测结果的Vague集合;
(4) 根据步骤(3)的Vague计算结果得出核函数值[S]和精确函数值[H;]
(5) 根据步骤(4)的返回结果值,得出最终的安全云计算值。
2.2 基于模糊评判的云计算安全模型
基于模糊决策的云安全模型如图2所示。
2.3 基于模糊决策的云计算调度
通过对云(资源、软件、存储)的参数化对任务调度模型进行建模,下文通过伪代码对算法的实现进行描述。Hadoop[7?9]平台下的MapReduce任务调度机制由云节点决定是否需要调度,受制于从节点的执行情况,当计算节点有空余的从节点时,向主节点申请计算任务。主节点收到请求后,将任务调度到该计算节点。
为了研究大多数云环境的安全调度场景,同样在上述Hadoop平台进行实现,主要区别是:任务分配的算法替换成基于Vague的筛选模糊决策之后,再选择合适的云进行调度。
3 仿真实验
本文使用的云计算平台为本实验室的私有云计算平台。
3.1 实验系统设置
本实验主要针对两种不同类型的调度模型进行实验对比测试,即先进先出(FIFO)算法和基于模糊决策的(FUZZY)算法对云端数据进行云安全识别,从而得到带有危险信号的网络数据,样本数据采用2013年雅虎公司使用的1 500多个slot计算节点,其中含1 TB的数据。首先,本文收集了多达十几个云服务器的15 GB数据作为测试样例数据,以匹配现实条件下的云安全环境。在保证实验硬件性能的前提下,設置slot节点值等于2。
3.2 实验步骤
首先,部署云计算Hadoop环境,其次在Hadoop平台上执行该项实验的测试用例脚本。由于上述“先进先出”算法是Hadoop中的一个普遍应用,因此在任何Hadoop平台包中已经含有了算法实现程序,所以直接调用即可。另外,基于本文提出的基于模糊决策算法的代码命令如下:
$ hadoop jar hadoop?1.0.5?fuzzy.jar Map/Reduce/data15DB 15000000000 /terasort/input15GB
$ hadoop jar hadoop?1.0.5?fuzzy.jar Map/Reduce/data15DB /terasort/output15GB
如上所示,hadoop.jar为Hadoop平台自带的jar包,是用来执行调度任务演示的测试包。第一个jar包用来生成待测试的数据,并将这些数据存放在文件系统的data15DB的文件目录中。调用第二个jar包,任务总调度服务程序将从data15DB中读取数据,然后,将查找的结果输出到data15DB中。
3.3 实验结果
(1) 与“先进先出”调度算法对比资源开销
通过对比实验,首先对本文提出的模糊决策算法进行验证,首先测试两种算法对平台的资源需求。先用调度任务执行“先进先出”算法,然后执行基于模糊决策算法的调度任务程序,各自执行27次之后,观察两组任务的资源开销。可得出结论:传统的“先进先出”调度模型是依次处理任务,在执行时几乎占用全部的内存和处理器资源,对硬盘I/O消耗也相当大,当进出顺序排列好后,一次性写回云端处理,因此占用资源比较大。endprint
(2) 对比“先进先出”调度算法
前面从资源开销角度进行了对比验证,发现传统“先进先出”算法只考虑了线性的排序处理,并未从全局出发,考虑资源的使用率及效率问题,因此当有危险云处于云安全环境之中时,往往使整个云平台的安全调度产生问题。
通过安全云识别花费的总时间和总任务数来评判两种算法的调度情况。图3和图4分别表示任务完成的时间和任务数。图3显示基于模糊决策的调度算法在最优、最差、平均情况都要好于Hadoop的“先进先出”调度算法。对比最优用例,Hadoop的 “先进先出”调度算法的任务耗时是7 848 s,基于模糊决策调度算法的耗时是6 020 s,可以看出本文提出的算法减少了21.09%的时间,即使在最差的情况下,模糊决策算法也提高了26.16%。从任务数来看,在最差的情况下,Fuzzy模型比FIFO减少了调度任务数的25.29%。
设定云服务请求与这个识别器子集的Vague集合关系如表1所示,继而通过计算得出核函数、精确函数的计算结果如表2所示。
由表2可以看出,User3是相对正常的云资源,并且User3可以适用于更多云资源的迭代运算,也就是说,随着云服务资源的增加,通过上述算法模型,可以计算出更加准确的云资源来满足用户的安全需求。
4 结 语
本文引入Vague集理论的相关机制到云计算安全系统的设计中,提出一种模糊评判的云计算安全模型。新模型对“危险”云进行识别,该模型满足了云计算的安全性、高效性。加强了云计算的安全环境,目前该模型的研究工作仍在进行之中,尚有许多需要改进的地方,如云计算系统的自适应性、智能性等。
参考文献
[1] 杨健,汪海航,王剑,等.云计算安全问题研究综述[J].小型微型计算机系统,2012,33(3):472?479.
[2] 闫晓丽.云计算安全问题[J].信息安全与技术,2014(3):214?217.
[3] 卢建华,袁细国,符海东.基于Vague集的人工免疫模型[J].计算机工程与设计,2007(12):2790?2792.
[4] ZADEH L A. Why the success of fuzzy logic is not paradoxical [J]. IEEE expert, 1994, 9(4): 43?46.
[5] DEAN J, GHEMAWAT S. MapReduce: simplifed data proces?sing on large clusters [C]// Proceedings of the 6th Conference on Operating System Design and Implementation. San Francisco: USENIX, 2004: 107?113.
[6] BURROWS M. The Chubby lock service for loosely?coupled distributed systems [C]// Proceedings of the 7th Symposium on Opera?ting Systems Design and Implementation. Seattle: USENIX, 2006: 335?350.
[7] BERLINSKA J, DROZDOWSKI M. Scheduling divisible MapReduce computations [J]. Journal of parallel and distributed computing, 2011, 3(71): 450?459.
[8] SANDHOLM T, LAI K. Dynamic proportional share scheduling in Hadoop [C]// Proceedings of the 15th International Confe?rence on Job Scheduling Strategies for Parallel Processing. Atlanta: Springer, 2010: 110?131.
[9] KAMBATLA K, PATHAK A, PUCHA H. Towards optimizing hadoop provisioning in the cloud [C]// Proceedings of the First Workshop on Hot Topics in Cloud Computing. San Diego: USENIX, 2009: 1?5.
[10] ZAHARIA M, BORTHAKUR D, SARMA J S, et al. Job scheduling for multi?user MapReduce clusters [EB/OL]. [2009?04?30]. http://www.icsi.berkeley.edu/pubs/techreports/ICSI_jobschedulingfor09.pdf.
[11] DOELITZSCHER F, SULISTIO A, REICH C, et al. Private cloud for collaboration and e?learning services: from IaaS to SaaS [J]. Computing, 2011, 91(2): 23?42.
[12] LIN J W, CHEN C H, LIN C Y. Integrating QoS awareness with virtualization in cloud computing systems for delay?sensitive applications [J]. Future generation computer systems, 2014, 37(7): 478?487.
[13] WANG C, WANG Q, REN K, et al. Privacy?preserving public auditing for data storage security in cloud computing [C]// Proceedings of 2010 INFOCOM. San Diego: IEEE, 2010: 59?60.
[14] KIM J, BENTLEY P J. Towards an artificial immune system for network intrusion detection: an investigation of dynamic clonal selection with negative selection operator [C]// Procee?dings of 2001 Congress on Evolutionary Computation. Seoul: IEEE, 2001: 739?747.
[15] MAJI P K, BISWAS, ROY A R. Fuzzy soft sets [J]. Journal of fuzzy mathematics, 2001, 9(3): 589?602.endprint