文/张晓海 王蔚(厦门大学嘉庚学院)
现今,对于云计算还没有普遍一致认同的定义,业界对于云计算的认识一直都在不断变化及发展着。从普通应用的观点来认定,云计算是针对互联网的超级计算模式,在计算机应用过程中,云计算是经过商业运筹来实现计算机技术处理,从而达到并行运算操作、分布式操作及实现网格计算,在互联网基础上进行的更超级的计算处理模式。云计算实现了把所有存储在终端设备上的超大量信息与资源整合起来,以协作的形式,给外端用户人群提供可扩展的极大规模信息技术处理运算的能力。云计算的本质是构成了可以实现智能控制的数据中心。
在网络服务领域里,可以实现最直接简单的云计算技术,比较常用的搜索引擎、网盘服务、网络信箱,用户们可以通过设定的门户指令与密码直接进入云端提取相关信息。在未来,常见的便携移动设备都可以利用云计算技术开发出更多更便捷的应用服务,我们可以不只局限于应用移动设备,就可以通过网址相关界面URL,直接编辑文档,并实现分享给需要传递的对方,对方也可以直接通过浏览器打开直接访问URL,不依赖传统意义上的硬盘,增加了安全可靠性。
云计算通过把一系列服务集合起来,按照客户需要提供相应的资源。按照现今对于云计算的应用与研究,可以把云计算的体系架构分为三层模式。
该层分为三个子层,分别在硬件、实体、运算及资源方面提供服务。用户通过服务程序过程中,按照自己的需要提供相关配置信息。在这个层面将硬件与软件及应用程序按应用需求的多样化实现可变规模化,达到可靠性及实用性强的效果。
这一层提供给核心服务层足够的技术支持,保障核心服务能够安全、可靠的应用。在服务管理过程中,会因为云计算的平台本身运作的复杂结构及其具有的超大平台规模等困难,难以在各个层面上都能满足客户的所有精确需要,因此要在服务管理过程中,应对用户的不同需要,根据供应商能提供的服务,制订出具体的服务质量需求协议,当与协议出现分歧时,或达不到协议要求的质量状态下,用户将按协议得到相应的补偿。
第三层为用户访问接口层,这一层面可以实现用户端到云计算的访问。web门户和命令行是可以在络端设备实现访问数据及程序,同时可以实现服务不同形式的组合。
在本地资源管理过程中,一般通过计算机处理实现三个层面。
在对资源的调度处理策略过程中,针对网格实行的都是批处理作业来实现,针对用户的要求进行识别,按照用户需要的资源运行,在数据数量、处理器的类别数目、安全性及运行时间进行认证。
在云计算平台的运行过程中,数据处理与传输都是通过互联网平台进行,用户在共享及使用过程中,必然会面临公共渠道下的安全性缺失及风险性高的弊端。在进行数据模型开发过程中,要时刻考虑云计算平台、资源数据及用户计算,在这三个方面间进行三角模型的开发。
提供个性化服务是云计算的目标,注重低成本的开发及应用,实现可靠、规模应对、可订制服务。为了实现这个个性化的目标,需要若干关键技术加以支持。
云计算数据中心的相关研究工作主要在以下两个方面展开,一个是为了提高产业效能比,减少环境污染,迫切需要有效的绿色节能产品及技术;还有一个就是要通过大规模计算节点来实现低成本、高可靠、高宽带的方式,就需要研究新型数据中心网络拓扑。
虚拟化技术现今有两种典型的代表技术,一个就是虚拟机在线迁移技术,实现有效的订制资源及资源共享,另一个就是虚拟机部署技术,在云计算的服务过程中,能实现有效的弹性服务,按照数据中心的实际需要与工作要求,进行合理化应用,按需服务。
有三种典型的层平台,分别是东南大学云计算平台、亚马逊弹性计算云EC2以及加州大学圣巴巴拉分校开发的开源平台。不同的平台都有自己的特色,可以承担数据分析处理、用户定义弹性规则等科学计算任务。
在云计算海量数据存储过程中,要考虑两方面的指标,一个就是存储系统的输入/输出性能,另一个就是实现还原储备资源,达到资源文件的可靠度,并实现资源应用的实用性。针对这个指标要求,数据处理专家学者不断地研究数据存储技术创新及突破,针对系统的问题,设计简化数据模型,在一致性模型及多样化模型方面下功夫,满足指标要求,提高数据存储与处理技术的性能。同时加强研发分析数据的功能开发,实现云计算的有效编程处理,开发编程模型技术。
数据源对接平台为云计算服务提供必要的技术支持,在数据的调度过程中,要汇集源数据,按照不同类型,不同格式,进行甄别及校验,解决数据违约的主要技术是数据汇集的关键,要符合网络上不同的系统平台,多种系统下生成的不同格式,实现数据汇集调度技术。对于联机数据的处理也要分门别类,处理和分析联机数据才能实现数据汇集调度技术。
平台建设是为公共端业务系统提供服务,在利用资源进行服务的过程中,要把服务的资源及服务的质量与服务用户的需求根据不同层次分理出优先次序,在服务过程中,防止平行用户互相挤压与平行排斥,保证服务管控有效进行,云计算服务管控按照在册方案进行统一管控,在本地管控服务的支持前提下,接纳其他三方的提供数据挖掘的流入,更好地提高及有效扩展整个数据平台的服务调度管理能力。
在数据挖掘技术中,如何在非常大量的数据源中,最快地找寻、分类、整理并归纳完整的数据结果,完全依赖于云计算的算法技术研究,在多种算法中快速寻找最佳技术关键解决用户实际问题,就变得尤为重要,而并行策略及其算法是平台有效提供云计算服务的关键技术。
现今的分布式计算框架,在整个云计算技术环节及架构上做了统筹的处理与计算,并对平行分布式计算算法的技术细节进行梳理与封装,用户可以在使用时不用再注意分布式算法的细节问题,而是直接切入正题,只需要考虑用户需求的问题并寻求解决问题的思路方法,提高了解决问题的能力及速度,极大地减少了平台系统的消耗及成本。
云计算在长期发展情况下,出现了很多应用成果,为各行各业及专业领域解决关键问题。但不得不提的是,针对现行的云计算的发展而言,云计算的研究还是处于入门的阶段。在数据处理过程中使用云计算技术还有着现实的挑战及难点需要突破及研究。
在云计算过程中,要对众多算法进行甄别及选择,云计算的方式并不是所有的算法都合适其中的每项任务的要求,要采取最合适的算法策略,云计算并行效率才能真正提高。
在数据采集过程中,面对多样繁杂的数据,要采用预处理的方式来判别,这其中就加入了许多的不确定性。数据挖掘过程中,采用何种方法进行运算及处理,最后获得的结果是否符合目标的要求,都有着不确定性。用户需求的挖掘目标都有自身的特点及相关性,当云计算的数据挖掘结果出来后,结果的评价指标的判定因素也就成了最不确定的影响。
在云计算的过程中,必然接触到互联网的大环境,数据挖掘在这种云环境下,软件的信任性就成为很重要的问题。真正检验效果,云计算的数据挖掘服务要满足以下几个要求,是否符合用户的要求、是否满足云计算门户的安全性问题、是否达到了客户的质量要求、是否实现了服务效果的准确性。
按照不同领域及服务种类、行业来规划平台的分类建设,鼓励百家齐放,百家争鸣,在发扬多样化的同时,注重个性化及特殊需求的培养与建设。
数据挖掘云计算服务注重的是资源的积累、收集及计算,在云计算处理的过程中,按照虚拟化的数据处理技术,来调度及处理数据资源,并进行分配,强力支撑着数据的挖掘云计算。
在云计算挖掘的建设过程中,有多种技术及算法支持用户需要,选择哪种方法及技术手段就显得尤为重要,确认最合适的技术手段,并成为平台通用手段,可以调查相关证据,随时整理、分析与调试,并经过有效检验。这点也是在云计算数据挖掘技术中最致命的关键点。
在云计算平台提供的数据中,采集、整理并归纳,通过算法及相关云计算服务实现用户要求,必然会在平台中,涉及到大量的用户隐私及不可宣的秘密,因此,在运用云计算技术来进行数据挖掘时,要提前进行加密技术及算法的处理,采用可靠的安全手段来实现用户安全性保护,实现安全的算法研究,也是面对问题与挑战最关键的技术要求。
大数据的处理技术实际上针对数据源的整理及分析归纳,并要求效率提高,在数据时效性数理方面有着很高的追求。而云计算就不只局限于这个概念上,而是在硬件配套构建中,运用程序算法及关键技术,尤其是资源虚拟化技术的应用,云计算作为支持上层的处理大数据的最下层,在交互的状态下查询及实时处理和分析数据。云计算的数据存储技术研究发展过程中,不断有新的方法及技术手段研发出来,为云计算平台提供了延展的应用机会,在数据挖掘技术的发展过程中提供新的理论与支撑。基于云计算的数据挖掘问题及相关技术的研究过程中将积极推动互联网技术的蓬勃发展,实现新技术、新方法、新理论的突破。本论文研究由厦门大学嘉庚学院大学生创新创业训练计划项目支持。