张华
(郑州幼儿师范高等专科学校 河南省郑州市 450000)
早在20世纪90年代开始网络就成为了社会范围内的一种便捷信息媒介被人们所认知,并且在当时就已经意识到了规模庞大计算资源的优势所在,其应用前景也非常广阔,开始着重地将研究工作放在大规模分布式计算资源方面。大数据、云计算作为近年来的领域热点话题,大多数IT 企业、行业人士认为这也是下一代计算机网络应用软件技术的核心架构,在节约成本的同时不需要耗费大量的精力,现实意义显著。
大数据的爆炸式增长让网络当中积累了规模庞大的数据资源,能够持续地收集互联网内产生的各类数据。且存储技术的发展也让大规模数据的存储工作变得更加简单而便捷,例如机器学习、信息检索等数据处理技术的快速发展在最近几年达到了非常高的水准,数据当中的高层次挖掘过程变得容易,企业组织通过大数据当中有价值的信息和知识分析,也可以获得巨大的经济价值和商业价值。以传统的数据分析目标来看,通过对数据进行分析后获取领域内部的知识生成决策支持系统,可以随着技术的发展和进步逐渐地演变为数据可视化。在商业智能概念正式提出后,数据科学和数据库知识挖掘工作变得更加关键。因为数据的累积和数据规模的扩大让数据种类变得多样化,且数据快速积累之后大数据服务让传统的分析工具无法满足存储和处理的需求。具体而言,数据规模庞大必然会对系统的计算能力和性能提出新的要求,传统的关系型数据库无法有效满足现阶段的数据存储和查询需要。此外,数据价值会伴随着时间的流逝而降低,传统的数据挖掘方法在大数据分析过程当中会面临着效率较低、实时性缺陷等情况。在实际应用模式下,大数据服务应用模式和大数据服务关键技术可以对服务构建过程进行分解,从微观角度基于云平台的优势来给出关键技术问题的解决方案,包括数据处理、分析算法的设计和实现等。
例如在云环境下通用的大数据服务应用模式可以从分层的角度来确定核心功能的关键技术,例如数据资源手机、组合方案评估、服务任务规划和分析算法设计等。我们通过具体的应用场景和软件服务模式就可以了解到数据应用要求下的不同特征。例如对于股市数据的分析环节就涉及到两个方面的内容,一是分布在不同环境下的股市数据资源,这些数据内容是对股市发展动态进行预测的主要参考对象(例如门户网站、经济网站的大数据资源和信息舆论数据都可以挖掘出比较有价值的信息用于预测)。同时,将这些数据进行存储后,就可以使用大数据处理工具或是算法来对这些数据内容展开分析,精确定位其中有价值的部分。综合来看诸如此类的数据都可以被作为数据分析服务的构建流程内容,然后使用不同类型的应用模式对其中的关键技术要点进行概括,包括股市和数据资源的收集、数据处理的任务规划、云端服务的资源评估和资源选择内容等。在实际的应用环节,可以通过对云端丰富资源的分析和数据来优化现有的资源服务,并且高效化地构建和部署数据资源等。特别是对于一些中小企业甚至是个人来说,大数据服务与基础设施建设工作都非常重要,无论是企业、组织甚至是个人都需要通过云端资源和服务来正确地规划工具和算法,对这些大数据进行收集、处理和利用。值得一提的是云计算的的发展让一大批数据处理技术与工具得到了广泛应用(如MapReduce 的Hadoop 开源技术),推动了服务与开发效率的显著提高,可以为构建高效的大数据服务和挖掘大数据中有价值的信息提供了技术参考与技术资源。
从基本的处理流程来看,我们可以提出一个大数据环境下通用的数据服务应用方案,整体而言,应用模式需要以服务构建过程为应用机制,融合数据资源的查找、任务规划和分析算法的相关内容等,这样一来也能实现基于大数据服务应用需求的任务规划方案,将各个任务划分为不同的子任务之后,再使用云端的存储服务和计算服务来进行资源的组合和需求分析。在这里提出的大数据计算机软件应用包括几个不同的层次,即数据资源层、资源收集层、任务层、评估层和算法实现层,不同层次的核心功能存在着明显差异。数据资源层指的是在云当中的数据资源集合,可以通过各个数据来源获取信息,也可以通过网络当中的不同用户所提供。特别是大数据环境之下这些数据资源也可以根据云服务得到封装。资源的查找层则是按照服务需求从数据资源层当中查找定位并匹配服务相关的数据资源,整合而形成待处理的大数据资源作为服务输入内容。任务层则是根据应用需求负责对大数据处理过程和任务规划的模块,复杂的数据处理计算任务可以被拆分至一组功能之内,划分为一个个独立的子任务。相比而言子任务的功能会更加单一,单个的云服务则可以满足其对于计算资源、存储方面的实际需求。子任务之间的协同工作模式下,借助评估层对任务层生成的人物进行UI 规划,对现有的组合方案内容进行准确评估。大数据处理过程本身的计算环节比较复杂,如果某一个服务导致数据处理延迟或是失败之后就会面临着重新执行数据处理任务的风险以影响到用户的体验。
最后的算法实现层可以完成服务的整体部署和执行过程。以当前最常见与最有代表性的Hadoop 技术来说,并行计算框架可以给数据处理与分析提供了强大的技术支持,结合数据处理和分析的应用需求之后来实现大数据的查询与计算,获取其中更加有价值的信息和知识。当然我们收集网络当中分布在不同平台和不同数据节点的资源之后,可以按照任务规划模式将复杂的计算任务划分至多个互相功能独立的子任务当中,保障数据处理过程的计算效率。实际的应用环节,也可以考虑将管理重心放在具体的算法实现和任务执行层,以应用开发的方式实现工作当中的各项要求[1]。某些特殊情况下也可以通过数据服务相关的实际案例提出解决方案在应用环节的可能性分析。
随着云计算技术应用的普及和推广,针对可能存在的安全风险,需要从人的角度进行综合考虑,以便于在处理某些关键的敏感信息时产生不同类型的数据泄露风险。因此,云计算服务商需要能够提供访问层面的具体信息,例如操作日志内容等。用户的数据文件在云计算环境之下的存储区域对用户而言是未知内容,此时用户应该具备查询数据的权利,涉及到数据区域、数据恢复、调查支持等多个方面的内容。总体而言云计算服务提供了一个相对较大的存储资源池,并且池子当中包含了所有用户的信息和数据文件等。这些数据在大数据环境下本身是不可控的,云计算服务供应商应该自觉地接受审计和认证,以便于在遵从规定的基础上做好数据的精确化管理,避免数据冗余或是其它极端问题以引起用户的损失。当然,对于数据安全工作而言,任何用户都需要长期且稳定的数据管理服务,在云计算服务商内部产生的数据迁移也不可对用户数据或信息的完整性产生严重影响。
从架构角度分析,包含信息管理和数据安全相关的操作性问题会根据相关的法律法规作出要求,其中传统安全与业务相关的各项云操作与云计算可能出现的安全风险也应包含在内。安全系统和硬件虚拟化等问题也要得到控制,在遵循审计监管规章制度和数据完整性的要求下落实好监督管理方面的问题。尽管云计算存在一些比较复杂的安全问题,但与传统的计算模型香港比,云计算的安全优势仍然体现得非常突出。其优势集中表现在高度集合管理方式,既能够实现对整个云计算系统的监管和控制,同时也能将一些重要的数据全部存储在云端,这样一来无论是防护还是监控工作都能落到实处。对于大多数用户而言,他们只需要向云服务端提出操作请求,就能被提供很多高效化的信息或是开源应用程序,在很大程度上避免了一些组织或个人利用恶意手段窃取信息的可能性[2]。
云计算下的安全防护模式并不像是传统的计算模式一样能够进行安全域划分,但是可以基于环境要求采取多个层次和多个级别的安全域设计,且全局和局部策略之间的互操作模式也能够实现安全的信息、数据维护。在高效的服务和可靠的监管模式之下不会受到严重的时间、空间限制。
从数据访问的动态操作与访问控制来看,云计算环境下大部分的数据文件进行动态操作,包括数据插入、数据修改和数据删除等。在访问过程当中将这些动态数据进行操作之后,所有和数据文件相关的验证信息全部由CDC 重新生成。
插入操作本身是数据文件当中最为基本的动态操作内容,比起后续的修改和删除操作而言是一项更加复杂的动态操作。在方案控制环节,可以将插入操作定义为数据文件之前的特定数据块之后再插入一个新的数据块,数据块和之前的特定数据信息会被存储在同一个服务器的节点当中。CDC 计算出新数据块的哈希值之后会需要插入的数据块创建信息。
数据的修改操作则是应用环节最为频繁的动态操作类型,如果方案将基本的数据进行修改之后,就可以使用心得数据块对这些内容进行更换。按照方案要求,修改完毕之后的数据和修改之前的存储节点保持相同,方案当中对于数据的修改和操作并不会改变服务器的节点逻辑结构。
对于数据的删除操作而言,可以将数据文件特定数据块之后的数据进行删除,然后将方案的具体操作步骤进行综合管理[3]。
资源规划和地区间发展不平衡问题让现阶段的很多地区存在医疗服务问题,经济发达地区的患者数量庞大,但医疗资源也相对较多,一些分布广泛的基层医院在资源水平上比较欠缺。现代医疗信息化进程的不断深入和推进让医疗软件在医疗机构当中得到了广泛应用,且医疗领域产生的数据量呈现出快速增长的趋势,与患者相关的信息都会被记录下来(就诊病历、影像学信息、费用记录等)。这些丰富的医疗大数据资源可以在不同的群体之间进行医疗数据的共享,并且根据用户需求构建出新的数据服务。例如从诊断的要求来看,构建大数据云环境下的医疗大数据服务实例可以提升对于疾病的诊断信息和服务应用模式,将大数据处理任务分解成为不同的子任务后,就可以使用可信的组合评估方法来选择出最佳的服务组合方案[4]。
在病例分析环节,为了帮助患者使用疾病诊断服务来排查疾病内容,可以根据历史电子病例当中的相似信息进行疾病分析,作为排查和评估的主要依据,确定所患疾病后再进行挂号。此外,执行大数据分析并参考数据分析的结果就可以得到相应的服务与大数据处理流程,完成数据资源的收集、任务规划、病例信息的筛选和整合等。
大数据环境的逐渐成熟让传统的计算机软件技术成为了一种可扩展的资源使用方式,为构建大数据服务提供了强大的技术支撑。从成本和性能两个方面综合来看,实际应用环节越来越多的企业和组织会将大数据处理相关的内容迁移到云平台或是网络环境下进行,因此未来的服务内容将面临着多个方面的挑战,所提出的方案在应用环节的可行性分析也不可或缺。