王永银
摘要:现阶段,随着社会的发展,科学技术也有了很大的发展。当今时代,互联网网络的深化发展、移动通讯设备的普及以及计算机设备的更新换代,种种科学技术极大的便利了人们的生活,给人们的生活、出行、娱乐带来了不一样的体验,这些都是互联时代“大数据”的功劳。通过大数据的分析和使用,人们可以在众多纷繁复杂的信息中找到最需要、最准确的数据,节省了大量的时间。但是随着人们社会生活的逐渐丰富,信息增长的速度也越来越快,信息总量越来越大,因此有必要加强云计算的大数据处理技术的研究才能不断满足新的时代需求。
关键词:基于云计算:大数据处理;关键技术
引言
云计算是一种基于互联网的新型计算方式。在这种计算方式下计算机按照不同需求通过云平台实现信息资源共享。这些共享资源有很多种,如应用程序,服务器、存储器等。在云计算环境下不需要管理员的干预就可便捷地释放或配置共享资源。而大数据是指规模庞大的数据总和,现有数据处理存储技术已无法快捷地对海量数据进行管理,更无法从中整理出具有价值的信息。
1 云计算概述
最早提出云计算这一概念的是谷歌公司的首席执行官,它是一种全新的計算模式,可为用户提供付费服务。云计算的典型服务方式有三种,软件即服务( SaaS)、平台即服务(PaaS)以及基础架构即服务( IssS),这三种服务方式也可以说是云计算所具备的主要功能,在诸多领域中得到了应用实施。用户可对较高层次的云服务进行直接调用,也可对封装在较低层次中的服务资源进行调用,据此构建定制云服务。如,用户可从软件即服务( SaaS)的提供商处,对已有的云服务进行调用,或是使用平台即服务( PaaS)对应用进行开发。云计算是以云平台作为依托,按照用户所需的计算资源为他们提供相应的服务,美国国家标准与技术研究院( NIST)依据部署模式,对云计算平台进行具体分类,即公有云、私有云和混合云。不同类型的云计算平台有着自己的特点,如公有云的提供商,可借助互联网为用户提供云服务,而用户在对公有云中的资源进行使用时,则需要支付一定的费用;私有云是一种特定的云计算解决方案,针对的群体为一些特定的企业或是用户,以定制的方式为他们提供云计算服务。通常情况下,用户可以自行搭建私有云;混合云实质上就是公有云和私有云的一种延伸,它的存在主要是为了满足企业的某些业务需求。
2 大数据的安全隐私问题
2.1 基于保护数据隐私的安全计算方案
当前云服务提供商在数据计算安全性和数据隐私性方面的保护措施非常有限。本章中提到的基于隐式机制的数据存储方案中是基于代数中的多项式以及矩阵理论,不涉及数据加密,避免了管理密钥等复杂的数据处理过程。但是,如果存储用户数据的云服务器合谋就会导致用户数据泄露,威胁到用户数据的安全隐私。和显式的同态加密机制相比,隐式机制无需密钥管理,但是也解决不了云服务器合谋导致数据泄漏的问题。为此,文本提出了一种基于多个云服务器的数据存储计算方案,经过加密的用户数据被分别存储在多个云服务器中,然后再统一通过一个云服务器进行数据计算,最终得到加密的数据,数据被使用之前需要使用者先解密数据。这种数据存储计算方案可以显著降低数据存储计算成本,同时云计算技术的应用能够显著提升数据的计算处理效率,有效提高用户数据的安全性。此方案的主要优势在于不但能保护数据计算结果的安全隐私,还能保证计算条目内容,计算条目数的安全隐私,同时确保计算结果的准确性。
2.2 数据存储技术
信息数据在进行存储时的可靠性、安全性以及读写时的效率是云计算技术的基础,利用云计算技术在存储时,往往采用分布式存储,将大量的数据进行汇总并储存到集群服务器中。这种存储技术往往会对数据进行备份储存,利用先进的数据加密技术配合冗余存储能够确保数据的可靠性、安全性。以HDFS为例:HDFS是一种分布式文件存储系统,被广泛应用在通用硬件中。这一系统具备较高的容错功能,能够在廉价设备上实现应用,并且其对数据访问的吞吐量也很大,适合应用在大数据集的处理上。HDFS系统可以进一步的实现文件系统中的数据流式读取,在大数据处理中,HDFS常被设计成能够实现平台间便于迁移的系统,这就令大数据集的应用更便捷。
2.3 数据管理技术
对于大数据而言,存储是基础性工作也是先决条件,但是存储之后对于大数据的另外一个重要工作便是管理,这里的管理分为两个主要部分,第一个是大数据的内容管理,另外一个是大数据的存储管理。针对内容管理,重点是在于数据内容的完整性和真实性上,要确保大数据是真实的、可靠地,而且是完整的,如此针对大数据的分析才是有价值和有意义的;对于大数据的存储而言,要采用科学的、更容易被计算机系统识别的存储方式和分布方式,以此提升计算机系统软硬件对于大数据内容的识别,提高信息资源的使用效率和利用效率。
2.4 软硬件环境的搭建
本文所提出的算法需要通过搭建软硬件环境来实现。借助云计算开发环境中的hadoop,这是一个开源分布式框架,并采用分布式编程模型MapReduce。在搭建前,需要先行安装Linux系统准备好计算机集群,分别在每台虚拟机上加装vim和ssh。随后对主机名及网络配置进行修改,主要包括子网掩码和DNS服务器;对每台计算机上的etc/hosts/文件进行修改,经过修改之后,配置ssh,由此便可实现无需密码登录。为对本文提出的分布式密度峰值聚类算法的有效性进行验证,可通过大规模高维数据性能测试,由测试结果可知,该算法所产生出来的数据点副本个数具有增长缓慢的特点,副本的数量会逐渐变少,由此使得数据点之间距离计算次数随之减少,大幅度缩短了程序的执行时间。
结语
总而言之,加强大数据处理技术方面的研究是现如今互联网技术飞速发展下的必然要求,也是人类社会的前进方向,此外应该进一步从数据存储技术、数据管理技术和数据分析技术三个方面进行巩固和提升,基于云计算技术做好大数据处理技术的基础性研究工作,实现数据处理技术效率的提升,为开启信息数据处理的智能化时代提供技术支撑。但由于本人时间以及自身工作经验有限,并未能针对计算机大数据处理技术展开更为深入的研究,因此仍需要更多计算机信息领域的专业人士进行深入研究和挖掘,本文仅做抛砖引玉之用。
参考文献
[1]孙海军.基于云计算的大数据处理技术[J]信息安全与技术,2014(11):61-63.
[2]龚旭.基于云计算的大数据处理技术探讨[J]电子技术与软件工程,2015(10):198-198.