张俊雷,曾祥昱,张海龙
(中国石油天然气股份有限公司吉林石化数据中心分公司,吉林 吉林市 132000)
伴随着互联网技术、物联网技术、5G 通信技术和智能终端设备等日益普及,多元化的数据呈现出几何式的增长,每个人和机构随时都能产生大量的数据。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要经过新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[1]。目前,人类已经步入大数据时代,大数据中蕴含着大量的有用信息,具有非常重要的战略价值。若能从大数据中提取出有效信息,会对产业的发展起到巨大的推动作用[2]。大数据中心是指对大数据进行统计、分析和处理的中心机构。云计算是指能通过网络云将巨大的数据计算处理程序分解成无数个小程序,通过多部服务器组成系统处理和分析这些小程序并将得到的结果返回给用户的一种分布式计算。通过云计算,大数据的处理仅需几秒钟就可以完成。在大数据中心应用云计算,能有效提高大数据中心的运算能力和分析能力,对大数据中心建设具有重要意义。
按照不同的服务对象,云计算可以分为公有云计算、私有云计算以及混合云计算。公有云计算指的是互联网环境下的云计算;私有云计算指的是含政府、企业、高校等在内的私有环境下的云计算;混合云计算则指的是混合了公有云计算与私有云计算的云计算服务,在混合云计算下借助数据共享、应用程序等实现了公有云与私有云的混合。
云计算能够充分提高共享资源、重复利用资源的使用效率,由此实现IT 资源的按需分配,如资源的高度整合技术、智能决策技术、资源的虚拟化技术等。云计算的关键技术对基于私有云的大数据中心建设意义重大。虚拟化的技术核心是直接或间接的虚拟计算机硬件、底层设备,也就是虚拟抽象操作系统与硬件平台[3]。借助虚拟化技术能够使资源的利用率以及数据的整合效率得到大幅度提高。
大数据中心建设的一个核心问题是,大数据中心需要基于需求访问计算机、计算机存储系统,同时根据需求向实际应用进行自由转换。云计算的关键就是能够有效整合大量离散的服务器资源及计算机资源,从而使高效计算得以实现。事实上,大数据中心现阶段向着动态的云计算中心进行演化,通过演化,能实现高效集中管理数据与应用,同时能够基于云的方式直接交付各种应用。大数据中心能提供全面的SaaS 服务。因此,在大数据中心的建设过程中云计算的应用可以确保数据的安全性、可靠性,使用户能够轻松共享数据资源,同时降低客户端的需求等[4]。云计算对大数据中心的建设具有非常重要的意义。
基于传统信息技术的数据中心建设耗能巨大,能源的消耗会有大量的热量产生,而一旦散热不及时,就会使数据中心处于较高的温度下,进而影响大数据中心的整体性能[5]。在大数据中心建设中应用云计算,可以提高大数据中心数据处理能力的同时,还能有效降低大数据中心的维护成本与能源消耗,降低大数据中心在运行过程中所产生的热量,实现节能减排,保障大数据中心的安全性。
“三网融合”是指有效整合互联网、通信网络、有线电视网络等。在不同通信网络中应用云计算,能确保不同通信信道的使用效率实现最大化,进而基于统一的通信协议执行通信运营商的多通道传输业务,提高通信协议的兼容性,由此有助于不同通信网络之间的资源共享,加快“三网融合”的实现进程。
传统的大数据中心无法采用智能化的数据处理方式,无法从大数据中满足用户对个性化、多元化的需求。云计算具有较高的数据分析和处理能力,能够对大数据进行自动化与智能化的处理,不但能够满足用户的需求,也可以极大提高数据的处理效率。
在大数据中心建设中应用云计算是指按照云计算的运算需求,基于虚拟化技术对大数据中心的硬件系统与软件系统进行设计,以实现在大数据中心中应用云计算的能力。基于云计算的大数据中心建设包括虚拟计算、虚拟存储、虚拟网络以及虚拟服务与安全等部分。基于云计算的大数据中心,任何部分涉及的资源都能够从实际需求出发进行动态的调整[6]。借助于对云计算支持的操作系统对大数据中心信息架构进行构建,可以使大数据中心实施的效率得到提高,有助于大数据中心的扩展。同时基于云计算的大数据中心可降低运维成本,共享虚拟资源,提升大数据中心利用效率、安全性与灵活性等。
大数据中心的虚拟计算指的是把互联网、服务器、存储系统等物理资源向超级计算机进行虚拟,把每一个单一性能模块都向虚拟的整体性能进行转化,使物理设备整合性与实用性得到提高。服务器虚拟化通过VMware 软件,可实现在服务器等硬件设备上的运行,由此在一个综合平台上可以满足计算、存储等操作,从而通过虚拟软件功能确保不停机,保证应用系统的实时性;通过用户坐标系统(User Coordinate System,UCS)可以取代人工计算;通过无状态计算技术,可以使物理设备的迁移更加方便,提升大数据中心的灵活性。
存储数据的关键是使架构的网络化存储得到实现,进而使数据统一存储得以实现,这一数据存储的关键问题可以通过虚拟存储技术得到解决。虚拟存储技术的实质就是借助网络协议构建能够支持数据、数据块以及文件等的网络存储结构,构建的网络存储结构供服务器使用。虚拟存储一方面使大数据中心的存储容量得到提升,以此提高大数据中心的工作效率,使数据的存储方式更加灵活,确保服务器的虚拟化,另一方面使大数据中心性能的瓶颈问题得到解决,实现整体存储服务。
在应用虚拟存储时,算法是至关重要的,常用的算法包括最近最少使用(Least Recently Used,LRU)、最佳生产技术(Optimized Production Technology,OPT)、先进先出(First Input First Output,FIFO)、最不经常使用(Least Frequently Used,LFU)等。任何一种算法均存在优点与不足,以LRU 算法为例进行说明。
对传统的LRU 算法而言,其思路为先删除和节点具有最近的距离同时又在很长时间内没有被使用的页面,实际操作就是在栈里放入一个初始化的页面号,如果存在新的访问,那么进入栈顶的是新访问指向的页面号,进入栈底是没有被访问到的页面号,在不断增加新访问过程中,因为容量不足,就会删除掉位于栈最下面的页面号[7]。对传统的LRU 算法而言,其存在以下不足。一是因为任何访问均会导致链表的变动或是栈的变动,所以并发访问的实现存在很大的困难;二是传统的LRU 算法并不能够准确地对栈底最近被访问的页面进行衡量,一旦存在特殊操作就会出现页面的重复性访问或者是突发性页面访问,就会影响准确性。基于此,要对LUR 算法进行改进。改进的LUR 算法中把经常访问的页面标记成“热点页面”,把不经常访问的页面标记成“冰点页面”,通常对“热点页面”与“冰点页面”进行划分的访问次数不小于2。改进之后,一方面能够对具有访问次数比较多的页面进行保留,另一方面能够对页面访问速度较少的页面进行删除,由此使准确率提高。
虚拟网络的关键是把各种形态分散的网络进行统一,通过技术手段使网络的速度更快,减少网络延时,方便网络的管理等。与此同时,虚拟网络可以降低大数据中心建设的网络成本,实现对大数据中心网络结构的优化。虚拟设备系统技术、覆盖传输虚拟技术、虚拟端口通道技术等都属于虚拟网络技术的范畴。
基于云计算的大数据中心网络架构、硬件均存在着不同程度的虚拟。因此,基于传统方案的安全架构存在安全漏洞,使大数据中心运行效率与性能都受到影响。基于云计算的大数据中心建设,在技术方面需要确保数据安全可靠,采用可靠的容灾技术与数据删除技术;在服务器与应用程序方面,需要提高自动化水平来保证安全。
基于云计算的大数据中心建设能够对硬件资源进行充分利用,提高硬件资源的应用效率,降低硬件投资成本;在大数据中心建设中应用云计算技术,在备份数据、删除数据、更新数据、架构整个应用系统等方面都非常高效,由此使大数据中心的性能得到极大提升。