陈甜远
摘 要:高校信息管理中心在大数据时代,面临着存储空间巨大、管理复杂、存储利用率低下以及拓展数据分析新业务的诸多挑战。针对大数据大量化、多样化、快速化、不确定和价值难的特性,本文提出“高效存储”和“云存储”的技术来解决现有存储空间不足和存储效率低下的问题。而Apache Hadoop的开源分布式数据处理平台对信息管理中心今后的数据分析职能指明了方向。
关键词:大数据;数据管理中心;高效存储;云存储;分布式数据处理
1 前言
随着我们进入以海量数据的结构复杂、处理速度加快为特征的新信息化时代,“大数据”(Big Data)这个新名词不得不被我们提上议事日程。事实上,大数据不是作为一种技术被提出,而是由于不断增长的数据量和数据类型而逐渐衍生出的社会现象。这为高校带来机遇和挑战,信息管理中心作为高校实施教育信息化的重要部门,如何在大数据时代,提高海量增长数据存储处理能力、寻求新的信息服务途径,是信息管理中心必须思考和研究的,只有理性认识“大数据”及其给我们的环境带来的改变,分析挖掘海量数据的内在联系并归纳得出新的结论,才能为高校信息化建设发展提供更好的服务。
2 大数据的概述
“云计算”、“物联网”等热点的余温还未过去,“大数据”这一概念已经迫不及待地闯入我们的视野,并成为时下最火热的互联网信息技术行业词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。2012年,美国已经制定了“大数据研发计划”,可见对大数据的重视程度已经上升为一种国家战略。
最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。随着互联网技术的不断发展,数据本身就是资产,这一点在业界已经形成共识。事实上,全球互联网巨头都已意识到了“大数据”时代数据的重要意义。包括EMC、惠普、IBM、微软在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。那么到底什么是大数据,业界内还没有一个准确的定义。中科院计算研究所给出的定义:“大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行全生命周期内的感知、获取、管理、挖掘和服务的数据集合”。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。大数据从某种程度上说是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。
2.1 大数据的特点
大数据区别于传统数据,是因为它有4V+1V的特性,即大量化(Volume)、多样化(Variety)、快速化(Velocity)、不确定(Varacity)和价值难(Value)。
第一,数据体量巨大。数据容量从TB级别跃升到PB级别,世界数据总量已经达到ZB的数量级,大企业的数据量已经达到PB数量级。第二,数据类型繁多。目前非结构化数据已经占到世界数据总量的75%以上,数据间的互相作用使得其关联性更加复杂。第三,数据真伪难辨。随着数据量增大,数据的真实性难以辨别,例如对于网上发布的信息来源是否属实都难以马上判断。第四,数据处理速度快,要达到秒极,许多“大数据”应用环境需要较高的IPOS性能,甚至需要实时获取有价值的数据。第五,价值密度低。面对每时每刻产生的海量数据,需要专业的技术工具进行筛选、分析出有价值的信息,否则,会变成不断增长的数据垃圾。
2.2 大数据带来的影响
一个大数据的新时代正在到来,其对商业、政府、民主和文化的影响将是巨大的。首先,以往我们进行商业判断时,大多靠我们的经验和直觉,所以会出现不是很确定的判断。大数据时代很多企业的正确决策是依靠数据分析得出,例如企业通过内部数据挖掘,更精准地找到用户,降低营销成本,提高企业销售率,依靠大数据技术为企业带来巨大的运营效益。而政府可以通过收集在网上人们的搜索、发帖和微博消息等数据信息,分析人们的行为和情绪,从数据中找到民意所向,及时优化策略,调整措施,提高政府办事效率。大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。
3 大数据时代的信息管理中心发展
3.1 当前高校信息管理中心职能情况
伴随着高校信息化的发展,高校信息管理中心在教育信息化建设和数据中心管理中扮演着越来越重要的角色,其名称也是随着职能的发展而变化,由最初的电教中心,到教育技术中心,再到现在的信息管理中心。目前它负责学校信息化的日常工作,信息资源的收集、制作、利用、发布的过程、方法和手段,承担教师现代教育技术的培训和指导,制定学校信息化建设发展规划和信息化工作的各项规章制度。信息管理中心的职能大概范围分为4个部分:
(1)校园网建设:负责园区网、互联网、广播电视网的建设、运行、管理和维护。
(2)信息资源建设:负责校园门户网信息的建设、维护和日常更新,对信息资源的收集和采编,建立学校资源库,建立各种资源应用系统,为教学和办公提供服务。
(3)电教服务:为教员进行多媒体技术、网络技术和办公软件应用等信息化培训工作,提教员高信息化应用技能。维护电教设备,以及安排好多媒体教室的使用。
(4)照相录像保障:承担校内宣传和教学工作的录像和照相保障任务,以及后期的视频采集、光盘刻录、硬盘复制、专题片制作、视频图片的分类保存等。
3.2 信息管理中心面临的问题
(1)大数据存储管理问题。首先,存储空间巨大给存储硬件带来压力。大数据时代信息管理中心的数据管理已经不止是简单的网页文本、照片和视频文件。数据来源不断增多,例如移动互联网、手机、平板电脑、pc以及遍布校园内的传感器和监控器等,这些都是数据的来源或者承载着,它们每天带给我们大容量(通常可以达到PB级的数据规模)的数据,这就需要购置大量的存储设备去满足不断增长的需求,而传统模式的数据存储方式不但扩展能力有限,而且扩展方法比较麻烦。
其次,容量效率低。在高校多种应用系统的环境下,存储系统资源相互独立,往往造成存储系统的利用率不均衡,有的存储设备虽然已经饱和,而有的利用率却不到30%,这就造成存储设备的资源浪费。
最后,对于非结构化数据存储管理效率低。对各种类型的数据如办公文档、图像、音频、视频、电子邮件、超媒体等非结构化数据来说,数据处理操作不仅需要使用不同的文件处理软件,而且要在人工参与下才能完成。过多的人工操作会大大增加数据处理的时间,致使信息管理中心无法快速获得重要的信息,工作效率降低。
(2)传统工作流程出现的问题。高校信息管理中心以信息资源建设,教育技术保障为主的传统职能,在大数据时代已经不能满足高校信息化发展的要求,信息管理中心不仅需要收集、存储大量的数据信息,还要在这些原始数据的基础上通过专业技术手段分析、挖掘数据,得到更为有效的信息资源,为高校教育发展和信息化建设的决策提供数据参考。而传统的数据管理方式适用于存量不大并且实时性要求不高的结构化数据,面对大容量的非结构化数据只是杯水车薪。
3.3 怎么应对大数据的挑战
面对大数据带给我们的诸如存储空间巨大、管理复杂、存储利用率低下、能源消耗巨大等诸多挑战,为了提高数据存储数量和效率,人们提出了“高效存储”、“云计算”等技术来解决存储效率方面的问题。
首先,高效存储技术通常包括数据压缩、重复数据删除、自动精简配置等。但其单一技术往往难以显著地提高存储利用效率、降低能耗、降低成本,实际中通常综合运用多种技术以获得更佳的整体效果。
(1)数据压缩技术原理将收到的数据通过存储算法存储到更小的空间中去。最新研发出的在线压缩(RACE)技术,使得数据压缩技术发生了极大的改变,它具有更快捷更准确的活跃数据判断能力和缩减能力,在不降低性能要求的情况下,将存储需求最多可降低80%。与传统压缩技术不同,对RACE技术,当主数据在首次写入时即被压缩,当大量数据在主存中杂乱无章地存储时,可以有效地控制存储,进而降低功耗,提高存储系统中的磁盘和缓存的性能和效率。
(2)重复删除技术,通过删除存储设备中数据集中重复的数据,只保留其中一份,从而消除冗余数据,对存储容量进行优化。其中以Dedupe技术为例,它将文件变成定长或变长的数据块,采用MD5/SHA1等Hash(散列)算法为数据块计算指纹。具有相同指纹的数据块即可认为是相同的数据块,存储系统中仅需要保留一份,将数据缩减到原来的1/20-1/50。由于大幅度减少了对物理存储空间的需求,进而减少传输过程中的网络带宽、节约设备成本。
(3)自动精简配置,是一种全新的存储空间管理技术。在传统存储空间分配过程中,系统往往预先给某个应用分配足够大的空间,实际使用容量仅占其20%-30%,这是一种很大的浪费。自动精简配置技术是利用虚拟化方法减少已分配但未使用的存储容量的浪费,用户需要多少存储空间系统则按需分配,它不会一次性地划分过大的空间给某项应用,而是通过块或块组将资源写入特定卷。当该项应用所产生的数据增长、分配的容量空间已不够的时候,系统会两次从后端存储池中补充分配一部分存储空间。因此自动精简配置技术优化了存储利用,扩展了存储管理功能,是解决存储过量供给的最有效方式。
其次,“大数据”的天生就与“云计算”有着密切联系。云计算的蓬勃发展,客观上开启了大数据时代的大门。如果用高速公路来比喻云计算,那么大数据就是所有汽车中的货物。云计算为大数据提供了存储空间、访问渠道及运算能力。云存储是在云计算概念上延伸和发展的一个新的概念,是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。信息管理中心可以通过租用云服务提供商的服务,将大部分数据迁移至云存储上,所有的升级、维护等管理任务均由云存储服务提供商来完成,而不必考虑存储容量、存储设备类型、数据存储位置,以及更多的关于数据的可用性、可靠性和安全性等繁杂的技术层面,避免了购买硬件设备及技术维护而投入的精力,节省下来的资源可以用于更多的业务发展。
最后,迎接大数据的挑战,不仅仅是硬件的准备,而对海量数据进行挖掘分析,得到有价值的信息,才是大数据的真正本质。商家可以通过与互联网运营商合作从搜索引擎、Facebook的帖子和微博消息中分析人们的行为和情绪的细节,挖掘用户的行为习惯和喜好,找到更符合用户兴趣和习惯的产品和服务,并有针对性地调整和优化。同样,高校信息管理中心可以从收集到的大量数据中分析得到有效信息来优化职能,更有效的服务。对大数据分析,需要建设非结构化数据分析平台,当前平台主要有并行数据库、MapReduce及基于两者的混合架构。而Apache Hadoop开源分布式数据处理平台以其大数据特性成为业界焦点,它能够对大容量数据进行分布式处理,具有高可靠性、高效性及高扩展性。并且用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。因此,要熟悉和掌握Hadoop分布式数据分析平台,对信息管理中心的技术人员提出了更高的要求,需要及时更新知识结构,尽快熟悉和掌握分布式数据处理的原理和应用,成为大数据时代背景下高校信息管理中心的数据人才。