林正远
(中国海洋大学崂山校区 山东 青岛 266100)
当前,全球社会不仅进入了信息化时代,而且还进入了“信息大爆炸”的大数据时代。在大数据时代下,任何数据信息都具有潜在的利用价值,都能够通过深度的、相关联的数据分析,得出明确的、具有参考和指导意义的信息,推动社会生产、改善人们的生活。不过要想真正应用好大数据,前提是需要重视并做好对大数据的存储与安全防护工作,将之作为关键课题,积极加强研究、探讨与实践。一方面要深入、客观和科学地认识大数据的基本概念,及大数据存储与安全防护的重要性;另一方面要采取合理、有效的大数据存储技术与信息安全防护措施,实现对大数据的可靠存储,保障大数据的信息安全。
对“大数据”最简单的理解,是巨量数据的集合,因此大数据中的“大”主要指的是其数据量大。从技术层面来讲,大数据基于信息化技术,能够对电子化、信息化的各种数据,进行广泛的收集、整合、存储,并通过相应的数据分析技术,从这些巨量的、无序的,甚至是碎片化的数据中,构建数据之间的逻辑联系,从而获得明确的、具有参考和指导意义的信息[1]。
大数据之所以会受到全社会的关注与重视,是因为其应用范围相当广泛,可以适应几乎任何的工作场景,满足各个行业、领域的使用需求。如电商、金融、交通、医疗、教育、工业、农业、气象等,都可以通过对大数据的应用,获得具有参考和指导意义的信息,帮助实现产业的转型,提高社会生产力,促进社会建设和经济发展,为人们的生活提供便捷,改善人们的生活质量、生活水平[2]。但在信息化技术飞速发展的同时,病毒技术、黑客攻击技术等,也在不断地升级,再加上大数据的结构和技术布局,会使得传统网络安全的边界变得更为模糊,信息安全风险加大[3]。另外,大数据的数据来源非常广泛,其中很多数据都具有很高的私密性、隐私性要求,如涉及人健康隐私的医疗大数据。所以如果大数据发生信息安全问题,可能会造成大量的隐私泄露,这也是不能允许的。综上,要想真正应用好大数据,就必须要首先重视并做好对大数据的存储与安全防护工作,满足大数据的存储和运行需求,保障好大数据的信息安全。
大数据面临着巨量的、异构的数据存储需求,因此常规的关系型数据库,对于大数据来说基本没有适用性,不仅数据的存储量有限,而且对于数据的类型具有要求,运算速度也不理想[4]。NoSQL泛指非关系型数据库,它的出现是为了应对大规模数据集合多重数据种类带来的挑战,在大数据的存储方面,具有很强的适用性。NoSQL除了能够包容和存储各种类型的数据信息之外,同时还具有数据存储量大、灵活易用、易扩展、高性能、高可用等优势。如扩展方面,NoSQL去掉了关系型数据库的系型特性,数据之间没有关系的限制,所以扩展起来非常的方便。在性能方面,NoSQL支持高并发读写,可以同时容纳大量数据的读写吞吐,可以满足大数据的高效运行需求。灵活性方面,由于NoSQL不必建立“字段”,允许随时定义数据格式,可以避免增删字段带来的麻烦。高可用指的是NoSQL能够在仅消耗少量性能资源的情况下,就实现高可用的架构,满足实际的大数据使用需求。
关系型数据库虽然不适用于对大数据的存储,在实际上关系型数据库也具有其自身的诸多功能和优势,如可读性、可用性强,存储结构逻辑性强,存储格式规范等等,这便是为什么在大数据出现之前,关系型数据库广为流行的原因。而MongoDB则兼具关系与非关系数据库的优势,也就是说它介于两种类型的数据库之间,在技术和功能层面上较为包容。它能够进行有效的大数据存储,但同时又具有比一般非关系型数据库更丰富的功能。从实际的运行情况来看,MongoDB一方面能够兼容关系型数据库的DBMS功能,另一方面又能够实现高效率的数据读写存储。MongoDB的数据存储采用了BSON结构,整体上非常灵活,功能强大,并且易于扩展,是进行大数据存储的一种理想技术。
Hadoop是一个开源的分布式系统基础架构,在如今的应用相当广泛,同时也被大量用于大数据存储。它的主要特点是通过分布式的集群力量,对数据进行高效率的运算与存储。Hadoop含有四个关键的组件,分别是HDFS、HBASE、HIVE以及MapReduce。其中HDFS是分布式文件系统,它能够在通用硬件上运行,具有高度的容错能力,即使是在普通的计算机上,都可以部署,而且吞吐量非常高,相当适合在大规模数据中应用[5]。HBASE是分布式的、面向列的开源数据库,没有结构和关系的约束,同样可以在普通的计算机上运行,搭建起大规模结构化存储集群,HBASE的所有数据文件,都存储在HDFS中。HIVE是Hadoop的数据仓库工具,其能够实现大数据加载、转化以及提取等功能。MapReduce是一种大规模数据并行运算处理技术,用以支撑大数据的数据处理需求。
Hadoop在如今的大数据存储中应用相当广泛,由于其自身构建的影响,所以它不再如传统的数据库那样,采用角色访问控制,而是综合性地采用了实体访问控制与数据访问控制机制。如上所述,Hadoop具有HDFS、HBASE、HIVE、MapReduce等关键组件,其中HDFS、HBASE、HIVE和数据信息的存储相关,因此也就关系着大数据的信息安全[6]。进行实体访问控制和数据访问控制配置时,需要对访问主体、访问客体、访问条件以及访问权限进行设置,其中访问主体主要是指用户账号,访问客体是实体的所在路径,访问条件包括访问的应用、访问的时间以及访问的IP地址等,访问权限则要求明确允许访问和操作的权限。
在对大数据进行访问的过程当中,提起访问的设备端,第一步是需要完成身份验证,当前一般采用kerberos认证系统,来对大数据访问进行身份验证,可靠性较高。在验证通过后还需要接受实体访问控制验证以及数据访问控制验证,所有验证都通过之后,再对访问权限进行分配。到了这一步过后,访问设备终端还并不能执行相关操作,因为大数据会对操作请求进行严格的审查,确保其符合权限,如果超越了权限,则不能进行相关操作,从而保证大数据的安全性。
数据加密是一种非常实用的信息安全防护措施,不论是在以往的数据信息安全防护中,还是在大数据信息安全防护中,都可以发挥出很好的作用效果,其能够保证即使数据在被窃取的情况下,也无法被解读、利用,从而达到保护数据信息安全的效果和目的。从当前的数据加密技术发展现状来讲,适用于大数据加密的技术主要有两种,分别是分布式文件数据透明加密技术和分布式数据库数据透明加密技术[7]。就分布式文件数据透明加密技术来说的话,在有数据进行加密的时候,文件数据就会被传输到加密区,访问者如果对该文件数据具有访问权限,就可以从加密区当中,将文件数据转移出来,并将解密过后的文件数据返回给访问者。相反,如果访问者不具备相应的权限,就无法获得文件数据,即使通过其他手段获取到了文件数据,也是加密状态下的数据,没有实际的价值,数据的安全性依然无法有所保障。
Hadoop下的HIVE、HBASE,主要可以使用的是分布式数据库数据透明加解密技术,其实现的方式和流程相对简单。在操作界面当中,直接对选中的数据列采用相关加密算法进行加密,同时根据时间、IP、程序以及用户账号等信息,来控制对数据的访问[8]。如果有人进行数据访问,只要其能够通过验证,就可以对数据进行逆向解密,获得可读、可用的数据详细。如果没有通过验证,即使是得到了数据,也只是无用的乱码,不具有可用价值。
数据脱敏也是一种非常有效的大数据信息安全防护技术,根据应用场景的不同,大数据在运行过程当中,可能会进行实时的大量数据读写吞吐,也可能集中性地进行数据操作,不具有实时性的需求[9]。为此,可以分别采用数据脱敏、动态脱敏,来对大数据进行信息安全防护。静态数据脱敏的处理方式是非实时的,需要依靠专门的脱敏组件,来实现对数据的脱敏工作。也就是说,静态数据脱敏技术的使用,不一定要和大数据平台合为一体,其二者之间可以相互独立,大数据平台提供原始数据,独立的脱敏组件再进行脱敏工作。对于这个过程,可以提前设定好计划,使数据经过脱敏处理,然后存储到其他地方。
动态数据脱敏是实时性的,数据访问需求发起,相关数据便被输送到数据处理引擎,由动态脱敏模块对访问请求数据进行动态脱敏。其大致的流程如下,模块转发请求,由数据平台接收,并对其一系列的信息进行核查,如程序名、账户名、IP以及语法等,判断其是否具有合法性[10]。然后数据脱敏模块根据规则对应用程序发送的HIVE语法、HBASE语法进行改写,并将修改后的请求发送到数据平台,最后由数据平台对请求进行处理,返回数据结果。
除了访问控制、数据加密、数据脱敏之外,在实际的大数据信息安全防护中,还需要综合性地应用好其他各项技术措施,如防火墙、虚拟专用网络、入侵检测以及主动性安全防护技术等。总之,要对各种可用的信息安全防护技术进行合理的应用,在各个环节都防止出现安全漏洞和隐患,这样才能更加强有力地保障好大数据的信息安全。
本案例通过应用MongoDB,来对HDFS进行改进与优化。基础平台采用Hadoop,基于其搭建HDFS与MongoDB大数据存储系统,打造非结构化数据云存储平台,以实现对巨量的、非结构化的数据存储。大数据存储系统的结构如图1所示。
图1 非结构化数据云存储平台结构
在数据云存储平台中,MongoDB的基本架构情况如图2。其中,Clien具有对MongoDB的访问接口,其能够对大数据存储的缓存数据进行维护,保证数据的访问速度。协调服务的主要作用和功能,保证系统集群中主控制节点的数量唯一,可以对全部集合的寻址入口进行存储,对集合服务的状态情况进行实时的监控,同时向主控制节点发送监控信息。对MongoDB的相关模式信息,如存在哪些集合,集合包括哪些文档等,进行存储与管理。控制节点对集合空间进行分配,负责元数据存储的负载均衡。如果在存储系统当中,出现了失效的数据节点,便对这些无用的文件和数据进行处理。集合服务数据的I/O请求,对数据庞大的集合,进行自动化的分片处理。
图2 MongoDB基本架构
在数据云存储平台中HDFS主要包括了NameNode节点、存储节点、MongoDB客户端等组成部分。NameNode节点扮演着管理者的角色,其主要的任务包括了对存储块复制和集群配置以及文件系统的命名空间等,进行有序的管理。存储节点的作用是存储数据,而且是存储数据的基本单元。其能够以块的形式,将数据存储到本地,并且可以把信息发送给控制节点,准确而及时。客户端即应用端,其主要作用是根据应用需求,对分布式文件系统进行访问,获取或是上传数据内容。
在安全措施方面,本案例综合性地采用了访问控制、数据加密以及防火墙、入侵检测、数据备份等技术,最终实现了高效率、大容量的数据读写,而且数据的安全性得到了很好的保障,完全满足了实际的大数据存储以及运行需要。
在如今的大数据时代背景下,应高度重视并切实做好对大数据的存储及信息安全防护工作。只有采取各种技术措施,为大数据的运行创造稳定、安全、可靠的环境,满足大数据的存储和运行需求,防止出现大数据信息安全问题,才能趋利避害,充分发挥出大数据的作用与价值,进一步推动社会生产、改善人们的生活。