文/吴刚
(国家移民管理局信息科技司 北京市 100741)
所谓大数据,简单来讲就是指由庞大规模数据信息量共同组成的一种集合体,大数据是对其的统称,并且大数据的形成有一定的前提条件,即数据信息量较大,且无法在合理时间内采用主流工具对这些数据进行收集处理[1]。换句话来说,大数据就是一种囊括了大量形式多样数据的庞大数据集合。下面笔者就根据其概念,总结了大数据的几个主要特点:
大数据的数据信息来源渠道众多,拥有庞大的资料数量,数据的产生无时无刻不在进行着,无数的数据产生再加上数据级别的不断提升,让大数据的数据量每天都呈几何式的增长势态。其中,在级别PB 的级别评价中,又以统计数据最高。
大数据的数据类型繁多,体现出了极强的形式多样性。在信息技术不断完善的今天,大数据中的数据类型在不断增加的同时,也呈现出了较强的非结构化特点,尤其是音视频数据和图片数据的出现,大大增加了大数据的数据类型。有调查统计显示,在当前的大数据构成中,有八成以上的数据量是由非结构化数据构成的。
大数据运行中产生的信息并不是无用的,无时无刻不在产生的数据信息中含有大量有价值信息,并且这些信息都在一定程度上直接或间接的作用在了人们的日常生活和生产上,给人们的生活和生产活动带来了巨大便利[2]。但是,过于庞大的数据信息量也会产生一定弊端,即数据价值密度较低,往往统计回来的数据量十分庞大,但是具有实际价值和意义的数据信息却少之又少。
通过分析大数据的概念及特点,再结合大数据运营的实际情况来看,笔者认为在大数据运行过程中较为突出的数据安全问题主要有以下几点:
大数据环境下,受非结构化数据增长速度快、形成规模巨大且数据类型繁杂等因素的影响,越来越多的数据需求形式被广大数据用户反映了出来,且这种需求形式的多样性仍然处于不断发展的态势当中。然而,大数据环境下数据的规模虽然一直在不断扩大,但是实际的数据运行效率却远远跟不上数据规模的扩张速度。这种情况下,如何快速、高效的表示这些复杂而又庞大的而非机构化数据,成为了大数据环境下主要的数据安全问题之一。
大数据环境是在网络开放性及共享程度都相对较高的信息化时代产生的,这一新型的、规模巨大的网络环境正逐渐影响着世界范围内的计算机数据发展,同时也对计算机数据的安全性和可靠性提出了更加严格的要求。大数据环境下,无论是收集环节还是发布环节,数据运行的各方面效率都较以往发生了较大改观,在效率提升的同时也变得更加灵活多样,然而数据的收集和发布环节中难免会出现一些不确定因素,影响着数据的真实性和可靠性,导致失真数据掺杂在大数据当中,这对于网络环境高度开放的今天而言无疑是影响巨大的[3]。这种情况下,如何有效提高数据的可靠性成为了大数据环境下主要的数据安全问题之一。
数据的可处理问题,也是当前大数据环境下主要的数据安全问题之一。信息技术不断成熟的今天,网络环境中的数据信息每分每秒都在进行着收集与发布,这使得大数据环境中形成了规模惊人的数据信息量[4]。然而,目前用以数据分析和处理的主流工具仍是以水文计算机为主,面对如此庞大的数据信息规模,水文计算机的处理能力就捉襟见肘了。因此,大数据环境下的数据分析工作中,为了更好的研究、探索出数据信息的规律性,提高数据的可处理能力,我们亟须找到更加先进、高效的数据分析手段,不断研发出更加科学、有效的计算方式。
大自然的力量是无穷的,并且这种自然力量也会对大数据环境下的数据安全造成一定影响,如台风、龙卷风、火灾、地震、洪涝灾害以及飓风等自然灾害的出现,均有可能直接或间接的造成一些数据安全问题。信息技术不断成熟的今天,世界各地的人们无论是在生活上还是在生产上,都会或多或少的运用到计算机网络,网络对人们的影响意义重大。人们在生活和生产活动中对于网络计算机的使用均会产生各式各样的数据信息,而服务器则是负责数据信息的存储和实时交互工作[5]。大数据环境下,数据的运行过程中一旦受到自然灾害的影响,如地震、火灾、断电等,将会对数据传送线路造成一定影响,严重时甚至会导致线路中断、数据缺失。
近年来,信息技术突飞猛进,大数据环境下数据量的不断激增,带来了海量的数据存储需求,为了更好的满足数据的存储需要,硬件设备一直在不断地更新换代、推陈出新,但是面对如此庞大的数据存储需求,过去存储环境的落后、陈旧弊端逐渐显现了出来。因此,当前的大数据环境下,我们亟须进一步优化、升级网络硬件设备,改善原有的数据存储环境,以更好的适应不断提升的数据存储需求。硬件设备的数据传输速率往往与网络延迟和传输的数据量有很大的关系,过于庞大的数据传输量再加上设备的老化问题,极易造成传输过程中的网络延迟,从而导致数据传输任务失败,数据的严重缺失,大大降低了网络硬件设备数据存储工作的安全性。
软件的操作失误是每个数据管理人员在日常工作中都无法彻底避免的,不论是哪一款软件的使用,只要操作不当就一定会出现失误。数据管理人员任何一种操作上的失误,都有可能会导致系统重要文件的缺失、系统运行参数的更改以及系统的宕机等系统故障的出现[6]。然而在大数据环境下,数据库的管理人员每天都要面对大量的数据信息,且日常工作内容对系统的运行质量和精准度要求较高,再加之复杂的系统运作方式,都在一定程度上增加了工作人员出现操作失误的几率,也正因如此,不当的操作方式也给系统数据的完整性带来了一定的隐患影响,这对于系统数据的安全性的提升而言是十分不利的。
大数据环境下,存储系统经过无数次的发展与演变之后,逐渐形成了现如今的复杂化特征,因此需要更加高水准、高素质的维护管理人员来从事存储系统的日常维护管理工作,存储系统的运行一旦缺少了科学、有效的管理工作支持,那么将极易出现各种系统运行问题,其中就包括数据信息的丢失问题。例如,终端用户在计算机网络中的频繁调换以及随意增减,随意拆装终端的硬件设备,包括中央处理器、硬盘、网卡、显卡、声卡等,操作系统的不合理变更,不相关软件的随意安装,肆意加装外设,包括打印设备、光驱、移动硬盘、U 盘、键盘、鼠标、触摸板、麦克风、扫描仪、Modem等[7]。以上这些现象都是大数据环境下存储系统管理不善的重要问题体现,这些问题的存在都在一定程度上影响着数据运行的安全性和可靠性。
大数据环境下,要想更好的保证数据的安全性和可靠性,笔者认为首先要从建立大数据信息安全体系做起。而大数据信息安全体系的有效建立,需要相关部门和人员切实提高对大数据应用规划及大数据信息安全工作的重视程度,要以战略发展的角度看待大数据信息安全体系的建立[8]。同时,相关部门和人员还应积极采用科学、系统的分类方式,找到需要着重进行保护的数据对象,在确保各项监控管理工作充分落实的前提下,科学合理的对各类大数据进行系统分类。不仅如此,由于大数据环境是由无数数据信息系统共同组建起来的,因此大数据环境下相关部门和人员要想切实提高数据信息的安全性和可靠性,就必须统筹管理数量庞大数据信息系统,尽快建立起健全的大数据信息安全体系,努力确保大数据环境下的数据安全。
大数据环境下,要想更好的保证数据的安全性和可靠性,笔者认为还要从进行数据安全删除做起。在信息化技术不断发展的今天,信息安全技术的开发与运用受到了社会各界的广泛关注,并逐渐成为了大数据环境下数据安全研究工作中的首要任务之一。其中,数据安全删除技术作为信息安全技术当中的重要组成部分,其技术应用的主要目的就是为了让数据的删除工作变得无法逆转、无法恢复,技术原理为破坏数据恢复的必要条件,以达到数据安全删除的最终目的。数据安全删除工作主要作用于一些敏感度较高的数据信息,运用数据安全删除工作确保敏感数据信息的安全性意义重大[9]。而传统的数据删除工作显然不符合敏感信息的删除需求。我们都知道,常规的文档删除方式不能彻底删除数据,删除掉的只是其标记而已,即使使用高级格式化的方式来删除数据,也无法做到彻底覆盖,一些残留的数据信息仍然会存在于数据区内,故这两种方式都不能成为安全删除。由此可见,大数据环境下的数据安全问题中,对于数据安全删除技术的应用势在必行。
大数据环境下,要想更好的保证数据的安全性和可靠性,笔者认为除了要建立大数据信息安全体系、进行数据安全删除以外,还要认真做好对动态数据进行安全监控工作。数据信息安全问题的产生与数据的动静特征也有一定关系,通常情况下,静态信息数据的安全系数要高于动态信息数据,数据安全问题多发于动态信息数据当中。因此,针对数据信息的安全监控工作中,相关部门和人员在日常工作中应着重关注动态信息数据的安全监控,尽快建立起健全的动态数据安全监控机制。首先,相关部门和人员在开展实际的动态数据安全监控工作时,应密切关注分布式计算系统的运行状况,监控其运行健康情况是否符合数据安全标准,通过严密的健康监控工作确保分布式计算系统的稳定、健康运行。其次,除了一般规模的分布式计算系统以外,大数据环境下数据信息的安全稳定运行还会用大一些规模较大的分布式计算系统,针对此类分布式计算系统的监控,要求相关部门和人员要采用实时监控的方式,严密监控大数据分布式的运行状况,并且还要采用监控和分析相结合的监控方式,严密监视动态数据的细粒度,以确保大数据环境下的数据安全问题。
综上所述,在信息化特征日益明显的当今社会,大数据环境的建立给人们的生活带来了巨大便利,随着数据量的不断激增,各种数据安全问题也随之产生,如何保证数据信息的安全性、构建更加优质的大数据环境,成为了信息化时代中人们普遍关注的话题之一。只有制定出更加科学、有效的数据安全性保障措施,才能确保大数据环境的安全、稳定发展,才能更好的促进我国的信息化稳定发展和进步。