大数据安全分析保障技术应用研究

2023-10-12 23:27周亮罗小刚谭江汇
中国新通信 2023年16期
关键词:大数据应用全生命周期安全风险

周亮 罗小刚 谭江汇

摘要:大数据技术在各行业领域得到了广泛应用,但在发展的同时,我们需注意其潜在风险与弊端,比如容易受到黑客攻击以及隐私容易泄露等。此外,大数据技术具有跨学科的特性,需要持续引入高新技术,这使得大数据的发展和使用与诸多风险及弊端并存。因此,现阶段的数据安全问题显得尤为突出。随着大数据技术飞速发展,数据公开与保护已经成为重要课题。如今,大数据已是各产业信息化的重要基础。如果在收集、存储、传输、使用等过程中的安全隐患无法得到根除,将会为产业发展带来较大危害。基于此,本文就大数据应用中的潜在安全问题展开分析,并对大数据安全保障技术进行探讨。

关键词:全生命周期;大数据应用;安全风险;数据安全保障

一、大数据概念及特征

对于大数据,不同搜索引擎有不同解读,可以归纳为:大数据可以称为海量数据,这些数据规模很大,经过一系列计算与处理,成为能被人们理解与接收的信息或者文字。大数据具有以下特点:首先,具有较大规模。与传统数据相比,大数据的规模更大是其最明显特征;其次,挖掘速度快。这是与传统数据挖掘速度相比最突出特点;再次,品种多样性与识别难度大。这是大数据基本特征,数据真实性很难被识别,所以是大数据在实践中的最大挑战;最后,价值密度小。大数据以碎片形式储存,通过处理后能体现信息价值。

二、大数据安全开放问题与技术难点

(一)大数据安全开放问题

1.收集阶段存在的问题

在大数据收集环节,数据源受攻击的可能性很大,这对数据安全和隐私保护提出了重要挑战。以传感器网络为例,被捕获节点能轻松通过网络路由信任机制验证身份,从而使目标地区用户节点难以接收到正确的数据或者接收到篡改的数据,導致网络数据阻断、篡改或者被重定向到敌方节点等不良情况。解决该问题刻不容缓,可以采取以下几个具体方法。

①添加附加互认机制。在各个节点间添加额外的互认机制,当某个节点收到其他节点的信息时,必须确保发送方节点的真实性和可信度。这需要节点之间进行身份验证和数据完整性验证,以防止被假冒节点发送的错误数据进入系统。

②强化数据加密和传输安全。对于用户的重要隐私数据,应采取加密措施确保数据的机密性和完整性。同时,要确保数据在传输过程中得到安全保护,使用安全通信协议和加密技术,以防止数据被篡改或者

截获。

③提供用户隐私保护措施。对于用户的隐私信息,应采取必要的措施来保护其安全性和隐私性。这包括明确的数据收集目的和范围,遵守相关隐私法规,采取合理的数据匿名化和脱敏措施,严格限制数据的访问和使用权限,并提供用户隐私选择和控制的机制。

④加强安全监控和响应机制。建立完善的安全监控系统,及时检测和识别潜在的攻击行为,并采取相应的应对措施。这包括实时监测网络流量和数据异常,建立安全事件响应机制,及时对攻击事件进行处置和恢复。总之,保护大数据收集环节的数据安全和隐私保护至关重要。除了技术手段,还需要法律法规的支持和企业的自律意识,以实现数据的安全、可信和合规使用。

2.存储阶段存在的问题

数据完整性测试可以帮助用户与第三方识别云服务器数据是否保持原状。相关攻击包括:在服务器丢失了用户所关心数据时,仍会将未丢失身份信息与相关凭证发送给用户;回放攻击,在接收到数据探测请求后,立即将之前计算结果发送给使用者,而不是根据协议进行重新计算,从而产生了一种数据完整的错觉;虚假攻击,服务器伪造用户请求检测数据与有关证据,从而欺骗用户。简言之,由于大数据类型比较多元化,在存储安全方面存在问题。比如代码漏洞多、安全机制的缺失等。而且数据安全未建立严密访问控制与隐私保护,需要一定时间来验证这些措施安全性。NoSQL作为服务器软体没有足够安全性,所以客户机应用程式必须自建安全性,因此,会出现诸如授权流程认证及输入确认等安全性问题。至今,NoSQL还没有形成行业标准,尽管出现许多不同产品,但由于其各自独立、自成体系,难以采用统一安全策略来保护内部信息。

3.使用阶段存在的问题

大数据隐私权保护主要关注个人隐私权保护,并采取措施在存储、传输与使用中进行隐私权防范。其中,非授权访问与数据的非常规使用是需要防范的情况。在数据分析和挖掘过程中,可能会出现未经许可的数据访问,造成数据丢失。此外,在数据传输过程中,可能存在数据非规范发布、数据泄露、缺少应急预案、无法追溯和取证等问题,这些问题若长期存在会造成严重后果。

(二)大数据安全开放技术难点

1.大数据安全标准缺口

目前,有关数据安全研究与标准还不够完善,国外许多机构都在积极进行各种研究,以填补数据安全标准化方面的空白。在这一领域研究中,出现了许多新的研究方向,其中包括云服务可信接入架构等。因此,隐私保护成为备受世界瞩目的问题。国家信息安全标准化技术委员会就数据安全标准提出若干意见,重点突出个人信息安全、数据共享、出境安全、审查标准等,这些都是今后工作重点。目前,我国数据安全标准化进程仍处在发展与完善之中。在这一进程中,必须充分发挥“急需优先、成熟优先”基本规范[1]。而在制定数据安全标准的同时,还需要制定一些特殊的数据安全标准,包括出境、交易等方面。

2.大数据安全关键技术难点

现有信息安全技术无法完全保障数据的安全,再加上其自身存在的各类安全风险问题,还有很多技术形式有待进一步研究。由于其自身具有特殊性,隐私权受到广大民众重视。在实际应用中,出现了几种解决方案。差分隐私是利用噪声来实现数据信息失真的一种方法,由于操作繁琐,导致使用效率不高。另外,全同态加密也是一种常用保密技术,但其性能差强人意,限制了广泛应用。

因此,寻找更加有效地方法是一个需要不断研究的问题。加密技术是一种非常重要的技术,可以在使用时对场景与数据进行加密[2],从而实现数据访问控制。对于访问限制的新需求,给该技术带来了新的发展方向。此外,基于属性加密方法可以通过在用户密钥或数据中添加一些控制策略来降低系统运行效率,同时也可以保证密钥可扩展性与数据灵活性。目前,该技术大多采用基于椭圆曲线方法来构造双线性图,但由于成本高和数据量大等缺点,制约了该技术的推广与应用。

3.大数据安全分析技术难点

大数据技术应用与发展具有两面性。如果运用得当,可以有效发挥其作用,但同时也会成为黑客入侵的主要手段。在全面研究数据安全技术的同时,还要利用各种数据处理技术支持,使数据关联分析、可视分析等方面应用得以实现。大数据技术普及与应用对我国信息安全具有很大的借鉴意义,但同时也不能忽略其中潜在的问题与不足。网络通信检测技术、网络特征提取技术等方面仍需进一步研究与突破,以提高网络信息系统预判和处理能力。

三、大数据系统平台安全保障技术策略

(一)虚拟化安全技术

虚拟化技术极大地提高了基础计算资源使用率,但也存在着安全隐患。例如,开源虚拟化软件核心虚拟机(KVM)可以避免安全授权问题。虚拟化是云数据保护基础,目前有两种安全档案设计方法:一种是对虚拟化层进行安全改造,从底层保护虚拟数据,但这种方法很难实施;另一种是将安全模块加载到虚拟机上,并提供数据加密、完整性保护等,该方案需要大规模部署。

虚拟机扫描技术是一种非常有效的安全防范方法,可以在虚拟机上直接扫描或者在虚拟机中安装软件来监视用户虚拟机,从而保证虚拟机的正常运行,避免非法计算与访问。此外,因为虚拟化将资源的存储与计算动态迁移,在迁移过程中可能引起信息处理与存储节点改变,传统方法很难有效分析与取证异常数据。对此,工作人员可以选择虚拟技术完成取证工作。一种方法是把云平台看作由多个虚拟组织组成的系统,通过对虚拟机实例进行取证与分析,建立云计算模型。然后采用现场迁移技术对虚拟化软件层虚拟机实例进行信息维护,以保证迁移镜像文档内容的完整性与一致性。

(二)大数据平台防护措施加固

Hadoop在大数据时代非常流行,它是一種用于数据存储与处理的技术。它可以进行大规模数据处理,尤其是 Hadoop安全增强方面表现出色。其工作原理如下:当大量数据被加载到 Hadoop平台上后,首先需要进行数据分析与清理,然后进行数据分析、挖掘与处理。在大数据平台上,可以利用统一自驱动安全战略模式,将所有安全产品与设备进行统一配置与管理,从而具备自驱动安全性。传统的事件关联技术很难有效地对海量安全事件进行分析与处理。对于大规模安全事件,需要在整个平台层面上建立一个统一实时网络安全体系,将安全事件时间与空间进行整合,通过安全事件关联算法来提高关联效率[3]。关于大数据存储安全,基本目的是保障存储数据安全性。目前,主要采用了大量虚拟化存储技术,这些技术可以通过固件或软件来实现。

(三)数据备份以维护数据可用性

在当前大数据系统中,为了保证数据可用性,通常会采用数据块备份的方式。这种方式将数据分成块,然后进行拷贝与备份,将其存储在多个数据节点中,以确保在某些数据节点出现故障时仍然能够保持数据的可用性。以Hadoop为例,Hadoop文件系统采用机架感知技术来管理元数据。NameNode负责决定每一个实际存储数据的DataNode节点,并通过机架感知策略提高数据的可靠性、可用性以及网络带宽使用,从而实现多个文档块备份。在云环境下,多副本管理主要依赖于现有的云存储技术,比如常见的分片存储技术与可擦写代码技术[4]。分片存储技术将数据划分成多个片段后存储,按照读取需要将其恢复到原始文档中。但是这种方式需要更多的资源消耗,因此在是否进行数据分片时,必须考虑到测试需求与资源限制。

(四)及时发现与防范APT攻击

APT攻击防范策略为:首先,发现策略。由于入侵阶段对攻击者来说非常重要,因此可以根据不同来源(无论是本地还是外部)的数据来发现不同行为,从而帮助发现 APT攻击。其次,对抗策略。重点关注敏感数据存储地点,包括可能存在木马病毒流量与异常周期信号,以便在最短时间内找到被攻击的主机与网络,并在最短时间内进行隔离。最后,防范战略。重点是提高对APT的警觉性,增强自身安全意识,保存数据的完整性。

(五)数据产生、采集与传输安全目标

在数据产生和采集环节,必须确保数据真实性。在此基础上,必须对可能涉及国家机密信息的数据进行预警和报警,并且能够将国家机密信息隔离开来,避免与其他资料混在一起,合理保护与国家机密有关信息。保护策略是利用区块链技术来实现源数据的身份验证与完整性,并利用与国家机密相关探测与预警手段来检测所获取的数据。对于数据真伪,可以采用大数据自身进行真伪检验,或者通过法律手段对造假行为进行处罚,以确保数据的真实性。在传输环节,保护目标与策略是确保信道内的数据不丢失、不外泄,并且未经许可不得更改,最大程度保持通信信道的畅通[5],还要防止可能重放攻击等。保护策略以加密技术为基础,借助区块链技术确保数据的安全与完整。最后,针对核心基础设施保护目标及策略,在存储、挖掘、交换与应用等过程中要求平台统一。这是大数据安全的重点内容,目的在于提高授权访问安全系数,确保未经授权的访问者无法越权访问数据,从而增强数据的保密性、完整性与可

用性。

(六)大数据安全保护技术

数据信息处理包括采集、预处理、分析、挖掘等阶段,具有循环特点,包括发布、储存、挖掘与使用四个关键步骤,在各个阶段都有可能发生风险,需要进行技术保护,以维持大数据的安全。

首先,从发布角度看,由于数据来源多样、发布动态、用户同一性以及海量数据量等特征,使得数据保护显得尤为重要。在此过程中,为了保护数据,应采用多种形式匿名技术。其次,对于存储而言,传统的密码技术虽然可以达到数据保护的目的,但存在开销大、数据共享受限等缺点,从而限制了大数据技术应用。因此,许多学者都曾讨论过,并提出了许多可行的加密技术。属性密码便是其中的一种,其意思是当使用者密码必须要被解密时才能被破解。最后,关于访问限制,目前比较常用是角色技术,指为数据使用者分配各种角色。在此过程中,要充分发掘角色,并设定适当的访问限制[6]。另外,还有一种基于数据敏感性的技术,即所谓的数据脱敏技术。数据脱敏又称数据漂白,其中规则、数据、环境是最关键的三个因素。规则是可以恢复的,也就是说,通过某种技术与手段,可以还原出脱敏数据。另外,还包括无法复原数据,完成脱敏后,这些数据就无法还原。敏感数据是指用户的个人信息,如用户姓名以及其他隐私内容等。环境即数据信息脱敏后可以在哪些环境中使用。

在数据平台上,数据存储一般都是依靠结构化形式,即利用行列方法可以精确记录数据的位置,比如身份证号码。其中也包括“半识别”,可以根据不同资料对使用者进行准确定位,并根据不同资料进行有效识别,如性别、生日、收入等信息。其他资料对于使用者来说并不在十分敏感的范围。因此,在脫敏时,通常会采用替换方法,利用虚拟数据代替实际数据,比如通过词典来匹配真实值与随机值,以及与字库中数字相匹配,如在性别方面,可以通过不同字母来表达。

四、结束语

综上所述,随着大数据技术日益成熟,数据安全风险问题日益严峻。大数据作为各产业信息化的重要基础,在收集、存储、传输、使用等过程存在安全隐患,从而体现出数据保护的重要性。大数据具有规模大、挖掘速度快、品种识别难度大等特点。而数据技术的发展必须建立在数据安全的基础上。因此,技术研究方向应集中在提升数据安全保护水平上。本文旨在分析大数据安全问题,并围绕相关保障技术展开论述,希望可以为相关领域研究提供参考。

参  考  文  献

[1]靳玉红.大数据环境下互联网金融信息安全防范与保障体系研究[J].情报科学,2018,36(12):5.

[2]孟欣,张明杰,许青松等.一种运用大数据分析与风险识别实现安全管控方法及系统:CN114202156A[P].2022.

[3]丁超.多维度解读大数据与大数据安全——访北京大学网络和软件安全保障教育部重点实验室副主任、北信源董事 胡建斌[J].信息安全与通信保密, 2015(6):4.

[4]吕军,杨超,王跃东等.基于多业务场景的大数据脱敏技术研究及其在电力用户隐私信息保护中的应用[J].贵州电力技术,2018,021(007):29-35.

[5]宋仪,杜道龙,范建国等.一种利用大数据实现动态确定隧道安全监测预警值的方法:CN110188126A[P].2019.

[6]任婷.基于虚拟化的大数据异地容灾数据库系统的组网应用方法[J].四川劳动保障,2016(S1):2.

周亮(1977.8-),男,汉族,四川广汉,研究生,工程师,研究方向:计算机软件应用、大数据应用与分析、计算机教育与教改;

罗小刚(1978-),男,汉族,四川成都,硕士研究生,副教授,研究方向:计算机软件应用、大数据应用与分析、高等职业教育教学与教改;

谭江汇(1992.11-),女,汉族,四川眉山,研究生,助教,研究方向:计算机软件应用、大数据应用与分析、计算机教育与教改、网络安全技术应用。

猜你喜欢
大数据应用全生命周期安全风险
大数据与图书馆管理创新
二维码标识管理系统在教育装备管理中的应用
科学大数据的发展态势及建议
天然气管道建设项目全生命周期风险管理研究
智慧校园安全管理研究
电力系统调度控制中存在的安全风险及应对措施
绿色建材全生命周期的研究与落实方法
会计电算化系统的安全风险及防范
浅谈县级供电局电力调度管理和安全风险的控制
范式转换视角下建筑工程全生命周期的工程造价管理研究