高亚楠
(国家信息中心 北京市 100045)
随着互联网技术的发展和普及,数据可视化和智能分析技术的发展使得大数据系统可以更好地呈现和分析数据。大数据系统的出现也给人们的生活和工作带来了很多便利,大数据系统可以通过收集和分析家庭成员的行为和偏好,为家庭提供智能化的家居服务,如自动调节温度、智能照明等。大数据系统可以通过收集和分析交通数据,为用户提供实时的交通状况和最佳路线,减少交通拥堵和出行时间。
但同时也带来了很多安全隐患,大数据平台可能会遭受 DDoS 攻击、 SQL 注入攻击、XSS 攻击、CSRF 攻击、木马攻击、社会工程学攻击等。大数据系统数据也面临了许多安全威胁,如数据泄露、数据篡改、数据丢失、数据滥用、数据攻击、数据隐私攻击、勒索病毒等[1]。
大数据系统数据的安全保护成为了一个重要的问题。本文从大数据系统数据安全保护的需求出发,探讨了大数据系统数据安全保护模型的研究现状和发展趋势。
大数据系统数据是指通过大数据系统承载,数据量巨大、类型繁多、处理速度快的数据集合。大数据系统的出现主要是由于互联网技术的发展和普及,人们在使用互联网的过程中产生了大量的数据。这些数据包括文本、图片、音频、视频等各种类型,数据量巨大,处理速度快,对数据存储、处理和分析能力提出了很高的要求。
大数据系统数据具有以下特点:
(1)大量性:大数据系统通常处理的数据量非常大,超出了传统数据处理工具的处理能力。
(2)多样性:大数据系统数据来源多样,包括结构化数据、半结构化数据和非结构化数据等多种类型。
(3)高速性:大数据系统数据的产生速度非常快,需要实时或近实时处理。
(4)高维度:大数据系统数据通常包含多个维度的信息,需要进行多维度分析。
(5)不确定性:大数据系统处理前数据存在着不确定性和噪声,需要进行数据清洗和处理。
(6)价值密度低:大数据系统数据中有很多无用信息,需要进行筛选和提取。
大数据系统数据安全保护是指对大数据系统中数据进行保护,防止数据泄露、篡改、丢失等安全问题。其安全保护具有以下意义:
(1)保护个人隐私:大数据系统数据中包含大量的个人信息,如姓名、地址、电话号码、电子邮件地址等,如果这些信息被泄露或滥用,将会对个人隐私造成严重的威胁。
(2)防止数据泄露:大数据系统数据中包含的信息量非常庞大,如果这些信息被泄露,将会对企业和个人造成巨大的损失,因此需要采取措施来防止数据泄露。
(3)防止数据篡改:大数据系统数据中的信息可能会被黑客篡改,导致企业和个人的利益受到损害,因此需要采取措施来防止数据篡改。
(4)提高数据安全性:大数据系统数据安全保护可以提高数据的安全性,保护企业和个人的利益,同时也可以提高数据的可靠性和准确性。
(5)保护商业机密。大数据系统数据中包含了很多商业机密信息,如企业的财务数据、客户信息等,如果这些信息泄露,将会给企业带来很大的损失。
大数据系统数据安全保护面临的挑战和难点包括:
(1)数据隐私保护:大数据系统数据中包含大量的个人敏感信息,如姓名、地址、电话号码、信用卡号码等,如何保护这些信息的隐私性是大数据安全保护的重要挑战。
(2)数据完整性保护:大数据系统数据中的数据量庞大,数据来源复杂,如何保证数据的完整性和准确性是大数据安全保护的难点[2]。
(3)数据安全性保护:大数据系统数据中的数据存储在分布式系统中,如何保证数据的安全性,防止数据被恶意攻击、篡改或泄露是大数据安全保护的重要挑战,其中保持数据的一致性也具有一定挑战性。
(4)数据访问控制:大数据系统数据中的数据访问量大,如何控制数据的访问权限,防止未经授权的人员访问数据是大数据系统数据安全保护的难点。
(5)数据治理和合规性:大数据系统数据中的数据来源复杂,如何进行数据治理和合规性管理,保证数据的合法性和规范性是大数据系统数据安全保护的难点。
大数据系统数据安全保护的模型划分为层面维度、生命周期阶段维度和安全措施维度的三个维度。具体的大数据系统数据安全保护模型如图1所示。
图1:大数据系统数据安全保护模型
层面维度包括基础设施层面、数据平台层面和计算分析层面,通过划分为不同的层面,将安全管理责任和安全管控措施进行层层防护,以便将核心数据资产保护在最中心的位置。
生命周期阶段维度包括数据收集、汇集、处理、存储、传输、分析、导出、导入、销毁等,以便于将数据安全防护工作落实到数据的全生命周期阶段及业务处理流程中去。
安全措施维度主要包括身份鉴别、访问控制、恶意代码防范、恶意攻击防范、安全审计、数据清洗、数据脱敏、数据加密、数据完整性保护等。
通过这三个维度,可以开展大数据系统数据安全的立体防护,并通过分析不同层面存在的安全风险,以研究对应的数据生命周期要求和安全措施。以便有效应对风险,并将安全工作落实到各个环节、各个维度和各个层面,全面提升大数据系统安全保障能力。
大数据系统的基础设施层开展安全防护时,主要采用的思想是一个中心,三重防护思想,其中一个中心是指安全管理中心,三重防护是指的安全区域边界。安全计算环境和安全通信网络,并通过搭建在安全物理环境之上来实现基础设施层的安全保障。
基础设施层所采取的安全措施与另外两个层面有所分离,源于其保障的重点是在于基础的环境和软硬件设备,而不针对具体数据。但其依旧与数据全生命周期紧密相关,例如数据销毁的时候往往需要进行物理介质的销毁。或者物理介质的处理,以确保数据的不可恢复性。仅安全措施部分,与其他两个层面的交叉内容较少。
基础设施层面面临的安全风险类别包括机房环境、网络设备、安全设备和服务器设备、软件系统、管理系统、安全配置和安全管理。
在机房环境方面,有可能因为地震、暴雨等自然灾害导致机房发生事故,或者由于盗窃、社会工程学攻击等导致机房被非授权访问。以及因为发生火灾导致出现软硬件设备组件损毁。此外,还可能因为地下水的渗透、雨水的内渗、雷击以及电磁泄漏导致的数据泄露等安全事件的发生。
在网络设备、安全设备、服务器设备方面,可能由于访问控制策略配置的不当,导致恶意人员访问相关设备、更改安全配置和策略,导致系统被攻击后网络失陷或者留存后门。或者由于设备故障,导致网络中断或瘫痪,影响大数据业务开展。此外,还可能因为角色权限以及账户分配不合理,导致部分人员权限过大。或公用账号,导致恶意操作无法追溯以及恶意内部人员谋取利益等。
在软件系统、管理系统方面,可能由于“输入过滤功能”覆盖模块不全导致发生SQL 注入和跨站脚本攻击事件,出现权限旁落和数据泄露的后果。还可能因为代码审计未开展或不全面,导致软件存在后门或漏洞,使系统易遭受网络攻击或恶意访问。此外,还包括端口及服务过度开放,以及接口管理缺失,发生恶意攻击的行为。
在安全配置和安全管理方面,可能由于管理不到位或存在漏洞,导致投机取巧或内部恶意人员谋取利益等。
基础设施层面的安全措施主要包括,访问控制、身份鉴别、统一安全管理、安全监测、安全设备、恶意代码防范、入侵防范。加密协议、加密算法、介质销毁等。
相关安全措施,通过相应的安全软硬件设备及组件等提供安全防护,或者通过多个设备组件进行联动防护。相关安全措施之间具有相互弥补性、相互补充性及安全叠加效果。
基础设施层面涉及到的数据生命周期阶段主要包括收集、存储、传输、导入、导出和销毁等。其中在收集和导入导出阶段,主要涉及的是数据的接口和导入导出软硬件。有的系统是直接通过专线方式或者光纤接入方式进行数据的导入、导出和收集,而有的系统则用专用的收集设备进行收集,这些都需要注意基础设施层面的安全保护。此外,在存输、存储方面,包括数据库中数据存储的加密性、传输的加密性及完整性等,需要相关的操作系统、数据库等采用加密协议开展传输,并采用加密算法开展加密。在数据销毁方面,则需要针对数据在硬件磁盘中进行清零以及硬件介质的不可恢复销毁,如使用化学用剂或碾碎方式进行物理销毁[3]。
数据平台层面面临的安全风险类别主要数据泄露、数据篡改、数据脱敏可逆、数据聚集风险等。
在数据泄露方面,可能由于数据平台代码层面存在SQL 注入风险等,导致数据库中数据被窃取。或者由于应用程序中存在可上传脚本的漏洞,导致权限丧失。此外,还可能由于数据的管控不到位,导致数据被非授权访问从而泄露,以及通过勒索病毒方式进行数据的窃取。
在数据的篡改方面,可能由于数据传输采用明文传输,或数据交换协议不安全等原因,导致数据被篡改后相关大数据组件和系统无法发现相关事件。
在数据的脱敏可逆方面,可能由于脱敏算法和脱敏方式的选择存在逻辑或安全漏洞,导致已脱敏数据发生可逆的情况,从而导致数据安全事件发生。
在数据聚集安全风险方面,可能由于数据的聚合和汇集等,将许多敏感信息和敏感内容从普通数据中提取而出或分析而出,形成敏感画像或信息,造成个人或组织的经济或权益损失。
数据平台层面,安全措施主要包括安全标记、数据标签、数据脱敏、数据标识、数据分类分级、源代码分析、渗透测试、数据溯源、访问控制、身份鉴别等。
该层面的安全措施,根据所处理和分析计算的方式不同,而有较多的变化和组合性。部分安全措施集成在了相关的数据处理、分析及计算的组件之中,或者集成在了数据安全管理系统中,如血源系统和溯源系统等。
甚至有些采用了新技术应用开展安全防护,例如采用零信任技术作为信任安全管理措施,以及采用区块链技术作为数字交易管理措施等。
数据平台层面涉及到的数据生命周期阶段主要包括数据导入、导出、处理、存储、传输和分析等。在数据导入导出阶段,主要是进行数据的导入,导出安全管控,防止数据出现非授权访问和处理的情况。在数据处理阶段,主要是包括数据清洗的有效性、安全性及保真性。数据存储阶段和传输阶段,主要是针对密钥管理,以及采用加密算法进行数据加密及解密的调用。在数据分析阶段,主要包括数据建模安全性、数据模型安全性、数据分析安全性等。该层面数据生命周期保护的重点是基于数据的分类分级,开展数据全生命周期的相关保护工作。
数据分析层面面临的风险主要包括:
(1)数据质量问题:数据质量不佳可能导致分析结果不准确,从而影响决策。
(2)数据泄露:在数据分析过程中,可能会泄露敏感信息,如个人身份信息、商业机密等。
(3)数据误解:数据分析结果可能被误解或被用于不当用途,从而导致错误的决策。
(4)数据安全问题:在数据分析过程中,可能会遭受黑客攻击或数据泄露,从而导致数据安全问题。
(5)数据偏差:数据分析结果可能受到数据偏差的影响,如样本选择偏差、测量误差等。
(6)模型不准确:数据分析模型可能不准确,从而导致错误的预测或决策。
(7)人为因素:数据分析过程中可能存在人为因素,如数据篡改、分析人员的主观判断等,从而影响分析结果的准确性。
计算分析层面的安全措施包括数据加密、数据标签、数据标识。密码协议、密码算法、数据认证和数据溯源等。由于计算分析层面需要依据数据平台层面开展相关工作,因此,与两个层面之间存在着界限模糊的情况,而安全措施也有着一定的重叠,有些安全措施,同时作用于数据平台层面和计算分析层面,例如某大数据平台提供数据服务时,平台中的数据不可直接导出。大数据应用仅能使用计算池中的模型算法,进行数据模型的个性化搭建,然后导出分析结果。此时其中的安全措施就存在着数据平台层面和计算风险分析层面的大量重合,部分措施如加密等还存在着一定的传递性,密钥管理系统也较为复杂。
计算分析层面涉及到的数据生命周期阶段,包括分析、处理、计算、传输、存储、共享交换等。在数据处理方面,需实现数据处理代码的安全性防护。由于数据处理多采用人工智能等新技术方式实现,所以需要加强人工智能和机器学习安全性防护的力度,以及提升数据的有效性和数据处理结果的可靠性。在数据计算方面,大部分大数据系统采用了分布式及高性能计算方式,其分布式等特点,导致了相关系统中存在着特定的安全风险,则需对相关风险进行针对性的安全防护。在数据传输和存储方面,则需进行数据加解密的算法调用以及设计。在数据共享交换方面,需要注意数据共享时相关方的安全管理,以及数据责任的边界划分,数据交换时安全性的传递等。
采用大数据系统数据安全保护模型开展保护工作时,需遵循的步骤如下:
(1)开展大数据系统数据安全规划设计,对大数据系统安全防护进行顶层设计,从安全物理环境、安全通信网络、安全区域边界、安全计算环境、安全管理中心和管理安全等方面进行安全设计,设计规划方案需经过专家评审后实施。
(2)开展大数据系统数据安全建设工作,在大数据系统建设的同时开展数据安全建设工作,采用三同步的方式开展安全工作,包括同步规划、同步建设、同步运维,将安全落实到大数据工程建设的不同阶段。
(3)对基础设施层面、数据平台层面和计算分析层面的资产进行梳理,确定各层面包括的硬件设备、软件程序、系统程序、基础环境、组件、接口、配件等。
(4)分析各层面的业务和数据面临的安全风险性。识别业务面临的安全威胁,识别上述资产中存在的脆弱性,识别上述资产和系统已有的安全保护措施,根据以上识别内容进行风险的分析和计算,明确大数据系统数据安全风险[4]。
(5)部署安全措施。通过分析各层面可部署的安全措施,开展安全防护,将防护措施与生命周期阶段紧密结合。
(6)开展大数据系统数据全生命周期安全防护,将安全措施落实到生命周期的各个阶段中去。