大数据安全技术研究

2020-11-23 22:02:22李艳华

网络空间安全 2020年2期

李艳华

（北京赛迪时代信息产业股份有限公司，北京 100080）

1 引言

随着信息技术的飞速发展，内网、外网以及互联网等各种形式的网络将社会的各个领域连接起来，数据的大规模生产、共享和应用的大数据时代已经到来。大数据由于其多元化的来源、异构化的体系、分布式的时空状态等多层面、复杂化的状况，产生了独特的体系结构，在推动存储、网络和计算机技术发展的同时，也带来了新的安全问题、安全机遇和挑战。

2 大数据发展带来新的安全挑战和机遇

2.1 大数据技术发展给安全带来极大挑战

（1）海量数据使得安全管理的难度显著增加。一方面，大量的数据集中存储在一个物理位置或同一个逻辑地址，增加了泄漏的风险，黑客的成功攻击可以获得比以往任何时候更多的数据，几乎降低了黑客的攻击成本，增加了攻击收益。另一方面，海量数据的收集可能包含更复杂、更敏感和更有价值的数据，这将吸引更多潜在的攻击者。

（2）大数据的多样性和复杂性使得验证信息是否有效的工作变得更加困难。在大数据时代，数据来自多维空间，不再局限于特定的数据采集模式。不仅需要鉴别不断增加的数据是否真实、可靠、有效、大量重复。对于如何区分数据是否具有时效性、可提取特征或统计意义，也是一个棘手的问题。

（3）低密度值分布数据使得大型信息系统必须扩大边界安全和防护范围。一方面，大量的数据被混合在一起，其中包括大量的业务操作数据、客户信息、个人隐私和各种行为的详细记录。不同类型的数据通过不同的采集渠道经过不同方式的数据清洗和处理，按照不同的结构存储在不同类型的介质上，其安全需求的多样性和复杂性显而易见。另一方面，由于一些敏感数据的所有权和使用权没有明确界定，许多大型基于数据的分析没有考虑到涉及的隐私问题，导致个人信息保护堪忧。最后，大数据给数据完整性和可用性带来了挑战，在防止数据丢失、被篡改、被盗、滥用和销毁等方面存在新的技术困难，许多传统的安全工具在大数据安全面前都显得无能为力。

2.2 大数据技术应用提升安全保障能力

大数据技术也为数据安全的发展提供了新的机会，为安全分析提供了新的可能性。

一是大数据技术可以应用在对A P T攻击检测上。相对于传统威胁，A P T攻击具有特定目标、隐蔽性强、破坏力大、持续时间长的特点。目前，A P T攻击检测主要集中在三个方面：恶意代码检测、主机应用保护和网络入侵检测。通过大数据技术，可以获得全方位的数据，对不同阶段的安全威胁进行感知；同时，大数据技术可以实现全流量分析，并发现异常情况。基于大数据分析的防A P T产品可以对企业内部的网络进行全流量镜像侦听，通过存储和分析流量数据，发现异常的数据行为，探测A P T攻击，并根据这些数据对APT攻击进行溯源。

二是大数据技术可以应用在态势感知上。网络态势感知能够获取、理解、显示和预测在大规模网络环境下导致网络态势变化的安全要素。基于大数据技术的网络安全态势感知，可以存储诸多网络探针获取的数据，并基于数据挖掘技术，从海量数据中挖掘出有用的数据信息。随着网络规模的扩大和网络攻击复杂性的增加，网络态势感知数据量会进一步扩大，此时只有应用大数据技术才能处理海量数据，理解并预测网络安全态势。

三是大数据技术可以应用在终端防护、特种木马防范等信息安全技术领域中。现今，恶意代码的变种总数已经达到千万级，而有效的样本数则达到了数以亿计。在这一前提下，只有应用大数据技术，才能实现全样本分析，绘制成图谱。二十年前，在移动方向上信息安全行业每投入两个工程师只能分析出九个病毒，而随着手机恶意代码的不断发展，到了2014年，只需投入十五个工程师就可分析出一百三十万种手机病毒。这正是通过有效地引入了相应的自动分析处理技术和大数据方法，才让海量样本分析成为了可能。

3 大数据安全发展需求

3.1 大数据环境下预警和应急处置能力急需提升

当前，大数据产业涉及的数据范围更广、形式更多元化，近年来大数据市场一直以高增速扩大规模。在诸如医疗、银行和金融业、社交网络、公共安全、通信、基础科学研究等领域，大数据都发挥着至关重要的作用。

现阶段，我国互联网迅速发展，新技术得到快速应用的同时，也给数字化、网络化违法犯罪提供了全新途径，各类新型网络犯罪、社会公共安全事件呈加速增长态势，并且手段隐蔽、影响广泛、后果严重、难以防范。面对上述趋势，相应的网络预警及防控机制有待进一步提高和完善，现有的技术手段难以应对新型网络违法犯罪及危害社会公共的安全事件。由于缺乏有效的预警机制，各方感知的信息难以被快速汇聚和充分利用，使防控难度不断加大。此外，预警规则设置、数据源可信验证等技术还需进一步加大研究力度。

应急处置方面，由于传统的检测是基于单个时间点的威胁特征进行实时匹配检测，大数据已逐渐成为高级可持续攻击的载体，先进的可持续攻击是一个实现过程，没有明显的实时检测特征，无法实时检测。另外，大数据的价值密度很低，安全分析工具很难把重点放在价值点上。黑客可以在大数据中隐藏攻击，这使得安全服务提供商很难分析安全事件。针对此类攻击行为，上下联动的应急响应体系有待进一步完善。相应地，大数据系统风险评估、数据安全态势感知等核心关键技术还需突破。

3.2 大数据环境下数据安全保护技术急需突破

当前，数据安全已成为各行业和企业的最基本需求。由于大数据量大、类型复杂、价值密度低、分布式处理速度快，大数据也面临着前所未有的数据安全威胁和挑战。随着大数据的使用规模和领域的扩大，大数据的安全威胁也将完全辐射到各种行业。比如，2018年发生的Facebook数据泄露事件，Facebook以50亿美元代价与美国FTC和解。而IBM的年度数据泄露研究表明，数据泄露的成本包括调查取证、诉讼赔偿、损失控制和修复等多种相关费用，从全球范围来看，平均成本高达392万美元。大数据基础设施是大数据安全运行的基础，攻击者可以通过非授权访问大数据的基础设施，在传输过程中破坏数据完整性、窃取信息、发动拒绝服务攻击、传播网络病毒等方式对大数据基础设施实施破坏。因此，大流量数据安全传输、非关系型数据库存储安全、非结构数据动态脱敏、数据防泄漏等核心关键技术急需突破。

3.3 大数据环境下安全监测分析能力急需提高

大数据环境下，数据在采集、传输、存储、处理等各环节存在大量的隐患，很多环节直接导致了信息的泄露，而这与我国大数据环境下的系统安全监测能力不足有着直接关系。现阶段，安全监测产品还无法满足大数据环境下的稳定性要求，随着监测系统规模和复杂性的增加，系统的不确定因素也在增加，对稳定性带来了更多挑战。同时，监测系统对可用性的要求也很高，即监控要接近准实时或实时，这也是需要特别关注的重要方面。大数据环境下的系统安全监测活动对监测产品的吞吐量要求也更高，但现阶段产品的吞吐量还显然不足，甚至在量级上还不完全适用于大数据环境。

大数据环境下的系统安全监测活动对监测产品的监测技术也提出了更新要求。目前，监测的产品包括旁路监测技术、流量监测等，但是面对数据庞大的大数据，这些技术在应用时可能存在网络消耗大、产品性能不达标等问题。因此，当前亟需对监测技术进行优化，以保证大数据环境下的监测活动易于实现。

4 对策建议

围绕“保护大数据安全”和“提升大数据系统安全防护能力”两个核心问题，建议在大数据安全保护、大数据系统安全评估两个方向进行深化研究，具体可在数据源的可信验证、非关系型数据库的存储安全和非结构数据的动态脱敏，以及大数据系统的安全监测、可信免疫技术、智能攻防技术等方向展开。

4.1 大数据安全保护技术

大数据安全保护技术主要可以从数据源可信验证、非关系型数据库存储安全和非结构数据动态脱敏三个方面来考虑。

（1）研究数据源可信验证技术，从数据源头上实现安全防控

一是进行数据源共享安全脆弱性分析。研究数字签名和校验、异构网络传输所带来的数据源可信验证开销问题；研究各数据源不同的安全机制之间的互联互操作问题；研究不同服务之间的协作带来的新的安全问题。二是建立数据源可信验证模型。建立数据源可信验证模型，设计可行、可靠的源验证方案，满足数据源访问者身份合法性、消息传递路径可靠性等验证需求。三是研究身份认证技术。研究大数据环境下的身份认证技术，设计满足大数据环境认证需求的身份认证框架以及高效身份认证协议，提高身份认证效率，实现数据中心内、跨数据中心的身份认证。四是开展服务调用认证技术研究。开展研究服务调用认证技术，设计服务调用认证框架和服务调用认证协议，满足数据源共享实体认证、消息源不可伪造、传递路径可鉴别、传递信息不可篡改等要求。五是发展数据源异常检测技术。建立数据源异常检测模型，实现数据源访问用户身份仿冒、数据内容篡改、通信传输劫持、访问权限变更、服务调用失常等异常情况的快速检测和溯源跟踪。

（2）研究非关系型数据库存储安全技术，打造安全的数据港湾

一是研究敏感数据分级保护与加解密技术。根据数据的不同敏感等级及保护粒度要求，研究对用户透明的文件系统加解密、数据管理系统加解密及客户端加解密三种数据保护技术。研究面向非关系型数据的高效加解密算法，满足海量非关系型数据存储安全性与可用性的需求。二是研究细粒度的一体化数据安全访问技术。重点研究一体化的数据安全访问技术，实现上层应用和下层存储的解耦，以提供跨组件的可复用数据模型为研究手段，来支持行和列级别细粒度的角色访问控制。

（3）研究非结构数据动态脱敏技术，保障数据的合规使用

首先，根据数据的特点、敏感特征以及敏感等级等要求，研究非结构化数据文件类型特点、敏感特征类型以及敏感等级，深入研究脱敏规则形成技术。一是对文本类别进行聚类和分类处理。二是基于音视频关键帧匹配发现技术，对音视频数据进行分类和敏感数据发现处理。在敏感信息的特性基础上，对分类后的数据形成一定结构的脱敏规则。

其次，根据敏感特征以及相互组合关系，研究海量数据中如何高速匹配检索的全文检索技术。以一定算法为基础，结合特定的脱敏规则，对全文进行关键词匹配，寻找敏感信息。结合关键词规则表达式的处理方式体现了脱敏规则，可构建高速全文搜索引擎。

再次，根据敏感特征以及需要保留的耦合关系，研究屏蔽加密敏感特征数据技术。以一定加密算法为基础，结合需要屏蔽的加密数据本身，以及相关的位置信息、耦合关系等，生成相关的加密屏蔽的隐含信息，用以覆盖原始的敏感数据。

4.2 大数据系统安全评估技术

大数据的安全主要由数据本身的安全和数据所处的系统平台两个方面安全构成，本节将主要阐述大数据系统的安全风险评估技术。建议主要从软件系统漏洞分析、大数据系统风险评估、大数据系统安全监测、智能攻防、可信免疫五个方面的技术来考虑。

（1）研究软件系统漏洞分析技术，发现复杂网络环境下的安全隐患

从正面的漏洞分析和逆向的后门检测两个方面来研究软件系统漏洞分析技术。一是研究面向大数据系统及应用软件的代码预处理技术、面向大数据的静态缺陷分析技术和面向大数据的动态漏洞分析技术。二是开展针对大数据产品的深度检测和后门分析研究，构建接近于真实的网络流量和攻击特征，用于激发潜在的未声明功能，通过安全测试发现产品在面对复杂网络环境时可能出现的安全隐患。

（2）研究大数据系统风险评估技术，建设完备的安全风险评估体系

大数据系统安全风险评估的第一步就是要形成面向大数据系统的安全风险评估方法、流程、核心技术，建设完备的大数据系统安全风险评估体系。大数据系统风险评估的一个重要内容是大数据环境下公民个人信息泄露风险评估技术，涵盖大数据环境下多类型数据融合、多源数据支撑的目标对象跟踪、公民个人信息泄露风险评估体系等内容。而基于威胁大数据的网络威胁交换联动技术作为大数据风险评估体系的技术基础，旨在形成具有安全威胁数据交换联动机制的动态安全监测体系，为大数据平台和信息系统的动态安全防护提供支撑。

（3）研究大数据系统安全监测技术，利用大数据自身的特点实现对行为和现象的多重分析

大数据环境下系统的安全监测，需要利用大数据技术进行分析和利用，因此大数据管理能力成为了安全感知的基础，大数据分析能力成为了安全感知的关键。可着重于五方面的研究。第一，专用的虚拟化系统和网络流量监测技术；第二，可编排的安全大数据自动汇聚技术；第三，威胁信息的自动化画像技术，实现对多文件（载荷）、网络行为、C2和其他IOC信标的深度分析和多向量提取；第四，可编排的处置策略统一生成、及自动定向下发技术。基于威胁画像信息和汇聚的安全大数据，研究快速生产增强检测策略的技术，实现对流量行为、系统行为、文件对象等检测和识别策略的统一生产；第五，基于大数据分析和机器学习技术。累积恶意代码画像的数据，通过大数据分析和机器学习的方法，实现对未知代码样本的检测和判定方法，研究在海量流量行为和系统行为中发现异常行为和潜在威胁的方法。

（4）研究智能攻防技术，提升网络防御工作的基础能力

随着大数据和人工智能技术的发展，入侵技术自动化、智能化和多样化程度越来越高，严重影响了信息安全，做好网络安全防御工作刻不容缓。建议重点研究三方向技术。

一是基于人工智能的漏洞分析和修正推理算法研究，通过分析人工的漏洞和修正的工作过程，提炼出共性的工作流程，并推导出人工智能的推理算法和逻辑从而形成推理知识库，以便于实现自动化攻防工具的设计和开发。二是基于人工智能的攻防自动化分析工具原型研制。建议通过持续跟踪国际最先进的自动化攻防技术的发展，参考主流的漏洞分析开源工具和逆向分析工具，开发出攻防自动化分析工具原型，一方面实现攻防过程的自动化，另一方面实现攻防自动化技术的实训，以培养出更多的从业人员。三是基于攻防过程数据采集的攻防过程可视化平台研制，基于虚拟化技术的模拟仿真平台，实现对攻防过程数据的实时采集，并在此基础上实现对搜采集数据的分析或过滤，沉淀出可疑的行为和网络流量，将攻防过程中所产生的相关行为以可视化方式展现到大屏幕上，实现攻防过程的可视化。

（5）研究可信免疫技术，实现大数据系统的边计算边防护

在大数据系统进行计算、运算的同时，安全防护工作应当同步进行，安全防护的全程可测可控是非常必要的，建议开展可信免疫技术的研究。

一是主动免疫防御安全模型及体系结构研究。重点研究主动免疫的基本模型和体系结构，为系统建立内生安全、自我免疫机制，一边进行服务运算，一边进行可信验证，实现行为度量和智能感知相结合的动态验证机制，即使系统存在缺陷也不会被轻易利用，为计算机建立自己的免疫系统，达到不装杀毒软件、不打补丁情况下的安全运行。

二是动态化、智能化主动免疫防御关键技术研究。该项研究的核心在于“计算与防护并行的双体系结构”以及“主动免疫与其他安全机制的合作共赢”。“计算与防护并行的双体系结构”实际就是实现计算服务与安全防护融为一体，针对服务的计算环境和业务流程量身定制验证策略，即使系统存在缺陷也不会被轻易利用，实时阻断攻击链，为计算机建立自己的免疫系统，达到不装杀毒软件、不打补丁情况下的安全运行。“主动免疫与其他安全机制的合作共赢”在于主动免疫防御与其他安全机制的有机协作，在主动防御机制的支撑和调度下，通过各安全机制的动态联动，实现攻击身份定位、入侵取证、漏洞定位、攻击溯源等，对攻击活动做到既“知其然”又“知其所以然”，构建信息系统纵深防御的综合防护体系。

5 结束语

由于大数据的延展性和开放性，在数据安全保护和系统安全评估以及风险防范等方面存在许多技术问题。因此，建议国家对网络安全产业进行整体布局，推进业内厂商分工合作，深化研究和开发工作，实现差异化竞争，加强优势产品的研发，对整个安全产业产生互补具有重要意义。