张昊星 赵景欣 岳星辉 任家东
1(中国信息通信研究院安全研究所 北京 100018)
2(燕山大学信息科学与工程学院 河北秦皇岛 066004)
在数字时代的激烈竞争下,伴随企业和组织机构的数字化转型脚步加快,数据资产价值不断跃升,进而面对的却是数据泄露、破坏与滥用等数据安全事件频发,甚至对社会、国家造成严重影响.加强数据安全对护航数字经济发展、捍卫国家安全、提升国家竞争力意义重大,企业和政府强化数据安全管理技术能力建设,有效预判、识别数据安全风险,不断提升防护能力更显得至关重要.然而,传统数据安全管理技术面对海量数据的获取、管理、处理场景和日益增长的数据交易流通市场,已无法有效满足大规模、高效率、精细化的数据安全管理需求.
而人工智能技术的不断成熟为数据安全管理技术的迭代升级带来了可能.近年来,人工智能技术发展伴随新一轮科技革命进入了快车道,成为驱动产业变革的重要力量和引领未来的新兴战略技术,也在产业化和商业化进程不断提速过程中,与千行百业深度融合并赋能.数据安全与人工智能技术的结合,将更好地解决数据全生命周期安全管理所面临的困难和挑战,为数据要素更加高效地发挥价值提供安全可靠稳定的业务环境.
本文以数据全生命周期安全管理为切入点,通过对数据全生命周期各环节所使用的数据安全管理技术和风险进行分析,提出了传统技术在当前发展趋势下可能面临的一些问题和挑战.在此基础上介绍了人工智能技术引入的优势,并梳理总结了数据全生命周期各个阶段的基于人工智能的典型数据安全管理技术,以及在生产实践过程中的应用.本文旨在为数据安全管理领域的研究者和实践者提供有益的参考,推动人工智能在数据安全管理技术领域的创新和应用.
数据生命周期通常指的是一个数据集从产生或收集到销毁的过程.随着数据要素的日益丰富和数据价值的增长,数据生命周期的观念和内涵也在不断发展,从早期的静态数据生命周期逐步转向动态数据生命周期.无论如何变化,数据生命周期的核心是关注每个数据或数据集在各个活动阶段的行为和特点.数据生命周期主要包括数据收集、数据存储、数据处理、数据传输、数据共享和数据销毁6个阶段.
在数据生命周期内,数据价值决定了数据全生命周期的时长,且随着时间推移,数据价值会逐渐降低.此外,数据采集粒度、时效性、存储策略、整合状态、可视化水平、分析深度以及应用融合程度都会对数据价值产生影响.因此,需要根据数据生命周期各阶段的特性采用不同的管理方式和控制手段,以便从数据中提取更多有价值的信息.
数据处理实体需高度关注数据全生命周期管理(data lifecycle management, DLCM),以更好地实现数据价值的挖掘和应用.而在数据全生命周期的管理体系中,安全是必不可少的一部分,基于全生命周期的数据安全管理,是确保数据最大价值变现和有效利用的前提.所以数据安全的保护能力建设,首先是满足企业数据管理的合规要求,落实安全责任义务到数据处理活动的方方面面.其次在满足数据可用性的基本原则下,帮助企业取得数据价值挖掘和安全的最佳平衡.
数据随着分析利用和流转共享场景的不断丰富,其价值也越来越凸显.有价值的数据在数据生命周期各个环节都面临安全防护技术不足或失效,导致数据破坏、数据泄露事件屡屡发生,对社会和组织机构造成了一定危害.而数据在每个阶段的载体、形态、相关方均有不同,从而导致面临的安全风险也有所差异[1].
1.2.1 数据收集阶段
数据收集阶段,主要采用的技术包括数据资产识别、敏感/重要数据识别、数据分类分级等,为后续阶段的数据挖掘打好基础.但采集阶段的数据安全往往容易被忽视,可能面临以下风险:
1) 由于数据识别技术或算法的不完善,可能导致收集的数据存在质量问题.例如数据不准确、不完整、重复等,垃圾数据和脏数据的收集入库将对后续数据处理和决策的准确性和可靠性产生较大影响.
2) 数据的来源可能存在不可靠因素.例如未经验证的数据源可能包含虚假数据或进行恶意投毒,从而导致后续数据处理错误或产生误导性的结果.
1.2.2 数据存储阶段
数据存储阶段,目前更多使用的只是传统的数据灾备、数据存储加密等技术.但由于数据的集中汇聚,也是攻击者最主要的攻击目标,一旦发生安全事件将可能导致大规模数据泄露、损毁.一方面,可能遭受黑客攻击、内部员工滥用权限所带来的未经授权访问、篡改、泄露或损坏的风险;另一方面,可能面临硬件故障、备份恢复措施不完备、自然意外灾害突发等事件,从而导致数据丢失、损毁或不可恢复.
1.2.3 数据处理和交换共享阶段
这2个阶段是数据安全风险多发的重灾区,开发、测试、分析和运维人员或第三方人员因为不同的业务工作需要接触数据并进行加工,并把数据处理结果进行交换与共享.于是,这2个阶段的数据处理过程,将特别关注内部人员可能导致的数据泄露风险,如窃取机密、滥用权限或疏忽操作.为防止这些风险,需确保相关人员仅接触与其业务需求和职责相关的敏感数据.因此这2个阶段中的数据安全管理,往往更多使用身份认证与授权、访问控制、数据加密脱敏等技术.
1.2.4 数据传输阶段
数据传输阶段,目前仍然普遍采用数据传输加密和网络边界安全防护技术,其所面临风险也是来自于传输链路安全和通信协议安全:
1) 在数据传输过程中,由于传输链路或接口安全防护措施不到位,数据可能面临被篡改、截获、窃听等安全风险,特别是在数据通过公共网络或无线网络传输时,可能面临更高的安全风险.
2) 在数据传输过程中,由于未考虑业务场景安全需要,或未按照相关法律法规、行业标准、组织政策等要求,采用必要的安全通信协议,导致数据未加密明文传输、数据传输异常等问题.
1.2.5 数据销毁阶段
数据销毁阶段也是容易被忽视但却存在重大隐患的环节.一方面,在数据销毁过程中,由于管理审批机制和审计策略的不完善,会导致数据存在被误销毁的可能性;另一方面,由于存储介质销毁不彻底、存储设备清除不完全等情况,可能被恶意攻击者利用,导致数据泄露、恶意恢复等安全风险.
当前,数据全生命周期的处理活动,一方面面临着业务场景的极大丰富和海量数据的飞速增长,给数据安全管理和可用性的平衡提出了更大挑战;另一方面,面向数据的攻击、窃取和破坏手段逐步丰富和升级,传统的数据加密、数据脱敏、访问权限控制等技术无法适应这些新的变化,并面临新的问题.
一是业务规模和数据规模越大,传统数据安全管理技术能力的效率就越低,就越需要大量的资源和投入,包括硬件、软件、人力和培训等,加之当前数据安全技术手段对专业人员分析判断高度依赖,给数据重资产主体特别是有需求的中小型企业和资源有限的组织带来不小压力.
二是随着企业和组织数据规模的不断增长,数据安全管理技术需要处理更加复杂和大规模的数据集,包括结构化和非结构化数据、云端和边缘端数据、多源数据等.这可能导致系统复杂性的增加,对技术的性能、可扩展性和灵活性提出更高的要求.
三是业务场景的复杂交叠将使得传统数据安全管理技术需要联动融合,如加密、访问控制、身份认证、日志审计、安全监测等,这些技术之间的复杂性和多样性可能导致系统设计、配置和管理的复杂性增加,也提高了技术能力调度和管理的难度,从而使操作和实施也变得更加困难.
四是数据处理场景的不断变化需要及时对系统和数据的潜在威胁进行识别、评估和处理,同步地对安全策略和防护措施进行定期评估和调整.在数据全生命周期管理的场景下,牵一发动全身,一处策略的调整可能需要大规模的协同配合,给数据安全管理工作带来压力.
综上所述,本节通过分析数据全生命周期各阶段的安全风险,以及各个环节使用的典型数据安全技术,提出了在海量数据处理和攻击手段升级的背景下,传统数据安全管理技术所面临的问题和挑战,亟需适应新的发展变化并迭代升级,为数据安全提供更加高效和先进的解决方案.
人工智能(artificial intelligence, AI)[2]是研究计算机模拟自主思考甚至能自由活动的学科和工程.人工智能的目的是作出有关行动的最佳决策并有效地完成既定任务.随着人工智能技术的不断发展,逐渐地人工智能可被细分为众多领域,如自然语言处理(natural language processing, NLP)[3]、深度学习(deep learning, DL)[4]等.各个子领域有其独特的特性,但它们都离不开对数据分析、解析等基础工作.
在数据安全管理技术领域引入人工智能,将驱动数据安全加速向自动化、智能化、高效化、精准化方向演进.相比于传统的技术能力,基于人工智能的数据安全管理技术将在以下几个方面凸显更大优势:
一是海量数据处理质量更高.人工智能技术可以长时间稳定工作,更适用于处理海量数据的应用场景,依托大量的人工智能算法和模型,不断对海量数据和广泛的数据处理活动进行学习和训练,将得到一些泛化较好的模型,从而更加有效地提升数据处理质量.
二是数据识别更加精准.基于NLP和智能模式识别分类技术,可以通过自学习方式,自动识别和分类各种数据,还可以一定程度地筛除噪声数据和脏数据,不断提高数据识别的准确率,扩大识别数据的范围.
三是智能化分析提高管理效率.利用机器学习技术,判断数据处理场景变化所带来的安全管理需求变化,智能化地对数据安全管理防护策略和配置进行动态调整,自动化调度相关技术能力,满足安全基线管理要求.
四是自动化决策提高风险监测预警能力.利用深度学习技术,根据已知的数据安全管理技术模型和策略库,在大规模流量中有效精准识别潜在的数据安全风险,并进行及时预警和溯源.
数据安全管理在全生命周期各个阶段都有非常丰富的应用场景,而已经有相当一部分传统、成熟的数据安全管理技术逐渐与人工智能技术进行融合,并在企业或政府机构的实际业务生产环境中逐渐进行融合应用实践.
2.2.1 数据收集阶段的典型融合应用
1) 数据质量检测和清洗.数据质量是确保数据计算结果更加精准、数据价值有效利用的基本保障.智能化数据检测和清洗技术,借助于大规模、长时间的机器学习和深度训练,配合智能特征值缩放(scaling)、极端/离群/缺省值补齐去重、智能样本审查等智能技术,可以逐渐得到更加精准的特征数据筛选模型,大幅提高数据收集处理效率,有效识别、修复或剔除数据中的错误、噪声和缺失,从而提高数据的准确性和完整性,保障数据计算结果的精确.
2) 智能数据分类分级.通过NLP、机器学习、智能语义分析、图像识别等技术,深入分析提取数据内容和核心信息并构建标准化样本,经过一定规模和时间的样本训练及模型修正,实现针对结构化甚至非结构化数据的自动、智能分类分级[5-7].例如,基于正则匹配+luhn校验的复合识别算法模式,可用于精确识别身份证、银行卡等敏感信息,从而实现敏感数据的自动提取与分类.
2.2.2 数据存储阶段的典型融合应用
1) 智能化数据加解密.当面对当前海量的数据样本和多样化的数据结构差异的同时,还要确保数据存储安全性,引入智能化数据加解密技术,通过采取智能化高、灵活性强的安全策略,使数据在存储过程中,不改变数据处理方式、数据文件的格式以及应用程序的前提下,自动、实时、灵活地对数据进行透明、半透明加解密运算,既保证数据存储的机密性和完整性,又能兼顾数据计算的安全性.
2) 数据访问控制权限智能管理.伴随当前网络融合生态以及指数级的数据增长,面临复杂而庞大的数据处理权限管理和访问控制需求,为应对多模型、多应用、复杂结构的集中化管理趋势,充分利用单点登录、多因子身份验证等新型访问控制技术,充分结合庞大业务场景和数据处理者需求的动态变化,通过不断深度学习各类型业务场景权限分配策略和不同数据处理人员权限分配差异特征,实现对于多模型、多应用、复杂结构的设备、平台或应用的智能化权限分配技术以及相应地智能化核验、审计能力,在确保只有授权的用户能够访问数据,防止未授权的数据访问和数据导出的同时,提升数据处理权限管理效率[8].
3) 智能数据灾备.传统数据灾备应用场景往往集中在数据存储环节,随着人工智能技术的发展,灾备的外延逐渐扩大至存储之外的网络、计算等场景.目前,智能灾备技术更多还是基于弱人工智能,以传统灾备技术为基础,综合考虑实际业务运转负荷、系统设备性能、数据计算需求,结合智能动态带宽调节、智能弹性计算、智能切换监测技术,实现智能化动态数据备份,大幅提升设备使用效率,降低成本,确保应急场景下的数据存储安全.
2.2.3 数据处理阶段的典型融合应用
1) 智能访问控制和身份认证.通过NLP技术,对数据访问控制和权限管理进行调整或增强[9].如使用NLP技术对用户的请求进行语义解析和分析,以判断请求的合法性和访问权限,实现细粒度的数据访问控制,从而防止未经授权的数据访问.此外,人工智能可以通过多因子身份认证技术,如人脸识别、声纹识别、指纹识别等,对用户进行身份验证,从而防止未经授权的用户访问和数据操作[10-11].人工智能可以通过对多维度的用户特征进行分析和比对,提高用户身份认证的精确性和安全性,并关联记录操作日志.
2) 异常检测和行为分析.利用传统数据安全防护能力中的异常行为模型和检测策略,通过机器学习技术进行强化训练,再进行自学习建立具有相关性的异常行为模型,对数据处理过程中的可能威胁动作进行检测和感知,预警相应安全风险,从而提前采取措施进行防范和修复[12].例如,利用智能化审计技术,对于超阈值的批量数据导出、非授权数据读写等异常操作行为,及时预警并采取措施防范处理,同时自动备份数据以防被窃、损毁.
3) 基于同态加密的数据计算.同态加密是一种加密形式,允许对加密的数据执行计算而无需先解密,同时将得到与解密数据计算相一致的结果.假设把数据比作基本的化学元素并置于一个元素池中,那么数据计算就是各种类型的化学反应方程式,数据计算结果就是化学反应后得到的化合物.同态加密就好比让最终用户只能在元素池中通过一定化学反应得到想要的化合物,但却无法详细知道生成这种化合物的原材料是什么.那对于掌握原始数据但又想在保护数据隐私情况下,将数据交给合作方处理分析的场景,同态加密将有助于消除数据共享的隐私障碍限制并发挥最大价值[13].同态加密技术在医疗健康、金融服务等数据敏感度高的行业更加适用.
2.2.4 数据传输阶段的典型融合应用
1) 安全通信和传输协议.通过对基于业务场景和传输数据特征的深度学习,加之不断训练掌握动态的数据传输变化需求,包括端到端传输甚至多方数据交互,在提前预置的数据安全传输协议库、传输通道以及API接口库中,利用人工智能算法,灵活调动相匹配的数据安全通信和传输协议以及接口,如SSL/TLS协议、VPN等,大幅提高数据传输效率,保障数据在传输过程中的安全性和完整性.
2) 网络流量异常监测.通过使用机器学习算法,配合提前配置的流量异常策略模型,对大量的网络流量数据进行分析,以检测潜在的数据大规模流转、数据异常跨境等安全风险.如可以使用支持向量机、随机森林、神经网络等机器学习算法训练模型,用于检测网络流量中的异常行为,从而识别可能的威胁[14-15].
3) 数据包智能检测和过滤.通过对海量的数据包安全检测模型的深度学习训练,对数据传输过程中数据包进行自动化、智能化检测和过滤,并结合数据传输场景和特征自动调整检测策略,分析其中潜在的网络攻击、恶意代码、漏洞利用等威胁,提高对于数据安全威胁的风险预警准确率或者降低误报率,从而及时有效防止未经授权或恶意数据泄露、窃取、篡改和其他破坏行为[16-18].
2.2.5 数据共享阶段的典型融合应用
1) 数据智能脱敏.通过使用深度学习和智能匿名化技术对敏感数据进行隐私保护,如使用生成对抗网络(generative adversarial networks, GAN)来生成具有隐私保护特性的合成数据,从而避免原始数据的直接使用,减少隐私泄露的风险[19].如在金融或医疗领域可以使用数据智能泛化技术,依托预置敏感信息识别策略,对患者数据进行匿名化处理,以保护患者隐私[20].
2) 基于差分隐私的数据匿名化.差分隐私计算是数学计算的一种手段,旨在当第三方数据处理者在进行统计数据库查询时,既能最大化提高数据查询准确性,同时又能防止其利用查询结果差异,识别原始数据集中的个体数据或相关隐私信息[21].差分隐私技术作为一种隐私模型,严格定义了隐私保护的强度,即任意一条记录的添加或删除,都不会影响最终的查询结果,可以在保留统计学特征的前提下去除个体特征,以保护用户隐私.差分隐私计算在大数据环境下表现出极高的兼容性,如在智能推荐、网络行为分析、运输信息保护、医疗健康研究等方面都有很好的应用效果.
2.2.6 其他基于人工智能的数据安全管理技术
当前,数据销毁阶段的数据安全管理技术方案主要是物理或化学销毁.与此同时,也有一些人工智能数据安全管理技术,并不受限于某个数据生命周期管理阶段,可以全程为数据安全防护进行能力供给.例如:
1) 智能数据隐私保护技术.数据隐私保护始终是数据生命周期各个阶段活动中不可或缺的目标,通过越来越多的人工智能技术的综合运用,如智能数据加密、分布式计算、边缘计算、机器学习等技术,用于数据隐私保护目标下的安全计算[22-23].目前除上文提到的同态加密、差分隐私计算等技术外,还包括多方安全计算(secure multi-party computation, MPC)[24]、联邦学习(federated learning, FL)[25]等新兴技术都在助力多方面隐私保护.
多方安全计算旨在零信任场景下,多个数据处理者共同计算同一目标函数,在确保数据计算结果准确的同时,阻止其他相关方在获取自己的计算结果以外的信息,主要是无法借助计算推测出原始输入数据.
联邦学习采用分布式机器学习方法和神经网络算法,实现本地数据在不出库情况下,仅将各个边缘终端的数据处理参数或训练后模型进行融合分析获取最终的计算结果,计算过程中各方数据对其他相关方不可见,从而降低数据泄露风险.
这些智能数据隐私保护技术的应用,例如在政务领域、医疗领域、金融领域等涉及国家经济发展、社会民生稳定的重点业务领域的重要数据处理场景中,在确保数据隐私得到有效保护的前提下,充分释放数据价值.
2) 审计日志智能分析.依托深度学习技术,对不同业务、不同系统、不同环节的多源异构日志进行关联分析,匹配相似特征,实现安全风险事件的智能溯源[26-27].此外,定期开展全量日志合规性审计,匹配安全管理机制,及时发现管理漏洞和异常行为,并提出整改方案建议.
3) 安全事件智能响应.依托智能巡检技术,可以通过自动化的方式对有效命中的数据安全事件进行实时响应和处理[28].例如,当检测到异常行为时,人工智能可以自动触发警报、阻止恶意行为、记录日志等,并通知安全管理员采取进一步的措施.通过自动化的安全事件响应,人工智能可以提高安全事件的处理速度和准确性,降低对人工干预的依赖.
综上所述,本节通过分析传统数据安全管理技术手段面临的技术难点,提出了引入人工智能技术可能带来的优势.在此基础上,详细介绍了已经或可能用于数据生命周期各个阶段的基于人工智能的数据安全管理技术.基于人工智能的数据全生命周期安全管理技术,除了提高防护效率、降低管理成本、强化风险监测等优势,还能为建立体系化的数据安全防护能力、打破业务系统和网络边界壁垒、实现全局数据安全管理提供更多可能.
当前,人工智能技术发展正处于爆炸式发展阶段.其在信息收集处理、人机交互、感知预测等方面带来的变化都是颠覆性的,ChatGPT和GPT-4等大模型AI的出现让大众对人工智能有了更新、更深刻的认识[29].
未来,随着数据安全和个人信息保护法律法规的逐步实施,不断强调数据安全的重要性,加强用户对数据隐私的关注,基于人工智能的数据安全管理技术将会趋向更加严格的数据安全防护模型研究.在数据源输入方面,将逐步适应多模态数据和多源异构数据,进一步提升数据安全识别技术的数据资产覆盖范围.在新技术应用方面,随着差分隐私、同态加密等先进的隐私保护技术日趋成熟,与人工智能的结合将实现对重要敏感数据更加精细化、智能化管理.在跨界技术融合方面,如物联网、云计算、边缘计算技术等,为各个行业领域的数据安全管理赋能,为数据安全管理人员提供智能化的推荐和决策支持,以应对更加复杂的数据安全威胁.
此外,针对本文第2节介绍的传统数据安全技术面临的潜在问题,也需要基于人工智能技术进一步完善其算法,优化机器学习、深度学习和自然语言处理技术,开发更具鲁棒性的机器学习模型,对抗性攻击防御机制,提高模型的可解释性,使决策过程更加透明和可理解.
本文结合数据爆炸和数字化转型加速等时代背景,以及数据安全管理面临的海量数据处理和攻击手段升级等新情况,深入分析了数据全生命周期各个阶段存在的安全风险,以及传统数据安全技术面临的瓶颈和挑战,论述了人工智能技术在解决这些问题的优势,并总结了当前基于人工智能的数据安全管理技术发展现状和一些应用实践案例.
总之,数据安全管理技术的体系化发展还处在起步阶段,借助人工智能技术的兴起,为未来数据安全技术的研究提供了新的思路和方向,新的技术所面临的挑战也必将推动其不断完善,最终助力数据安全技术产业走向成熟.