(中国电子科技集团公司第三十研究所,四川 成都 610041)
随着信息化技术的不断发展,数据已作为一种新型的生产资源被各行各业乃至国家所重视。党的十九届四中全会提出:“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制。”可见,数据被定义为一种生产要素,与劳动、资本等生产要素一样,对国家、社会、经济等各个方面都发挥着重大作用,关系到个人生活、企业经营和国家治理的有序进行。然而,数据的重要性也带来了严峻的安全问题。2019 年数据安全形势研究表明:近年来全球数据安全事件频发,数据泄露呈现增长趋势,数据安全问题十分严峻。因此,数据安全管控相关技术研究工作具有重大意义[1]。
对数据进行安全标注与识别是实现数据精准安全管控的前提。数据安全标识技术则是一种基于密码技术的可信数据安全标注与识别技术,能够为数据全生命周期安全管控提供可信的数据属性信息支撑。
数据安全标识是与客体数据安全相关的属性的格式化封装,是数据安全属性的信息载体。它由安全可信的数据安全标识认证系统签发,采用密码技术确保标识信息的完整性和真实性,防止被篡改和仿冒。因此,数据安全标识所承载的数据安全属性信息是安全可信的,可以作为数据全生命周期安全管控的重要信息依据。
根据客体数据与安全标识之间的关联方式,可以从不同维度进行多种分类[2]。从标识的存在形式上看,它可分为隐式安全标识和显式安全标识;从标识与客体数据的存储关系来看,它可分为封装的安全标识、引用的安全标识和分离的安全标识;从安全性角度考虑,它可分为宽松的安全标识和强壮的安全标识。
根据以上分类规则,本文所描述的数据安全标识为强壮的显示分离标识。它采用密码技术实现与客体数据的强绑定关系和自身信息的完整性与真实性保护,对客体数据安全属性进行显示描述,并与客体数据分离存储,不修改客体数据,不改变客体数据可用性。
逻辑上,数据安全标识由标识头、标识体和校验信息3 部分组成,如图1 所示。具体实现时,数据安全标识数据可采用不同的方式进行编码与存储。比如:可采用二进制数据结构进行组织编码,也可采用可扩展标记语言(Extensible Markup Language,XML)[3]进行数据编码,或者直接采用数据库进行分字段存储。
图1 数据安全标识逻辑结构
标识头用于记录安全标识自身相关信息,用于标识数据结构的识别与管理,主要由以下信息构成。
(1)标识ID:数据安全标识的唯一识别号。
(2)签发时间:记录标识的生成时间。
(3)签发者ID:记录签发该安全标识的数据安全标识认证系统的唯一识别号。
(4)有效期:记录安全标识的有效起止日期。
标识体用于记录客体数据安全属性,是数据安全标识的载荷信息。不同应用领域对客体数据的安全属性关注点可能有所不同,因此标识体采用开放式的设计思路,由具体的应用项目确定其所包含的安全属性项。通常情况下,标识体可以包含数据的安全等级、业务类别以及所有者标识等信息。
校验信息主要由客体数据校验码和安全标识校验码两部分组成。
(1)客体数据校验码记录客体数据的消息摘要值,用于对客体数据进行完整性验证,以及建立客户数据与安全标识之间的绑定关系。
(2)安全标识校验码记录数据安全标识认证系统对安全标识数据中除安全标识校验码以外的所有数据的签名值,用于对安全标识数据进行完整性和真实性保护。
数据安全标识的安全性由密码技术提供保障,主要体现在3 个方面:与客体数据的强绑定性、客体数据完整性和标识自身安全性。
数据安全标识的校验信息中包含客体数据校验码。该校验码是采用杂凑算法[4]对客体数据进行运算的结果,能够唯一标识客体数据,实现数据安全标识与客体数据之间一对一的强绑定关系。
安全标识中的客体数据校验码不但可以实现与客体数据的强绑定,还可以对客体数据进行完整性验证。如果客体数据被篡改,那么数据的实际摘要值将发生变化。所以,通过对比数据实际摘要值是否与数据安全标识中的数据摘要值相同,便能验证数据是否被篡改。
数据安全标识自身具备完整性、可认证性和抗抵赖性等安全特性,主要采用数字签名技术[4]实现。生成数据安全标识时,由数据安全标识认证系统对标识结构中的标识头、标识体和客体数据校验码构成的数据块做数字签名计算,并将签名结果值存入标识结构的安全标识校验码元素。使用数据安全标识时,对安全标识校验码进行签名验证,以判定数据标识是否被篡改、仿冒。
数据安全能力成熟度模型将数据生命周期划分为数据采集、数据传输、数据存储、数据处理、数据交换以及数据销毁等6 个阶段[5]。数据安全标识在这6 个阶段的应用场景如图2 所示。其中,应用的目标数据涵盖了结构化、半结构化和非结构化等数据类型。
图2 数据安全标识应用场景
数据安全标识在数据采集阶段由数据安全标识认证系统生成,并存入数据安全标识库,为数据生命周期后续各阶段提供安全可信的数据安全属性信息支撑。
数据传输阶段可以基于数据安全标识实施数据分级传输保护和传输控制。
数据传输前,可根据数据安全标识中的数据安全等级,对客体数据进行分级传输保护。比如,《DB 52/T 1123—2016 政府数据 数据分类分级指南》[6]将政府数据分为公开、内部和涉密3 个等级。对于公开数据,可以不进行传输保护;对于内部数据,可以进行传输完整性保护;对于涉密数据,可进行传输机密性保护。
数据传输过程中,可根据数据安全标识中的数据安全等级、数据类别等信息进行传输控制。比如:根据安全等级,防止高安全等级数据流向低安全等级主体;根据数据类别,防止数据流向无关主体,从而控制知悉范围。
数据存储阶段可以基于数据安全标识实施数据分级存储保护、访问控制和按需备份等处理。
数据存储时,可根据数据安全标识中的安全等级信息进行分级存储保护,并合理利用密码保护手段和资源。比如:对公开和内部数据采用明文存储,对涉密数据采用加密存储等。
访问数据时,可根据安全标识中的安全等级信息进行强制分级访问控制,禁止用户和系统访问超出自身安全级别的数据;可根据数据类别信息实施数据访问范围控制,防止数据被无关人员访问。
数据备份时,可根据安全标识中的安全等级、数据类别等信息制定不同的备份策略。比如,加强高安全等级数据备份措施,着重对特定类别数据进行备份处理等。
数据处理阶段可根据数据安全标识进行数据识别、数据聚合控制、数据脱敏和数据溯源等处理。
数据处理前,可根据数据安全标识识别查找相关数据。根据安全等级识别出高敏感数据,按需进行脱敏处理。
数据处理过程中,根据数据类别进行聚合控制,防止不同类别的低安全等级数据聚合后形成高安全等级数据导致泄密。
当数据处理过程中遇到数据质量问题,可根据安全标识中的所有者信息进行数据溯源,促进数据源提高数据质量。
数据交换阶段可根据数据安全标识进行数据交换控制和数据权属鉴定。
数据交换过程中,可根据数据安全等级、数据类别等信息进行交换控制,防止高安全等级数据和核心价值数据被非法泄露。
数据交换完成后,可根据安全标识中的数据所有者信息确定数据权属,从而为数据资产保护提供支撑。
数据销毁阶段可根据数据安全标识进行销毁控制和按需销毁处理。
数据销毁前,可根据数据安全等级、数据类别等信息判定是否允许进行数据销毁。比如:是否允许用户销毁比自身安全等级高的数据;对于核心价值类别数据是否需要多方授权销毁。
数据销毁过程中,根据数据安全等级、数据类别制定具体的销毁方案。比如:对低安全等级数据可直接删除,高安全等级数据则需要多次擦除等。
在数据全生命周期管理过程中,可在不接触客体数据的情况下,根据数据安全标识分析数据资产的静态分布情况和动态运作情况,包括整体分布、敏感信息分布、访问情况以及流动情况等。通过对数据静态分布情况和动态运作情况进行进一步分析处理,可实现数据态势感知、行为监管和安全审计等应用。
本文从数据安全标识概念、分类、结构、安全性和应用场景等方面进行了系统性阐述,阐明了数据安全标识的基本概念和用途,为基于数据安全标识的数据全生命周期安全管控技术研究和产品研制奠定了基础,可在此基础上进一步对基于数据安全标识的数据全生命周期安全管控技术体系架构进行研究。