周成祖,吴文,蔡晓强
厦门市美亚柏科信息股份有限公司,福建 厦门 361000
关键字:大数据;数据分类分级;数据安全;动态授权
大数据时代下的数据融合、流通、共享是必然趋势,海量数据分析在现代研究中的需求越来越突出[1],而分析过程中不可避免地会有不同敏感级别的数据共存,数据分类分级管理是数据实现共享和开放最基础的工作[2]。2021年6月10日,《中华人民共和国数据安全法》正式通过,数据分类分级保护制度成为国家数据安全与数字经济发展的重要基石。自国家实施大数据战略以来,各领域的分类分级地方或行业标准相继发布。如贵州省地方标准《政府数据:数据分类分级指南》、中华人民共和国金融行业标准《证券期货业数据分类分级指引》、《工业数据分类分级指南(试行)》[3-5]等,都对不同行业的数据分类分级提出了指导意见。本文针对大数据提出多维度、多层次的分类分级意见,根据受侵害客体与受侵害程度两大要素,展开数据安全级别的定级工作,构建数据安全防控模型。
数据分类分级是通过描述数据的多维度特征和内容敏感程度,为制定数据资源的开放和共享策略提供支撑。大数据涵盖领域的多样性决定了大数据的分类分级必须是多维度、多层次的模式。数据分类可按照数据来源、数据内容、字段类别、字段关系等不同维度对数据进行类别上的区分,数据分级可根据数据信息涉及敏感内容程度不同做出相应等级的限制。
数据分类主要是按照数据的属性特征,对数据进行类别的划分。在进行数据分类时可采用线面结合的分类方式,以多维度和多层级的方式进行类别的划分。
从数据分类的对象来看,可对数据资源、字段和字段之间的关系进行分类。
1.1.1 数据资源分类
数据资源分类可从数据来源、数据组织形式、数据内容三个维度进行。
不同来源类型的数据,其敏感程度及数据的归属权可能不一样,在服务阶段亦可能需要面向不同用户进行开放。考量数据来源,可按照数据的来源地市、提供部门等不同维度进行划分。
数据从产生到投入应用,必然经过清洗、提取、模型分析、统计等加工流程,数据的价值密度会逐级提升,并基于数据之间的关系,衍生出增值数据,这意味着不同组织形式的数据具备不同的特性。
根据数据的内容,可从主题对象、行业领域、社会行为等角度进行划分。从数据的主题对象来看,包括人、地、事、物、组织等;从行业领域来看,又可分为农业、金融业、教育业、工业、服务业等;从社会行为来看,又包括企业管理、社会服务、社会管理等。
1.1.2 字段分类
以字段为粒度对数据资源进行分类,需要分析字段所包含的数据内容可能涉及的信息。
《GBT 35273-2020 个人信息安全规范》[6]对刻画人的信息进行了字段的分类,这是一个启发,意味着在字段层面可根据主题对象进行大类的划分,包括人、物、组织、地、虚拟对象等。在描述对象时,又可分为标识类信息和特征类信息。标识类信息包括身份证号码、车牌号、统一社会信用代码、虚拟身份账号等,特征类信息包括姓名、年龄、车身颜色、组织规模、虚拟身份昵称等。从广义上说,事件、系统、行为,乃至对象之间的关系也是对象,也可以进行标识和特征描述。
1.1.3 字段关系分类
字段关系会以两种形式体现:
(1)一个字段由复数个字段组成,如身份证号码包括了出生地(行政区划代码)、出生年月和性别信息,收件地址由省市县名称、街道社区和门牌楼号组成;
(2)两个字段构成了推导关系,超过了单个字段携带的信息量。例如身份证号码与银行卡号的资产持有关系,手机号码与虚拟账号的绑定关系。
对以上两种形式的字段关系,成熟的体系都应当进行授权层面上的管理。
数据分类主要是按照数据的自身特性进行类别上的划分,遵循“是什么就是什么”的原则,主观因素层面较少。相对的,数据分级通常是根据数据信息携带敏感内容程度不同而划分为不同的级别,以便对不同级别的数据实行有针对性保护,因此存在一定的主观因素。
从数据分级的对象来看,可对数据资源、字段和单条数据记录进行分级。
1.2.1 数据资源分级
资源的分级是将数据获取手段的隐蔽性、来源的特殊性、内容的敏感程度作为数据资源分级的依据。例如,数据资源作为数据挖掘的对象,需要关注三个隐私问题:涉及用户隐私、涉及商业机密和涉及国家安全[7];这对应于不同的敏感程度:公开数据(不涉及隐私)、内部数据(涉及个人隐私)、涉密数据(涉及商业机密)和绝密数据(涉及国家安全)。再如,《GB/T 39725-2020 信息安全技术 健康医疗数据安全指南》[8]依据数据资源可供使用的范围大小,将数据分为5 个级别,其中1 级为完全可公开使用,5 级为仅在极小范围内并在严格限制条件下可使用的数据。
1.2.2 字段分级
对于字段的分级通常是以字段分类为前提,分析字段泄露所造成的“后果”对字段进行分级。例如,《JRT 0197-2020 金融数据安全 数据安全分级指南》在完成字段分类的基础上,综合考虑实际应用过程中数据的类型、特性以及规模,将字段分类映射到安全级别上,作为数据防控工程的最低安全级别参考[9]。
1.2.3 数据记录分级
在海量数据中,可能会出现触及敏感内容的数据记录。例如国家领导人的基本身份信息,军事建筑或重要机构的地理位置信息。此类信息无法通过分类枚举的方式进行归纳,通常采取红名单形式单独建库并定义所有敏感记录的分级规则。在数据治理过程中按照预定的策略扫描数据池,标记匹配到红名单的记录并赋予更高的分级。当一条记录与复数敏感规则匹配时,优先选择最高级别。显然,红名单自身也具备相当高的敏感度。
通常数据分类分级都是从元数据层面进行设置,控制主数据的使用。事实上,除分类与分级外,时间、业务、数据状态或资源规模等诸多因素都会改变数据的敏感度,这些信息未在现有的分类分级系统中体现。这就需要在分类分级的结果上,动态判定数据的最终定级,以满足不同场景的业务使用需求。在此为区别于数据分级概念,将数据的最终级别定义为数据安全级别。
参照《中华人民共和国数据安全法》第21 条规定,本文将数据安全级别定义为:数据对于国家安全、社会稳定、组织利益和公民安全的重要程度,以及一旦遭到滥用、泄露、丢失后,以对党政机关、公共服务机构、其他机构组织以及公民和法人的合法权益造成的侵害程度来确定的级别。
参照《JRT 0197-2020 金融数据安全 数据安全分级指南》对数据安全定级的刻画,本文将数据安全级别划分为从低至高8 个等级,见表1。
表1 数据安全级别Table 1 Data security protection level
同时,根据《中华人民共和国数据安全法》第21 条规定,本文选择受侵害的客体与对客体的侵害程度作为数据安全级别的定级要素,不同受侵害客体与受侵害程度的安全级别划分见表2。
表2 定级要素与数据安全级别的关系Table 2 The relationship between grading elements and data security protection level
其中,关于受侵害客体的定义有如下依据:
(1)依据《中华人民共和国国家安全法(2015)》第2 条,当国家政权、主权、领土完整、人民福祉、经济社会和其他重大国家利益可能受到侵害时,受侵害客体定义为国家安全;
(2)依据2011年国务院正式出台的《国有土地上房屋征收与补偿条例》对“公共利益”的举例,当政府组织的生产经营、科技教育、医疗卫生、公共交通等社会基础设施建设或社会秩序建设可能受到侵害时,受侵害客体定义为社会秩序或公共利益;
(3)依据《社会组织登记管理条例》与《企业法》等其他经济组织相关法律的规定,当社会团体、基金会、社会服务机构等社会组织或公司、企业、个人独资企业等经济组织的合法权益可能受到侵害时,受侵害客体定义为法人和组织;
(4)依据《中华人民共和国民法典》对隐私权与个人信息的描述,当自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息,以及能够单独或与其他信息结合识别特定自然人的各种信息可能受到侵害时,受侵害客体定义为公民或个人。
另一方面,《JRT 0197-2020 金融数据安全:数据安全分级指南》对受侵害程度的界定有如下描述:
(1)当受侵害客体是公民时,依赖于泄露个人隐私的敏感程度、危害个人权益的程度。
(2)当受侵害客体是法人和其他组织时,依赖于损害法人或组织的经济利益、声誉的程度,以及干扰其正常运营的程度。
(3)当受侵害客体是社会秩序、公共利益时,依赖于对社会秩序的破坏程度。
(4)当受侵害客体是国家安全时,依赖于对国家造成的损失。
受侵害客体与侵害程度都是定性的结果,无法进行量化计算,通常基于数据的分类分级信息,结合2.2 节所述受侵害客体与受侵害程度的相关依据进行界定,并查询表2得到最终的安全级别。
对应于资源、字段、记录和字段关系,可分别适配以下数据安全级别定级策略:
(1)对于资源,从资源的分类和分级出发,分析两个定级要素,决定数据安全级别。
示例:以常住人口信息资源为例,其主体对象分类为人员,受侵害客体随之界定为公民。由于涉及了公民的身份、住所等一般隐私信息,受侵害程度随之界定为一般,查询表2可知其数据安全级别为3。
(2)对于字段,可从数据元层面定义每个数据元的分类分级,基于此建立字段与安全级别的映射关系。
示例:从标识类字段(身份证号码)映射到受侵害客体(人),从特征类字段(性别、病史)映射到受侵害程度(轻微、严重),最终得到数据安全级别(2、6)。
(3)对于记录,优先继承资源的数据安全级别。
示例:常住人口表的安全级别为4,其每一条完整数据记录的安全级别亦为4。
(4)对于字段关系,可根据1.1.3 中的两种情形分别处理:
①一个字段由复数个字段组成,此时可为每个组成字段分配映射的数据安全级别;
示例:身份证号码的组成部分出生日期(轻微侵害)与出生地行政区划代码(无侵害)的安全级别分别为2 和1。
②两个字段构成了推导关系,此时可依据就高从严原则进行定级。
示例:身份证号(安全级别为3)与基因检测编号(安全级别为6)构成推导关系,此关系的安全级别取高值为6,当用户的权限低于此级别时,不同时返回两个字段。
大数据平台的安全防护大多数是基于单点或单面防护,对数据整体框架结构安全的防护尚且考虑不足[10]。本文基于数据分类分级和数据安全级别,设计了如图1的大数据安全防控模型。
如图1所示,本文所述大数据安全防控模型,包含四个子策略,当用户向数据发出访问请求时:
图1 大数据安全防控模型框架图Fig.1 Framework diagram of big data security prevention and control model
(1)鉴权系统收集用户的类别与权限信息,与数据的分类与分级信息进行比对,符合要求的数据直接返回,是为静态授权策略;
(2)在数据侧,基于数据的分类分级信息,结合当前时间、规模、状态等实时因素,动态调节数据的安全级别,是为数据安全级别的动态控制策略;
(3)在静态授权策略的基础上,鉴权系统收集用户的访问环境与操作内容信息,并与数据的安全级别进行综合评定、鉴权,是为动态授权策略;
(4)接收动态授权策略的鉴权结果,结合数据安全级别对字段进行脱敏处理,是为数据脱敏策略。
基于资源、字段、字段关系的分类分级,设计数据的授权策略:
(1)对于资源,当用户不具备相应类别或级别的资源权限时,不返回数据资源;
(2)对于字段,当用户不具备相应类别或级别的字段权限时,不返回字段;
(3)对于字段关系,当用户不具备相应字段关系的权限时,根据其操作目的,分为以下两种情形:
①可见不可用,即单独返回构成字段关系的组成内容而非同时返回,无法建立要素之间的关联关系,也就无法进行其他分析运算;
②可用不可见,即给予用户对构成关系的字段的使用权限,返回要素的关联关系,但不予展示或可视化。
数据安全级别不是一成不变的,会随着时间、业务、规模和数据开放状态等因素动态变化。
在资源层面上的动态影响因素主要有3 个:业务状态、时效、资源规模:
(1)业务状态:在特定事件后,数据安全级别可能发生改变,如行业标准文档的起草、评审到最终发布,文件内容会逐渐公开化;
(2)时效:在一定时间后,数据安全级别可能发生改变。互联网数据作为典型案例,具有时效性短的特性;
(3)资源规模:当数据资源达到一定规模时,数据安全级别可能发生改变。可想而知,依靠亿万级的平台打的或车辆导航数据,能够绘制出高分辨率的全国交通路线图,甚至精确定位重要的单位机构,此时的受侵害客体或将转变为国家安全。
字段层面的动态影响因素主要有两个:是否经过脱敏处理,是否是回填字段、标签字段或统计字段。通常当数据经过脱敏后,其安全级别会随之降低。如果字段并非来源数据,而是经过数据融合、治理得到的回填、打标签或统计信息,这些字段体现了更高的数据价值,也伴随着更高的敏感度。
记录层面更多的是根据红名单的规则进行动态调整,字段关系层面可根据构成关系的字段的数据安全级别设计动态控制规则。
传统的授权是静态的,粗粒度的,且授权过程仅发生在首次访问资源节点,完成后就不再进行控制,无法满足动态、精细化的访问控制需求。
对数据的访问涉及到四个因素:访问用户、访问环境、被访问资源和操作内容。不同的访问用户拥有各自的角色信息[11-12]与预设的访问权限级别,角色信息决定了用户可访问哪些类别的数据资源。访问的权限受环境因素影响,包括访问主体所处的网络环境、时空环境、硬件环境、后台应用环境。被访问的资源具有预设的分类分级信息,以及依托于时间、规模、业务状态而动态控制的数据安全级别。不同的操作内容,根据其可能造成的结果也影响了本次访问的权限研判。
当用户能够查看特定资源的数据时,其中的高敏感字段、记录的信息脱敏就至关重要。可依据数据安全级别,在字段、记录、字段关系的层面上进行脱敏。
(1)对于字段,当用户的权限级别低于字段的安全级别时,对这些字段的数据进行脱敏处理;
(2)对于记录,当用户的权限级别低于敏感记录的安全级别时,将一整行的记录脱敏后展示或不返回;
(3)对于字段关系,分以下两种情形:
①一个字段由复数个字段组成,对高于用户权限的组成字段进行脱敏;
②两个字段构成了推导关系,至少对其中一个字段进行脱敏。
对所有数据“一视同仁”的传统处理模式无法适应大数据时代的管理需求,传统的分类分级策略缺乏对数据多维度多层次的安全控制。本文从数据资源、字段、字段关系出发对数据进行分类,从数据资源、字段、记录出发进行分级。另一方面,基于分类分级,以相关法律法规、标准规范为依据,获得最终的数据安全级别,并基于此设计由静态授权策略、数据安全级别的动态控制策略、动态授权策略和数据脱敏策略构成的大数据安全防控模型,满足数据工程在治理、组织、服务和应用过程中的需求,确保数据的安全性。
利益冲突声明
所有作者声明不存在利益冲突关系。