基于高速通行数据的脱敏管理研究

2019-01-17 02:15梅乐翔刘晶韦安垒
网络空间安全 2019年6期

梅乐翔 刘晶 韦安垒

摘   要:随着交通部推动取消高速公路省界收费站工作的进行,需要针对大量的通行数据由路网中心统一管理。在对这些数据统一管理的过程中,需要对数据进行脱敏处理,以满足国家相关法律法规的要求。文章针对数据脱敏的管理进行研究,针对动态脱敏与静态脱敏的区别与特点、数据脱敏算法的选型区别、数据分级分类管理思路进行针对性的研究。文章对数据脱敏管理的研究,对交通部路网中心的业务流程与数据安全应用有重要意义,同时对交通数据的应用拓展也具备借鉴价值。

关键词:数据脱敏;脱敏算法;数据分级分类

中图分类号:TP309.2          文献标识码:J

Abstract: With the promotion of the Ministry of transport to cancel the highway toll stations, a large number of traffic data are managed by the road network center. In the process of unified management of these data, it is necessary to desensitize the data to meet the requirements of relevant national laws and regulations. This paper studies the management of data desensitization, the difference and characteristics between dynamic desensitization and static desensitization, the selection of data desensitization algorithm, and the idea of data classification and management. The study of data desensitization management in this paper is of great significance to the business process and data security application of the road network center of the Ministry of transport, and also has reference value to the application and expansion of traffic data.

Key words: data desensitization; desensitization algorithm; data classification

1 引言

为了减少重复征税,降低物流成本,促进交通运输业的可持续发展,由国家进行统一部署,将收费公路行业通行费发票由营业税发票改为增值税发票,统一开具高速公路通行费增值税电子发票。收费公路通行费增值税电子发票已于2018年初正式启用。与此同时,高速公路收费方式由前台人工方式转变为数字式的过程中,高速公路会产生大量的用户通行数据。

因此,交通运输部路网监测与应急处置中心(以下简称路网中心)在对这些用户通行数据进行开发和使用的过程中,保证广大用戶的敏感隐私数据不被泄露就非常重要。当路网中心所开发、使用的数据涉及用户安全、用户隐私,或具备商业敏感性时,需要根据国家法律法规和管理办法要求,对数据进行脱敏处理后才可使用。

目前,基于路网中心海量通行数据的支持下完成的数据脱敏应用研究,在应用数据脱敏的场景与有效性验证的基础上,对高速通行数据的脱敏管理进行了进一步的研究工作,在脱敏数据管理的研究中,重点在于数据的分级分类和算法的选择。

本文对高速通行数据的脱敏管理研究,目标是实现对路网数据中不同场景下的数据管理方式与算法选型提供管理依据,针对高速通行数据提供数据分级分类的指引,辅助数据脱敏的落地执行。

2 脱敏场景

2.1 路网中心内部业务

路网中心内部业务人员主要将数据应用于收费公路基础数据的分析评估、投诉处理等业务场景。在数据交换、共享、使用的过程中存在着隐私信息泄露的风险,在不影响业务推进的前提下,对非业务必要的信息、标识信息、隐私信息进行脱敏处理实现数据的模糊化,保障数据在内部使用的安全可靠。

2.2 路网中心开发与测试研究

在路网中心技术部门开发环节中,功能开发与测试过程中,可能需要将收费公路基础数据导出给技术部门进行开发,而原始数据直接应用于开发测试会不可避免地造成数据泄露。所以,对开发所需要的数据需要进行脱敏后再进行导出,应用于开发的数据脱敏需要保证数据格式、数据长度、数据类型与原始数据的统一。

2.3 对外输出数据服务

数据对外输出服务是交通部路网中心未来的规划之一,无论是依照《政务信息资源共享管理暂行办法》公开数据,还是对外部企业/个人输出路网的数据服务,均要符合相关的法律法规,不应存在隐私泄露的风险。

3 高速通行数据脱敏方法

3.1 动态脱敏

动态数据脱敏是在用户层对数据进行独特屏蔽、加密、隐藏、审计或封锁访问途径的流程,当应用程序、维护、开发工具请求通过动态数据脱敏(DDM)时,实时筛选请求的SQL语句,依据用户角色、权限和其他脱敏规则屏蔽敏感数据,并且能运用横向或纵向的安全等级,同时限制响应一个查询所返回的行数。动态数据脱敏应用于业务系统实时脱敏的需求中,只处理输入请求与输出数据。数据脱敏平台配置生成SDK,提供给业务系统调用。基于动态数据脱敏的方法,将相关业务数据进行脱敏处理后再发送至相关业务系统,辅以数据访问权限的控制策略,可以提升脱敏结果的有效性和实时性,从而避免由于数据泄露而对各方形成的负面影响。

3.2 静态脱敏

静态数据脱敏方法因其本身的特性,偏向应用于非生产环境,适宜在离线环境对数据进行脱敏处理。静态数据脱敏的方法不能满足业务对于实时性的要求,但其脱敏配置可灵活调整,能在更多、更灵活的场景下使用。

(1)静态脱敏需要根据需求,制定脱敏方案。

(2)根据方案,基于数据脱敏系统中的脱敏算法和模式配置脱敏任务。

(3)经过安全审批后执行任务、导出数据。

4 数据脱敏算法

4.1 字符遮罩

字符遮罩方法是数据脱敏过程中常用的一种方法,通过对数据值中一部分或全部字符串替换为统一字符(如“*”“#”等)的方式实现。字符遮罩方法简单、有效、易实现,因此该方法对于大批量数据处理的能力、场景适用性都较强,脱敏有效性则基于其替换的内容多寡或关键程度而定。

在实际业务过程中,字符遮罩的内容和长度可以自由控制,因此其脱敏后数据的识别性对于数据描述者本人更可控。

4.2 同义替换

同义替换方法是指用能表达类似含义的字符对数据敏感部分进行批量替换。该方法在完成数据脱敏过程的同时,可以根据脱敏规则的制定,保留部分数据在业务分析过程中提供的价值。如将真实姓名替换为×某某、城市名替换为某市等,在不暴露姓名的基础上,可以让业务人员识别其真实姓氏。

4.3 截断算法

截断算法是指通过删除、舍弃数据中的一部分内容,对数据整体内容进行模糊化,达到数据脱敏的效果。该方法会使脱敏后的数据字符串长度减少,因此其数据的识别率会相应降低,在实际业务生产过程中会存在一定的风险。

4.4 偏移取整

偏移取整的方法与阶段算法方法类似,该方法是通过降低数据精度,以整值取代精确值的方法实现,与阶段算法相比,偏移取整方法在对数据进行脱敏处理的过程中,数据的长度不变。

4.5 重排算法

重排算法是指将原数据的字符串以指定的方法进行打乱并重新排序。经重排算法处理后的数据完整性和长度都不变。但本方法的脱敏过程可逆。

4.6 加密算法

加密算法是指将原数据中可见、可读的信息通过加密算法进行模糊化。经加密算法处理后的数据其安全性与可逆性由加密算法而定,脱敏数据的特性也是由加密算法决定的。与上述其他数据脱敏方法相比,经加密算法处理后的脱敏数据完全失去了业务价值,无法直观读取与理解。

5 脱敏算法的选择

基于对收费公路基础数据的研究,在经过数据脱敏的分级分类梳理之后,根据敏感数据的类型与级别,在保证脱敏有效性的前提下,选择合适的脱敏算法。

推荐以字符遮罩作为通用、默认的脱敏算法;对于姓名类的数据推荐使用同义替换算法,在消除标识、隐私信息的同时保留业务价值;对于时间类型的数据推荐使用偏移取整来进行轻度时间脱敏,保留部分的时间段信息以及时间分布密度;对于车牌号类信息,推荐使用加密算法(MD5),确保车牌号的唯一性以及标识性;针对剩余的算法,重排易于破解、截断可用性低均不推荐普遍使用,在特殊的场景下,根据脱敏需求再酌情选择。

6 数据分类分级

6.1 数据分类

在交通部路网中心,有脱敏需求的数据是收费公路基础数据。通过数据脱敏系统完成对数据从获取、配置到脱敏执行的全部流程。在脱敏配置的过程中,如何确定哪些数据需要脱敏,以及对数据处理所需要的审核流程是脱离于数据脱敏系统外,需要由数据管理人员考虑。

(1)数据分类原则

1)系统性原则:数据分类需要对路网中心业务数据建立全面系统的考量,建立一个层级完善的分类体系。

2)规范性原则:所使用的分类词语或短语能准确表达数据类目的实际内容范围、内涵和外延;表达相同概念时,应确保用语一致;不影响数据类目涵义表达时,保证用语简洁清晰。

3)稳定性原则:数据分类的基础和依据应建立在分类对象最稳定的特征之上。

4)明确性原则:同一层级的数据类目之间应确保界限清晰、明确。当数据类目的名称不能明确其自身的界限时,可以通过增加注释的方法进行明确。

(2)数据分类方法

1)业务划分:本阶段,将业务条线作为业务一级子类进行细分,确定业务二级子类(业务管理)。

2)数据归类:在对业务细分基础上,找到数据与业务类型之间对应关系,经归类后,确定数据分类。

(3)数据分类类型

在数据类型的维度上,根据对收费公路基础数据的研究,本文将数据分类分为七类。

1)基本信息:标识数据、描述实体的基本信息。

2)联系信息:对个人/企业的联系信息,例如电话、邮件、地址等。

3)业务信息:描述业务信息的属性。

4)交易信息:描述交易类的数据,例如卡号、明细、金额、余额、退费等。

5)地理信息:描述收费公路等实体的地理信息,例如经度、纬度等。

6)车辆信息:描述车辆的参数信息,例如车牌号、颜色、车型、品牌等。

7)证件信息:包含企业、个人的证件信息。

6.2 数据分级

(1)数据分级原则

1) 依从性原则:数据级别的划分应符合相关法律、法规及监管的要求。

2) 可执行性原则:保证数据分级在实际业务中使用和执行的可行性,避免进行過于复杂的规划。

3) 时效性原则:由于数据的级别可能会因时间的变化而变化,因此数据的分级应具备时间的有效性,制定策略以应对改变。

4) 自主性原则:路网中心数据管理部门应根据自身的数据管理需要,在按照数据分类原则进行分类之后,按照数据分级方法自主确定更多的数据层级,并为数据定级。

5) 合理性原则:数据级别的划分应具有合理性,使数据在划分级别中具备适宜的分布情况与集中情况。级别划定过低可能导致数据不能得到有效保护;级别划定过高可能导致不必要的业务开支。

6) 客观性原则:数据的分级规则是客观并可以被校验的,即通过数据自身的属性和分级规则就可以判定其分级,已经分级的数据是可以复核和检查的。

(2)数据分级要点

1)对数据泄露或损坏影响宜基于数据完全泄露或损坏来考虑,而不宜基于已有任何技术的防护措施来考虑。

2)《中国人民共和国网络安全法》已明确提出要对个人信息保护,要高度重视投资者或业务相关的个人信息保护,在数据分级中从高考虑。

3)安全属性(完整性、保密性、可用性)是信息安全风险评估中的重要参考属性,针对数据分级,数据安全属性遭到破坏后可能造成的影响,是确定数据级别的重要判断依据,推荐采用。

(3)数据分级方法

1)分级要素:数据分级的三要素有数据泄露影响对象的级别、影响范围、影响程度。根据这三要素辅助数据分级的定级。

2)分级步骤:确定影响对象、确定影响范围、确定影响程度、根据本身敏感属性定级。

3)分级参考:大量数据类别聚合宜升级,路网中心内的数据仓库、大数据分析用的数据,宜专门划分类别,且考虑升级;从时效性考虑,历史业务数据可以考虑降级处理,但需有明确历史数据的定义,并标明某时段之间数据;信息经公开披露后,可降级;脱敏后数据宜单独定级。

(4)数据分级级别

数据分级在脱敏的实施过程中需要按照数据敏感程度进行划分,优先考虑高敏感级别的数据,如果一批数据中的敏感等级不同,需要按照最高级别进行管控处理。

基于对收费公路基础数据的研究,将数据以是否被使用、是否将隐私作为评估维度,本文对数据分为四个级别。

1)1级:数据在使用、数据隐私。此类数据为高敏感级别的数据,1级数据泄露会涉及网络安全问题,对客户\用户的隐私财产造成损失。针对高敏感级别的数据,需要在技术上确保安全性以及脱敏的有效性,同时对数据的安全管理也应当从流程上保证数据的输出使用合规性。

2)2级:数据不在使用、数据隐私。此类数据为中级敏感数据,2级数据的泄露会对客户\用户的隐私或本单位的业务运行造成重大影响。

3)3级:数据在使用、数据非隐私。此类数据为低敏感级别的数据,3级数据的泄露对企业、用户造成的影响较低,在数据安全管理的层面上,需要对数据的使用做出详细的记录。

4)4级:数据不在使用、数据非隐私。此类数据为非敏感数据,4级数据的泄露理论上对业务系统、企业、用户均不会造成负面影响。

7 结束语

本文在高速通行数据脱敏的应用研究基础上,进一步对数据的脱敏管理进行研究。以实现对路网数据中不同场景下的数据管理方式与算法选型提供管理依据,针对高速通行数据提供数据分级分类的指引,辅助数据脱敏的落地执行为目标,从高速通行数据脱敏方法、脱敏算法选型、数据分级分类管理这三个维度进行了相应研究。通过本文的研究内容,可以在路网脱敏领域进行进一步的技术指引与支持。

参考文献

[1] 黄如花,刘龙.我国政府数据开放中的个人隐私保护问题与对策[J].图书馆,2017(10):1-5.

[2] 陈天莹,陈剑锋.大数据环境下的智能数据脱敏系统[J].通信技术,2016,49(07):915-922.

[3] 張欣宇. 基于Kettle的数据传输平台的设计与实现[D].辽宁:大连理工大学,2016.

[4] 乔宏明,梁奂.运营商面向大数据应用的数据脱敏方法探讨[J].移动通信,2015,39(13):17-20+24.

[5] 李战克,丁梦娟.大数据环境下的数据安全研究[J].信息安全与技术,2015,6(02):7-9.

[6] 刘明辉,张尼,张云勇,胡坤,宫雪,曲大林.云环境下的敏感数据保护:技术研究[J].电信科学,2014,30(11):2-8.

[7] 姜日敏.电信运营商数据脱敏系统建设方案探讨[J].中国科技信息,2014(08):132-133.

[8] 郭嘉凯.数据脱敏:敏感数据的安全卫士[J].软件和信息服务,2014(02):66-67.

[9] 张榆,韦安垒.大规模网络安全处理分析平台架构设计[J].网络空间安全,2018.09(05):63-67.