刘晶 梅乐翔 高薪
要对数据进行脱敏处理,首先需要明确数据可能的应用场景。在数据脱敏领域,针对不同场景,通常具备特定的脱敏策略。
交通运输部路网中心管辖全国路网体系内的运行服务、监测检测、ETC发行,以及清分结算管理等业务,随着业务电子化、信息化的发展,路网中心积累越来越多的数据资产。作为数据运营方,如何通过数据科技化拓展新的业务领域,找到新的业务增长点,挖掘“大数据”这座金矿,从而向外部输出合理的数据服务以及数据产品,是当前交通运输部路网中心相关部门所面临的首要任务。
数据产品的加工、数据服务的输出又和数据本身的科技化有着不可分割的关联,数据就像石油,是新生产力的源泉,数据的加工和服务化是一种新的生产方式。而数据科技化应用的所有前提都是数据应用和服务体系的建立和完善,数据服务体系中非常重要的环节是数据治理,而数据治理又往往由数据应用推动,数据脱敏和数据标签化是数据应用的重要通道。本文简要阐述交通部路网中心在遵守国家法律法规情况下的数据应用和数据商用建议的各主要模块。
近年来,针对高速公路省界站设立过多导致的车辆通行效率低、实体经济物流成本高等问题,国务院常务会议决定推动取消高速公路省界收费站,建立全国统一管理的路网系统。与此同时,高速公司跨省收费方式由前台人工方式转变为数字式的过程中,产生大量的用户通行数据。
2018年李克强总理在政府工作报告提出:简政放权、放管结合、优化服务等改革推动政府职能发生深刻转变,市场活力和社会创造力明显增强。
路网中心积极响应政务服务从传统方式向互联网化、移动化发展。针对交通部路网数据对外公开、服务的过程中涉及大量的个人隐私数据的处理问题,本文基于高速通行数据的脱敏应用进行研究。
研究基础与目标
目前交通部路网中心的基础数据现状如下:
存量数据:截至2018年10月,高速公路通行数据压缩归档后占用磁盘空间大小为919GB。
增量数据:截至2018年10月,每日平均增量数据大小为1.8GB、156万个数据文件、3000万条数据。
数据文件:单数据文件最大数据条目为1000条,最大文件大小为905KB;通常单个数据文件存储单条数据条目。
以上的存量数据与增量数据可以为本研究提供大量的测试数据;同时,在路网中心现有的业务模式中,对数据内部应用已经有成熟的体系与业务,对此类数据应用中的非必需敏感数据,业务人员已有成熟判断,因此对业务的需求分析也是本研究的基础之一。
通过本文的应用研究,希望实现对路网数据中敏感字段的脱敏处理,在兼顾数据脱敏的有效性的同时保留数据的应用价值。
高速通行数据脱敏场景
要对数据进行脱敏处理,首先需要明确数据可能的应用场景。在数据脱敏领域,针对不同场景,通常具备特定的脱敏策略。在不同场景下,对敏感数据的定义也有业务上的差异。因此,本文首先对高速通行数据的应用场景进行分析。
而在对高速通行数据应用场景分析之前,我们首先对需要处理的数据进行梳理:
业务系统:应用通行数据的业务系统主要为服务协调、数据汇聚交换、BOMS、综合业务平台、新增系统等。
主要字段:单号、投诉人、联系电话、卡号、操作、状态、车牌号、省份、时长、金额、余额、支付方式等。
标识信息:联系电话、卡号、车牌号。
针对以上内容,标识数据通常在任何的应用场景中均需要进行脱敏处理。对于剩余的字段,根据场景不同、应用不同的脱敏策略。高速通行数据通常可以按照数据应用目的(技术目的、业务目的)和数据应用对象(数据内部应用、数据外部应用)这两个维度进行划分。
高速通行数据主要的应用场景是由交通部内部业务人员进行使用,主要应用于收费公路基础数据的分析评估、投诉处理等业务场景。在数据交换、共享、使用的过程中存在隐私信息泄露的风险,在不影响业务推进的前提下,需要对非业务必要的信息、标识信息、隐私信息进行脱敏处理。经过脱敏后,实现数据的模糊化,保障数据在内部使用的安全可靠。针对业务分析场景的数据脱敏,在对标识数据处理的基础上,需要根据不同的业务场景进行分析,脱敏相应的不必要的半标识数据。
而在路网中心技术部门开发环节中,为确保功能开发与测试的顺利推进,需要将收费公路基础数据导出给技术部门进行开发。而原始数据直接应用于开发、测试,会不可避免地造成数据泄露。所以,对开发所需要的数据需要进行脱敏后再进行导出,应用于开发的数据脱敏需要保证数据格式、数据长度、数据类型与原始数据的统一。因此,在技术应用场景中,可对全体数据字段进行脱敏处理,甚至依据技术要求生产假数据进行开发、测试。
以上的应用场景均为高速通行数据于交通部内部的应用,数据对外输出服务是交通部路网中心未来的规划之一,无论是依照《政务信息资源共享管理暂行办法》去公开数据,还是对外部企业/个人输出路网的数据服务,均要符合相关的法律法规,不应存在隐私泄露的风险。
数据脱敏有效性验证
在数据脱敏领域,通常会出现无效脱敏的现象,例如,通过明文字段数据推测出敏感的信息内容,依据个人标识数据集成全部个人数据暴露敏感字段等。因此,在数据脱敏领域中存在眾多的模型与算法来验证数据脱敏的有效性,本文中对相对主流的K-匿名与L-多样性模型进行应用研究。通过K-匿名与L-多样性的模型可以保证数据在脱敏处理后的有效性,而对于这两种模型的选择,则需要依照实际的情况进行抉择。通常情况下,K-匿名模型可以保证绝大多数的脱敏任务结果的有效性。而针对数据多样性缺乏的问题,L-多样化模型可以保证脱敏后数据的有效性。
k-匿名模型要求对于任意一行记录,其所属的相等集内记录数量不小于k,即至少有k-1条记录半标识列属性值与该条记录相同。理论上来说,对于K-匿名数据集,对于任意记录,攻击者只有1/k的概率将该记录与具体用户关联。
k-匿名的操作步骤:
1.将待处理的高速通行数据分为三类:标识列(key attributes)、半标识列(quasi identifier)、业务列(sernsitive attributes)。
2.移除標识列,采用脱敏算法使得标识列的数据完全隐秘。
3.泛化半标识列,采用脱敏算法使得半标识列的数据部分隐秘,还保留部分的实际含义。
4.根据具体需求对业务数据处理。
k-匿名的特点:
1.攻击者无法知道某个对象是否在公开的数据中。
2.给定一个对象,攻击者无法确认他是否具有某项敏感属性。
3. 攻击者无法确认某条数据对应哪个对象。
k-匿名的不足:
1.当公开的数据记录和原始记录的顺序一样的时候,攻击者可以猜出匿名化的记录是属于谁。解决方法也很简单,在公开数据之前先打乱原始数据的顺序就可以避免这类的攻击。
2.若公开的数据有多种类型,如果它们的K-匿名方法不同,那么攻击者可以通过关联多种数据推测用户信息。
3.当敏感属性在同一类半标识列中缺乏多样性,或者攻击者有其它的数据背景知识,K-匿名无法避免隐私泄露。
通过K-匿名的示例,引出了多样化的概念。对于半标识列相同的数据,其业务列数据必须具备多样性。这样通过多样性可以保证数据对象的隐私不能通过背景知识等信息推测出来。L-多样化保证了相同类型的数据中至少有L种内容不同的属性。
L-多样化定义:
如果对于任意相等集内所有记录对应的敏感数据的集合,包含L个“合适”值,则称该相等集是满足L-多样化。如果数据集中所有相等集都满足L-多样化,则称该数据集满足L-多样化。
L-多样化特点:
相对于K-匿名标准,符合L-多样化标准的数据集显著降低了属性数据泄漏的风险。对于满足L-多样化的数据集,理论上,攻击者最多只有1/L的概率能够属性泄露攻击,从而将特定用户与其敏感信息关联起来。通过插入干扰数据构造符合L-Diversity的数据集。在K-匿名的基础上,每个数据集中,其敏感信息列有L个不同的值,攻击者只有1/L的概率获得正确的敏感信息。
结语
本文以交通部路网中心海量的路网通行作为研究基础,以对通行数据中的敏感数据脱敏处理后能够达到合法输出应用要求为目标,从高速通行数据脱敏场景与数据脱敏的有效性两个维度进行应用研究,实现基于高速通行数据的脱敏方案推进:保护隐私数据、提高数据可用性、确保脱敏有效性。
应用本文的研究内容,可以在路网数据的社会化服务应用领域提供技术指引与支持。