车力军 田波 张华志 武佳玮
(1.中国电信股份有限公司云南分公司,昆明 650200;2.启明星辰信息技术集团股份有限公司,北京100193)
我国作为人口大国和新兴的经济体,存在着隐私数据更加庞大、组织的管理体制不同等特点,因此完全照搬他国经验是行不通的。尤其在电信行业,面临用户隐私数据种类复杂、数据量大、隐私数据的访问场景众多等诸多挑战。用户隐私的生命周期保护分为事前评估、事中保护及事后审计优化三步。在这三步走环节中有三大难点和一个痛点。本文以梳理建立隐私数据的影响评估机制为切入点,识别隐私数据可能面临的安全风险;将数据识别技术、数据防护泄露技术、加密技术、审计技术结合自动化技术等进行创新,使其效率更高,更加贴合电信运营商环境;此外,利用数据存储分层架构与密码学算法,优化了隐私数据的存储/访问性能与保护/销毁的成本均衡。
运营商行业用户隐私保护需要统一筹划和管理,尤其是启动新业务、新流程或原有业务发生较大变动时,须进行数据安全合规性评估。对于使用隐私数据非最小化、可能造成隐私数据泄露或无法保障用户合法权益的情形实施整改。隐私数据保护影响评估应在APP/系统开发、项目建设规划时期进行;并且在运营期间存在委托处理、数据共享、转让等场景时,对数据接收方的隐私数据保护能力进行安全评估。隐私数据保护影响评估完成后,应对评估出的安全风险采取必要、有效的控制措施。控制措施包括但不限于员工隐私数据保护教育、制定内部隐私保护政策、采用技术手段缓解安全风险等。本文对用户隐私数据保护影响进行评估,并梳理出以下三大场景的评估内容。
1.1.1 规划开发期评估
隐私保护影响评估,应当在规划与开发时介入分析流程与业务对用户隐私可能产生的影响。
若相关业务流程对隐私数据的处理不符合现有法律、法规、标准的要求,或对用户隐私存在负面影响,应重新规划可以规避或缓解风险的流程与实现方式。如果不能符合合规要求或对用户隐私产生负面影响,且无规避或缓解措施,应暂停开发,并且进行隐私合规改进措施。
在系统开发时,应要求设计人员在业务交互设计、系统架构、编码及测试遵循隐私数据保护的各项要求,并评估应用在收集、传输、使用、存储、公开及销毁阶段对隐私数据的处置情况。具体评估内容包括但不限于是否收集隐私数据、是否有强迫使用隐私数据的场景(如位置定位)、是否超出用户许可范围收集隐私数据、是否采用有效的加密手段保护传输或存储状态的隐私数据、是否有可靠的安全保护措施保障隐私数据在使用过程中不被泄露、新方法和技术对隐私数据有哪些影响,是否做好技术防范措施、系统安全性是否经过安全验证等。
1.1.2 运营维护期评估
在业务运营期间,必须评估业务运营和系统运维过程中是否存在隐私数据泄露的风险。包含以下评估内容。
(1)是否对隐私数据进行大规模处理,尤其关注处理过程中可能导致的泄密环节。
(2)是否将隐私数据处理外包、共享给第三方,如存在该场景,应对数据接收方的隐私数据保护能力进行评估。
(3)对隐私数据存储、传输、访问、查询是否有保护措施。
(4)如果发生隐私数据泄露事件,是否有应急处置程序以及能够溯源定位定责。
(5)系统版本升级,以及后期加入的新技术/新流程/新业务是否对隐私数据产生影响(如有则需要进行再评估)。
1.1.3 特殊场景的评估
如果对隐私的访问、处理、共享涉及国家公共安全,则优先保障国家安全而非优先保护个人隐私(如反恐防暴场景、犯罪调查追踪场景)。例如,涉及到公共卫生领域等场景(如疫情流调),则需要取得隐私保护与公共安全的均衡(如隐私数据向监管部门共享,但数据传输加密)。
目前,国内外对不同访问场景下隐私内容访问的项目实践,大多数是基于匿名化、访问控制,或采用数据库列加密,但还没有快速标识分类、针对不同角色访问场景下的隐私数据细粒度呈现以及数据零落地的手段。
1.2.1 隐私标识与分类
隐私数据的发现和标识是隐私数据保护的基础,但是传统以人工操作的方式难以快速与全面的发现隐私数据,并快速精准地分类分级和标识。因此,针对这种特定的场景,定制开发了数据安全保障平台,通过自动化手段,高效发现、识别用户隐私数据。其技术亮点主要结合协议解析模块、内容识别模块和语义分词模块为核心,进行用户隐私数据的自动化/半自动化的识别、分级分类、隐私数据访问审计与溯源等[1]。
具体实践方法,通过内置或自定义的隐私数据发现规则和识别算法,结合数据库/服务器扫描,识别出姓名、手机号、身份证、银行卡号等隐私数据及数据的不同等级和内容,依照相关数据分级分类管理办法,对隐私数据的敏感级别、隐私数据位置等添加标识与分类标签,隐私数据分级按照敏感级、较敏感级、低敏感级组成。当数据识别模块通过扫描识别出隐私数据后,与已定义的策略进行匹配,然后自动化地进行添加标签动作,如此就可以快速精准地实现隐私数据的快速发现与标识以及分级分类。
1.2.2 场景化隐私展示
不同场景下对隐私的保护方式与展现策略不一样,其流程如图1所示。
图1 基于不同场景下隐私保护与展示策略示意图
而各个不同场景下的隐私保护与展现,涉及到身份识别与授权,以及数据脱敏的技术组合。身份认证与授权可以通过零信任的思路,基于现有IAM平台,结合权限管理、终端安全管理、态势感知平台、UEBA等组件,实现对隐私数据访问用户的身份认证和授权管理。如果其他系统或平台要访问隐私数据,需要经过同用户身份认证和授权一样的流程。在动态验证其安全可靠且具有权限后,方可对隐私数据进行权限范围内的操作,其流程见图2。
图2 基于零信任思路的身份认证和隐私数据权限管理运行流程
当识别到隐私数据访问/使用者的权限之后,则需要针对访问者的角色,进行隐私数据动态脱敏[5-6]。动态脱敏使用的算法包括K-匿名、L-多样性、数据抑制、数据扰动及差分隐私等。平台相关能力包括脱敏Agent与脱敏管理模块两部分:脱敏Agent与业务系统同机部署,面向业务系统提供脱敏接口;脱敏管理模块管理集中部署,将脱敏策略并下发至脱敏Agent,脱敏Agent根据业务系统传递工号进行差异化的脱敏权限控制,其流程见图3。
图3 隐私数据动态脱敏流程
在应用系统开发测试时,为达到效果需使用隐私数据作为系统的数据输入。此时,通过身份权限鉴别为外包开发人员,那么传输的数据与真实隐私数据类型、结构、表索引、约束一致,但信息是全部伪装后的“伪隐私数据”。而在业务办理时,业务员访问的隐私数据通过“遮蔽式隐藏”的方式,隐藏用户中间字段的身份证号、手机号等,如此可使隐私数据流转更加安全。
1.2.3 智能隐私防泄露
传统的数据防泄露依靠人工方式识别隐私数据,效率和准确率较低,难以应对海量数据下的处理要求。引入机器学习技术,先获得典型隐私数据样本,从样本中获取识别特征,隐私特征按照数据分级策略配置在平台中,然后实时对流量数据的特征与隐私特征进行匹配,当发现隐私流转与策略配置不符时,通过告警或阻断保障数据安全。
对隐私数据的存储、导出、使用(展示)流程进行防泄密处理的具体流程如下:在隐私存储时,结合文件水印、数据库水印等技术,标记隐私数据的文档/数据库;在数据导出时,创新性地利用指纹技术,识别隐私数据的导出者与隐私内容,便于泄密追溯;在运维/测试导出数据的场景时,标记导出的数据,并且数据只允许导入专门的存储中,而不能下载至终端,实现隐私数据零落地;在进行数据使用/展示场景时,利用数据指纹、屏幕水印技术进行防窥屏/拍屏/截图的泄密追溯。
1.3.1 隐私防护“H模型”
在大数据背景下,由于日志信息数量庞大、系统间互联互通的操作更加复杂,过去的人工审计方式局限性很大,需要利用相关技术实现隐私数据的全生命周期自动化审计。传统网络安全工作如态势感知、SIEM、UEBA主要用于分析网络状态的安全性,本文搭建的保障平台,可借助网络安全产品的功能,利用流量协议识别,数据标签标标识技术以及水印技术等多种手段组合,实现多种数据源综合审计,最终实现权限、访问控制、事件行为以及数据流程等审计内容。
通过隐私保护创新实践,结合行业合规监管要求与自身隐私保护管理体系,形成了基于数据标签和流量感知等技术的数据安全防护“H模型”,实现信息系统数据快速标识、分类,基于不同角色与场景的保护与展示,高效溯源与审计,以及态势感知,并且基于工业和信息化部相关规范和落地实操管控。“H模型”如图4所示。
图4 数据安全防护“H模型”
1.3.2 水印与审计溯源
对隐私数据的存储、导出、使用(展示)流程进行防泄密处理。在隐私存储时,结合文件水印、数据库水印等技术,标记隐私数据的文档/数据库。在数据导出场景,创新性地利用指纹技术,识别隐私数据的导出者与隐私内容,便于泄密追溯;在运维/测试导出数据的场景,进行数据库匿名化转换与屏幕水印结合,或以本地中间存储进行运维数据不落地;在隐私数据使用/展示场景,利用数据指纹、屏幕水印技术进行防窥屏/拍屏/截图的泄密追溯。
针对隐私数据所在的数据库,可进行表空间拆分优化。隐私数据库的表空间优化示意图见图5、图6。可将完整的数据表分为隐私表与对应业务表两部分。其中,业务表中的多个候选关键字为隐私表中隐私要素的Hash值。只需针对隐私表进行重点保护,而业务表即便泄露,其不含隐私信息从而影响不大,这就取得了数据库优化及隐私保护的成本优化。
可以通过对硬件架构的重设计实现成本均衡。目前,正在实践分层存储的架构方式,可以进一步优化隐私数据的查询性能,并取得存储成本与隐私保护的成本均衡。
首先,应将数据分为热、温、冷3种方式,进行分级存储。在线/活跃用户的隐私数据库定义为热数据,存储于固态阵列中;业务数据定义为温数据,可存储于SAS/NL磁盘阵列中;历史隐私/业务数据定义为冷数据,可存储于磁带库或蓝光存储中。数据分层存储优化的优势包括:在线/活跃用户的隐私数据表独立存储/备份与于固态硬盘阵列,数据量小,固态阵列成本低;固态阵列速度远胜于SAS阵列或NL-SATA阵列,对活跃用户的业务查询性能提升;隐私数据销毁与硬件利旧成本低:由于固态硬盘特性,数据删除无法恢复。因此,便于固态的利旧以及兼顾了隐私数据销毁的便利性;历史数据存储成本低:历史隐私数据需长期保存并且查询次数很少,基于该特性,存储于NL存储阵列或蓝光存储中能够进一步降低存储成本。
图5 未拆分前的表
图6 垂直拆分后的隐私表与对应业务表
通过采用新技术、更改新架构实现效率与成本的均衡,并通过完善管理体系进一步实现隐私保护的效率与成本降低,即使在技术与管理体系改革期,也有可能产生额外支出的费用(如人员培训与持证上岗带来的财务管理费用增加)。
经过反复研讨国家相关政策规范和发达地区经验,结合本地数据安全实际工作情况,在隐私数据安全领域进行了创新实践:梳理了三大隐私保护评估场景;实现了自动化/半自动化的隐私标识与分级分类;实现了基于不同角色场景下的隐私访问控制与隐私呈现方式;实现了自动化隐私防泄漏检测;实现了水印技术结合大规模自动化多源审计;通过调整存储架构实现了隐私访问性能/存储/保护/销毁的成本均衡。
(1)基于数据标签和流量感知等技术的数据安全防护“H模型”,实现信息系统数据快速溯源、安全审计和态势感知。数据标签技术对数据来源特征值进行加密,保障数据全生命周期的机密性、完整性、可问责性;流量感知技术通过感知多网络出口的流量,对重要信息系统资产、数据流向、接口状态进行全方位感知,并对数据流量进行审计分析和风险监控。
(2)隐私数据泄密溯源创新:对隐私数据的存储、导出、使用(展示)流程进行防泄密处理。在隐私存储时,结合文件水印、数据库水印等技术,标记隐私数据的文档/数据库;在数据导出场景,创新性地利用指纹技术,识别隐私数据的导出者与隐私内容,便于泄密追溯;在隐私数据使用/展示场景,利用数据指纹、屏幕水印技术进行防窥屏/拍屏/截图的泄密追溯。
(3)基于工业和信息化部相关规范和落地实操管控,形成云南电信独特的数据安全管理“2+8+1”体系。其中,包含了制度和技术手段能力保障,全员培训考试,持证上岗,数据资产分级分类管理,数据安全合规性评估,对数据对外合作实施专项常态化管控和排查整改,常态化安全审计,数据出境管控,以及立体化的数据安全考核机制等。
从合规要求角度展望,2020年我国通过了《中华人民共和国民法典》,发布了《中华人民共和国个人信息保护法(草案)》,同时还颁布了GB/T35273-2020《信息安全技术—个人信息安全规范》[2],这标志着我国开启了隐私保护的新局面,未来隐私数据保护的要求会更加严格。从技术发展角度展望,加密技术、人工智能、大数据、区块链等技术的成熟,会进一步影响隐私保护技术和产品方案的格局与变化。已有的成熟技术可能会无法抵御新技术的攻击或破解,而新技术可能会大大提升隐私保护的强度。目前,同态加密技术、安全多方计算、联邦算法、区域链技术已在隐私数据保护领域有了初步的探索和实践,并且在部分试点单位取得了一定的效果。随着新技术的不断成熟与性能提升,应用前景会更加广泛。