王旭东,叶水勇,朱 兵,陈清萍,蔡 翔,刘 琦,陈 明
(1.国网安徽省电力公司,安徽 合肥230022;2.国网黄山供电公司,安徽 黄山245000)
公司为解决信息系统数据质量不高及各信息系统之间数据共享程度偏低等问题,重点针对营、配、调等相关信息系统开展数据治理工作,旨在提升信息系统数据质量、促进数据共享融合[1]。数据安全是数据治理工作的前提条件,项目针对数据治理过程中的数据安全课题开展专题研究,重点针对营销客户、电网GIS、生产经营等敏感数据防泄密技术和数据安全防护技术开展研究和应用,达到数据收集、加工、应用各环节的安全,实现数据使用环境安全、数据权限可控、数据外发可控、数据交互安全的总体目标,为实现数据共享与融合应用、业务分析、系统接入、开发调试等各场景提供数据应用支撑。
项目拟从数据治理过程中的数据脱敏技术、数据安全分区技术、GIS数据安全防护及应用实践等3个方面开展研究。
1)目前国外Oracle的Data Masking组件、IBM的InfoSphere OptimData Privacy、Informatica的Informatica DataMasking工具能实现数据库脱敏,但是缺少对于中文数据的识别以及脱敏算法[2]。因此,国外的脱敏产品在国内各行业没有推广应用。随着国家对个人信息保护的重视,国内运营商等企业对数据脱敏的研究开始具体实施。在技术层面,2014年思睿嘉得最先在国内发布了非结构化数据的脱敏产品,但针对数据库中存储的结构化数据的脱敏技术国内还在探索阶段,
2)数据安全分区研究主要指在数据治理过程中的网络配置、数据库访问的安全研究。目前国内外区域类的安全产品已比较多,基本都是产品本身通过代理技术进行目标控制,不能做到数据拷贝行为审核管理。
3)地理信息数据涉及测绘领域国家机密,未经加密,偏移的原始坐标是信息安全领域的绝密数据。国家对测绘数据的保护有专门立法保护。目前国网GIS平台采用了内网隔离的技术手段实现数据的安全防范[3]。
随着移动互联网建设,为进一步提升客户服务质量,围绕着地理信息技术实现抢修快速到位,客户位置精准把握,服务队伍监视等传统业务应用需要借助移动终端,开展移动业务应用建设。在系统建设的过程中,需要用到内网的保密数据在移动互联网地图进行叠加展示,结合位置服务支持业务应用建设,有必要在应用建设的同时对内网加密的地理信息数据进行脱密融合,实现坐标数据在内外网作业终端地图进行定位。结合电网电系应用,实现数据服务端存储,应用服务加密调用。
是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护,在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行变形、屏蔽、替换、随机化、加密改造。项目的难点在于管理敏感数据和提供灵活的脱敏方案策略,高效可并行的脱敏能力[4]。
“应用代理”组件是分区安全的核心,负责中转运维操作用户的操作并与内部其他组件进行交互[5]。“应用代理”组件收到运维人员的操作请求后调用“策略管理”组件对该操作行为进行核查,如果操作不符合安全策略,“应用代理”组件将拒绝该操作行为的执行。 操作人员的操作行为通过“策略管理”组件的核查之后,“应用代理”组件则代替操作人员连接目标设备完成相应操作,并将操作返回结果返回给对应的操作人员。
根据GIS系统数据存储方式和地理信息偏移算法等技术,在信息内网和移动端创建基于GIS地理信息共享接口典型应用案例,验证GIS空间数据应用的安全体系。
主要包括数据治理过程中数据脱敏的定义、需求收集与审核、数据脱敏的技术路线和方法,数据访问技术规范。
3.1.1 敏感数据的识别研究
1)敏感数据标准研究。所谓敏感信息是指不当使用或未经授权,被人接触或修改会不利于国家利益或不利于个人依法享有的个人隐私权的所有信息[6]。工业和信息化部宣布了《信息安全技术 公共及商用服务信息系统个人信息保护指南》,这项标准最显著的特点是将个人信息分为个人一般信息和个人敏感信息,并提出了默许同意和明示同意的概念。对于个人一般信息的处理可以建立在默许同意的基础上,只要个人信息主体没有明确表示反对,便可收集和利用。但对于个人敏感信息,则需要建立在明示同意的基础上,在收集和利用之前,必须首先获得个人信息主体明确的授权。
电力企业掌握大量的客户信息,在数据治理过程中,各类信息化应用系统数据的汇集,可能存储大量的敏感数据,在数据应用过程中存在数据泄漏风险。在什么情况下,或者在什么组合下,数据集能够被判定为是敏感数据,需要进行标准和规则的制定,规划敏感数据的应用制度。
2)敏感数据级别研究。敏感数据根据不同应用对象、数据自身敏感程度和影响力,可能需要进行敏感级别的划分[9]。
3.1.2 数据脱敏的策略研究
1)对数据脱敏算法研究。根据不同数据特征,研究丰富高效的脱敏算法。可对常见数据如客户姓名、证件号、银行账户、住址、电话号码、组织机构代码等敏感数据进行脱敏,脱敏算法具有如下特性:
(1)同义替换,使用相同含义的数据替换原有的敏感数据,如姓名脱敏后仍然为有意义的姓名,住址脱敏后仍然为住址。
(2)部分数据遮蔽,将原数据中部分或全部内容,用“*”或“#”等字符进行替换,遮盖部分或全部原文。
(3)混合屏蔽,将相关的列作为一个组进行屏蔽,以保证这些相关列中被屏蔽的数据保持同样的关系,例如城市、省、邮编在屏蔽后保持一致。
(4)确定性屏蔽,确保在运行屏蔽后生成可重复的屏蔽值。可确保特定的值(如客户号、身份证号码、银行卡号)在所有数据库中屏蔽为同一个值。
(5)可逆脱敏,确保脱敏后的数据可还原,便于分析的结果还原为业务数据。
通过对不同特征的脱敏性需求,研究不同的实现算法,比如基于开发平台创建函数和正则表达式等[7]。
2)脱敏字段的管理研究。敏感数据存储于不同的业务系统,不同的业务系统又分布在不同的表中,不同的表中又有可能存在多个敏感数据字段,对脱敏字段的有效管理有助于数据脱敏工作的完整性和正确性[8]。同时脱敏算法是将敏感数据进行脱敏处理的规则,脱敏策略包含敏感数据特征以及对于这类数据的脱敏算法,通过脱敏字段管理,对于相似和同一类应用场景,用户可将脱敏方案适用于该场景的脱敏方案,脱敏方案制定后,可被重复利用于该场景下不同批次数据的脱敏需求。
3.1.3 数据脱敏技术实现
1)数据脱敏技术原则。脱敏系统需有效保障脱敏后的数据可以满足原始数据相同的业务规则,能够代表实际业务属性的虚构数据,能够使脱敏数据的使用者从体验上感觉数据是真实的,从而最终保证使用脱敏后的数据可以保证业务可靠运行。
(1)可重复和不可重复性。数据脱敏需要提供能够重复脱敏相同数据的能力,在不同轮次的脱敏中,保证相同的隐私数据脱敏后的数据也是相同的[9]。从而保证数据在增量环境下能够被有效关联。另一方面,有些时候处于安全考虑,需要提供不可重复的脱敏能力,保证相同的数据在不同轮次脱敏产生的数据是不同的,从而防止逆向工程还原数据。
(2)数据有效性。为了保证业务系统和分析系统的正常运行,有些需要保证脱敏后的数据必须能够准确反应原始数据的业务属性和数据分布特征,例如对于原始数据中的姓名、地址等信息需要在脱敏后仍然具有可读性,脱敏后的数据满足业务系统的数据规则,能够通过业务系统的数据有效性验证,如身份证号、银行卡号的校验码匹配等。
(3)数据真实性。脱敏后的数据需要保证是真实完整的,并且提供不改变原始数据尺寸,不包含无效信息的能力,防止敏感数据不符合目标数据的定义,造成无法顺利入库的情况。
(4)数据完整性。在执行数据脱敏时,不会对数据库中原始数据进行任何变更操作,所有的脱敏数据均在数据库返回结果集中体现,不对原始数据产生任何影响。
2)脱敏工具的研发。脱敏任务可针对目标数据库系统或结构化文件进行[10]。通过脱敏任务,与提供原始数据的业务系统和使用脱敏后数据的系统连接起来,用户可在任务内选择脱敏数据来源、脱敏数据去向以及最适合的数据脱敏方案。
研发脱敏工具,提供任务维护管理功能,可对任务进行停止、启动、重启、暂停、继续,并且支持任务并发,充分利用系统资源,提高脱敏效率。
3.2.1 数据分区安全保护研究
根据数据治理技术支撑平台服务器分区规划,开展数据治理分区数据保护研究,研制集帐号管理、授权管理、认证管理和综合审计于一体,整合应用系统、网络设备、主机系统,确保合法用户安全、方便使用特定资源的分区安全管理工具,拦截对数据中心数据库等服务器非法访问和恶意攻击,对不合法命令进行命令阻断,过滤掉对目标设备的非法访问行为,保证数据中心服务器、数据库安全可靠运行。
分区安全管理工具通过代理技术,在生产区等分区内接管终端计算机对网络和服务器的访问,逻辑上将操作人员与目标设备隔离开来,建立从“操作人员→用户账号→授权→目标设备账号→目标设备”的工作模式,研究设置细粒度的安全管控策略,如支持基于用户角色的访问控制,根据用户、用户组、访问主机、目标系统账号、访问方式设置访问策略,支持基于时间的访问控制,支持基于访问者IP的访问控制,基于黑白名单的访问控制等。分区安全管理工具采用双机方式,消除单节点,不能因某一节点异常影响日常应用。
3.2.2 数据拷贝审核控制研究
对数据中心内的服务器进行数据文件拷贝许可审核控制研究,对确实需要拷贝出的数据文件,自动发起申请与审核流程,经过许可授权后才能进行数据拷贝。当对服务器进行操作时,数据分区安全系统首先对操作指令进行检测和分析,当涉及高位指令时可以进行审批操作或阻断操作。
对Linux服务器进行操作时,通过正则表达式匹配的模式,一旦涉及拷贝指令(如cp、copy等),分区安全管理平台自动向管理员提交审批消息,若管理员同意,则指令生效,若管理员拒绝,则指令无效。对于Windows服务器,监控剪贴板,当数据分析人员进行操作时,一旦涉及剪贴板向非本机发送粘贴指令,系统自动向管理员提交审批消息,管理员同意之后才能生效。
分区安全管理工具可接安徽电力短信平台,研究采用短信通知的方式提醒管理员审核,进行短信回复完成许可审核。
3.2.3 操作行为过程审计研究
对授权人员的目标操作进行记录、分析、展现,以帮助内控工作事前规划预防、事中实时监控、违规行为响应、事后合规报告、事故追踪回放。操作行为过程审计如图1所示。
图1 操作行为过程审计
3.3.1 进行电网GIS共享融合应用可行性研究
在电网GIS平台的建设背景下,国网已经实现内网地图服务统一部署,电力设施省集中存储,移动端地图服务统一部署[11]。预计在本年底完成内网外网移动地图坐标的统一非线性偏移。即应用层实现内网系统坐标,外网地图坐标均为偏移后坐标,原始采集坐标仅在服务端存储。
《国家电网信通〔2016〕684号 国家电网公司关于加强和规范移动应用建设的通知》明确了信息安全要求,内网电网资源数据不能穿透至外网进行展示。实现电力设施外网地图定位,路径导航功能,需依赖国网电力外网地图服务平台,以支持国网电力行业的移动应用需求。本课题研究GIS信息安全应用的规范体系,重点开展电网GIS地理信息数据的内网应用规范和外网应用的可行性研究。
3.3.2 创建典型案例实用化GIS安全应用
目前各行业均有在百度、高德等互联网地图移动平台上开展一些应用建设,百度、高德等地图服务商在发布地图服务时,其测绘的原始数据已经完成脱密非线性偏移等操作。而电力内网的坐标数据采用的是国网加密和偏移算法,即数据无法在百度、高德等地图上叠加。理论上可以从国网偏移后的坐标转换为原始坐标,再采用百度的偏移算法实现与百度地图叠加。出于信息安全管理规范的遵从考虑,内外网移动地图应用可采用“国网统一”的移动地图服务和数据导航服务。
课题收集GIS应用需求,根据GIS系统空间数据的加密和偏移方式特点,开展GIS空间数据在信息内网和移动端应用规划,评估有价值有意义的应用,创建典型应用案例进行安全应用研究。
3.3.3 进行GIS应用规划方案的评估
通过典型案例的实际应用,对GIS应用规划和GIS数据安全进行评估,为后续GIS共享融合安全应用提供参考[12]。
根据GIS系统数据存储方式和地理信息偏移算法技术,创建基于GIS地理信息共享接口典型应用案例,验证实用化结果和数据安全应用的体系。GIS应用规划方案过程审计如图2所示。
图2 GIS应用规划方过程审计
公司通过数据治理过程中数据安全防护系统的建设,从而达到数据收集、分析、加工、应用各环节的安全,阻止敏感数据泄漏,防止数据资产流失,为实现数据共享与融合应用提供数据质量支撑,为业务分析、系统接入、开发调试等各场景提供数据应用支撑。