黄萍
摘 要:在对测试数据脱敏技术框架分类展开分析基础上,本文结合电力测试数据脱敏需求提出了相应的脱敏技术框架建构思路和方法,并对框架部署和数据脱敏流程进行了探讨,希望能够为电力行业数据脱敏提供参考。
关键词:测试数据;脱敏技术;元数据管理
中图分类号:TP309;F832.33 文献标识码:A 文章编号:1671-2064(2019)04-0056-02
0 引言
在信息时代,企业数据资源成为了推动业务发展创新的重要动力。而电力企业拥有大量涉及核心商业机密和客户隐私的敏感数据信息,还要加强数据保护管理,以免因数据泄露承担过大损失。因此在电力测试系统中,需要完成测试数据脱敏技术框架的构建,实现数据脱敏处理,保证电力数据得到安全管理。
1 测试数据脱敏技术框架分类
所谓的数据脱敏,又被称之为数据漂白、数据变形或去隐私化,需要采用既定脱敏方法实现数据处理,在符合规则前提下完成数据改造,保证数据能够在开发、测试等环节中得到安全使用,同时保证数据集的真实性[1]。针对测试技术进行脱敏处理,需要将敏感性原始数据转换为不敏感的脱敏数据。而脱敏技术框架对具体脱敏处理底层技术进行了承载,将决定数据脱敏效果。在脱敏技术框架下,底层技术将被实例化应用,使框架抽象设计得到最大限度利用。现阶段,针对测试数据,主要应用的脱敏技术框架有两种,一种是基于数据文件的脱敏框架ETL,另一种则是基于数据库表的脱敏框架。其中,ETL由抽取(Extract)、变形(Transform)、装载(Load)三个环节构成,具有较高通用性,在IBM OPTIM等主流商用工具中得到了应用,能够从源数据表中完成数据抽取,得到特定格式原始数据文件。无论是否进行部分量数据抽取,都能使数据间关联关系的完整性得到保证。对数据文件进行遍历,利用外挂脱敏出口函数实现数据变形处理,可以得到特定格式的脱敏数据文件,在目标数据库中实现装载[2]。采用基于数据库表的脱敏框架,可以省略从数据库表抽取数据的环节,能够直接进行源数据变形。因此在该框架下,数据库表为处理对象,通过逐条读取数据记录,按照不同变形规则进行处理,然后在源数据库标中对记录进行更新,可以得到脱敏数据。在数据测试时,可以根据需求从源数据库表中到处脱敏数据文件,在对应目标测试环境中装载。
2 测试数据脱敏技术框架建构
2.1 电力数据脱敏需求分析
在智能电网建設得到不断推进的背景下,大量敏感数据在电力行业得到了积累,给开发测试、业务分析等工作的开展带来了困难。为加强数据安全管理,电力企业完成了信息资产分类分级保护机制的建立,用于加强敏感数据测试、传输和存储管理。在电力数据测试环节,为防止敏感数据泄露,要求完成数据脱敏处理。因为电力系统中测试环境资源有限,无法对生产环境数据量进行完整模拟,所以只能实现部分功能性测试部署,难以实现性能层面测试。受数据质量影响,生产环境会出现运行缓慢问题。尽管能够通过资源扩充方式解决环境资源问题,但是想要实现全量数据恢复,还要提高环境安全防护级别[3]。针对生产环境中的业务数据,不允许在测试环境中恢复,因此需要采用数据脱敏技术手段实现涉密数据脱敏处理,然后才能在测试环境中恢复生产环境数据。按照要求,电力测试数据脱敏需要完成电力生产敏感数据脱敏,利用标准化建模和自动化流程完成测试数据脱敏,保证数据安全性。现阶段,由于缺乏系统性脱敏技术方案,只在少数系统中部署了数据脱敏模块,在数据脱敏方面缺乏专业化工具和管理手段。针对高敏感数据,无法实现自动化的数据脱敏管理,在测试数据漂白方面无法对敏感数据进行有效屏蔽,因此难以满足电力数据脱敏需求。
2.2 脱敏技术框架建构思路
结合电力测试数据脱敏需求可知,需要按照类型完成数据归类处理,实现不同数据源类型的脱敏。从底层架构上来看,采用ETL脱敏得到的数据形式为文件,数据落地次数在1到2次之间,与数据源平台耦合松散,对源数据无影响,但是对存储空间要求较高[4]。采用基于数据库表的脱敏技术框架,数据落地次数在0到1之间,与平台耦合紧密,以数据记录作为异常处理最小颗粒度,会给源数据带来一定影响,但是无过高存储空间要求。因此在实际进行脱敏技术框架构建时,可以在底层架构上实现两种技术框架整合,达到优势互补的目的,提高测试数据脱敏自动化水平,使框架能够对不同脱敏需求进行灵活应对。建立该框架,电力测试系统可以根据不同目标完成不同大小测试数据子集的建立,从而使数据存储空间得到减小,同时使数据脱敏效率得到提高。在数据抽取、脱敏过程中,数据的业务关联不会遭到破坏。针对不同数据库中的同类数据,可以实现归档处理,经过脱敏后可以保证数据一致性。
2.3 脱敏技术框架建构方法
在实际建构脱敏技术框架时,可以采用基于BS管理模式的多层框架结构,为测试数据提供统一元数据管理,为元数据的装载、使用、维护等提供支持,增强脱敏工具的可扩展性,为多个数据库数据脱敏提供便利。采用元数据驱动法,可以进行小容量子集的创建,使数据库工作效率得到提高。从框架结构上来看,最底层为数据存储层,向上依次为服务引擎层、业务引擎层、流程管理层、逻辑界面层,最上层为物理界面层。实现各层分离设计,能够按照需求实现容量扩展,对数据进行集群化处理,使数据处理性能得到保证。针对海量电力测试数据,采取该架构可以完成统一数据脱敏管理平台的建设,为各种业务的开展提供服务。从总体来看,数据存储层需要面向文件内容管理和元数据库,实现各业务系统数据分离式对接。利用服务引擎层,可以实现数据存取、格式转换、缓存等操作,并实现适配器控制,使数据得到预处理,为后续数据脱敏奠定基础。业务引擎层能够对日志、元数据等进行控制,并且提供归档处理和脱敏处理引擎,能够完成数据脱敏。按照脱敏规则,可以结合需求实现脱敏技术的应用和更新。实际采用的脱敏技术包含归零、屏蔽、移动、加解密、代替等,并且设置有自定义脱敏算法。流程管理层可以实现归档模型、规则的定义,并且提供归档模型树和列表,按照需要对脱敏得到的数据进行归档处理。逻辑界面层可以生成动态界面,提供个性化服务,并对用户请求进行处理。采用技术框架进行数据脱敏,能够为敏感性专有数据提供保护。通过屏蔽脱密,能够得到高度仿真数据,并确保数据无法识别。在框架应用过程中,能够从备份数据库和电力生产系统中进行原始数据直接抽取,并且采用统一接口读取数据,利用核心模块实现数据脱敏算法调用,按照测试数据脱敏需求抽取子集。最后,按照需求进行脱敏数据归档,可以在目标测试环境中装载数据。采用该种技术框架,能够完成通用脱敏函数的配置,为各种脱敏算法的实现提供支持。通过对各种算法进行模块化组合,可以完成数据高效处理。
3 测试数据脱敏技术框架实现
3.1 框架实践部署
在框架实践部署时,可以结合电力企业实际运行环境进行脱敏引擎节点部署。在数据库节点部署上,可以进行Oracle数据库的安装,用于实现数据脱敏源和脱敏目标的存放,为数据脱敏处理提供工具资料库。另外,也可以在云化集群系统中实现框架部署,为分布式数据脱敏提供支持,使框架结构具有较好扩展性。针对脱敏引擎节点,可以实现不同目标类型替换,如XML文件、关系型数据库、自定义文件、文本文件等。考虑到电力测试数据量较大,需要采用多线程并行执行方式进行数据数据表处理,利用主键完成Hash分组,并进行partition键值的设置,确保各组数据量相等。以数据库表为脱敏对象,可以采用动态SQL技术作为脱敏规则函数。通过完成SQL变换引擎、SQL智能分析引擎等数据脱敏引擎的配置,可以在不改变电力生产数据库中原始数据的基础上完成数据脱敏。相较于静态SQL,动态SQL在程序运行时需要完成Access Path编译,并且需要在每次执行时重复编译,数据访问速度有所降低,但是却具有较强灵活性。采用参数标志符Parameter Markers,能够利用Prepare完成编译。根据宿主变量对缓存Access Path进行赋值,无需制定Prepare,因此能够降低开销。利用动态访问和检索方式,可以避免数据外泄。针对数据脱敏处理工具,需要完成多线程处理配置,使各线程负责相应Hash分组数据,有效降低脫敏数据处理时间。
3.2 数据脱敏流程
从数据脱敏流程来看,针对电力生产中采用的PMS、GIS和财务管控系统数据,需要实现数据脱敏,然后将得到的数据在测试系统中应用,避免电力用户个人隐私数据泄漏时。首先,需要完成数据业务需求梳理,对需要脱敏的数据进行确认。结合电力生产实践可知,需要对包含业务对象、基本表、分区状况和索引表等在内的业务数据进行分析,实现数据模型。针对业务对象,需要梳理父子关系信息、脱敏规则、主外键信息等关联关系和脱敏准则。对接口脱敏用户的权限,需要进行评估,完成相关资源创建,然后实现连接配置,使数据源的可用性得到保证。针对脱敏规则和流程,还应实现人工配置,确定脱敏表、脱敏函数、脱敏流程控制、脱敏函数分级等信息。在元数据导入管理上,根据接口信息可以完成敏感信息导入设置。通过执行手工触发配置和设定的时间调度,并且执行计划任务,则能实现数据抽取,在目标测试环境中完成脱敏数据装载。根据执行状况,可以对脱敏任务进行修改、展示等操作。在脱敏处理中,针对SQL语句,系统会完成合规性和安全性检查,直接抛弃不符合要求的语句,并结合脱敏规则进行SQL语句改写,利用语句完成数据检索查询。得到的数据经过脱敏引擎,能够完成实时脱敏处理。针对得到的测试数据报告,还要根据业务审计需求加强审计,在审计报表中完成时间段、制定用户等内容的填写。
4 结语
测试数据脱敏为复杂技术工作,还要从业务需求角度着手完成数据脱敏技术框架的构建。对于电力企业来讲,在生产数据测试中,需要完成敏感数据脱敏处理,避免用户个人隐私数据泄露。在实际进行脱敏技术框架构建时,需要采用元数据管理方法,实现脱敏技术框架多层分离设计,并采用动态SQL技术实现核心数据脱敏功能,从而实现对各种业务需求的灵活应对。
参考文献
[1] 朱克,彭昌余.电力用户信息脱敏研究[J].电脑知识与技术,2018,14(26):10-12.
[2] 冉冉,李峰,王欣柳等.一种面向隐私保护的电力大数据脱敏方案及应用研究[J].网络空间安全,2018,9(01):105-113.
[3] 邢宇恒,张冰,毛一凡.数据脱敏在海量数据系统中的应用[J].电信科学,2017,33(S1):8-14.
[4] 焦伟,周晓聪,周期律.测试数据脱敏技术框架的研究与探讨[J].中国金融电脑,2016(07):40-47.