陈韩霏 张艳红 张睿喆 江琼宜 胡雅月
关键词:数据治理;回归分析;电网;认责体系
1引言
数据认责是数据治理的重要指标,能够明确数据清洗、重复数据剔除等标准化处理中的责任认定问题[1],提高数据治理的可信度、安全性,便于后期的数据寻踪、追责。但是,数据传输协议混乱[2]、端口兼容性差等问题,严重影响数据认责问题的研究。目前,数据认责主要采用人工数据认责方法[3],借助数据管理系统进行认责分析。该方式存在认责片面、数据标注不明等弊端,消耗大量的人力和物力,而且最终的认责效果不佳。基于此,本文利用回归分析方法对电网中的数据认责问题进行分析,旨在实现电网数据的认责体系优化。
2回归分析方法
回归分析方法是基于统计学的智能分析方法,该方法通过寻找部分关键点,实现对数据认责体系的分析,并依据回归结果得到认责的问题[4]。一旦回归结果中出现异常系数,则要對该数据认责方案进行数据挖掘,找到出现数据认责问题的原因,并给予优化,具体分析如下。
认责方案的数学描述:随机选择数据认责方案[5],并将其设置为ai,数据治理结果为xi,标准化程度为,数据认责的权重为wi,标准化处理后的方案集合为set{o},治理数据结构为ci。那么,set{o}的计算过程为:
在数据认责过程中,要依据主观评定系数调整权重、阈值。依据回归分析方法,要对不同阶段的数据认责结果进行分析,并形成连续的认责体现[7],有效地记录数据认责的处理情况。
3回归分析法在数据认责中的实施步骤
数据认责的关键是完整性、准确性和可追溯性,需要对数据治理方案进行抽样调查,包括数据标准化处理程度、数据治理时间[8],数据治理安全性、数据完整性,以及数据兼容性。另外,依据回归分析方法对数据认责中的异常值进行识别,并对不同时刻的异常值进行深入挖掘,找出数据认责问题的原因。同时,对不同数据标准化处理方案的重复性,数据清洗的干净程度,重复数据剔除量进行回归判断,具体步骤如下。
步骤1收集电网后台服务器中潮流、电压、电能、功率的数据,确定数据治理的标准、指标和权重,并对标准化后的数据进行回归分析,找出影响数据认责的问题。
步骤2依据数据认责的问题进行剖析,并对不同的问题进行深入挖掘,最终确定异常值的原因。
步骤3将主观认责结果与理论认责结果进行对比,验证结果的准确性,并记录理论认责的时间[9]。
步骤4对所有标准化处理后的数据进行分析,并确定数据认责情况,若标准化数据全部处理完成,则停止认责分析,否则持续进行数据认责,并输出最终的认责结果[10]。
4数据标准化建设中数据认责的实际案例
为了验证回归分析方法对数据认责的优化效果,以电网服务器中的1GB数据进行数据认责分析,调取数据的参数如表1所列。
依据表1中的数据类型、涉及内容、治理时间、标准化深度等参数之间无显著差异,不具有相关性,可以作为回归分析方法的基础数据,能进行数据认责分析。其中,权重为0.25~0.34,阈值为各部门内部规定。
4.1数据认责的准确性
在数据认责中治理中,要对不同数据标准化的数据进行分析,验证完整度、安全性和可信度的准确性,具体结果如表2所列。
由表2可知,回归分析方法对数据认责的分析稳定性、准确性均大于80%,不同阶段的同指标比较无显著差异,不具有统计学意义。同时,完整度、安全性、可信度之间出现大幅变化,但不同阶段的同指标变化幅度小,主要是不同指标的标准化处理条件不同,数据治理复杂度不同所致。为了进一步分析原因,将回归分析法与人工数据认责法进行比较,结果如图1所示。
由图1可知,在参考线的辅助下可以发现,回归分析方法的88%~90%的数据点多于人工认责法,而85%~88%之间的数据点少于人工认责法。整体来说,回归分析法优于人工认责法,究其原因,回归分析方法对重复数据进行删除,注重安全性、完整性等指标的综合分析,而且加入了权重、阈值,标准化后的数据复杂度小于人工数据认责法。
4.2数据认责的处理时间
处理日寸间是数据认责的辅助指标,是系统资源占用、数据处理能力的间接体现,更是回归算法有效性的评价内容。将回归分析算法与人工数据认责法进行分析,对比不同方法的计算时间,具体结果如表3所列。
由表3可知,在标准化处理中,回归分析方法同指标的不同次数比较无显著差异,说明该方法的处理时间比较稳定,而人工认责法存在显著差异。在数据比例方面,回归分析方法同指标的不同次数比较存在差异,但是成倍数变化,而人工认责法呈现指数化变化。在不同方法方面,回归分析法的标准化处理、数据比例均优于人工认责法,存在显著差异。究其原因,回归分析方法以少量特征认责数据为基础,对标准化后的数据复杂度进行简化,剔除重复数据量。同时,通过调整相应的阈值和权重,以优化数据认责过程,实现安全性、可信度的高效处理。相对来说,人工评估方法的处理过程简单,人工认责无法降低复杂度,而且剔除重复数据量的时间更长。
5结束语
针对数据标准化处理过程中数据认责不清、时间过长的问题,本文提出一种回归分析方法,对标准化处理后的数据进行剔除、简化。研究结果显示,回归分析方法的可信度、安全性和完整性的准确性大于80%,1~2次标准化处理的数据间无差异,50%~100%的数据量之间存在倍数增加,各项指标均优于人工数据认责法。而且,回归分析方法的计算时间更短,计算效果更佳,可以满足数据治理中的标准化分析要求。