夏荣 赵捷
摘要:随着企业信息化的发展,数据质量的好坏,直接影响到信息的准确程度,关系到企业管理层基于信息做出的判断与决策。在主数据管理中,解决系统集成时异构系统性能异常所导致的数据差异问题,是企业竞相追求的目标,但是单凭相应人员的手动调整,成本不低,因此建立一种自动化的数据质量调节机制势在必行。文章结合STEP主数据管理平台,提出一种数据差异的负反馈调节机制,全面提高企业信息化系统中的数据质量,通过真实的案例对比,证实了数据质量得到极大的提升。
关键词:数据质量;企业信息化;负反馈;主数据管理;系统集成
中图分类号:TP39 文献标识码:A 文章编号:2096-4706(2021)07-0123-04
Application and Implementation of Negative Feedback Regulation Mechanism in Data Quality Management
XIA Rong,ZHAO Jie
(Information Center of Zhuzhou CRRC Times Electric Co.,Ltd.,Zhuzhou 412001,China)
Abstract:With the development of enterprise informatization,the quality of data directly affects the accuracy of information and the judgment and decision-making made by enterprise management based on information. In master data management,it is the goal of enterprises to solve the data difference caused by abnormal performance of heterogeneous systems during system integration. However,the cost is not low only by the manual adjustment of corresponding personnel. Therefore,it is necessary to establish an automatic data quality adjustment mechanism. Combined with the STEP master data management platform,this paper proposes a negative feedback adjustment mechanism of data difference,which can comprehensively improve the data quality in the enterprise informatization system. Through the comparison of real cases,it is confirmed that the data quality has been greatly improved.
Keywords:data quality;enterprise informatization;negative feedback;master data management;system integration
收稿日期:2021-03-18
0 引 言
在大数据时代,数据的商业价值日益凸显,而数据质量的好坏则是重中之重,为提高数据质量,国内外众多学者纷纷进行了深入的研究,文献[1,2]对数据质量和系统理论进行了深入说明,文献[3,4]对数据质量评估方法进行了研究,文献[5,6]分别介绍了国内外信息化数据质量管理方法,文献[7]介绍了企业报表的数据质量管理,文献[8]从电力企业的实际业务出发,分析了全面实施数据质量管理的方案和意义,文献[9]分析了企业数据质量的监控与提升方案,文献[10]对企业信息化中统计数据的质量因素进行了分析,文献[11-19]分别对企业信息化中数据质量差异的现状和影响因素,提升与优化方案进行了探讨。纵观之前的研究成果,对数据质量的自动化调节尚未深入实践研究。本人在中国中车下一级子公司中车株洲所负责主数据管理系统的运维,每天面对几万条数据在系统中交互,业务繁忙时有几十万条数据在主数据管理系统中完成数据的集中存储分发,通过企业服务总线监控,发现每一天在主数据经企业服务总线分发到下游系统的过程中,都会出现数以万计的服务異常,高并发时则更严重,如若仅凭人为干预去调节这种异常,工作量之大可想而知。为此本人创造性地提出一种数据质量自动调节机制,通过在下游系统和主数据之间建立增量负反馈调节下发机制,有效解决了企业数据质量不佳的问题,极大地降低了企业数据质量管理的运维成本。
1 数据质量定义及其评价指标
数据质量,顾名思义就是数据的质量,也包括数据值的质量、数据模型设计的质量、数据管理流程的质量。数据质量指标(Data Quality Index,DQI),是基于最小化“数据缺陷(错误)率”,通过持续不断的数据质量验证进行管理的评测指标,主要包括数据的完整性、唯一性、有效性、一致性、准确性、及时性。
1.1 数据的有效性
数据的有效性(Validity)是指数据项必须满足所定义的数据有效范围以及域条件,在确保数据的一致性、唯一性、准确性、及时性、完整性的前提下,需要考虑数据的有效性。
1.2 数据的准确性
数据的准确性(Accuracy)是指现实世界中存在的对象表示值,必须准确地反映出来。有了可靠的原始数据,才能加工出准确的信息,并保证决策者做出正确的判断。
1.3 数据的及时性
数据的及时性(Timeless)是指数据产生的时间须满足业务分析的时间要求,一个好的应用系统在使用数据时,不仅要求数据的适用性,还必须考虑数据的及时性。
1.4 数据的完整性
数据的完整性(Completeness),其重要性远不及数据的准确性和及时性,但其作用也不容小觑。数据的完整性就是我们日常所说的“数据齐、全、准”当中的“全”,必需的数据项,不得遗漏。
1.5 数据的唯一性
数据的唯一性(Uniqueness),即表示数据项必须唯一,不得重复。包括单独唯一性和条件唯一性,单独唯一性是指字段必须为唯一值,比如客户的ID必须唯一;条件唯一性是指根据业务条件字段值必须唯一,例如教育课程的安排、课程日期和开设地点必须唯一。
1.6 数据的一致性
数据的一致性(Consistency)是指数据所要遵循的结构和值,表现为数据的形态必须始终一贯、一致。体现在四个方面,分别为指标代码一致性、参照一致性、数据流一致性、字段连贯性。
数据除具有上述质量特性之外,还具有可取得性、可衔接性、可解释性、客观性、专业性、可比性等非质量特性,这些特性对数据的质量控制不会产生较大影响,因此不做过多的讨论。
数据质量度量可以帮助企业建立全面的数据质量监控体系,企业的数据质量管理员,根据数据的不同性质综合运用数据质量度量,实现对企业数据质量的监控有重点、不遗漏。例如,对于数据仓库基础库表,侧重于完整性、唯一性、一致性的监控;对于报表、指标等最终输出数据,侧重于准确性、及时性、合法性的监控。
数据质量的完整性、唯一性、准确性等需要前台的校验规则去规避,设定好规则,录入数据的这几项指标就能得以提高,及时性、有效性主要是通过流程设计合理和接口逻辑严谨把控的,本文主要在主数据系统(Stibo System)中,从一致性方面考虑,通过定性分析和定量计算,探究反馈调节机制在数据质量管理中的应用。
在应用系统中,各个系统中的接口调用异常时有发生,网络的波动,下游系统的性能不佳,高并发时的接口不足,均会导致数据传递异常,这方面的问题不属于错误,往往可以通过重新同步得以解决,比如在系统性能稳定或网络条件好时即可恢复,但是不定期大量数据的手动重复调用是一个很烦琐的工作。本文所探讨的反馈调节方式——一种自适应数据调节下发机制,可有效提升数据质量。
2 反馈的基本概念
反馈又称回馈,是控制论的基本概念,是指将系统的输出返回到输入端并以某种方式改变输入,进而影响系统功能的过程。反馈可分为负反馈和正反馈。前者起到使输出与输入相反的作用,使系统输出与系统目标的误差减小,系统趋于稳定;后者起到使输出与输入相似的作用,使系统偏差不断增大,使系统振荡,可以放大控制作用。对负反馈的研究是控制论的核心所在。
3 负反馈调节机制在主数据管理中的应用
STEP主数据管理系统中数据的进入由Inbound集成端点控制,数据下发由Outbound集成端点控制,数据的运算由EventProcessor控制,除了Inbound,Outbound和EventProcessor都可以受监听触发,三者均可以根据规则去运算处理,STEP主数据管理系统客户端界面如图1所示。
以物料主数据下发ERP为例,实验步骤为:
(1)在客户端上建立一个EventPorcessor(事件处理器),并设置监听字段为erp_matl_check_status(ERP物料數据差异质检状态);该字段初始值为空。
(2)在Inbound中加入规则,规则逻辑为与ERP传输过来的字段数值作对比,多个字段差异按照字符串拼接,并把差异描述信息更新为这个字段的值,数据每次反馈进入主数据均会更新这个字段的状态。
(3)我们利用事件处理机制的API来编写业务规则Queue.republish(node),当所监听字段触发变动时,通过EventProcessor运算这个规则,将产生的事件发送到下发ERP的队列(crrc_matl_outboundALL)。
(4)ERP产生增量数据后定时传送到主数据Inbounnd所存储目录,如此形成闭环,当数据无差异时,EventProcessor不会受监听触发,整个过程达到收敛。
图2为主数据负反馈调节数据完整架构图,数据由上游系统录入,在主数据管理系统中完成集中存储分发,数据分别流向下游系统。为保证下游系统的数据质量,我们在每个下游系统和主数据系统之间建立增量反馈通道,细节如图3(负反馈调节原理图)所示。假设设定某一数据类型,下游系统反馈到主数据的数据量为增量a,上游系统传入主数据产生的增量为b,b可以大于a,小于a,或者等于a,b大于a的情况我们不予考虑,这种情况在实际中也会存在,一般是系统出现大故障之后的数据状态,因此当a=b时,数据进入主数据之后,进行差异比对,利用主数据内部触发机制,将差异数据再次下发进入下游系统,如果a
除了这个流程架构以外,主数据内部触发机制也是此次讨论的重点。纵观市面上各种数据管理产品,字段监听、触发下发都是采用这样的實现机制,在主数据差异字段被监听之后,通过编写一定逻辑的业务规则,EventProcessor数据事件处理器将对应事件发送到对应的系统下发队列,进行数据重新发送。
为了比较数据一致性,我们设向量A={a1,a2,a3,…,an},B={b1,b2,b3,…,bn}分别表示在两个系统中主键相同的两条数据,其中a1,b1抽象表征对应属性值,在这里我们只比对是否相等,记相等为0,不相等为1,则两个系统数据差异可以通过式(1)确定:
(1)
通过式(1)可以得出结论,当S为1时,数据完全差异,当S为0时,两个数据无差异,当S≠0时,即可断定这条数据不一致。现在将m条数据分别计算S值,并取平均值,即可得δ值,此参数表征两个系统中同一种数据的平均差异情况,δ越大,差异越大,反之δ越小,差异越小。
(2)
以系统中特定工厂的564 513条物料数据为例,核心属性(45个),将数据全部下发,经过一定时间传输后,分别计算统计引入负反馈调节机制和无反馈调节的数据差异情况,相同的系统条件下,登记并计算δ,结果如表1所示。通过在实际的业务中增加反馈调节机制,从表1中可以看出主数据与下游系统的数据质量差异,明显有了质的改变。
在此反馈调节过程中需要注意的是,数据差异字段的评判逻辑,比如主数据A的属性为kg,下游系统的属性值为千克,如果评判逻辑为严格一致,那么每次反馈的差异将会是不一致的,这会导致数据增量每次反馈,触发下发,反馈,触发下发,陷入无限循环,这样会对系统性能造成很大的影响,我们需要在性能和质量上寻求一个平衡,比如设置一定的循环次数,当到达此次数后,跳出循环。此外,这种反馈调节机制,对于由数据本身准确性所导致的下游系统校验问题、流程及接口的逻辑错误问题是不可修复的,对于此类问题,将会以邮件通知的形式,通知对应的数据管理员,告知其及时对数据做出修正。
4 结 论
本文在企业实际业务系统中,即在主数据平台和下游系统之间建立一种反馈调节通道,提出一种数据质量的负反馈调节机制,从数据质量的差异性角度出发,通过对实际业务运转的定性分析和定量计算,有效减少了主数据上下游系统间的数据差异,同时自动调节方式有效减化了系统中人工梳理数据的过程,降低了运维成本。随着企业信息化的不断深入,数据的质量越来越重要,在大数据、云计算时代,对数据质量的监控、调节应朝着更加自动化和智能化的方向发展。
参考文献:
[1] KAHN B K,STRONG D M,WANG R Y. Information quality benchmarks:product and service performance [J].Communications of the ACM,2002,45(4):184-192.
[2] ORR K. Data quality and systems theory [J].Communications of the ACM,1998,41(2):66-71.
[3] 杨青云,赵培英,杨冬青.数据质量评估方法研究 [J].计算机工程与应用,2004(9):3-4+15.
[4] 黄武锋,郑华.面向企业信息化的数据质量评估研究 [J].计算机技术与发展,2011,21(1):185-188+192.
[5] 宋敏,覃正.国外数据质量管理研究综述 [J].情报杂志,2007(2):7-9.
[6] HUANG K T,LEE Y W,WANG R Y. Quality information and knowledge [M].Upper Saddle River:Prentice Hall PTR,1998.
[7] 胡文娟.企业报表系统的数据质量管理 [J].中国新通信,2017,19(22):97.
[8] 王英洁.企业全面数据质量管理体系研究 [C]//2010电力行业信息化年会.2010电力行业信息化年会论文集.长沙:期刊会展中心,2010:169-172.
[9] 毛一凡,张冰,任毅.企业数据质量的监控及提升 [C]//2017智能电网发展研讨会.2017智能电网发展研讨会论文集.北京:出版社不详,2017:313-315+432.
[10] 温雪,张伟.企业信息化统计数据质量影响因素分析 [J].山东工业技术,2018(8):219.
[11] 陈远,罗琳,沈祥兴.信息系统中的数据质量问题研究 [J].中国图书馆学报,2004,30(1):48-50.
[12] 亓文会,李传春.企业信息化中数据质量监督控制研究 [J].中国管理信息化(综合版),2007(7):15-17.
[13] 卢绍年.浅析企业信息化建设与数据质量 [J].广西电业,2013(3):88-89+96.
[14] 谭驰.数据质量管理系统研究与应用 [J].贵州电力技术,2014,17(4):71-73.
[15] 朱如,李庆峰.数据质量管理与企业信息化建设 [J].计算机时代,2005(6):31-33.
[16] 彭健恩.探讨数据质量管理的未来发展 [J].科技资讯,2017,15(29):242-243+245.
[17] 景瑞娜.提高数据质量管理的几点思考 [J].中国金属通报,2018(4):137-138.
[18] 毕月侠.影响企业信息系统数据质量的因素和提高的措施 [J].现代商业,2009(12):222-223.
[19] 赵长生,姜立勇,董松金,等.制造型企业信息化基础数据整理研究 [J].机械设计与制造工程,2013,42(1):44-48+52.
作者简介:夏荣(1987—),男,汉族,湖北洪湖人,助理工程师,硕士研究生,研究方向:混沌图像加密、主数据管理、大数据技术;赵捷(1988—),男,汉族,湖南株洲人,助理工程师,硕士研究生,研究方向:数据分析、数据挖掘、机器学习。