项郎 花旗金融信息服务(中国)有限公司
面对大环境下的金融改革,商业银行中的数据仓库在进行数据处理过程中会出现很多错误,对数据仓库来说,数据的质量问题成为关键,这直接能够影响整个运作系统的质量和速度,影响决策的正常发布。对于商业银行来说不能容许数据的错误,所以要加强数据质量管理的关键技术,制定有效手段来解决出现的错误,保证仓库监管质量。
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据质量是通过一定的流程加工原始数据变成优化之后的数据供企业使用。最终完成的数据可以根据数据的完整程度以及有效程度进行评估,可以在数据仓库建设的生命活动中去衡量处理结束之后的数据质量。
国外对此领域的研究比较早,已经取得了很好的研究成果,而国内相对来说研究的比较晚,也相应地提出了研究成果,在不断研究的过程中会对数据质量有很大的帮助,但是面对信息发展迅速的时期,商业银行已经对数据需求应用的更加深入,对数据质量关键技术有更高的要求,但是当前的研究成果并不能满足现在的需求,受环境和周边影响因素比较大,而且不能够具体地处理数据质量,监管不到位导致数据质量管理方案不能够有效地实施,改进的地方需要进行分析评估。
商业银行应用的大部分数据都是来自于企业数据仓库,但是质量并不高,关键是在于数据种类繁多,来源不同,所造成的数据问题更是多种多样,例如数据不完整或者有重复数据的出现,会影响商业银行的工作效率。因此,面对繁多的数据,对其质量的把控就显得尤为重要,而且需科学合理的管理方法为指导。
进行数据仓库使用时,要制定数据检查标准,对反应数据质量问题有着很好的作用,可以改善数据质量的管理过程。将技术指标明确化,确保数据的完整性以及一致性,同时保证正确和有效,在规定时间内完成数据的生成。将业务指标进行汇总,确保明确记录各项指标总值的变化程度,而且可以根据变化的规律进行分析数据。将操作指标严格执行,重点观察文件命名以及文件个数是否正确,在进行索引标记的时候要仔细对比是否相对应。
保证质量的过程中可以通过预防和控制进行,预防每个数据传输过程,严格规范质量并且防止混乱数据的出现,在数据转换阶段进行严格控制,将混乱数据用特定的算法排除出去,两种方法同时使用才能够保证数据质量,而且还可以在ETL中加入制定好的规则保证数据在输送过程中不会出现漏洞,在商业银行数据仓库中实现生命周期长的目的。
数据质量管理关键技术可以从数据源中改进数据库、文档以及外部数据。脏数据指无意义或不规范等的数据集称,数据质量管理重要的是将数据改进优化,优化过后的数据能够提高数据仓库的质量,同时能进行数据清洗,可以根据模式进行清洗,将不好的模式进行优化设计,主要是通过人工进行。实例层的清洗主要是将错误值进行统计,将字段合适匹配,由系统自动处理。
ETL的数据采集系统将大量的数据信息采集,但是会影响到结果,所以要使用排重减少重复数据,提高数据的质量。经常使用的计算方法有欧氏距离和基于编辑距离,但是这些算法不适用于大规模的数据库,所以针对大数据库最简单的办法就是通过文本以及数据比较,同时在处理过程中会发现simhash的排洪发是最合适的,但是成本会比较高,经常会采用simhash以及minhash两者相结合,根据实际情况进行运用。
在数据处理阶段可以采取数据过滤,将对异常数据进行分析,但是一般情况下异常数据隐藏较深还要结合人工进行检查。ETL的流程是将数据后去清洗最后转换,完成各种数据更新,将传统的数据进行改进,布置在高性能主机上利用并行结算点进行处理,可以将数据抽取到临时数据库中降低耦合性,可在转换过程中处理错误数据,提高效率。
综上所述,在商业银行数据库项目的实施过程中,应提升数据质量管理的关键技术,对报表中的数据严格把关,这样能对数据质量提出有效控制,降低成本。除此之外还能够在管理过程中及时发现问题并排除问题,有效提高数据质量。
[1]张静.大数据时代数据仓库的技术跟进[N].中国信息化周报,2014-04-21(027).
[2]任伯群.商业银行数据仓库建设实践与研究[J].电子技术与软件工程,2014(05):205.
[3]李海波.商业银行数据仓库系统设计与实现[D].大连理工大学,2015.