审计数据预处理探析

2017-09-22 06:37王志之
中国经贸 2017年16期
关键词:数据质量审计

王志之

【摘 要】当前审计人员所面临的原始资料,正由传统手工凭证、账簿和报表,逐步被具有高度抽象和关联的电子数据所代替。然而审计数据一般情况下不是拿来就能用的,需要进行一定的处理才能更好的使用。本文从审计获取的原始数据存在的质量问题入手,通过对数据预处理的来谈如何改善审计所采集的原始数据质量,提高数据可分析性。

【关键词】审计;数据质量 ; 数据预处理

取得被审计单位数据后,下一步该怎么做呢,直接进行审计分析?但由于各种因素影响,导致被审计单位现有电子数据存在这样或那样的脏数据,主要表现为数据不完整、数据错误、数据重复等。这些有质量问题的数据会影响后续数据分析的结果。因此,对这些脏数据进行质量分析和预处理来改善数据质量是非常必要的。审计数据预处理是指在数据质量分析的基础上通过数据清理和转换,从而把大批杂乱无章的数据集中和提炼出来的过程,为进一步分析审计数据做好铺垫。

一、数据预处理的必要性

1.被审计单位数据质量问题普遍存在

虽然大部分被审计单位对信息系统和数据管理越来越重视,但是现实审计过程中发现由于被审计信息系统管理薄弱,系统维护不到位,人员水平不足,人员变动频繁等因素影响,数据质量问题仍然比较突出,数据中大量的错误的,不合规的数据。这些问题的存在严重影响了数据分析工作的开展。所以进行数据质量分析和预处理是非常重要的。

2.被审计单位数据来源多样化带来了数据不一致性

审计过程中多渠道获取数据,可以提高审计结果准确性,全面性。我们获取的数据有财务数据,有业务台账数据,有电子表格数据,有数据库数据。数据来源的差异,必然给审计工作带来数据的不一致性问题。

二、数据质量分析主要方面

数据质量分析是数据预处理的基础,研究审计数据质量的意义在于,通过研究审计数据质量的表现形式、产生原因、对审计风险的影响,进而确定那些方面要进行预处理,为审计数据预处理提供指导,提高审计工作效率,控制审计风险。审计数据质量分析主要从完整性、准确性、一致性、相关性等几个方面进行评估分析。

1.数据完整性指数据源中需要数值的字段中数值缺失的程度

如果审计数据中需要数值的字段大量为空值或者缺省值,则数据的完整性较差。

2.数据准确性指数据源中数据值与客观真实数据值的一致程度

常见的不准确数据主要有:违法常规,如手机号码尾数不是11位;多值嵌套,如姓名为“张三、李四”;采用简称,如公司名称为“山水集团”等等。上述几种数据错误是比较直观的,在实际操作过程中,大量的数据无法直观的判断数据是否准确,需要通过一定方法进行验证,主要有规则验证法和汇总比较法。

(1)规则验证法:根据相应数据应该遵循的规则,在规则库中定义相应的业务规则,通过规则检测,判定每条记录是否符合所定义的业务规则。如果记录不符合所定义的业务规则,则该记录含有错误数据。例如身份证号码验证。

(2)汇总比较法:主要用于对数值从总体上进行检查核对的方法,通过总体数据与其他相关联数据比对,将个体之和与对应数据比较。例如将业务系统数字总额和财务系统、报表数比较分析,从总体上评估数据的准确性。

3.数据一致性指数据源中数据对一组约束的满足程度

数据不一致主要表现为数据格式不一致,例如同一属性数据有的是数值型,有的是字符型;有的日期是日期型,有的是时间型。同一信息,在不同的应用中有不同的格式。例如,字段“日期”在A中的格式为“YYYY-MM-DD”,在B中格式为“MM/ DD/YY”,在C中格式又为“DDMMYY”。

4.数据相关性是指数据与审计目的的关联程度

在采集数据时,往往来不及对被审计系统及数据做详细的了解与分析,因此并不知道哪些数据重要,哪些数据不重要。通常是确定一个范围后把数据全部采集过来,再想办法加工整理。考虑到数据的全面和丰富,以及数据采集的风险,在采集数据时一般都宁多勿缺,故采集到的审计数据往往会有许多重复,且数据量巨大。审计目的不同,对数据需求不同,有些数据不在审计要求范围内,则关联性不大。

三、数据预处理主要内容

1.数据清洗

数据清洗是发现并纠正数据错误的一道程序,针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当方法如数理统计、数据挖掘等清洗规则进行“清洗”,使“脏”数据变为“干净”数据,从而提高数据质量。当然,数据清洗还包括对重复记录进行删除、检查数据一致性。如何对数据进行有效的清洗和转换使之成为符合数据挖掘要求的数据源是影响数据挖掘准确性的关键因素,但是异构数据库在语法和语义上存在较大差异,很难找到一般性的方法。

错误数据的清洗,当错误记录数较少时,可通过人工修正。当错误记录数相当大时,通过人工修正显然不太现实。可以将错误数据筛选出来,与其他数据区别对待,如有进一步分析价值,则单独进行分析,没有分析价值时可以忽略该部分数据。遗漏值数据清洗,则需要补全遗漏值,一般使用人工补充或者从相关数据源推测最可能值补充等方法,必要的时候也可以忽略相应数据。当某一字段属性缺失的数量所占比例较高时,忽略缺失值必然会降低数据分析的性能,同样,人工补充的措施也行不通;使用全局常量、平均值或推测的最可能的值填充时,虽然填入的值可能不正确,但与其他措施相比,还是充分考虑现存数据的最多信息,尽可能的保留和其他数据之间的联系。

2.数据转换

审计软件和数据库管理软件所处理的数据都是基于一定的数据结构。当输入数据不满足软件处理的需求时,必须对它进行转换。因此数据转换是改善数据质量,提高数据可分析性的重要内容。数据转换主要包括数据环境转换和数据类型转换两个方面:

(1)数据环境转换。审计实践中,不同单位,或者同一单位不同数据使用多种不同的数据库,常用的数据库种类有SQLServer,oracle,DB2,mysql等,由于审计人员时间和精力有限不可能去熟悉多种数据库,通常对其中一两个数据库比较熟悉也比较习惯,因此如何将不同数据环境下数据转换成审计人员熟悉的数据库环境中是开展审计分析工作的重要前提。可以通过专业工具或者数据库软件进行转换,也可以通过使用ODBC进行数据采集,审计人员通过ODBC访问接口直接访问被审计单位信息系统的数据,并把数据转换成需要的格式。如Oracle可以通过ODBC将数据库中的指定表导出到MDB数据库。

(2)数据类型转换。数据类型转换主要有类型相容和不相容两种情况。类型相容指的是一种类型数据的值域通过相应的转换函数转换到另一种类型的值域上,这种转换不会丢失数据的精确度。类型相容的转换被认为是无损的转换,如整型到字符型的转换;类型不相容的转换被认为是有损的转换,如字符型到整型的转换。在一般情况下,数据库软件会自动完成数据类型的转换,例如,SQLServer可以直接将字符数据类型或表达式与datetime数据类型或表达式比较当表达式中用了integer、smallint或tinyint时,SQLServer也可将integer数据类型或表达式转换为smallint数据类型或表达式,这称为隐式转换。如果不能确定SQLServer是否能完成隐式转换或者使用了不能隐式转换的其它数据类型,就需要使用数据类型转换函数做显式转换了。此类函数有两个:cast、convert。

3.数据合并

通过将多源数据汇集起来,将相同或相似类型的数据合并到一起,便于通过审计软件或者数据库管理软件进行集中分析。数据合并主要分為横向合并和纵向合并两种。横向合并增加的数据属性数,横向合并要求,两个数据文件至少有一个名称相同的变量,此变量是合并时的重要依据,称为“关键变量”。纵向合并,不同数据文件中具有含义的数据要有相同的变量名,且数据类型也最好相同,否则需要人工处理,加大工作量。如在城乡低保审计中获取的低保数据通常是分成各个乡镇形成多张表,而这些表机构一致,可以通过纵向合并,便于后续审计分析中进行批量分析处理。

审计过程可以看成一个持续的信息加工和专业判断过程,通过数据质量分析来发现数据质量问题,进而通过数据预处理来改善数据质量,提高数据可分析性,数据预处理的过程虽然无法直接展现审计成果,但却是在现有数据基础上进一步进行审计分析不可回避的一项工作,有利于后续审计分析工作得以顺利的开展。

参考文献:

[1] 李巍,何晓蕾.提高审计数据分析的质量的对策[J].管理工程师,2013(6).

[2] 张进,易仁萍,陈伟.计算机审计中电子数据的清理研究[J].审计研究,2004(6).

[3] 吴沁红.信息系统审计内容分析[J].财会月刊,2008(10).endprint

猜你喜欢
数据质量审计
电子商务平台数据质量控制系统及仿真模型分析
强化统计执法提高数据质量
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
浅谈工程结算审计的方法与实践经验
从国家治理看审计反腐倡廉的作用