曾静
摘 要:对于计算机的数据审计的质量来说,一个重要的影响因素就是数据的质量,数据质量所产生的问题会直接的影响到整体分析的效率,这就会给审计工作带来很大的障碍。本文主要是站在目前的总体社会发展状况上,分析了计算机审计的一般流程,并指出审计数据的采集和采集以后数据的清洗、集成、转换等等环节。通体对数据质量产生问题的分类和分析,提出了具有针对性的提高数据审计质量的一些处理方法以及实现的相关技术,希望能够对以后的工作带来帮助。
关键词:数据质量;计算机审计;数据清洗
引言:随着计算机技术的不断更新和发展,涉及各个领域的计算机信息系统也逐渐的走进我们的生活和工作之中。而我们所说的面对数据的计算机审计简单的说就是对信息系统中输入、处理和输出这几个方面的电子数据进行相关的审计工作,也可以说是计算机数据的审计。计算机数据审计是目前审计工作中的一个重要的环节,也是在信息化大环境中审计部门的一项工作内容。全面且质量高的数据能够让审计工作变得更加的精准和高效,但是在目前的实际工作中仍然存在一些造假等方面的不当之处,下面进行具体的分析。
一、计算机数据的审计流程
在计算机数据的审计流程中,主要分为审前调查、数据采集、数据清洗、集成和转换、建立审计数据库、建模分析这几个主演的环节。审前调查主要是指通过对被审单位的组织结构进行了解并掌握该单位的信息系统分布和使用总体情况,从而为进一步的调查提供有力的依据。而审计数据的采集主要是指在进行审计调查之前提出相应的数据需求,在数据采集的对象和方法上得到明确,这样能够避免不必要的投入。数据的清洗、集成和转换主要就是指被审单位的信息系统可能存在一定的隐瞒成分,所以这时候对信息的筛选和过滤是为最终的结果质量打下坚实的基础。
另外就是建立数据库,数据库主要是将采集到的数据经过清洗、集成和转换之后,利用一定的装载公路将这些数据有组织的存储到审计库当中。最后,我们要做的就是进行建模分析,建模分析就是对存储的数据库进行集成、完整、一致的处理,这一环节是整个审计工作的重点,建立起相应的的分析模型能够从不同的角度和层次对这个数据进行分析,从而找到真正的审计线索,达到数据审计的最终目的。
二、计算机审计数据质量的问题分析
随着科学技术的不断发展,数据的采集在渠道和技术上都变得越来越广泛,审计数据库中的数据质量往往是由进入数据库的原始数据所决定的,而在原始数据中,一般有两种问题会破坏数据的质量,分别是单个数据源问题和多个数据源问题,下面进行具体的分析:
(一)单数据源中的问题分析
但数据源中的数据质量问题是出现在单个数据集合中的,首先数据的缺失是一个极为重要的问题,对信息输入的不正确、错误的操作等都会导致数据的缺失。其次,数据的异常和重复,数据的异常主要是指数据存在孤立点,这就使得这些数据不能符合数据的一般模型,而数据的重复则是指数据中存在多条一样的记录,但在实际中却是一个实际体,这样的数据就缺少了其本身的价值和意义。最后,就是数据的失误,数据的失误是指事物的内在属性同实体间的属性之间的关联不一致。总的来说,这些单个数据源的问题会导致审计数据出现严重的质量问题。
(二)多个数据源集成时的数据质量问题
在多个数据源集成的数据质量问题中,首先我们要说的就是数据模式的冲突,其主要是破坏数据模式相关的不一致,主要是命名冲突和结构冲突,也就是属名和实体之间存在不符合的现象。其次,就是数据语义上产生的冲突,其主要的原因就是语义和实际相关之间存在不符的现象,原因可能是因为设计者对客观赵姨阿里的阐述采用了不同的描述方法。最后,导致多源数据冲突的原因就是数据的重复冲突,也就是很有可能在同一个数据的不同数据源里会出现简单的重复现象,也有可能是重复的数据治疗存在一定的矛盾。
三、提高数据质量的一般处理方法
想要全面有效的解决计算机数据审计中的问题,那么保证审计结论的正确性就是一个重要的关键点。数据质量问题会直接的影响到审计分析的准确性,直接降低审计工作的效率,所以就要给予充分的重视,来保证审计工作的有效开展。首先我们要对采集来的数据进行质量检查,在根据从中发现的问题进行分析,进而找到问题所在的根源,并进行具有针对性的问题分析,最终将所获得数据的准确性展开分析。
下面我们来具体的介绍一下对数据清洗的步骤,首先我们要说的就是定义转换流程和映射规则,其主要就是根据数据源的数目和数据间存在的异质来对大量的数据进行变换和清洗工作。模式的变换有时会用来映射源和目标数据的模型。前期的数据清洗很有可能纠正单数据源数据中所存在的问题,并为之后的数据集成做相应的准备工作。而后期的数据清洗则是能够处理模式集成数据和多源数据中存在的问题。
校验,对数据的转换流程和转换定义的正确性进行有效的测试和评估,为了能够有效的找到数据中可能存在的错误,那么反复的校验和分析就必不可少,这样能够让错误的数据变得更明显,从而选出错误的数据,来将整体数据进行清洗。接下来的就是转换,将清洗过的数据进行回流,能够对数据中有误差的部分用正确的数据来代替,这样对于数据整体的质量也是一个十分有效的改观。
四、数据清洗的基本技术
(一)空值的处理
对于一些包含大量空值的数据质量问题来说,空值所占的比例是决定其是否应该被删除的一个根据,这些空值的数据往往不能为审计数据的模型提供有效的信息,甚至会影响建模者的视线,降低整体的数据分析效果。想要解决这一问题,最好的处理办法就是将空值数列删除,通过计算每行的空值数据比例删除大比例的部分以保证整体数据的质量。
(二)数据缺失的处理
对于缺失的数据来说,我们可以用四种方法来填补其中缺失的部分,包括使用一个固定的值来填充缺失值、使用属性的平均值来填充缺失值、使用成数推导值来代替缺失值、使用最有可能的值来代替缺失值。这几种方法都是有效的填补数据中有缺失部分的方法,其能够将整体的数据进行不断的完善,从而改变其质量上的不足。
(三)对数据异常的处理方法
所谓的异常数据指的就是远离或者超出某个正常的的数据分布状态的数据,这些数据的共同特征就是其在数据中的孤立点的存在。对这些数据中的孤立点的处理首先要做的就是将这些孤立点找到,因为孤立点的存在是其数据质量上的问题所导致,但也可能反映了事物背后某种异常的变化状态。但是对孤立点本身的研究也是十分必要的,它往往可能蕴含着数据审计中的一些重要的线索,所以就要在找到孤立点以后再通过人工的核对来确定是否是真正的孤立点,如果是真的孤立点那么就可以将其视为干扰数据进行删除。对于孤立点的检测方式来说,要依据数据的多少来确定,如果数据的量不是很大,那么就可以通过人工检测的方法来进行寻找,如果数据量很大那么就要借助于计算机的自动监测系统进行检测。
结论:总的来说,在面向数据的计算机审计中,数据的质量是影响整体审计结果的一个重要的因素,所以想要提高整體的数据审计质量,就要从数据源的质量上来把握,准确的找到数据存在的问题,并借助相关的技术方法进行有针对性的数据清洗,以此来保证审计结果的合理性。
参考文献:
[1]米天胜,张金城. 面向数据的计算机审计中数据质量问题的探讨[J]. 审计与经济研究,2006,01:40-43.
[2]李春青. 计算机审计中数据质量评价指标体系初探[J]. 审计月刊,2006,04:12-13.
[3]刘红明. 探讨面向数据的计算机辅助审计[J]. 财经界(学术版),2014,04:240.