基于数据挖掘算法的审计数据分析及案例应用

2020-06-10 12:02王良鲍喜王云周建成张海超
中国注册会计师 2020年6期
关键词:广告费数据挖掘算法

王良 鲍喜 王云 周建成 张海超

“数据挖掘”通常也称为“知识发现”,顾名思义就是从海量数据中找出有用的知识。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。本文主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据,通过机器学习和数据库的交叉运用,从而实现基于数据分析挖掘的审计方法。

数据挖掘是针对日益庞大的电子数据应运而生的一种新型信息处理技术。它一般排除人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的模式或活动。这些模式或活动是指隐藏在大型数据库、数据仓库或其他大量信息存储的特定数据。利用数据仓库中包含的信息,数据挖掘可以发现注册会计师(CPA)原先根本没有关注过的问题。数据挖掘方法千差万别,不同的方法应用于不同的领域和对象。选取合适可行的挖掘算法对挖掘的效果起着重要的作用,它将直接影响我们的决策。在实际运用过程中,很多挖掘方法不是单独使用的,它往往和其他方法结合起来,才能产生预期的效果。

本文对数据挖掘分析方法在审计数据分析中如何应用进行深入研究,同时结合数据挖掘应用案例探索其具体实现路径。

一、基于数据挖掘算法的审计应用

对于审计人员来说,如何利用人工智能技术、图算法、机器学习、迁移学习、数据挖掘算法等新技术,实现审计人员从被审计单位海量的数据中心找出高质量的审计数据,挖掘潜在的审计疑点,作为审计证据是一个难题。数据挖据技术的出现,为审计师进行大数据分析和挖掘有价值的数据提供了可能。基于挖掘技术的审计就是利用各种数据分析方法对审计数据的充分利用、充分挖掘,以获取更多相关的审计线索。其主要达到如下目标:

(1)直接提供审计证据,如明显违反会计准则和相关会计法规的行为;

(2)发现异常信息,起到“红旗(red flag)”的指向标作用,能引起审计师的注意;

(3)借助数据挖掘技术,可部分代替审计职业判断,减轻审计师的工作强度。

数据挖掘技术在审计中的应用包括数据验证、数据分析、智能推理三个方面。具体如图1所示。

1.数据验证

数据验证子系统具体可分为检查、核对两大功能。检查是按照会计准则和相关政策法规的要求,对某一项数据或处理进行检查,以发现是否有违反规定的情况。核对是将某些具有内在联系的数据,按照其勾稽关系,进行逐一核对与排查,其目的是验证被审计单位信息系统业务流程的正确性,有无人工非法干预等,为分析提取数据间的隐性关系做好基础支撑。数组验证包含全面重算、社会对账两个重要方法。

(1)全面重算:是对导入会审软件的基础数据,按照与被审计单位相同或相似的处理方法全方位重新计算,来验证被审计单位提供数据的真实性与正确性,以及信息系统处理逻辑的正确性,这是一种简单、经济的防止“假账真查”的方法。

(2)社会对账:社会对账目的是实现对原始凭证和公允价值的自动化查证。它要求监管部门建立会计信息中心,要求各经济单位定期上传标准格式的会计数据,CPA通过相关的认证机制从中获取标准对账数据。从而克服传统函证方式的不足,实现原始凭证查证的自动化。通过专业估价网站,获取各个时点的公允价值数据进行审计。

2.数据分析

数据分析子系统具有数据检索、筛选、统计和智能分析四大功能。检索是按照CPA的要求,以灵活多样的方式向CPA提供信息,达到“想看什么就能看什么”的目的,使CPA彻底地从纸质资料中解放出来。筛选是依据抽样的原则与方法,按照CPA的指令将CPA感兴趣的或具有代表性的一部分数据挑选出来,目的是缩小审计范围,降低审计风险。统计为CPA提供一系列的分析指标与工具,最大程度地方便CPA进行信息处理。智能分析是运用数据仓库技术,对被审计单位的数据进行多维分析和挖掘,给CPA提供新的疑点。

基于现有审计知识的数据分析方法主要有以下几种:

(1)合规分析方法:通过会审软件的会计核算部分,根据会计准则和被审计单位业务处理逻辑的数据处理要求,检查是否有账证不符、账账不符、账表不符、表表不符的情况;账户对应关系是否正常;是否存在非正常挂账、非正常调账现象;账户余额方向是否存在异常;是否有违背被审计单位业务处理逻辑的情况等等。

(2)趋势分析方法:指CPA将被审计单位若干期相关数据进行比较和分析,从中找出规律或发现异常变动的方法。它是利用少量时间点上或期间的经济数据来进行比较分析的特殊时间序列法,此法有助于CPA从宏观上把握事务的发展规律。CPA可根据审计需要来确定时间序列的粒度,如年、季、月、旬、日等。

(3)结构分析方法:也叫比重分析法,是通过计算各个组成部分占总体的比重来揭示总体的结构关系和各个构成项目的相对重要程度,从而确定重点构成项目,提示进一步分析的方向。结构分析法和趋势分析法还可结合应用,进行数据结构比例在若干期间的变动趋势分析。应用结构分析法和趋势分析法,对被审计单位的资产、负债、损益和现金流的结构分析、趋势分析以及结构比例的趋势分析,对被审计单位的总体财务状况、经营成果和现金流量情况形成总体的全面了解。

(4)比率分析方法:比率是两个相关联的经济数据的相对比较,主要用除法,它体现的是各要素之间的内在联系。比率分析法计算简单,结果简单,便于 CPA 判断,由于采用了相对数,因此可以适用于不同国家、地区、行业、规模的客户。

(5)经验分析方法:CPA在长期的对某类问题的反复审计过程中,往往能摸索、总结出此类问题的表征。在审计实践中抓住这种表征,从现象分析至实质,就可以较为方便地核查问题。将CPA的这种经验运用到计算机审计中,将问题的表征转化为特定的数据特征,通过编写结构化查询语句(SQL)或利用审计软件来检索,查询出可疑的数据,并深入核实、排查,来判断、发现问题,便能实现根据审计经验构建个体分析模型的目的。

(6)多维数据分析:联机分析处理(on-line analysis processing,OLAP)工具为多维数据分析提供了十分有效的功能,它能够从多种角度对从原始数据中转化出来的、可真正为用户所理解的、并真实反映企业的、多维特性的信息进行快速、一致、交互地存取,从而获得对数据更深入地了解。

3.智能推理

智能推理子系统包括推理、判断和预警三大功能。推理是根据CPA经验与规则,采用机器学习、迁移学习和基于大数据技术的知识图谱,实现审计数据的融合,进一步挖掘审计知识中的隐性关系。判断是根据CPA经验与规则,针对某个问题给出一个参考性的结论。预警是自动运用已经存在的知识与经验进行推理与判断,预示问题的类型与可能发生的环节。会审软件的专家系统、智能审计系统的特征主要由该模块来实现。

图1 基于数据挖掘技术的审计系统

图2 聚类算法模型思路

图3 审计绩效评价因素

二、基于数据挖掘的数据分析与案例应用分析

数据分析、智能推理实现的核心就是数据挖掘分析方法,数据挖掘分析方法对挖掘审计线索、确定审计重点有不可忽视的作用。基于已有的审计数据显性网络,通过探究推理算法、关系挖掘算法等技术手段,实现审计知识中的隐性关系挖掘,实现丰富和扩充审计关注点知识库。如针对用电用户行为、供应商行为、支付行为、信息化用户操作行为等通过聚类分析方法找出异常行为的事项,作为审计重点关注对象。数据挖掘分析方法通常需结合使用,如采用聚类分析将业务类似的工程项目进行细分,再利用关联规则分析历史数据的领用情况,即根据历史领用情况分析出领用规律,作为编制领用标准的依据。

下面将重点对聚类算法、数值分析算法、层次分析算法在审计数据分析中应用方式和应用流程进行研究分析,并结合“基于聚类算法的广告费审计”案例进行阐述。

表1 各单位经营数据及广告费

表2 聚类分析结果

(一)聚类算法

运用聚类分析可进行一些“孤立点”的挖掘。所谓“孤立点”就是存在一些数据,它们不符合数据的一般模型。数据中的异常点可能隐藏了重要的信息,反映了企业经营中潜伏的问题或暗藏的商机。孤立点挖掘通常描述为:给定一个n个数据点或对象的集合及预期的孤立点数目k,发现与剩余的数据相比时显著相异的、异常的或不一致的k个数据。孤立点挖掘运用广泛,能用于欺诈检测,如探测不寻常的信用卡使用或电信服务。

如A公司设计了一个用于成本费用审计的模型。传统上,A公司主要通过将各个单位的成本支出进行排序,然后把排在前头的单位确定为审计关注点。面对被审计单位比较隐蔽的违规行为时,这种简单的分析方法是很难发现异常,所以应该先挖掘成本费用的数据规律,根据这些规律确定各单位进行的哪些支出存在疑点。

为此,模型思路如下:首先,利用聚类分析将各单位划分成若干组,各组内的单位具有相同的经营特征;然后,判断被审单位某项成本费用支出是否与同组单位的支出有显著差异,从而评估该成本费用支出是否出现异常,并提请审计师关注。

以广告费用为例,A公司各单位的广告投放与当地经营环境相关,如果各单位经营环境相当,其广告费水平应该相当。所以对于广告费异常检测模型是一个2步模型:首先,利用数据挖掘引擎对A公司单位进行聚类分析,将当年与被审单位经营环境相当的单位划分成一组;然后使用t检验判断被审单位的广告费是否与组内单位的广告费支出有显著性差异,如果被审单位广告费支出与同类单位的支出有显著差异,表示当年被审单位与经营环境相当的单位相比,花费更多或者更少的广告费,显示广告费的支出存在审计疑点,需要审计师执行进一步分析,模型思路如图2所示。

表1为各单位经营数据及广告费(与单位1的比值)。其中,省会城市表示单位所在地是否是省会城市,1表示是,0表示否;居民人数为单位所在地常住居民数;工业用电量和生活用电量表示单位所在地的工业用电量和生活用电量;供电容量表示单位可提供的总供电容量;供电面积表示各单位所在地供电业务的覆盖范围,这些字段统称为各单位的特征变量。

其中,“分组类别”为聚类分析的结果,可以看到单位1分到组别2之中,也就是说属于组别2的单位拥有与单位1相当的经营情况特征(表2)。

执行聚类分析之后,执行显著性检验。该步骤主要检验被审单位1的广告费支出与同组的单位的广告支出是否存在显著差异。该模型采用基于t检验的显著性检验方法,检验单位1的广告费支出是否处于组别2单位广告费支出的有显著性的差异(表3)。

从表4检验结果看,Sig.值小于0.001,表示单位1的广告费支出与组别2内的单位广告费支出有显著差异,表示存在审计疑点,审计师应该进一步关注单位1广告费与其他单位发生偏差的原因。

表3 单个样本统计量

表4 单个样本检验

表5 判断矩阵的元素标度

(二)数值分析方法

数值分析是根据字段具体的数据值的分布情况、出现频率等对字段进行分析,从而发现审计线索的一种数据处理方法。这种方法从“微观”的角度对电子数据进行分析,它在使用时不用考虑具体的业务,对分析出的可疑数据,再结合具体的业务进行审计判断,从而发现审计线索。相对于其他方法,这种审计数据处理方法易于发现被审计数据中的隐藏信息。

常用的数值分析方法主要有重号分析、断号分析、Benford 法则分析,这些数值方法已经被国际著名审计软件ACL、IDEA 等采用。重号分析是用来计算某个字段中相同数值的重复次数;断号分析是对统计字段的数据记录中是否连续性进行分析,如果有断点,则统计出来,否则只列出统计字段的最大值和最小值,它主要针对的是整型和日期型数据。Benford 法则(Benford’s Law)认为数据库中的数据与数据顺序必然遵循某种预定的规则,即符合Benford 分布,若某个系列的数据分布与Benford 分布不符,就可能存在发生错误、潜在的舞弊或其他违规行为。

本福特定律,也称为本福德(Benford)法则,是指一堆从实际生产生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的机率就越低。它可用于检查各种数据是否有造假。

Benford可以用于审计数据抽样和审计线索发现,Dr.Nigrini 从1995年开始从事Benford 法则在会计审计领域的应用研究,并发表了一些经典案例。他提出Benford 法则适用的3个经验条件:

(1)数据量具备一定规模,能够代表所有样本。一般而言,应用Benford 法则进行分析的数据集越大,分析结果越精确。

(2)没有人工设定的最大值和最小值范围。一般单位的固定资产台账数据就可能不适合Benford 分布规律,因为按照财务制度,在一定金额的固定资产才能登入台账。

(3)目标数据受人为的影响较小,一般是经过数学运算的结果。例如,价格会计数据中发票金额一般为:价格*数量。相反,单纯对价格数据进行分析就可能不符合分布规律,因为价格受人为的影响较大。

以Benford法则为基础的数值分析法则进行分析的一般流程如下:

(1)对审计领域进行分析,初步判断数据集是否符合Benford法则的分析条件,选择分析的目标字段。

(2)对总体进行分析,进行第一、二位有效数字Benford法则的符合性测试,初步发现测试线索和重点。

(3)根据初步线索,进行三、四位数字的详细分析。

(4)在需要的情况下,对数据进行细分,进行分组分析,按照1~3步骤深入挖掘。

(5)对标准分布频率和实际分布频率进行比较,记录频率偏差。

(6)研究频率的偏差,与合理偏差进行比较,寻找异常偏差点。

(7)对异常点详细数据进行分析。在必要的情况下对照原始凭证,分析出现的异常情况,落实发现的问题。

(三)层次分析法

层次分析法,简称AHP,是指将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。在风险评估和绩效测评业务中,涉及到的因素通常比较多,而且各个因素之间缺乏可比性,这给风险和绩效的量化带来了极大挑战,层次分析法为风险和绩效的量化提供了一个解决方案。

比如,某集团企业要评价其各子公司的审计绩效,其涉及的因素如图3。

由于指标众多,如何量化不同指标对绩效的贡献成为一个难点。传统方式是人为定出一个权重,各个指标考核值乘以相应权重得到相应绩效分数。这种方式主观性强,难以准确衡量不同指标间的相对重要性。

层次分析法提出构造成对比较矩阵,不是把所有因素放在一起比较,而是两两因素相互比较,以尽可能减少性质不同的因素相互比较的困难,以提高结果准确度。成对比较矩阵是表示该层所有因素针对上一层某一个因素的相对重要性的比较。判断矩阵的元素aij用1-9标度方法给出,见表5。

在对审计绩效评价层次结构模型的基础上,由专家进行评价,本文可构造相应的判断矩阵:

采用Matlab 软件,通过计算最大特征值λmax及其所对应的特征向量W,可以计算出相应的权重及CR 值,并判断各自的一致性。

基于审计绩效评价的AHP 层次结构模型,可以构建如下绩效评价模型结构:

其中,Wi为被评价对象A 指标层中的各个评价指标的权重,Wn为被评价对像A 准则层中各个准则的权重,Pi为被评价对象A 的指标层中各个评价指标的值,Mk为第K 个准则层中所包含的指标的个数,K 为准则层中准则的个数。

根据审计绩效评价模型,可以对评价对象的绩效进行评价,即对各指标层的值与相应的最终权重的乘积进行求和,可以得到审计绩效评价的结果。将此方法用于评价审计绩效,通过对绩效的纵向考核,可以得出本年度审计目标的实现程度,以进一步落实审计责任;此外,通过对总体目标层权重的排序,确定当年审计工作的主要任务和关键领域,以提高审计工作的效率,并将审计目标落实到位。根据模型评价结果,可以看出在目标确定的过程中,应充分关注员工的反馈意见以及审计的整改率,以使审计资源得到更大的发挥。

三、小结

传统的审计分析手段局限在数据的对比分析查证疑点,指标的统计分析、趋势分析、对比分析等,较少运用数据挖掘分析方法对审计线索的深度挖掘。随着大数据基础设施、大数据架构的不断成熟及完善,大数据审计已具备了软硬件条件,为深度挖掘审计线索、分析审计重点提供了数据和技术保障。

本文基于全业务统一数据中心和数字化审计平台的数据,结合案例业务特点,从数据验证、数据分析、智能推理三个方面研究了数据挖掘技术在审计中的具体应用,并分析探讨了如何通过数据挖掘算法来构建数据分析与智能推理子系统,同时研究了聚类算法、数值分析法、层次分析法在审计中的应用方法。通过对审计数据的深度挖掘与分析,探索了从模型分析->模型构建-> 模型结果与评价的构建路径,并结合具体案例进行分析、验证了技术实现路线。通过对数据挖掘分析的研究实现了审计业务由事后监督审计向事中、事前审计的转变,通过审计工作模式的转变,从而提升审计的工作效率。利用数据挖掘算法,探索构建审计模型,对于数字化审计的建设和实现,具有重要的指导意义。

猜你喜欢
广告费数据挖掘算法
哪种算法简便
探讨人工智能与数据挖掘发展趋势
世界数字广告费快速增长
Travellng thg World Full—time for Rree
世界广告费增长
世界广告费持续增长
算法框图的补全
算法初步知识盘点
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究