现金轨迹数据挖掘的审计应用

2023-05-30 04:39刘凤委杨月
财会月刊·上半月 2023年1期
关键词:数据挖掘

刘凤委 杨月

【摘要】大数据技术正在重塑和变革现有审计理念与方法。与传统基于会计信息实施审计监督不同, 大数据审计开辟了从原始数据直接获取知识的新方式。实践中比数据挖掘技术更重要的是找到具体审计业务应用场景, 本文提出现金轨迹数据理念, 将现金在企业与银行账户间频繁流动所沉淀的多维电子数据加以运用, 基于数据挖掘技术发现审计线索并形成审计判断。

【关键词】现金轨迹数据;数据挖掘;大数据审计

【中图分类号】F239      【文献标识码】A      【文章编号】1004-0994(2023)01-0102-6

一、 引言

数字经济时代环境下, 技术创新和应用与时俱进, 大数据、 人工智能、 区块链等新兴技术的发展对审计监督活动产生了前所未有的深刻影响。一方面, 大数据等新兴技术在经济活动中广泛应用, 使得审计对象的形态、 特征发生了前所未有的变化; 另一方面, 作为经济监督活动的审计自身也在发生深刻的变革, 传统审计手段逐步被新兴审计手段所取代(姜江华,2022)。传统审计模式也已经不能适应大数据环境下的审计工作, 审计需要从传统的审计思维向持续审计思维、 全量信息思维、 以人为本思维和智能审计思维转变, 以大数据技术为核心开展审计工作成为审计发展的新趋势(王海洪等,2021)。2014 年, 国务院发布《关于加强审计工作的意见》, 提出将大数据技术应用于国家审计, 提高信息化技术应用程度。2015 年, 国务院在《促进大数据发展行动纲要》中提出国家大数据战略, 进一步强调大数据的重要性。面对大数据等数字技术的产生和发展, 审计人员需要应时而变来适应由此带来的变化, 面对日益庞大的数据量以及复杂的数据环境, 利用更加高效的审计手段对被审计对象进行审计(秦荣生,2014), 新时代信息技术下审计技术与方法的研究已经成为当下以及今后一段时期亟需研究的重大问题。

近年来, 我国资本市场频繁出现严重的上市公司资金舞弊问题, 显著干扰了资本市场的有序运行, 影响了注册会计师行业的声誉。2021年12月31日, 中国注册会计师协会(简称“中注协”)发布的《关于做好上市公司2021年年报审计工作的通知》中指出: “货币资金项目属于五个高风险审计领域之一, 注册会计师应当予以高度关注, 以更有效地识别、 评估和应对财务报表重大错报风险。”由于货币资金项目的固有风险较高, 注册会计师在审计过程中应当设置较低的重要性水平, 并通过监盘库存现金、 检查银行对账单和余额表、 函证银行存款余额等实质性程序降低检查风险。但在实务中, 这些程序由于执行力度不够或方法欠佳, 尚不能完全应对企业的货币资金舞弊问题。在对涉及货币资金造假的上市公司的审计机构出具的行政处罚决定书中, 经常性指出会计师事务所“货币资金审计程序存在缺陷”“实质性程序执行不到位”, 进而未能识别出虚假银行流水、 大额未达账项等。由于现有审计程序更多地侧重于审查与库存现金、 银行存款相关的余额, 而对每笔交易的来源、 发生额的关注度不够, 在针对货币资金项目进行审计时很可能忽略潜藏的漏洞。

传统审计注重从会计报表项目出发追寻审计线索, 然而财务报表项目是对海量原始数据聚合压缩后的信息, 这一过程也遗漏了很多有价值的内容, 注册会计师仅通过财务报表获取的科目余额所呈现的信息有限且准确性不足, 如果不对背后的原始现金流水予以足够关注, 在针对货币资金项目审计时很可能忽略潜藏的漏洞。2019年中注协发布的《审计准则问题解答第12号 —— 货币资金审计》(简称《问题解答第12号》)中也提到“要关注货币资金的发生额, 包括银行交易流水、 交易凭证等”, 更加肯定了現金流水的价值。现金流水数据属于企业的原始数据, 是编制财务报表的原材料之一, 由于其具有海量、 难以被篡改、 管理频率高等特点, 比财务报表的颗粒度更加细致, 能够更加真实、 准确地刻画出企业的资金全貌。但传统审计模式不仅无法获取这些数据, 方法上也无法实现对海量数据的全覆盖, 而当前大数据技术的蓬勃发展为处理海量现金流水数据提供了有力的技术支撑。中注协在《问题解答第12号》中明确提出利用数据分析等技术, 核查银行收付款流水的可行性。针对现金流水数据的处理, 数据挖掘技术是不容忽视的工具, 在连续五年发布的影响中国会计从业人员的信息技术评选中, 数据挖掘技术一直位居前列。本文以此为切入点, 利用数据挖掘技术对企业的原始现金流水数据展开分析, 以探索大数据时代下货币资金审计的新思路。

二、 现金轨迹数据与审计思维模式转型

1. 现金轨迹数据源于轨迹数据思想。轨迹数据属于计算机应用技术领域的概念, 源于位置感知应用, 又称为“轨迹大数据”“时空轨迹数据”等, 它是指通过对某一物体运动过程进行采样而获得的数据, 一般包含物体运动的位置、 时间、 速度等信息, 该物体可以是单一个体, 也可以是基于某一特征而划分的群体。轨迹数据具有时空、 运动、 语义、 异频采样特征, 同时符合大数据的 “5V” 特征(Volume、Velocity、Variety、Veracity、Value), 往往通过数据挖掘技术对此类数据进行处理分析(高强等,2017)。如果将企业现金作为研究对象, 现金在不同账户间的流入与流出可以看作是现金的运动过程, 以账户为节点, 就能够模拟出现金运动轨迹; 同时, 由于每条银行流水都记录了交易时间、 账户名称、 交易原因等信息, 与轨迹数据的时空、 运动、 语义特征具有较高的重合度, 因此在利用数据挖掘技术分析原始现金流水的研究中, 本文借鉴了轨迹数据的思想, 提出“现金轨迹数据”的概念。现金轨迹数据指的是以企业现金总体为研究对象, 记录现金在各个账户间运动轨迹的数据①, 如图1所示。

2. 现金轨迹数据比传统的现金流水概念更具优越性。现金流水属于传统财务领域中的概念, 现金轨迹数据则是大数据时代背景下的产物。从外延来看, “现金流水”与“现金轨迹数据”所反映的客观事物都是现金, 二者等同; 但从内涵来看, 二者的侧重点不尽一致。现金流水体现的是现金的体量属性, 即金额多少。在现代汉语词典中, “流水”一词的引申义为销售额, 如流水收入。古人云: “流水者, 按日挨登如流水之盈科渐进也②。”从会计的角度来看, 它体现了流水账就是每日登记入账金额的过程, 如同流水不断充盈, 奔涌向前。现金轨迹数据的内涵更为丰富。“轨迹”一词与“流水”不同, 它指的是以时间为尺度, 记录物体在空间上的运动过程。从物理学的角度来看, 这一运动过程包括了路程(长度)、 方向、 速度、 曲率等许多特征; 同时, 在轨迹数据的可视化中, 如果研究对象为群体, 绘制线条的粗细、 密集程度还能反映出体量大小。可见, 现金轨迹数据这一概念涵盖了现金的体量(金额)、 时间、 空间等多个属性(如图2所示)。针对同一对象, 现金流水与现金轨迹数据两种概念的背后体现的是两套不同的范式: 在不同的时代背景下, 借助不同的概念引导人们对同一事物转变思考角度, 再借助不同的算法, 从而最终加工出不同的信息产物(李琳等,2021)。

3. 现金轨迹数据概念引领数据挖掘新角度。在自然科学领域, 新概念的提出往往需要经历严谨的实验才能得出结论; 而在会计等人文社会科学领域, 新概念的产生建立在思辨的基础之上。概念是思维的基本因素(孙建中,1988), 定义概念体现了认识客观事物的方式, 同时引导新的思维方式, 切换概念意味着转变思考的角度。在传统会计中, 由于现金流水具有金额属性, 满足货币计量的会计基本假设之一, 通过既定的会计准则, 能够输出会计的最终产品 —— 现金流量表, 为报表使用者服务。在当前大数据时代背景下, 数据挖掘技术是不同于会计准则的另一套方法, 在分析数据的过程中, 为提炼出更多隐藏的信息, 不应当仅关注现金的金额属性。以现金轨迹数据③概念作为引领, 有助于分析者跳出传统范式的框架, 从数据挖掘本身出发, 充分利用时间、 空间、 语义等更多维度的特征, 使货币资金信息不是停留在静态余额上, 而是动态探索每笔交易的运动轨迹, 更好地发现数据之间的往来关系, 从而更有助于发现潜藏问题。

4. 现金轨迹数据影响审计思维与模式。基于知识管理理论DIKW模型(Ackoff,1989), 数据是信息的原料, 信息是具备结构化和指向性的数据集合, 是数据提炼出的产品, 人类大脑特质决定了很难直接处理数据, 而是先对数据进行降维, 并从信息中获取知识和智慧。会计信息生产系统运行的本质, 也是利用特定规则算法对会计数据实现数据降维的过程(李琳等,2021)。传统财务报表审计对象, 往往是从会计信息出发来探寻审计线索, 而会计信息本身在生产加工过程中并不是对所有数据的完整记录, 数据降维到会计信息过程中丢掉了本来很有价值的数据。在大数据技术应用普及的时代, 随着记录、 存储、 处理数据能力的不断提高, 可供记录的数据颗粒度更细、 体量更大, 那些原本被抛弃的“无用”的数据现在不仅能够被记录, 而且可以被纳入计算。大数据审计可以有效利用数据挖掘和处理技术, 直接从财务原始数据出发去获得关键审计线索, 放弃以往的抽样审计逻辑, 直接基于全样本数据, 利用大数据技术处理海量数据并获得关键审计结论。因此, 相较于传统会计信息观所强调的现金流水定义, 现金轨迹数据概念存在显著不同, 它是对资金流动过程中在虚拟电子账户中存留的所有数据信息进行全方位记录并直接用于审计活动, 改变了原有的审计思维与模式, 体现了数字技术在审计领域的创新应用。

三、 现金轨迹数据挖掘流程设计

大数据审计工作需要将数据、 分析和审计工作三方面综合起来进行, 通过数据采集、 数据预处理、 数据存储等技术对数据进行加工处理以获得价值密度更高的数据集。现金轨迹数据来源于企业内部, 是整个数据挖掘流程的原材料, 会计师事务所承接审计业务后, 可以要求被审计单位提供原始的现金轨迹数据。海量繁杂的原始数据难以直接有效地加以利用, 需要经过层层数据挖掘步骤, 对数据提纯, 最终为注册会计师提供有价值的尽调分析报告。因此, 数据挖掘的流程设计至关重要, 完整的数据挖掘流程包括数据预处理、 自动校验数据质量、 数据标签化处理、 多维度数据分类与聚类、 风险预警、 数据可视化六步④。

1. 数据预处理。原始数据的质量直接影响到数据挖掘的结果, 也会进一步影响审计质量和效率。由于财务人员专业水平、 公司系统规范、 开户银行提供的流水字段要求不一致或者被审計单位刻意隐瞒等, 会计师事务所获得的原始数据往往存在着关键字段缺失、 数据记录重复、 存在异常值、 伪造对账单等问题, 为保证数据的准确性、 完整性、 一致性、 时效性和可信性等, 必须进行数据预处理, 这是数据挖掘的第一步。结合现金轨迹数据的特点, 数据预处理阶段的工作主要包括数据选择、 数据集成、 数据清洗和数据变换。

2. 自动校验数据质量。数据预处理完成后, 系统能够自动识别每条数据, 为进一步提升审计数据质量, 保证后续数据挖掘结果的可靠性, 需要对数据的完整性、 重复性、 真实性进行校验。

完整性校验主要基于连续性特征, 这一特征也是现金轨迹数据比财务报表信息真实性更高的原因之一, 如果仅关注货币资金的余额, 那么现金的连续性特征往往容易被注册会计师忽略。

重复性校验的原理与数据预处理阶段中的数据清洗相同, 出于数据挖掘准确性的考量以及审计要求, 被审计单位提供的原始现金轨迹数据的时间跨度一般为一年甚至更长, 涉及上万条记录, 而这些记录往往是经由日度、 月度数据汇总后产生的, 在汇总过程中, 难免会出现数据重叠的情况。重复性校验能够补充初次数据清洗时的遗漏, 通过系统自动捕捉高度相似的记录, 经由人工确认后剔除重复记录, 从而避免二次计算对结果产生影响。

真实性校验主要是根据各银行的数据特性来校验数据质量, 防止虚假的交易记录。真实性检验可以利用数据规律发现问题, 譬如可以进行利息检查, 活期利息与账户的每日余额强相关, 基于对账单数据所覆盖的时间范围及各个银行活期利息结算规律, 系统可以重新计算活期利息。如果数据被篡改过, 错误的活期利息就会像滚雪球一样被不断叠加, 进而影响到后期余额, 造成真实与账面的余额差异越来越大。此外, 采用Benford相关系数检验, 也可以发现潜在的问题。Benford定律认为, 自然界中大部分数据(包括财务数据)的首位数字n出现的概率大致服从P(n)= log(1+1/n)的分布, 当数据的分布不满足该定律时, 将存在人为修改数据的可能。通过Benford定律进行检验, 当相关系数低于0.76时, 需要进一步检查数据的真实性。

总的来说, 自动校验环节可以基于数据本身进行, 而不依赖于任何人的经验判断, 数据检验的客观性和准确性将会提高。

3. 数据标签化处理。在对原始数据进行预处理和多次校验之后, 数据的质量又将进一步提高, 但海量的现金轨迹数据依然不能为注册会计师提供直观的审计证据, 下一步将根据每条数据的特征以及审计重点、 重要性水平等, 给每条数据打上专属标签, 便于后续从不同维度进行分类处理。现金轨迹数据的标签化处理是分类和聚类分析的前提, 标签的类型主要分为客观标签和智能标签两类。客观标签依据的信息较为明确, 主要包括交易的时间、 金额以及对方名称。智能标签针对的是现金轨迹数据中文本字段的内容, 主要运用自然语言处理(NLP)技术, 对对手方名称、 企业备注、 银行备注进行关键词的自动抽取, 按照每个关键词出现的权重进行分类。

4. 多维度数据分类与聚类。在每条数据都打上标签之后, 系统可以根据这些特征对数据进行分类。比如根据重要性水平, 定义大额交易, 将标签为100万~300万元、 300万元以上的数据都分类为大额交易。从逻辑关系上来说, 每一种分类均由满足几个共同标签的数据组成。

数据聚类是指将数据划分成组或簇的过程, 与数据分类不同, 选择聚类方法的数据的类标签是未知的。由于部分数据反映的信息有误或者模棱两可, 无法确定合适的标签进行分类, 对于这部分数据, 可以通过相关性聚类的方法, 利用计算机的无监督或半监督学习, 挖掘数据之间的内在联系, 从而建立新的标签或者添加到已有标签中去, 以确保每条交易记录都贴上相应的标签, 便于后续检索。

总的来说, 基于历史现金轨迹数据建立数据模型进行预测, 可以得到相应的类标签结果, 根据类标签结果可以对交易记录进行分类预测; 而对于缺少类标签的交易记录, 可借助聚类分析的方法挖掘隱藏的内部规律, 进一步辅助分类。值得注意的是, 每条数据的类标签并不是唯一的, 因为每个字段能够反映出数据的不同维度, 从不同维度出发都将获得不同的标签号, 这些标签号组合在一起, 将形成每条数据与众不同的特征。

5. 风险预警。在对多维的现金轨迹数据进行分类与聚类处理后, 数据检索将变得切实可行, 系统可以通过设置不同的算法检索出可能存在异常的数据, 从现金流层面评估被审计单位在货币资金项目中存在的风险。

首先是异常值预警。现金轨迹数据层面的异常值不仅包括金额上的极大值和极小值, 还包含数据的周期性波动, 比如稳定的供应商付款频率发生变化, 租金、 快递费用等日常经营支出在某月突然中断等, 都属于异常值预警的范畴。其次是大额收支预警。系统在所有的支出记录—供应商支付这个类别的交易中, 针对交易时间为90天以内的数据进行如下条件的筛选预警: 满足单笔交易金额≥50万元的供应商付款数据, 且该笔交易金额≥企业对该供应商3年内所有支出金额的P75⑤×2, 则这笔交易默认为大额支出。如果筛选出数据对应的供应商在3年以内的交易笔数<10笔,  则不参与预警计算提示, 付款失败后的重新支付也不计算在内。大额收入的筛选方法与支出预警相同。最后是疑似挪用公款预警。系统对超过1条的数据进行如下逻辑的筛选并预警: 在90天的时间范围内, 针对同一个交易对手方,  如果对该对手方(个人)有一笔支出交易发生后, 30天内又发生了一笔同样对手方和同样金额的收入交易, 且单笔交易金额≥5万元, 则系统预警此类交易为疑似挪用公款交易。付款失败后的重新支付不计算在内, 同时排除非整数金额。

6. 数据可视化。数据可视化隐藏了数据挖掘背后复杂的数据和算法, 最终以直观、 浅显易懂的图表形式向用户展现所需的信息, 注册会计师可以通过图表了解被审计单位在完整审计期间内资金的变化情况。根据注册会计师的审计需要, 现金轨迹数据挖掘的可视化产品是尽调分析报告。尽调分析报告中主要通过基本的统计描述图表反映不同维度下的企业现金分布情况, 包括直方图、 散点图、 分位数图、 饼状图等, 根据适用的图表类型绘制, 比如: 根据交易发生时间(分钟级别数据), 绘制交易时间频率分布图, 观察各时段交易发生的频率分布; 根据公司账户支出/收入/余额(时间序列数据, 人民币为记账本位币), 绘制收入支出频数对比图, 观察各时段账户进出账金额分布, 寻找异常金额值, 并分析收支关联信息; 根据企业和银行的备注, 推测出每笔交易的用途, 判断款项类型, 绘制出收入(支出)类型饼状图。

四、 审计实例分析

A公司是一家致力于研发和销售特色甜品的餐饮企业, 经营范围内的许可项目为食品销售, 一般项目包括餐饮企业管理、 品牌管理、 餐饮服务和工艺礼品销售等。A公司下设一家子公司a, 其上游公司主要涉及乳业、 食品、 物业、 厂房租赁、 塑料制品等几十家公司, 下游公司以外卖平台和第三方支付平台为主。

A公司聘请Z会计师事务所为其进行上市审计, 在获取了A公司的原始数据后, 由于数据体量庞大、 时间跨度长、 涉及跨银行条目众多, Z会计师事务所利用现金轨迹数据挖掘的流程与方法, 从海量数据中层层抽丝剥茧, 发现A公司的某笔贷款行为和供应商付款情况疑似异常。

1. 识别疑似骗取贷款。在对A公司(被审计方)及a公司(A公司的子公司)的银行交易记录实施一系列数据挖掘流程后, 大额收支预警提示, 系统锁定出其中两条大额现金轨迹数据。第一条数据是金额为1000万元的现金支出, 由A公司付款给B公司(根据其他信息显示, B公司为A公司稳定的上游供应商), 识别出该条数据的算法为: 系统在所有支出记录—供应商支付这一类别的交易中, 针对交易时间为90天以内的交易进行筛选预警, 筛选条件为单笔交易金额≥50万元的供应商付款支出, 且该笔交易金额≥企业对该供应商3年内所有支出金额的P75×2, 满足以上条件的交易默认为大额支出。第二条数据是现金流入, 金额也为1000万元, 由未知账户X流入A公司, 识别出该条数据的算法与第一笔类似: 在所有现金流入的交易中, 针对交易时间为90天以内的交易进行筛选预警, 筛选条件为单笔交易金额≥50万元的客户收款记录, 且该笔交易金额≥企业对该客户3年内所有收入金额的P75×2, 满足以上条件的交易默认为大额收入。

根据银行提供的信息, A公司支付给供应商B公司的货款1000万元系银行贷款所得, 在按照既定程序完成了信用风险评估后, 银行批准了该项以偿付货款为目的的企业贷款。有明确的银行交易记录证明, A公司在获取1000万元贷款后第一时间将资金汇入了B公司账户, 但就在该笔交易发生3天之后, 又存在未知账户X汇入1000万元到A公司账户。由于两笔交易金额相同, 现金流入与流出的时间间隔相近, 初步怀疑A公司的贷款行为存在异常, 因此, 需要对该1000万元贷款相关的现金轨迹展开进一步核查。

首先, 确定核查的时间范围。根据以往的审计经验和现金轨迹的运动规律, A公司潜在的非正常资金运作极可能发生在锁定的两笔现金流出与流入之间, 因此以这两笔1000万元支出与收入发生的时间分别为起、 止点, 明确核查的时间跨度为3天。其次, 确定核查的账户范围。在已获取的A公司及其子公司a公司的所有银行交易记录中, 选取对方账户名称为B公司、 A公司(对a公司而言)、 a公司(对A公司而言)及X账户的记录条目。最后, 确定核查的金额范围。对于金额维度, 系统设定的筛选条件为单笔或拆分后总金额与1000万元差异在5%以内的交易⑥, 包括现金的支出与收入, 该筛选方法考虑了拆分收付款的可能性。在执行了上述核查程序后, 结果发现: 在a公司的交易记录中, 存在一笔来自B公司1000万元的现金流入和两笔汇入X账户的现金流出, 金额分别为100万元和900万元。在查找了有向图中的所有环路之后⑦, 最终重构出完整的现金运动轨迹, 如图3所示。

2. 识别客户异常付款。A公司在日常经营活动中发生的付款事项主要包括供应商采购、 日常運营(租金、 维修费、 水电能源费)等, 一般来说, 在正常经营状态下, 这些支出在时间维度上会呈现出周期性规律, 且金额也稳定在一定区间内。利用现金轨迹数据的时间特征, 将付款信息与A公司的历史数据进行纵向比较, 识别出违背以往周期性规律的单笔付款数据。

考虑到识别客户异常付款记录的准确度, 需要根据付款方及付款理由的不同, 分别查看。一般来说, 根据原始数据中的备注字段以及后续数据的预处理, 所有对手方的付款记录都对应了各自不同维度的标签, 比如由付款理由划分的货款结算、 借款利息收入等, 由账户名称和账户号区分出的不同付款方, 包括公司和个人。

在调查A公司客户的付款情况时, 在所有客户付款记录下, 选取了A公司较为稳定的客户B公司一年内的付款情况, 据此生成B公司付款周期散点图, 见图4。

根据散点分布情况, 可以看出: B公司对A公司的付款周期为半个月, 且每次付款时间主要集中在月中(每月15日前后)和月末(每月30日前后), 这些规律在Z会计师事务所与A公司沟通后得到了初步证实。此外, 由于涉及银行转账等资金往来, 企业间的交易一般发生在工作日(周一到周五)。结合以上规律, 可观察到a、 b、 c三点存在一定异常, a点交易发生在月初, b、 c点交易发生在非工作日, 值得审计人员进一步关注。

同时, 根据大量的企业实际调研, 从每日24h内交易发生的次数来看, 企业的交易发生时间段主要集中在工作时间内, 且呈现出双驼峰或三驼峰的趋势, 具体分布如图5所示。

图5显示, A公司的交易发生时间段大体满足规律分布, 7点为交易高峰期, 10 ~ 11点、 13点为交易次高峰, 6点之前和18点之后, 交易次数呈现断崖式下降。凌晨尤其在0点前后的交易, 多为银行自动处理。根据上述规律, 查看付款周期中识别出的a、 b、 c三点具体的交易时间, 可进一步判断B公司付款的合理性。在调出原始记录后发现, a点交易发生在工作时间内, A公司在收到款项后当天, 即发生了大额采购支出, 据此推测A公司可能要求B公司提前付款, 以满足自身资金周转需求; b、 c点交易均发生在周末18点之后, 仅从现金轨迹数据的层面无法得到合理解释, 因此应当作为重点关注的付款交易, 由注册会计师结合其他审计程序进一步查明。

3. 实例应用评价。相比于传统的审计方法, 利用数据挖掘技术的好处在于: 核查范围有能力涵盖企业全部原始现金交易记录, 识别过程中的筛选算法没有割裂每条数据间的勾稽关系, 而是通过筛选条件一步步将相互关联的现金轨迹数据从海量数据中选取出来, 推测出合乎逻辑的现金流动关系, 同时还能利用历史数据验证新数据, 推测出不符合历史规律的异常值, 有效地弥补了人工审计的短板。

对于骗贷行为的识别, 本质上抓住了企业正常消耗贷款后, 一般会假借多个关联方将资金转回的心理, 以1000万元为线索追踪现金在几个账户间往来的蛛丝马迹, 蕴含了经验总结而来的审计逻辑, 但也存在一定偶然性, 一旦1000万元在更长的时间跨度内被拆分成更多笔更小金额的交易在更多账户间流入与流出, 核查的难度将大大增加。

在识别客户异常付款行为中, 客户的回款能力主要体现为基于时间特征的及时性和周期性, 这些付款规律也是识别异常的主要依据。面对海量的付款数据, 如果没有明确的规则指引, 仅靠人工将无从查起。当然, 这些规律受制于企业及其客户本身的规模和内部控制的严格程度, 一些管理混乱的企业本身的对外付款情况很可能是杂乱无章的, 因此, 如果客户付款的散点分布情况无规律可循, 也值得企业特别关注。

由此可见, 利用现金轨迹数据挖掘的方法能够在很大程度上帮助审计人员发现问题, 但挖掘方法本身的设定也离不开审计经验和规律总结, 计算机技术是辅助手段, 审计人员仍需参考其他审计证据, 作出理性判断。因此, 无论是疑似骗取贷款还是客户异常付款问题, 上述流程设计都仅从数据角度对异常现象提出疑问, 并不能百分百确定A公司存在隐瞒欺诈行为, 若要进一步证实结论, 还需挖掘每条数据背后更深层的语义特征。具体来说, 在Z会计师事务所获取大数据分析报告后, 针对疑似骗贷的事项, 审计人员需要大量调取相关交易的原始凭证, 询问贷款银行、 供应商B公司等, 针对客户异常付款情况, 需要向A公司及其供应商询问, 评价每项交易商业理由的真实性和合规性, 才能得出更加可靠的审计结论。

五、 大数据技术的审计应用前景展望

由于上市公司财务报表质量不佳、 货币资金舞弊行为频繁出现, 社会公众以及监管机构对于独立第三方会计师事务所的审计责任要求越来越高。尽管如此, 实际审计过程中, 注册会计师依然面临重重“内忧外患”: 被审计单位资金流水体量庞大, 数据真实性与完整性难辨; 许多会计师事务所依然采用传统的审计方式进行人工核查, 不仅效率极低, 而且难以发现问题。由于技术手段的欠缺以及上市公司的刻意隐瞒, 为免于担责, 会计师事务所有时只能被迫辞任。否则, 对于上市公司的货币资金舞弊行为, 接受审计业务委托的会计师事务所总是难辞其咎, 在证监会给会计师事务所开出的一张张“罚单”中, 往往明确指出: “针对货币资金审计程序, 注册会计师未勤勉尽责。”当前, 大数据技术的发展为会计师事务所摆脱这一困境提供了良好的契机, 越来越多的会计师事务所逐步将数据采集、 数据挖掘以及分析预测技术等应用到审计业务中, 以注册舞弊审查师协会(ACFE)为代表的机构, 也积极开展大数据反舞弊、 大数据审计等业务交流活动, 用大数据技术助力未来的审计行业发展。

本文认为, 未来会计、 审计领域的变革必将借助大数据技术的东风, 实现质变的飞跃。如何利用好原始的现金轨迹数据乃至未来的其他财务数据, 运用数据挖掘等诸多技术将这些数据加工为有价值的信息, 是未来会计与审计重点的发展应用方向之一。未来大数据技术在会计、 审计领域的应用过程中, 应注重以下几点:

1. 扩大数据源, 提升数据感知能力。从数据到信息的加工处理过程中, 数据是基础的原材料, 是整个系统的起点, 数据量越丰富, 最终获取的信息量很可能越大。对企业来说, 现金轨迹数据只是众多原材料中的一种, 还有更多的原始数据亟待深入挖掘, 无论是财务数据还是非财务数据, 都可以运用更敏锐的数据感知设备选择并采集有价值的数据并纳入系统, 这对拓展会计、 审计领域应用实践具有重要作用。

2. 优化算法, 推动系统迭代升级。算法是由数据形成信息的工具, 由于整个系统的要素一直随着环境和使用者需求的变化而处于不断变化之中, 算法也需要顺势而变, 不断优化升级。一方面, 针对同样的原材料, 不同的算法会导致不同的信息产物, 这就要求算法具有多样性; 另一方面, 随着数据量的增加, 原有的算法很可能不再适用, 需要面对新的原材料, 设计新的算法, 这就要求算法具有更新性。

3. 发挥人力在系统中的协调作用。在计算机日益发达从而取代大量人工的时代, 人力仍然是整个会计系统中最灵活的要素, 其在系统中发挥的协调、 把控作用是无可取代的。无论是识别有价值的数据, 还是制定匹配的算法, 都离不开人的参与, 数字技术在会计与审计领域的嵌入并不意味着对人的替代, 不断提升人力的专业素质, 以及在人际协同发展中更好地发挥各自的价值将是更为有效的发展方向。

【 注 释 】

① 需要指出,本文现金轨迹数据聚焦于银行交易记录,企业内部库存现金直接收付较少,因此忽略不计。此外,由于现金具有同质性,现金轨迹数据研究的是现金总量的变化情况,而非对某一货币的追踪。比如,从企业某账户中流入的100元与流出的100元尽管并非同一货币,但由于二者是同质的,在研究时将被作为企业现金的一部分,无差别地纳入考量。

② 出自清朝县令黄六鸿的《福惠全书·钱谷·流水收簿》一书,为“流水”一词引申义的由来。

③ 由于笔者已详细阐释了本文的核心概念 —— 现金轨迹数据,为避免混淆,下文将不再出现“现金流水”“轨迹数据”等概念,统一由“现金轨迹数据”代替。

④ 本文数据获取方法、处理技术及案例应用均来源于“见知数据公司”,该公司建立了现金流尽调平台,可智能核查每一条流水信息,让数据缺失、流水造假无所遁形,并且通过对数据的分析梳理,可以发觉核心客户、关联交易以及隐性负债等尽调风险,及时发现隐藏漏洞。

⑤ P75表示上四分位数金额。

⑥ 疑似拆分付款的筛选算法在流程设计中已详细说明,5%为根据以往案例总结得出的安全边际。

⑦ 每个账号之间的交易,即识别出的每一条数据本质上可以看作账户到账户之间的一条路径,将所有路径连接起来,利用算法判断是否存在闭合的环路,上述案例中有环路则表示最初流出企业的贷款极有可能又回到了企业。

【 主 要 参 考 文 献 】

高强,张凤荔,王瑞锦,周帆.轨迹大数据:数据处理关键技术研究综述[ J].软件学报,2017(4):959 ~ 992.

姜江华.《审计监督运用大数据技术与方法的研究》书评[ J].会计之友,2022(5):167.

李琳,刘凤委,李扣庆.会计演化逻辑与发展趋势探究 —— 基于数据、算法与算力的解析[ J].会计研究,2021(7):3 ~ 16.

秦榮生.大数据、云计算技术对审计的影响研究[ J].审计研究,2014(6):23 ~ 28.

孙建中.科学概念的辩证法和教授程序[ J].科学、技术与辩证法,1988(3):39 ~ 42.

王海洪,吕登辉,任美,王婧,王盈盈.我国大数据审计研究综述 —— 基于中文核心期刊文献研究[ J].会计之友,2021(14):134 ~ 139.

Ackoff R. L.. From data to wisdom[ J].Journal of Applied Systems Analysis,1989(1):3 ~ 9.

【作者单位】1.上海国家会计学院, 上海 201702;2.安永华明会计师事务所(特殊普通合伙)安徽分所, 合肥 200120

猜你喜欢
数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
人工智能推理引擎在微博数据挖掘中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践