机器学习方法的应用：构建嵌入式智能持续审计系统

2018-09-10 06:11生丽英

中国内部审计 2018年6期

生丽英

[摘要]本文基于COSO委员会2016年发布的企业风险管理新框架，构建了运用机器学习算法的嵌入式智能持续审计系统框架，并以W市国家电网公司的数据为例，借用Python软件，通过模拟仿真测试，阐释了嵌入式智能持续审计系统的基本算法、运行流程及实施效果。

[关键词]企业风险管理 ERM新框架持续审计智能持续审计机器学习

一、引言

2001年国际内部审计师协会（IIA）首次将“增加价值和改善组织运营”作为内部审计的最终目标引入内部审计的定义。但普华永道会计师事务所发布的《2017年内部审计行业现状研究报告》显示，包括财务总监等高管人员、董事和内部审计师的利益相關者认为“内部审计能带来巨大价值”的比重从2016年的54%下降到2017年的44%，这一指标达到五年来的最低水平；利益相关者认为在企业面临“重大影响性事件”（如监管调整或网络攻击等风险）时，大多数内部审计师反应缓慢，未能帮助其雇主做好及时应对的准备。

与内部审计息息相关的两大趋势：一是风险管理理念的新变化，二是持续审计技术的新发展。2016年6月，COSO发布了新版本的企业风险管理框架（简称ERM新框架）。与其前身相比，ERM新框架所关注的是如何使企业风险管理在组织机构内真正行之有效，一改过往的企业风险管理实施范围的局限性，强调企业管理应用于“战略制定过程和整个企业组织之中”，有效的企业风险管理能使管理层在权衡风险和机遇的同时提升企业创造价值、保护价值和最终实现价值的能力。2015年IIA在其发布的新版《全球技术审计指南（简称GTAG）》中强调：“努力协调组织的持续监控和持续审计系统，可以改进企业组织对风险和控制了解，并能最大化内部审计的能力，为董事会和高管层提供更为有价值的增值服务。”人工智能与机器学习的引入，将更好地发挥持续审计实时监控与预警的效能。

基于ERM新框架，运用机器学习算法的嵌入式智能持续审计系统的构建与应用，有助于更好地实现内部审计的组织防控风险和价值增值的功能。

二、持续审计研究的文献述评

持续审计（简称CA）最初是在20世纪80年代美国注册会计师协会针对审计对象信息化而提出的。随着计算机科学的发展和演变，开始向动态化、持续性和实时性方向发展，最终形成了持续审计的概念方法。2015年IIA对GTAG指南进行了修订，并重新对持续审计进行了定义，认为持续审计是计算机信息技术与审计的融合，可以在更短的时间内为审计对象出具报告，实现对风险与控制的持续评估与鉴证。

（一）关于持续审计技术实现方法的研究述评

持续审计的技术实现方法因时期、技术条件不同而不同。Du和Roohani（2006）将持续审计的技术实现方法简单地分为两类，分离式和嵌入式。分离式是借助数据采集接口软件，从审计对象的计算机系统之中抽取原始数据，然后将数据传入审计软件之中，与审计标准进行比较并报告异常，实现持续审计的目的。Alles等（2008）指出分离式持续审计系统的优势在于将审计系统与审计对象的计算机系统之间的冲突和不兼容状况降至最低的可控程度。

嵌入式的持续审计系统是在审计对象的计算机系统中嵌入相应的审计程序或模块，通过该模块持续对审计对象的业务数据进行监测，实现对审计对象的实时监控。Minsky（1996）较早提出了将审计模块嵌入审计对象数据库管理系统的观点。此后Debreceny等（2005）则尝试性地将嵌入审计模块的技术应用到了企业资源环境管理系统（ERP）之中。Chen（2003）构建了一种基于传感器（Sensors）和数字代理（Digital Agents）的嵌入式持续审计应用框架。嵌入式持续审计系统的优势较好地弥补了分离式持续审计系统存在的不足，但也存在明显的问题，如嵌入式的审计模块通用性不高，模块的应用会降低系统的运行性能，在应用前须进行大量测试等。

综上，从企业内部审计的角度，应首选嵌入式持续审计系统，其缺陷也相对容易克服。首先，嵌入式持续审计的通用性主要是针对外部审计而言，审计对象的计算机系统各不相同，因而使用嵌入式持续审计的成本较高。而对于内部审计，嵌入式持续审计无需考虑通用性问题。其次，与十年前相比，计算机的软件和硬件性能已有了较大程度的提高，嵌入式持续审计模块的引入对审计对象计算机系统性能的影响已微乎其微。最后，任何企业的计算机系统在正式应用之前均会进行大量的测试和试运行，出错的风险会极大程度的降低。

（二）关于智能持续审计关键技术的研究述评

智能持续审计是指将人工智能的方法引入持续审计的应用系统之中。人工智能（简称AI）是计算机科学的一个分支，最早于1956年提出，在经历了半个世纪的发展后，2015年才得以真正兴起。人工智能的核心是机器学习，即用不同的算法和大量的数据进行训练，通过学习和实践，使计算机具有对真实实践做出决策或预测的能力。

由于以机器学习为核心的人工智能兴起时间较短，关于智能持续审计的研究文献和实践经验均较少。此前的研究主要集中于尝试借助人工智能的算法强化审计程序，尤其是分析性复核程序，Koskivaara（2004）将人工神经网络算法引入了Woodroof等（2001）提出的基于WEB服务器的持续审计框架，尝试运用该算法作为分析性复核程序的工具，解决持续审计中的数据分析问题。陈伟等（2006）则提出可以引用聚类分析和关联规则算法分析业务数据，发现审计线索。叶焕倬和杨青（2011）认为在人工智能领域，以知识发现为基础的数据挖掘可以应用于持续审计中，解决信息超载问题，提高审计效率。综上可见，人工智能在持续审计领域的应用还处于探索阶段，随着机器学习在诸多领域的成熟应用，将其引入持续审计系统已成为可能。

三、嵌入式智能持续审计理念与实施框架

风险导向内部审计强调内部审计应更多关注与组织目标相关的风险，帮助组织实现价值增值。然而，针对风险导向的内部审计如何关注风险，以及如何实现组织增值的目标，一直是困扰学术界和实务界的问题。

（一）基于ERM新框架的内部审计转型与发展

COSO委员会发布的ERM新框架更好地说明了风险、战略与业绩三者之间的统一关系，描述了风险管理在战略制定与执行中的角色，强调了在复杂商业环境下对风险严重性和风险类型的充分考量，为企业管理风险、提升业绩和创造价值提供了指引。

从内部审计角度来看，ERM新框架提出了如下发展理念：

1.对风险的充分关注是战略成败的关键。内部审计以风险为导向，不仅应关注企业运营层面的风险，还应及时识别和有效评估企业战略层面的风险。内部审计可以借助其专业能力和信息采集优势，从企业内外部持续获得组织决策所需要的全方位风险特征信息，支持组织战略的制定。

2.企業的风险治理与风险文化是增强风险管理的强大基石。运用内部审计风险管理框架中的重要监督职能，通过持续的风险监控、确认与咨询服务，有助于企业规范管理、有效问责和诚信运营，建立良好的企业风险文化。

3.有效的风险管理监控流程使组织得以了解风险与战略的关系以及战略影响绩效的过程。内部审计所具有的独立性、客观性，为确保有效地监控企业风险管理流程奠定了基础。总体而言，商业环境与风险具有复杂性和高发性，内部审计可以借助科学技术和数据分析的手段识别评估战略风险与经营风险，为战略决策的快速反应、企业风险文化的良好树立、风险管理流程的持续有效性监控提供增值服务。

（二）嵌入式智能持续审计实施框架

ERM新框架中多次强调信息科学技术与数据分析方法在风险管理中应用的必要性和可能性，提出恰当地选择科学技术与工具开发信息系统，为企业提供风险管理所需的数据和信息，对战略的执行与目标的实现至关重要。ERM新框架还强调企业应充分利用内外部大数据与信息来源，借助数据建模、情景模拟等定量方法，识别风险，评估风险的严重性和优先级水平。针对如何监控企业风险，ERM新框架建议将企业风险管理流程整合至整个企业的信息系统中，在信息系统中嵌入持续的风险评估与预警，可以及时自动地识别风险和改进机会，优化提升企业风险管理能力。综上，在ERM新框架理念下，企业内部审计可以借助嵌入信息系统的持续审计模块，实现对组织风险的全面监控，并通过实时的智能数据分析，形成审计结论和审计报告，为企业风险决策提供建议。

本文设计了一个具有可操作性的嵌入式智能持续审计应用系统框架，该框架融合了六大功能模块，具体包括：风险识别与评估、数据分析系统、信息报告系统、审计资源配置、审计作业流程、审计知识库。其中，风险识别与评估模块是一个基于组织全业务流程的风险监测指标体系，该体系是以企业战略为导向、以业务流程为基础、以风险感知库为依据建立的，其作用是通过采集实时业务数据进行分析预警。数据分析系统模块是智能持续审计系统的核心模块，该模块运用机器学习方法将风险监控和审计分析智能化，通过数据采集接口采集风险识别与评估模块中的运营数据，从原始数据中进行实时分析，并在发现异常和偏差时发出审计预警信号。信息报告系统模块是在数据实时分析完成后，从数据分析系统自动导入项目关键信息和审计发现线索，并生成模板式审计报告，为内部审计人员后续跟进审计线索、查找原因及时提供信息。审计资源配置模块是针对审计项目管理而设置的，根据审计业务的不同类型和范围，在甘特图日历表中安排审计项目，包括审计人员的配备、审计时间的安排、费用预算管理等。审计作业流程模块是将手工环境下的审计文档电子化和规范化，模块中包含了审计计划的编制、执行与审核、审计工作底稿、审计日志和报表等，有利于审计信息的共享和审计质量的监控。审计知识库模块是为提高审计人员能力而设计的，包含判断审计问题的法规库、增强风险意识的风险感知库、学习审计方法的审计理论库、保存审计资料的审计档案库等。提出的基于ERM新框架的嵌入式智能持续审计系统框架仅是一种初步构想，企业可以在保留其核心功能的前提下，根据自身情况增加或减少相关模块。

四、嵌入式智能持续审计系统的应用

嵌入式智能持续审计系统的应用，主要从电网企业审计监督的现状出发，以电网企业的电费回收为例，从应用层面讨论如何将机器学习算法引入持续审计系统，实施基于ERM新框架的嵌入式智能审计系统框架。对于电网企业而言，电费收入是其运营绩效的重要体现。对电费回收风险的有效管控，不仅是保障电网企业正常运营的关键，还是保障电网企业生存发展的重要基础。电网企业的内部审计应始终将防范电费回收风险、加强电费回收的规范管理、提高电费回收率作为审计工作的重点。

（一）电网企业审计监督现状

国家电网已按照“六位一体”的新机制要求，提升了审计手段的信息化，推进了审计综合管理系统、ERP业务审计系统、管控业务审计系统和审计门户系统的深化应用，初步实现信息共享、过程控制、在线监督、辅助分析，并积极探索非现场审计和在线审计。然而在具体实践过程中，内部审计监督仍主要围绕事后监督，未能较好地发挥持续风险监控和实时风险预警功能。究其根源，在于内部审计的功能定位仍处于业务层面，审计信息化的实施相对独立于ERP业务系统，使得内部审计难以更好地发挥组织价值增值的功能。在ERM新框架的理念指引下，未来电网企业的内部审计转型升级应聚焦战略风险，借助信息技术改进内部审计的风险监控效果。

（二）嵌入式智能持续审计系统的基本算法和运行流程

在机器学习的众多算法中，支持向量机（简称SVM）属于监督学习算法，该算法在机器学习中主要用于数据分类，由于在实际应用中其精确度优于其他算法，且对小样本非线性数据具有较高的适用性。运用SVM算法的智能持续审计系统运行流程如图1所示。首先需要确定采集哪些原始数据和样本，其次是对样本进行预处理，输入训练样本集和设定SVM模型参数，并代入智能持续审计系统进行训练，评价训练结果和优化训练参数等一系列循环过程。经过训练后确定SVM模型参数，继而输入测试样本进行模拟、对测试效果进行评价，得到结构稳定的SVM模型。最后将SVM模型投入实际应用，将待评价原始数据输入已训练好的SVM模型，输出审计分析结果，发出可疑问题的审计预警信号。

（三）构建电费回收风险识别和评估的指标体系

基于ERM新框架的智能持续审计系统有效实施的重要前提之一是构建风险识别和评估的指标体系。梳理历年内部审计中识别的电费回收与规范管理的问题，分析并提炼电费回收与规范管理流程中的风险点，并将其存储于审计知识库中，便于随时调取和查询。根据审计知识库模块中罗列的电费回收与规范管理的风险点，构建电费回收风险的监测指标体系，如表1所示，纳入风险识别与评估模块，为智能持续审计系统提供电费风险源信息，同时依据风险环境的变化，实时更新审计知识库、电费回收风险监测指标以及风险识别与评估模块。

（四）原始数据采集与预处理

根據风险识别与评估的指标体系和采集数据源信息，数据分析系统模块从审计对象的计算机信息系统中自动采集原始数据形成数据集。依据支持向量机算法的要求，采集的原始数据样本集可以用来表示。以江苏W市供电公司所属供电所的历史电费回收数据为样本，数据集之中的80%作为训练样本集，剩余的20%作为测试样本集。样本集中，每个样本观测的是供电所的电费回收风险评价指标向量，它包含了指标体系中的所有评价指标。是期望输出的评级结果，即供电所的电费回收风险等级表示不同的供电所，将风险等级划分为“可疑”和“可信”两个等级标准。考虑到上述指标特征属性之间量纲的差异，为确保训练与测试结果的准确有效，遵循SVM算法的要求，对原始数据进行归一化和无量纲化处理。处理计算方法是将训练样本和测试样本的原始数据转化为0-1之间的值，具体公式如（1）式所示，处理结果如表2所示。

（五）确定SVM模型结构与参数

在对风险数据模拟训练之前，需要确定SVM模型结构与参数，并对模型的有效性进行优化，此阶段是智能持续审计系统的核心与关键，在此对模型结构和参数的确定做简要介绍。

根据已收集的电费回收样本数据集，可以设定区分“可疑”和“可信”风险等级的分类方程为，其中为可调的权值系数向量，b为超平面偏置量（截距项）。若分类超平面能正确分类全部样本，则方程满足如下条件：

上式（1）和（2）可以转换为：

此时，必然存在参数支持向量就是使的训练样本的点此时两类样本间隔等于是的欧几里得范数，若最大化样本间隔，即等价于使最小化，即

限制条件为：

由于分类平面存在且唯一，并将电费回收“可疑”和“可信”两类样本正确区分，因而可求出最优解，构造分类决策函数：

为求解以上问题，可以引入拉格朗日函数将上述最优化分类问题转化为对偶问题（此处公式略去）。为便于理解上述公式的基本原理，用图2加以说明。

前文假定数据是线性的，但在应用SVM模型解决实际问题时，可能较少遇到线性、可分的分类问题。因此，为提高SVM模型的适用性，本文采用的SVM模型结构将进一步放宽条件，考虑在非线性问题和不可分情况下的分类问题。为解决非线性问题，可以通过引入核函数（Kernel）将电费回收风险指标的数据样本通过非线性变换映射到高维特征的分类平面空间之中，在高维空间设计线性支持向量机，寻找最优空间。为解决不可分的分类问题（即无法区分“可信”和“可疑”的样本），可以放宽分类条件，引入松弛变量（Slack Variable），同时设定惩罚参数C，该参数为事先给定的常数，用来表示松弛变量与分类间隔的权重。本文将选择径向基核函数，主要是由于其为非线性核函数，且分类精度优于其他类型的核函数。在确定惩罚参数和松弛变量时，遵循测试数据集精度最佳的原则，最终确定上述参数为

（六）模型训练、测试与风险分析预警

在设定了SVM模型结构与参数后，将经过预处理的电费回收训练样本数据集代入SVM模型，将各类指标数据，包括外部信息等具体指标参数作为SVM模型的输入向量，电费回收的风险等级作为输出结果，确定模型中最优的惩罚参数c和最优的内核参数g，建立电费回收的风险评价模型。将经过预处理的电费回收测试样本数据集，代入经过优化和训练后的SVM模型之中。表3是将测试样本集的电费回收风险评估的SVM预测结果与实际风险等级进行对比。不难发现，经过优化的SVM模型的预测准确率达到90%，这表明运用支持向量机算法的智能持续审计系统能较好地对电费回收风险进行预警，较为准确地发出可靠的审计风险预警信号。

五、研究结论与建议

通过以上结果不难发现，这种基于支持向量机算法（SVM）的嵌入式智能持续审计系统具有较精确的审计风险预警功能，能较为准确地发送预警信号。在未来进一步推广过程中还需解决以下问题：

第一，应重视企业风险感知库的建设。围绕企业战略目标的制定与执行，及时全面地识别企业运营的关键风险点，及时更新风险感知库，构建风险识别与评估的指标体系和相应的原始数据采集源，这是设计智能持续审计系统的关键基础，也将最终决定智能持续审计系统的预警效果。

第二，智能持续审计系统发送预警信号的准确性、及时性和可靠性很大程度上取决于原始数据采集的质量。企业管理层应重视自身计算机信息系统的建设，尤其重视数据库和信息自动采集系统的建设，唯有企业整体的信息系统管理水平得以提升，基于机器学习的智能持续审计系统的功能才能得以有效发挥。

第三，智能持续审计系统的基本理念源于ERM新框架和风险导向内部审计，这对内部审计人员胜任能力提出了更高的要求。在审计过程中，内部审计须从公司战略目标出发理解组织的运营风险，唯有如此才能充分利用智能持续审计系统发送的预警信号，通过内部审计的确认与咨询功能，最终实现为企业防范风险和提高效益的目标。

（作者单位：国网江苏省电力公司无锡供电公司，邮政编码：214061，电子邮箱：1658818895@qq.com）