【摘 要】 数字经济正加速改变世界,审计作为经济监督“特种部队”面临着大数据和人工智能重塑业务场景与规则的挑战,创新审计技术方法,以智能化全方位赋能审计工作,推动审计事业高质量发展势在必行。从实际审计工作需求出发,探索智能审计应用场景、核心技术和实践方向,提出智能审计的工程化路径,结合多方安全计算技术、多模态大数据治理技术、审计大语言模型技术、一站式大模型开发管理平台等技术给出实践分析,切实提高审计工作实效和质量,在可视化展示与交互、智能决策支持的助力下为审计人员提供更直观、更具有深度的数据模式解读方式,提高了审计决策的科学性。大数据和人工智能的应用开启了智能审计时代,为建设新型审计监督体系、推动审计工作向更高水平发展、审计信息化向全面数字化转型发展,提供了创新思路、技术支持和实现路径。
【关键词】 智能审计; 研究型审计; 多方安全计算; 多模态大数据治理; 审计大语言模型; 大模型开发管理平台
【中图分类号】 F239.1 【文献标识码】 A 【文章编号】 1004-5937(2024)20-0014-08
一、智能审计的创新特点
习近平总书记在二十届中央审计委员会第一次会议上指出,做好新时代新征程审计工作,总的要求是在构建集中统一、全面覆盖、权威高效的审计监督体系[1]和更好发挥审计监督作用上聚焦发力,并用“如臂使指”“如影随形”“如雷贯耳”形象概括了新型审计监督体系的特性,从“三个如”的创新论述中明晰智能审计的创新特点和实践方向。智能审计通过数字化、智能化技术和工具的应用,强化审计的政治属性、全覆盖审计监督效果,提升审计的研究能力和斗争本领,是构建新型审计监督体系、推进国家治理体系和治理能力现代化建设水平提升的重要一环。
(一)政治属性和政治功能的增强
智能审计有利于增强审计的政治属性和政治功能。通过大数据和人工智能相关技术、深度数据分析手段,增强审计机关在决策层面的动能发挥,确保审计服务在国家大局工作中、国家治理中的针对性。审计机关应用智能化审计工具实现“如臂使指”,将审计工作与党中央部署有机结合执行中央审计委员会的决策,并在审计过程中紧追所指的大局方向和工作重点。
(二)常态化、动态化震慑的全覆盖审计
智能审计保证“如影随形”的审计监督[2],通过智能审计相关技术体系实现对使用公共资金、国有资产、国有资源的地方、部门和单位的审计监督无一遗漏、无一例外。数字化智能化审计工具的应用,使得审计能够高效地实现常态化和动态化的监督目标,达到全覆盖、无禁区的审计效果,从而增强审计的震慑力、穿透力。
(三)强化研究型审计和斗争本领
智能审计强化了研究型审计,是做实研究型审计的技术支持。通过数字智能审计技术和数据分析,审计人员能够深入地剖析、系统地研判审计对象,开展研究型审计,挖掘审计对象潜在的问题和风险[3]。智能审计技术和工具的应用赋能审计机关,增强斗争本领是打造经济监督“特种部队”的必然选择,特别是数字共享技术有助于审计与其他形式的监督形成合力,实现信息的沟通、工作的联通和成果的融通,从而提升监督质效。
二、智能审计的创新应用场景
智能审计在数据采集和治理、实时监控与预警、自动化测试、跨领域融合、决策支持、可视化展示、信息安全与隐私保护、风险识别、持续审计、协同优化、预测分析等多方面有显著的创新成效,为新时代的审计工作带来全新的思路和工作方法,在提高具体审计工作水平和效益的同时,全面推动了整个监督领域的升级和发展。
(一)数据处理层面
1.数据采集与分析
智能审计实现数据采集的自动化和智能化,对各类数据进行高效处理。采用自然语言处理、机器学习和深度学习等数据处理技术,以提高对多源、多模态数据的处理效率。通过多模态数据整合,使得不同类型的数据(如文本、图像、视频等),为审计人员提供更为综合、全面的信息。在大数据分析方面,智能审计利用数据挖掘技术深入挖掘海量数据和潜在业务风险。通过模式识别、关联分析和异常检测,审计系统能够快速识别出异常模式,进而提醒审计人员可能存在的问题。这使审计工作更具针对性,能够更加精准地关注潜在风险点,提高审计效益。
2.实时监控与预警
智能审计通过大数据和云计算等新技术实现实时监控和发挥预警功能。实时监控对象不仅包括传统的财务数据,还包括业务流程、资金流向等多个维度。通过建立实时监测系统,审计人员能够在第一时间获知被审计单位的变化情况,及时发现异常和潜在风险。智能审计通过预警系统,自动识别异常模式,并向审计人员发送、报告预警信息,提醒其关注可能出现的问题。实时监控与预警不仅提高了审计的时效性,也大幅度减小了潜在风险漏报的可能性。
3.可视化展示与交互
智能审计通过可视化技术,将审计结果和报告按不同使用者的兴趣进行直观、生动的展示。这一创新提高了审计人员对数据的理解和分析效率,也使得审计结果更具可信度、容易获得相关方的认可。可视化展示将庞大的数据集以直观的方式呈现,帮助审计人员、被审计单位更好地发现潜在问题和趋势。通过交互式设计,审计人员能够与数据进行实时互动,进一步提高审计工作的可操作性和用户体验。
4.智能化多模态数据治理
审计对象的数字化转型对内部审计既是挑战也是机遇。智能审计通过自动化、智能化的技术手段,实现对多源、多模态数据的高效获取、处理、分析和报告。通过自适应大数据治理技术,系统能够根据数据的实时性和权重自动调整数据的治理策略[4],确保数据的一致性和准确性,使得审计人员能够便捷地获取所需数据缩短审计周期。
(二)风险与安全层面
1.信息安全与隐私保护
在数字化时代,特别是数据合规、信息安全和隐私保护成为重要关注。智能审计在应用大数据和人工智能等新技术的同时,充分考虑和保障被审计单位的信息安全和隐私。采用加密技术,确保审计数据在传输和存储过程中的安全性。系统设计中注重隐私保护机制,遵守数据相关法律法规,确保审计过程中不发生侵犯被审计单位合法权益的审计风险。
2.智能风险识别
智能审计利用大数据技术对企业的全部财务数据进行实时监控和分析。通过模式识别和异常检测等技术手段,审计系统能够及时发现潜在的财务风险。举例来说,通过对交易模式的分析,系统能够实时地识别出异常的资金流向,为审计人员提供重要线索。这种智能化的风险识别大幅提升了审计的准确性和效率。
3.智能预测与持续审计
智能审计利用大数据和人工智能等新技术进行预测分析。建立预测模型,系统对未来的财务风险进行预测和预警。智能化的预测能力为审计人员提供了发现未来趋势的线索,帮助其更好地制订审计计划。通过持续审计模型,审计系统对被审计单位进行持续监控和评估,及时发现和解决问题,提高审计工作的时效性、准确性。
(三)融合应用层面
1.智能化审计决策支持
以大数据和人工智能等为技术核心,智能审计提供智能化的决策支持服务。通过对海量数据的挖掘和分析,发现不同行业、不同领域数据背后的规律、模式和趋势。包括对财务数据、市场趋势、行业动态等多方面信息的整合研判分析。审计人员基于数据依据做出更为准确、全面的决策,提高审计工作的水平和专业度。智能化审计系统基于模型解释性工具,帮助审计人员理解模型的决策逻辑,使得审计决策更为科学可信,降低了决策的风险。
2.自动化审计测试
通过大数据、人工智能等新技术智能审计实现了自动化审计测试。这一技术应用减少了繁琐的测试环节中的人工参与。自动化审计测试涵盖了审计过程中的多个环节,包括数据采样、账务核对、生成审计中间表、内部控制测试等。采用机器学习、深度学习算法,以监督、非监督结合的模式学习并优化测试方案,逐步提高测试的准确性和全面性。使得审计人员能够更专注于复杂业务问题的解决,拓宽审计工作的深度和广度。
3.智能协同与流程优化
智能审计能够实现与其他监督部门的贯通协同,形成监督合力。通过信息共享和协同工作,共同打击违法违规行为,提高监督的权威性和有效性。同时,通过流程自动化和智能化的技术手段优化审计流程,高效地完成审计任务,而不是过度依赖人工操作。
4.跨行业、跨领域融合与技术创新
智能审计实现了跨领域、跨行业的融合,将审计工作与财务管理、风险管理、内部控制等有机结合,包括不同数据源、不同模态数据的整合、归集,审计方法和工具的创新。在风险管理和内部控制的融合中,智能审计与风险管理系统相连接,实现风险事件的自动关联,使得审计人员能够更好地理解业务背后的风险,并有针对性地进行审计工作,给出内部控制策略。智能审计在关注传统数字审计领域的同时关注新兴技术领域,如区块链审计、虚拟现实场景中的审计。这种融合和创新为审计行业带来新的发展机遇,使得审计工作更加符合时代变革潮流,更具前瞻性。
三、智能审计的核心技术
随着企业数字化转型的加速和审计工作的日益复杂,传统的审计方法已经无法满足现代审计的需求。创新应用场景的需求推动了智能审计核心技术的不断发展,技术创新又为审计应用场景拓展提供了技术支持和保障。
(一)审计数据的多方安全计算技术
1.技术要点
由于被审计单位、其他关联方提供的数据中可能包含大量的个人隐私信息、政府敏感信息以及企业商业秘密。这就需要在审计过程中关注数据使用的安全性、保密性,防止由于人为管理、系统漏洞等原因导致数据遭到泄露或破坏。随着审计全覆盖数据采集范围的不断扩大,数据安全和隐私保护则成为审计中需要解决的基础性问题。多方安全计算是保护数据隐私和安全的重要技术,其起源可追溯到1982年亚洲图灵奖第一人姚期智院士提出的百万富翁问题,自此以后多方安全计算技术得到广泛研究和应用。已经衍生出多个技术分支,包括混淆电路、秘密分享、同态加密[5],不经意传输[6],隐私集合交集和差分隐私、联邦学习等。技术应用方面,差分隐私机制已被广泛应用于逻辑回归、支持向量机等简单二分模型[7],实现隐私与可用性的平衡;联邦学习则通过GBoard输入法,实现联想词和智能提示等功能。
2.技术应用
多方安全计算是一种保护数据隐私和安全的技术,允许多个参与方在不共享原始数据的情况下,对数据进行联合计算和分析。应用于多种场景,在审计领域多方安全计算助力审计人员在保护被审计单位数据隐私的同时,完成数据的采集、分析和验证工作,步骤如下。
(1)数据预处理:审计人员和被审计单位首先对各自的数据进行预处理,如数据清洗、格式转换等,以确保数据的质量和兼容性。(2)建立安全计算环境:审计人员和被审计单位共同建立一个安全计算环境,该环境采用先进的加密技术和访问控制机制,确保只有经过授权的人员才能访问和操作数据。(3)数据联合分析:在安全计算环境中,审计人员和被审计单位对数据进行综合分析,如比对财务报表和交易记录的一致性、检查异常交易等。以上分析过程是在加密状态下进行的,以保证数据的隐私性。(4)生成审计报告:根据联合分析的结果,审计人员生成审计报告。报告中只包含分析结果和结论,而不包含任何原始数据。这样既可以保证报告的准确性和合规性,又可以避免数据泄露的风险。
(二)面向多模态大数据的审计数据治理技术
1.技术要点
自2015年实施审计全覆盖后,审计数据体量日趋庞大,审计数据呈现出多模态、大体量的特点,涉及文本、图像、图表等多种形式的数据。针对审计业务中多模态大数据开展智能抽取、安全存储、隐私使用等方面的治理是基础。首先针对多模态审计大数据进行编码处理,将编码后信息进行融合对齐,通过多模态指令调整,将系统指令/文本查询与输入多模态上下文相关联,抽取成为知识。通过融合多方安全计算和联邦学习来确保模型聚合或参数更新过程中的数据隐私和安全性,同时构建完备的审计领域元数据管理体系,制定元数据治理规范和标准,形成安全有效的数据底座。
在审计数据的智能抽取方面则通过单一形式数据和混杂数据抽取实现数据的全覆盖能力。
单一形式的数据抽取技术主要针对形式单一的数据如单纯的文本、图像等进行抽取。数据编码器是实现有效数据转换的关键。方法包括深度学习算法,如卷积神经网络和循环神经网络等,用于自动提取数据的特征并进行编码。采用传统的特征工程方法,如手工设计特征提取器,结合审计领域知识进行数据编码。在多模态大数据中,不同模态的数据存在异构性,向量对齐旨在将不同模态的数据映射到同一向量空间中,以实现数据融合和关联分析。研究方法包括基于距离度量的向量对齐法,如欧氏距离、余弦相似度等,以及基于深度学习的向量对齐法,如孪生神经网络、三元组损失函数等,用于衡量不同模态数据之间的相似性,并实现向量空间的对齐。多模态令牌指令是多模态大数据中的一种重要表示形式,融合不同模态的信息并传递给下游任务,包括基于规则的方法手动设计令牌指令的生成规则,结合领域知识进行指令的设计;基于深度学习的方法序列生成模型(LSTM、Transformer等),通过训练模型自动生成多模态令牌指令。
混杂数据抽取指的是针对审计数据中夹杂着文本、图像、图表等信息的数据的抽取。通过模型训练构建一个预处理分离模型,提高对资料中图片和表格等信息的识别和提取能力。该模型自动从审计资料中分离出图片和表格,针对图片信息采用多模态大模型,识别提取出图片中的关键内容形成图片摘要。对于表格信息的识别与提取,模型将采用大模型技术,通过解析表格的结构和内容,提取出其中的重要信息。从材料中获取有关表格的语义结构信息,将其用于后续的处理和分析。为了综合利用多模态数据,将使用多模态模型来结合单一形式的数据信息处理方式,同时考虑文本、图片和表格等多种形式的数据,统一形成文本数据将它们融合在一起,生成全面且准确的语义摘要。根据语义摘要来检索相关的原始数据,实现更高效和准确的信息访问和查询能力。
2.技术应用
审计机构对一家大型企业的财务进行审计。企业的财务信息包含文本、图片和图表等多种形式的数据。审计人员需要从多模态数据中提取关键信息,进行合规性和真实性检查,具体步骤如下。
(1)数据预处理与抽取:使用预处理分离模型对财务报表进行预处理,自动分离出文本、图像和图表等信息。采用多模态大模型进行识别与提取,形成图片摘要和表格摘要。(2)数据融合与关联分析:将提取出的文本、图片和图表信息进行融合对齐,形成统一的向量表示。通过关联分析技术找出数据之间的潜在联系和异常点,为后续审计提供线索。(3)安全存储与隐私使用:采用多方安全计算和联邦学习技术对模型进行训练和优化,以保护数据的隐私性。将融合后的多模态数据存储在安全的数据仓库中,确保只有经过授权的人员才能访问。(4)生成审计报告:根据多模态数据的分析结果生成审计报告。报告中包含对财务信息的合规性和真实性的评估结果,以及相关的证据和解释。
(三)基于多模态大数据的审计大语言模型技术
1.技术要点
传统的数据处理技术已无法满足审计对多模态大数据处理的需要。围绕这类数据情形,在基座模型的基础上,结合人工智能等技术,开展领域分析专属大语言模型的研究。分别通过针对垂直审计语料库构建、增量数据微调模型、知识图谱结合大模型关联分析三方面内容进行构建,以期更加准确、全面了解和分析被审计单位的数据情况,发现潜在的风险和问题,为审计决策提供科学依据[8]。训练垂直领域审计大模型需要一定规模的语料,由于人工标注语料成本很高,因此采用智能方式,自动快速进行审计语料库的构建,为模型训练提供高质量数据集。
由于审计数据的敏感性,获取大规模的训练数据非常困难,在多数的下游任务微调时,下游任务的目标与预训练的目标差距过大导致提升效果不明显,因此微调过程中需要引入大量监督语料。在此背景下,少量样本学习成为一种有效的方法,通过构建基于少量样本学习的大语言模型训练微调模式,能够让机器从少量数据中学习并泛化到新情境,其基本思想是在数据集上构建预训练模型,通过人工定义、自动搜索、文本生成等方法设置模板,通过标签词映射,使用小规模的支持集完成模型微调,旨在解决传统微调的语义差异和过拟合痛点问题。具体过程是结合特定审计领域的业务场景对数据进行分类标注处理,收集标记过的数据和未标注的数据,使用标记过的数据进行微调训练,得出预定义标准的观测结果和结果的置信度,选择置信度概率较高的样本作为可信样本加入训练集;使用新训练集重新训练微调模型,并对审计文档进行人工标注和检查问答对效果等。重复上述操作,直到模型的抽取效果满足指标要求。
审计领域大语言模型不仅要面临样本数据过少问题,还要面临和其他垂直领域一样的问题,即参数量过于庞大的训练学习,会面临高额的训练硬件成本与数据成本问题。解决以上问题基于增量学习技术,只需少量的训练数据调整部分的模型参数,使得模型能够达到领域适应的目的,这是审计领域大语言模型应用的核心难点。
将知识图谱的信息关联与可解释性能力和大模型的语义理解能力结合对审计数据进行高效全面分析与挖掘,增强知识图谱的表征是审计大模型的特色。知识图谱的特性在于能够挖掘实体节点间的隐藏关联关系,大模型具备强大的语义分析、语言交互特性。审计人员通过自然语言交互向大语言模型提出关联分析的需求,由大语言模型进行需求理解与分析,将需求转译成图查询语言或者语义向量,然后通过图向量检索以及图查询等方式从知识图谱中挖掘出答案,并使用自然语言的方式返回给审计人员,给出知识图谱中的分析解释。
2.技术应用
以某审计机构对一家大型企业的财务报表及其相关数据的深度分析为例,评估其财务状况和潜在风险,具体步骤如下。
(1)构建垂直审计语料库:收集该企业的历史财务报表,相关法规、行业报告等多源数据,形成初始的审计语料库;利用智能抽取技术,自动从语料库中提取文本问答对,构建高质量的垂直审计语料库,为模型训练提供数据支持。(2)增量数据微调模型:在预训练的大语言模型基础上,利用增量学习技术,对模型进行微调。选择部分具有代表性的财务报表数据作为增量数据,通过调整模型参数,使模型更适应审计领域的数据特点。这种微调方式有效降低了训练成本和时间,提高了模型的准确性和泛化能力。(3)结合知识图谱关联分析:将知识图谱的信息关联能力与大模型的语义理解能力相结合,对财务报表进行深入分析。通过自然语言向大语言模型提出关联分析需求,如“请分析该企业近三年的营收增长趋势及其与同行业企业的比较”。大语言模型理解需求后,以自然语言的形式返回给审计人员,根据返回的分析解释,评估企业的财务状况和潜在风险。
(四)一站式大模型开发管理平台技术
1.技术要点
对审计大模型的开发应用进行一站式管理是智能审计工程化应用的重要环节。一站式大模型开发管理平台覆盖了数据处理、模型训练、模型评估和推理、人机交互界面等方面的内容,具体架构如图1所示。
审计结果智能生成过程,需要将标准化的多模态审计大数据以及法律法规等审计知识注入基础预训练模型中,以此来实现模型训练任务,这就需要研究和设计一个智能化标注数据的系统,以便更好地支持大模型的训练。
实现大语言模型的自动标注。利用大模型的能力先对多模态大数据进行初步自动标注,由专业标注员进行细化和校正、反馈给大模型,从而使模型反复迭代得到更高的模型性能,最终形成高质量训练数据集、提高标注速度。
利用全流程评测工具完成大模型能力的评估。全流程评测工具包含了评测数据集构建、模型加载与生成、结果的评测与指标计算等流程。预处理完评测数据集后,对评测数据配置指标计算方式、目标答案解析规则等。对模型评测工作进行拆分,确定评测维度、细化评测数据集,以定义最小粒度的工作节点,根据不同的执行模式云集群模式、基于SLURM(Simple Linux Utility for Resource Management)的并行模式、基于本地Python的local模式等,最终完成模型评估任务,生成模型评估结果。
智能审计算法模型之间的协同和调度越来越重要。为提高算法模型的效率和性能,需要设计面向多模态大数据的大语言模型的智能调度与系统协同技术,包括两方面的内容:(1)通过大语言模型作为控制器实现智能调度算法,利用大模型生成任务规划;实现大语言模型对现有模型的选择;通过任务执行,将任务分配给不同的模型并进行执行。实现大模型的回答生成,并评测结果的准确性、可读性。(2)利用大语言模型生成RPA业务流,实现审计工作的智能化和自动化处理流程,包括流程的自动设定、关键参数的智能设定和调优,实现在对审计大数据采集分析的基础上与以往知识融合形成新认知的智能体自演进学习能力,确保其能在面对突发事件、新生问题等强时效性业务场景时提供可靠的知识服务能力,实现数据与知识的持续集成、领域大模型的演进学习,为多模态业务数据的感知与建模、全生命周期业务场景的智慧化精准服务提供底层平台支撑。
2.技术应用
审计人员依托一站式大模型开发管理平台技术开展智能审计,应用过程如下。
(1)数据处理与自动标注:收集企业多维度来源的多模态数据,对数据进行标准化处理。利用平台提供的自动标注功能,对多模态数据进行初步自动标注。自动标注系统通过大模型的语义理解能力,对数据中的关键信息进行提取和标注,为后续模型训练提供高质量的训练数据集。(2)模型训练与评估:将处理后的数据注入预训练的大模型中,进行模型训练。利用平台提供的全流程评测工具,定期评估模型的能力。通过配置评测数据集、计算指标等方式,评估模型的准确性、可读性等。根据评估结果对模型进行调优,提高模型的性能。(3)智能调度与系统协同:利用大模型作为控制器,实现智能调度算法。通过大模型的生成任务规划,实现对现有模型的选择和调度,将任务分配给不同的模型执行。生成RPA业务流,实现审计工作的智能化和自动化处理。包括流程的自动设定、关键参数的智能设定和调优,实现与以往知识的融合,形成新认知的智能体自演进学习能力。(4)结果展示与决策支持:通过大模型的推理功能,生成审计报告,展示审计结果。审计报告包括对企业财务报表的分析、潜在风险的识别、不合规行为的揭示等内容。根据报告结果为企业提供决策支持,帮助企业改进财务管理、加强风险防控等方面的工作。
四、智能审计的工程化路径
工程化是智能审计广泛应用的基础,是审计向数字化转型的必经之路。智能审计的核心技术发展和创新为工程化路径的不断完善和优化提供了可能,而工程化路径的实施和应用则为核心技术的进一步发展和应用提供实践基础和反馈。
(一)基于多模态大数据的审计数据治理路径
采用“多模态大数据智能抽取→多方数据隐私计算保护融合→审计元数据管理体系构建”的技术路径,实现面向多模态审计大数据的安全治理。总体技术路线如图2所示。
对接多种异构数据源,对异构数据进行梳理转化,进行数据清洗,对数据进行编码对齐,实现对采集图片、文本、音视频等形式异构数据的智能抽取,做到广泛的数据采集。构建多方安全计算算法,实现数据存储加密,在多方安全计算与联邦学习融合的基础上,实现数据隐私存储以及数据交互安全。最后构建一套元数据管理体系,将智能抽取的数据通过元数据体系管理起来,实现数据的高效使用,保证审计质效。
考虑到企业的日常运营涉及多种数据类型,包括文本合同、图片发票、视频监控等。多模态数据为审计提供了丰富的信息,也带来了治理上的挑战。如何有效保证数据安全、隐私和高效利用,成为审计工作的关键。一是多模态大数据智能抽取。使用智能抽取技术从企业各个业务系统中抽取关键数据。通过自然语言处理技术从合同文本中提取签约日期、金额、条款等关键信息;通过图像识别技术从发票图片中识别出供应商、发票号、金额等信息;通过视频分析技术从监控视频中识别出异常行为或违规行为。审计数据治理大大提高了业务数据采集的效率和准确性,为后续的审计分析提供了坚实基础。二是多方数据隐私计算保护数据融合。大型企业审计涉及多地区和多子公司的数据,采用多方安全计算算法,确保在数据不离开本地的情况下进行联合分析。对于涉及不同地区子公司的财务数据,利用联邦学习算法进行模型训练,实现跨区域的联合审计保证数据的隐私性。三是审计元数据管理体系构建。构建一个元数据管理体系,将所有抽取的数据进行分类、标签化和索引。对于合同数据,根据合同类型、签约方、金额等维度进行分类和标签化;对于发票数据,根据供应商、发票类型、开票日期等进行分类和索引。通过元数据管理体系,审计人员能够快速定位到所需数据,达到“如臂使指”的效果。
(二)基于多模态大数据的审计大语言模型应用路径
采用“预训练数据准备→大语言模型训练和评估→知识图谱融合大模型应用分析”的技术路线,实现面向审计领域多模态大数据的大语言模型应用。如图3所示。
审计领域需要处理大量多模态数据。为了从复杂的数据中提取有用的信息,选用基于多模态大数据的审计大语言模型。审计机构审查一家大型跨国企业的全部财务数据,并希望使用大语言模型来自动化处理和分析这些数据:一是预训练数据准备。收集大量的财务报表、合同文本和图片数据;利用自然语言处理技术对文本数据进行清洗和标注;对图片数据则提取其中的关键信息。经过预训练数据准备,得到高质量的数据集,为后续的大语言模型训练和评估提供基础。二是大语言模型训练和评估。使用大语言模型,并基于预训练数据集进行训练。训练过程中如发现模型的推理逻辑能力在某些财务报表分析任务上表现不佳,可使用增量微调LoRA方法对模型进行调整,经过训练和评估,得到一个适用的多模态大数据处理模型。三是知识图谱融合大模型应用分析。为进一步提高模型的性能,将知识图谱与大语言模型进行融合。构建审计领域的知识图谱,包括各种财务报表的实体、关系和规则;利用知识图谱增强大语言模型的能力,使其能够更好地理解财务报表中的复杂关系和规则。通过知识图谱融合大模型应用分析,审计人员发现模型的实体发现、共指消解和关系提取能力得到了显著提升。
(三)基于多模态大数据的审计智能体自演进路径
采用“大模型设计→模型评估及生成智能体→审计问题自动发现、审计报告自动生成、审计建议自动输出等应用落地→审计智能体自演进”的技术路线,实现数据与知识融合驱动的一站式自演进审计应用平台,总体技术路线如图4所示。
依托前述工程化基础,通过提取审计业务活动所涉及的相关数据,采用命令实体分类、文本分类等技术构建可供大模型智能体学习的高质量训练数据集,使之成为审计智能体的知识底座。针对审计知识底座,利用一站式模型开发管理平台中的模型微调、评估、部署等功能,完成对大模型的调优,进而形成审计智能体。借助于知识底座的不断更新,为审计智能体的自演进提供数据基础。利用RPA技术审计智能体完成对审计业务规则和流程的制定[9],发现业务活动中的关键问题、生成审计报告,给出相应的审计建议。在上述基础上形成基于大模型的审计智能体自演进框架,最后对形成的框架进行人工评价和调整,以使其更为准确和全面地理解审计业务,并最终服务于审计业务。
五、结语
随着大数据、人工智能等新技术的广泛应用,特别是大语言模型等的探索应用,能够迅速处理和理解大量的非结构化数据。审计场景、审计方法、审计过程和审计工具正在经历着全面而深刻的变革,推动着传统审计向智能审计转型,建成新型审计监督体系。现有审计实践与成果,标志着审计工作不再局限于传统的数据整理和初步分析,而是更多地依赖自动化流程和先进算法,协助审计人员更快速度、更为准确地挖掘数据模式、规律。
智能审计赋能审计人员更灵活地应对复杂的审计任务,专注于业务分析和方向性决策。审计机关一旦掌握先进的智能审计技术和工具,包括多方安全计算技术、多模态大数据处理、自动化审计测试、智能决策支持、大模型开发管理平台技术等,实现审计过程的高度自动化和智能化,则审计人员的工作将从繁琐的数据收集、初步分析中解放出来,转而致力于对复杂分析结果的深度解读、决策制定和行业研究。
总之,大数据和人工智能等新技术将为审计领域注入新活力,让审计人员从烦琐、初级的数据处理中解放出来,通过深层次的、高维度的数据分析为国家治理提供更有深度和战略性的审计服务。
【参考文献】
[1] 习近平.在二十届中央审计委员会第一次会议上的讲话[EB/OL].(2023-05-23)[2024-02-16].https:// www.ccps.gov.cn/tpxw/202310/t20
231031_159717.shtml.
[2] 晏维龙,孟金卓,张璐,等.开展“如影随形”审计工作的思路[J].审计观察,2023(8):56-61.
[3] 秦荣生.研究型审计的现实使命与实现路径研究[J].会计之友,2024(4):2-5.
[4] 叶祥,钱钢.审计领域大数据治理体系研究[J].网络安全与数据治理,2023,42(4):27-32.
[5] YAO A C C.How to generate and exchange secrets[C].27th Annual Symposium on Foundations of Computer Science (SFCS 1986),Toronto,ON,Canada,1986.
[6] 李莉,宣佳铮,高尚,等.基于不经意多项式估值的SM4协同加解密方案[J].计算机应用研究,2024,41(6):1862-1868.
[7] GIDDENS S,ZHOU Y,KRULL KevinR,et al.A differentially private weighted empirical risk minimization procedure and its application to outcome weighted learning[Z].2023.
[8] 徐超.审计大模型的构建与运用[J].审计观察,2023(11):4-7.
[9] 樊俏.财务机器人RPA的智能数据提取与处理技术[J].中国信息化,2024(1):58-59.