陈志雄
[摘 要]2022年在我国经济发展面临需求收缩、供给冲击、预期转弱三重压力下,数字经济作为推动经济复苏的新动能和新引擎,已经成为世界范围内最显著的新经济增长极。在數字经济的大潮中,各行业迎来了新一发展机遇,如何在云改数转中进一步提升发展能力,如何充分运用数据,使之在审计监督中发挥更大作用,提升审计工作效率,审计数字化成为新形势下开展审计工作的迫切要求。本文介绍了在数字化审计的要求下,根据内部审计工作的特点和对数据的要求,建立一个可扩展、可理解、可管理的数据中台,并使底层数据储存符合完整性、可追溯性和可理解性的要求,通过搭建原始数据层、规范数据层、数据宽表层的三层架构,通过逻辑知识管理中心将数据实体和数据逻辑进行解耦,打造坚实的审计大数据支撑基础,为数字化审计提供更优的服务。
[关键词]审计信息化;数据中台;数据库技术;系统架构
doi:10.3969/j.issn.1673-0194.2023.23.016
[中图分类号]F239 [文献标识码]A [文章编号]1673-0194(2023)23-0051-04
0 引 言
随着全社会数字化转型不断深化,企业云改数转战略的实施,借助信息化手段驱动业务管理变革,以实现企业提质、降本、增效的目标,需要推动企业的数字化管理提升。为了推进企业数字化转型,打造一个符合内部审计检查要求的数据管理体系,本文通过整理非现场审计中遇到的关于历史数据提取、海量数据分析等相关问题,结合审计业务人员对审计所需数据的要求,探索一种搭建数据中台的架构,运用数字化技术更好地支撑审计工作,以提升审计效率的方法。
1 数字化审计背景
数字经济作为推动经济复苏的新动能和新引擎,已经成为世界范围内最显著的新经济增长极,是当前世界各国重点关注和发展的核心领域,全球各国在数字经济领域的竞争也日趋激烈[1]。
审计工作中要运用好数字化技术,推动企业发展,做好监督工作,让大数据和AI技术在审计工作中充分发挥作用。所以探索数字化审计、信息化审计技术,成为一个重要的研究课题。数字化和信息化技术已经在审计工作中广泛应用,但因为审计的特殊性,审计工作也对传统的大数据技术提出了新的要求。
2 审计对数据中台的要求
内部审计对数据的要求与经营分析对数据的要求不完全一致,审计检查需要分析数据的异常性和不合理性,经营分析则要求分析经营业务结果的达标情况[2]。审计检查使用的数据源和数据清洗方式有其特殊要求,要求在数据中台的框架设计中符合完整性、可追溯性和可理解性。导致审计数据中台的系统框架与经营分析数据中台的系统框架有所不同,审计数据中台的框架更加关心对原始数据的细节和结构的保存,特别对超长期历史数据的结构保存。以下是对审计工作对数据要求的分析和总结。
2.1 完整性要求
数据信息不但包含数据值的信息,数据格式和数据结构也包含大量的信息,根据不同需要对数据的清洗必然会破坏这种信息结构。审计工作不同于经营分析只关注经营结果,审计工作既关注业务的结果也更加关注业务的流程,审计检查需要通过业务过程的异常,发现问题线索。需要终端关注过程中是否存在违规的现象,流程是否合规合法[2]。审计工作要求原始数据完整,不但要求数据值的完整,还要求数据结构的完整性,以应对在不同时期,按照审计要求对数据的处理要求,所以要求在处理原始数据时尽量减少对数据的清洗和异常数据处理,保持源数据的数据结构特征和数据细节的完整性。
2.2 可追溯性要求
审计检查需要对一段较长的时间区间进行数据分析,最少追溯时间为3年,特殊情况可能超过10年[3]。因信息化系统在不断快速演进,数据格式和内容不定期会发生根本性的变化,对于审计数据分析来说是灾难性的。审计工作要求数据中台的数据是可追溯性的。需要审计中台可以根据现行要求动态地分析历史异构数据,能够保存和管理多次发生数据格式变更的原始数据,并通过各种不同版本的原始数据根据当前的审计要求生成特定的数据宽表。因内部审计可以获得公司全量数据的特点,要求审计中台能够比生产系统更长时间保存历史数据,并且不受到信息化系统更新频繁的影响,将数据结构知识系统化保存,不但要保存数据,而且要保存数据结构信息。避免在审计时点,部分信息化系统数据已经因割接或者版本变更原因不可用的问题,要求审计数据中台保存数据具有可追溯性。
2.3 可理解性要求
审计检查既关注整体的数据情况,也关注数据细节情况,比如审计发现某年年底的财务收入发生了较大的总数波动,但需要找到具体的数据原因,可能要分析财务报表细项的变化情况,这样要求数据源为可理解数据[4]。因为信息系统本身存在不断迭代演进的过程,部分系统的生命周期并不长,而且系统维护和开发人员流动性大,而对数据的理解以往都依靠原始数据系统提供单位或相关具体的数据分析人员,如果当时的数据分析人员离岗,会导致知识不能很好地交接。所以要求数据中台必须保存数据的理解信息,以一个统一的规范将数据的结构和组成方式、数据值的枚举、数据对应业务的说明等信息进行保存,保证数据分析人员可以通过统一的查询方式,比较容易理解数据。并且分析人员对数据的理解也是逐步完善的,通过统一的规范可以将数据知识积累下来,实现中台保存数据的可理解性。
3 审计数据中台的框架设计
通过对内部审计检查对数据的要求进行分析,规划审计数据中台按照三层架构搭建按照图1的架构将系统分成三层,将数据实体和数据逻辑进行解耦,实现通过变化的数据逻辑动态地生成数据宽表,实现多版本的数据逻辑动态生成统一的数据宽表。数据中台按照原始数据层、规范数据层、数据宽表层和逻辑知识管理中心进行管理,解耦数据的规范化处理、解耦数据的逻辑处理,实现数据版本管理。
图 1 数据中台的系统架构设计
3.1 原始数据层
直接抽取源系统中的原数据进行保存,按照提供数据的系统的类型,如关系型数据库直接按照表结构保存、接口文件按照原文件结构保存、NSQL数据按照KEY-VALUE结构保存,在原始数据层,是对原系统的全表数据抽取,不对数据进行任何逻辑转换或字段过滤,只是将原始数据转换为数据中台可识别的几种类型。如果系统允许,关系型数据表保存在源系统的同类型数据库中,尽量避免数据的转换。
3.2 规范数据层
通过尽量减少数据中台数据类型,利用大数据系统空间成本相对低的特点,减少数据类型的复杂度,数据字段格式规范为字符串型、数值型两种类型。以下为一些特殊数据类型的表示方式。
3.2.1 二进制型
对于图片、文件等BLOG的字段,直接保存为文件,通过文件服务器进行保存,数据库中只保留文件存放位置信息。
3.2.2 日期型
对于日期型字段,需要转换为标准字符串,如“2022-05-22 23:59:59”的字符串类型。
3.3 数据宽表层
按照具体的审计需求和集团模型需求,从规范数据层生成宽表数据,宽表数据可以是动态的,根据需求利用大数据库的高效处理特性随时生成。宽表层的宽表根据用途,可分为风险扫描宽表和数据输出宽表。
3.3.1 风险扫描宽表
根据风险扫描模型,基于规范数据层生成数据宽表,数据生成逻辑以SQL脚本、存储过程或者调度程序等方式保存。为实现脚本的规范管理,可以建立脚本信息库统一管理。
3.3.2 数据输出宽表
为符合审计业务人员的操作习惯,适应不同人员的信息化技术水平。对于条目数有限但业务复杂,或者属于报表性数据,人工通过Excel核查效率可能更高。但为了能够方便数据输出,将输出宽表设置为统一格式的数据表,表字段名称为统一标准字段,字段对应的中文或英文名字保存在相应的宽表字段信息表中,以方便直接导出为Excel文件。
3.4 逻辑知识管理中心
用于保存三层数据相关的数据结构信息,解耦数据逻辑和实例数据,通过单独的数据逻辑信息保存,实现对数据逻辑的动态管理。
3.4.1 原始数据层信息管理
通过保存数据源表的基本信息见表1,并设计描述
数据源提取的基本数据表,实现对oracle、mysql、ftp、
文本等数据源的类型的数据源管理功能,并支持关系型数据和NOSQL数据库数据源的数据处理,方便对第二层规范数据层数据的溯源。
3.4.2 规范数据层表信息管理
描述从原始数据层一对一转换来的数据表对应关系见表2,并设字段信息表来保存各字段的說明、数据类型等,通过字段属性表来保存和其他表的关联键和字段的枚举值。通过对规范数据层的信息管理来实现数据中台对于数据源的数据结构信息、数据值的理解等信息管理,此层是整个数据中台的核心层。
注:在第一次新建标准表的时候,不要求一次性完善表逻辑信息,可以在审计分析的过程中,不断的完善相关信息,并实现知识的积累。
3.4.3 宽表信息管理
宽表的信息主要分为风险扫描运用宽表和Excel标准输出宽表两种类型,其中风险扫描宽表结构是根据风险扫描模型的具体要求来生成,如按照集团公司的模型规范从标准数据表中抽取、关联、组合。标准输出宽表的结构为统一字段表结构。
4 审计数据中台中数据生命周期流程设计
中台中的数据生命周期如图2所示,以规范数据表为核心,按照逻辑生成宽表数据,中台的数据生命周期管理以规范数据表的生命周期为基础和粒度进行管理,根据数据源的变化而变化,如遇到大版本的数据源变更,就新增加一个规范数据表版本,如只是字段新增,需要同时修改规范表中的所有数据。
图2 数据中台中的数据生命周期情况
4.1 数据生命周期
规范数据表分为建设中、持续更新、更新停止三种状态。
建设中,即数据源规范已经完成,正在配置三层数据结构,正在进行规范梳理,正在进行数据接口开发。
持续更新,即已经完成了三层数据表和相关信息配置,按照计划开始传输数据。
更新停止,数据源出现问题,如数据源发生变更,数据源失效等原因,导致数据停止更新。
4.2 新理解知识更新流程
数据理解知识更新流程和数据源更新流程是区隔的,符合知识的不断累积过程,对于之前不理解的数据进行不断完善,在完善过程中不需要对三层中的实例数据进行调整。
4.3 原有数据版本变更流程
如果IT系统发生版本更新后,源数据发生非新增字段的变化时,需要按照数据源新增流程,新增加的模型按照数据源的新版本进行管理。
5 优化方向
5.1 实践中遇到的问题
5.1.1 数据版本不一致问题难以解决
在数据积累的过程中发现对于历史数据的管理,同一数据内容,因系统更新原因导致的多版本数据管理是非常困难的,本文中介绍的架构对此问题有一定支持,但如果相关信息系统发生根本版本变化,如不同厂家的信息系统替换的时候,不但数据尾表、枚举值会变更,甚至数据的格式和表间逻辑关系也会发生重大变化,如何实现多版本的数据同一管理,是数据中台架构下一步完善的重点。
5.1.2 信息数据安全需要进一步加强
按照此系统架构要求,基本不对原数据进行处理,使得原数据中的敏感字段在规范数据层没有脱敏,数据分析人员可以接触到敏感信息。同时根据审计和稽核要求,部分风险扫描模型输出数据要求敏感信息不能脱敏,如合同的甲、乙方名称,合同金额,用户的设备号码等,所以对于数据中台的信息安全管理提出了较高要求。
5.2 下一步优化方向
(1)通过统一的规则和程序根据逻辑知识管理中心的信息动态生成宽表,在不断的系统运行中找出多版本历史数据合并处理的方法。
(2)不断加强系统信息安全管理,从筑好围墙和做好监控防护两个方面入手,严格按照网信安全要求实现分析数据不出系统,结果数据下载有审批有记录的要求,探索通过技术手段提升数据安全和信息安全的方法。
6 结束语
本文描述的审计数据中台架构,经过了一段时间的数据累积,取得了一定的效果,解决了之前因为人员更换、系统版本更新导致的数据源异常,历史数据不可用的痛点。这个架构能够较好地保存积累下的关于数据逻辑结构的知识,使知识不再存于维护人员的私人笔记中,而是以可查询的方式保存在系统中,让知识能够积累,不断提升数据中台对审计工作的支撑能力。
主要参考文献
[1]李三希.我国数字经济发展的主要特点和突出优势[J].国家治理,2021(18):3-7.
[2]谭丽丽,罗志国.内部审计工作法[M].北京:机械工业出版社,2017.
[3]郭勇.提升内部审计工作质量及效果的思考[J].中国集体经济,2022(33):33-35.
[4]陈丽娟.大数据时代企业内部审计信息化问题研究[J].科技经济市场,2022(4):70-72.