【摘要】在当前学界业界, 尚缺乏关于AI大模型财务能力的规范化评估体系。基于该背景, 本文选择CPA考试作为评估体系, 针对ChatGPT、 智谱清言、 讯飞星火三款AI大模型财务能力展开深度测评, 希望在数据可验证的范围内, 呈现大模型应用于财务场景的优势与不足, 并通过深入分析, 处一隅而观全局, 从整体层面把握AI大模型在财务行业的应用可行性及未来发展趋势。研究结果显示, 三款参评大模型在2023年CPA六门真题的单科测试中均未及格, 但在侧重于零散化知识理解、 记忆、 应用以及文本撰写能力的《税法》《经济法》《公司战略与风险管理》科目上展现出相当潜力, 在需要复杂链式思维能力、 高度计算准确性、 文本细节深度理解的《会计》《财务成本管理》《审计》科目上存在明显不足。本文认为, 在整体层面, 财会行业对未来大模型的应用可持谨慎的乐观态度, 并进一步从学习备考辅助、 会计职能转型、 财务应用场景、 教学及科研四个维度, 提炼了本次测评对大模型财务应用的具体借鉴及启发, 以期为在校学生、 CPA考生、 会计专业人士、 研究学者及软件开发商等提供有益参考。
【关键词】ChatGPT;AI大模型;CPA;财务能力测评;启示
【中图分类号】F275" " " 【文献标识码】A" " " 【文章编号】1004-0994(2024)18-0044-8
一、 引言
2022年11月底, OpenAI发布对话式AI产品ChatGPT, 一石激起千层浪, 谷歌、 Meta等巨头也陆续推出了各自的代表性产品, 如Claude、 Gemini、 Llama等。2023年也是国产大模型集中发力之年, 据不完全统计, 截至2024年5月, 国内共有约140个大模型成功完成生成式人工智能服务备案, 代表性产品包括文心一言、 智谱清言、 讯飞星火、 Kimi、 通义千问、 百川智能、 天工、 腾讯混元、 360智脑等, 星星之火终成燎原之势, 有望带来新一轮人类生产力与人类思想的大解放。
与此同时, 以ChatGPT为代表的预训练大语言模型(简称“大模型”)的出现, 也在财务领域掀起了新一轮讨论热潮。刘勤(2023)从整体层面探讨了类ChatGPT系统对会计工作的影响, 研究指出其影响主要表现在会计数据处理、 报表生成和分析、 会计咨询和教育等方面, 而对于一些更需要创造性和抽象思维(如会计准则制定、 企业盈利模式创新等)以及需要高度社交智慧和谈判技巧等方面的工作ChatGPT则难以胜任。金源和李成智(2023a)通过问卷调研指出, 尽管会计人员已经意识到大模型对会计职能转型将会产生深远影响, 但在评估其具体影响的过程中会高估其影响, 且在变革应对过程中面临“知易行难”等方面的困境。在具体落地场景研究方面, 金源等(2023a;2023b)通过实践案例演示如何基于ChatGPT实现财务分析、 问答式知识库等场景, 以进一步提升原有财务流程的自动化和智能化程度。
从定性角度, 现有学者针对大模型的财务适用性问题进行了较为全面的探讨。但从定量角度, 由于财务场景的高度专业性和复杂性, 目前学界业界尚未形成一套有关大模型财务能力的规范化测评体系, 因此针对大模型对财务领域整体影响的探讨也基本只有观点交锋, 而缺乏数据支撑。
CPA作为国内财会行业认可度最高的证书, 可以系统化地检验考生对会计准则、 审计程序、 财务管理方法等知识和技能的掌握程度, 一定程度上反映了财会行业对专业人才的要求和标准, 因而非常适合作为大模型财务能力的测评体系。同时, 尽管基于CPA的测评体系无法完全覆盖财务所需的全部能力维度, 但已足够支撑整体趋势层面的分析。通过大模型的CPA测评, 本文希望达成如下目标: (1)基于对CPA测试结果的分析和细节的挖掘, 在数据可验证的范围内, 呈现大模型在财务能力方面的优势和不足。(2)基于优势和不足的深入探讨, 现阶段大模型能为财务学界、 业界、 个人和组织带来哪些实质性帮助?(3)基于两年的得分对比, 分析大模型在各个科目上呈现出怎样的得分变化趋势?(4)处一隅而观全局, 这种变化趋势在行业整体层面体现了大模型财务应用怎样的未来发展趋势?这种趋势对在校学生、 会计人员、 CPA考生、 相关领域研究学者和软件厂商有怎样的借鉴和启发?
二、 研究设计与方法
(一) 整体步骤
本文进行大模型CPA测评的整体步骤为: (1)试题搜集阶段: 从可靠渠道获取CPA整套真题试卷。(2)试题加工阶段: 将整套试题中的每道小题逐个拆分, 同时将试题中的图表转换为文本格式, 并将试题内容与Prompt提示词进行组合。(3)问答阶段: 将经过加工的试题输入大模型中, 并记录大模型的返回结果。(4)AI阅卷阶段: 在问答阶段完成后, 使用某CPA教育机构开发的AI阅卷系统对大模型的答案进行自动评分。AI阅卷系统会根据预设的评分标准对答案进行评估, 以判断其准确性和完整性。(5)人工复核阶段: 在AI阅卷后, 采用人工复核的形式, 参照CPA具体评分标准对AI阅卷结果进行二次复核, 以修正AI阅卷系统可能存在的偏差。
(二) 方法设计
1. 大模型获取与使用。当前大模型应用包括API接入、 直接访问官网、 本地化部署三种主要途径, 本文测评过程采用直接访问模型服务所在的官方网站的方式。测评所选用的ChatGPT为GPT-4o版本、 智谱清言为GLM-4版本、 讯飞星火大模型为V4.0版本。
2. 测试题目。选取2023年CPA专业阶段《会计》、 《审计》、 《财务成本管理》(简称《财管》)、 《经济法》、 《税法》、 《公司战略与风险管理》(简称《战略》)六科整套真题。
3. 评分标准。(1)以100分为满分, 不考虑英文答题的5分额外加分; (2)参照CPA官方各科分值分布与评分标准; (3)采用AI评分+人工复核模式; (4)客观题中, 单选给出答案模糊或超过一个答案不得分, 多选题仅全对才给分。
4. Prompt提示词设计。(1)在选择题测试中会明确告知大模型题型为[单选/多选], 同时Prompt提示词中加入“请一步一步地思考并回答某某问题”, 以触发大语言模型的思维链, 提高其逻辑推理能力; (2)在Prompt提示词中加入“依据中国的会计、 审计、 税务等方面相关的准则和法规”, 以尽可能消除各国准则、 法规理解上差异导致大模型的回答错误。
5. 测试方法。(1)《会计》《财管》《战略》《审计》四门科目不开启大模型联网搜索能力, 仅依靠其本身的推理能力。(2)《税法》《经济法》科目允许大模型使用联网搜索能力检索对应法条, 以消除“幻觉”问题对于评估其真实能力的影响。(3)同时测评过程中检查参考资料来源, 如大模型直接检索出CPA真题答案, 则重新测试。(4)采用Zero-shot(零次学习)方式, 即不在提示词中为大模型提供同类别的练习题目供其学习理解。(5)对于涵盖大模型难以理解的图表的题目(例如表中含有较多空格与横杠,会严重影响大模型的理解), 会从测评中剔除, 并将剩余分数按比例调成百分制, 由于存在该种情况的题目仅在《财管》科目中出现三道, 因此不会对整体测评产生显著影响。
三、 测评结果及分析
(一) 核心结果: 现阶段大模型均不具备通过CPA能力
从整体结果来看, 本次三款大模型在各自的六门CPA单科测试中, 均未达到60分的及格线, 各科目具体得分如图1所示。其中: 单科表现最好的是讯飞星火在《经济法》科目上得到了58分, 仅差2分通过; 智谱清言在《经济法》科目也得到了57.75的分数。单科表现最差的是讯飞星火在《会计》科目上的表现, 仅得到了23.5分。
同时, 笔者在2023年曾用GPT-4 Turbo针对2022年真题进行了全科测试①, 两年测试结果对比如图2所示。本次基于GPT-4o模型的ChatGPT在所有科目分数均有了2 ~ 12分的提升, 平均提分率为17%。
为进一步排除大模型得分提高是由于试题难度显著降低的影响的可能性," 本文从《2023年注册会计师全国统一考试分析报告》(姚冬萍等,2024)中获取了CPA考试近三年各科通过情况以及各科目平均难度值的统计数据。2023年CPA专业阶段六科平均通过率在20%, 且相比于2022年, 2023年各科通过率均表现出一定程度的下降。2022 ~ 2023年, 官方统计的CPA各科平均难度从0.4672下降到0.4562, 下降率仅为2%, 而与此同时ChatGPT在各科上却实现了平均17%的提分。综合上述数据可以说明, 大模型近一年得分的提高主要是由于大模型本身性能的提升。从三款大模型各科平均得分来看, 《经济法》平均得分最高, 为55分, 而《会计》平均得分最低, 仅有30.6分, 如图3所示。
基于《2023年注册会计师全国统一考试分析报告》公布的考生得分的分布情况, 本文将大模型平均分与CPA考生平均分进一步对比可发现如下现象, 如图4所示。在《会计》科目上, 大模型得分显著低于CPA考生; 在《财管》科目上, 大模型得分略低于CPA考生; 在《审计》科目上, 二者得分基本持平; 在《经济法》《税法》《战略》科目上, 大模型得分显著高于CPA考生。
在探讨CPA考试难易程度时, CPA考生群体通常会将其分为小三科与大三科。其中, 小三科指《税法》《经济法》《战略》, 其考核重点在于对知识的理解、 记忆以及文本撰写。这些科目在CPA考试中具有较高的“文科”属性, 极好地适配了大模型在信息处理、 文本生成等方面的优势, 因此, 大模型在这些科目上的得分表现显著优于CPA考生。
《会计》《审计》《财管》因整体难度较大、 通过率偏低, 被称为大三科。其中: 《会计》科目涉及众多专业术语, 要求考生具备严密的逻辑连贯性和精确的计算能力, 尤其是长期股权投资、 金融工具、 合并财务报表等章节, 难度系数为整个CPA考试之最; 《财管》科目则因公式繁多、 计算量大, 对考生的数学能力提出了较高的要求。这两个科目在CPA考试中具有较强的“理科”特征, 而大模型在逻辑严谨性和计算精准度方面的局限性, 导致其在这些科目上的得分表现不佳。
《审计》科目则因其命题灵活性而独具特色, 考生需深入挖掘题干文本的细节, 并在章节之间建立高度逻辑关联, 以全局视角进行理解和掌握。这一特点与大模型的技术特性相对契合, 使得大模型在《审计》科目上的得分处于中等水平。
(二) 各科目测评细节分析
1. 在小三科上大模型已展现出相当潜力。在本次测评中, 三款大模型在《经济法》《税法》《战略》科目上的平均得分均超过50分, 在如图5所示的《经济法》的细项得分中, 智谱清言在单选题上正确率达到了76.9%(20/26), 讯飞星火的主观题得分率也达到了50%。大模型在上述三个科目上的高得分率是由于其基于联网搜索能力, 可精确检索到相关法条并做出判断。
近一年来, 随着大模型参数量的迅速提升和RAG模式(检索增强生成)的普及, 大模型已经能够触摸到通过《经济法》科目的边缘。我们有理由相信, 一年之后, 国产大模型将可以在相当可靠的置信区间内通过CPA《经济法》考试, 并且在《税法》《战略》科目上的平均成绩也将进一步提升。
2. 大模型在《会计》科目上的提分达到瓶颈。在CPA考试体系中, 《会计》科目占据了核心地位, 同时也是历届考生普遍认为难度极大的考试内容。根据2023年中国注册会计师协会发布的统计数据, 该年度《会计》科目的合格率仅为12.58%, 显著低于CPA考试的其他科目。测试过程中, 大模型在《会计》科目上的得分也远未能达到及格标准, 具体得分如图6所示。
这一数据反映出大模型在应对此类高难度会计专业知识考核时的局限性, 通过进一步将大模型答案与标准答案比对, 本文发现是出于以下原因:
(1) 部分会计问题逻辑过于复杂, 需要非常连贯的链式逻辑思维, 如长期股权投资、 金融工具、 合并财务报表等通常会在综合题中重点考察, 这也导致了大模型在《会计》综合题中得分率较低。以2023年《会计》真题综合题第一题为例, 题目要求依据背景资料“编制甲公司对乙公司增持股份的会计分录”, 大模型答案与正确答案对比如图7所示。
从上述分录对比可以观察到, 大模型在生成会计分录时存在如下问题: 第一, 基本只会一借一贷," 很难进行复杂场景分录的完整生成; 第二, 科目分类不准确, 例如在上图中前两笔将“长期股权投资”错记为“可供出售金融资产”; 第三, 无法理解部分复杂会计逻辑, 例如上图在进行公允价值调整时, 大模型未能识别出需要计提递延所得税负债。
(2) 大模型会犯非常基本的运算错误, 如图8所示, 在2023年CPA《会计》综合题第二题的测评过程中, 其将“9000万元-8670万元=330万元”的结果算错为“370万元”。
此外, 进一步对比两年ChatGPT的测试数据可以发现, 在过去一年由于模型的迭代, 其在大部分科目上提升了7 ~ 12分, 但在《会计》科目上, 仅有4分的提升。
如果进一步从技术角度来分析该现象, 从2023年的GPT-4 Turbo到2024年的GPT-4o, OpenAI训练过程中几乎纳入了互联网上所有可以获得的可靠语料, 搭配充足的算力供应, 但在模型基础能力上仅实现了微小的提升。依据 ChatBot Arena②排行榜, 从GPT-4 Turbo到GPT-4o, 基准得分仅从1158分提升至1216分。
上述数据揭示了一个不容忽视的事实, 即在应对如CPA《会计》科目这般要求高度连锁思维的专业领域问题时, 依赖于通用型大模型的策略似乎已陷入了一种发展僵局。突破这一瓶颈的关键在于获取规模庞大的会计领域高质量标注数据, 然而, 这在短期内是一个难以实现的目标。据此可以推断, 仅基于现有可获取的训练数据, 且在大模型底层技术架构没有颠覆性突破的情况下, CPA《会计》科目将持续成为大模型的重大挑战。
3. 大模型在《审计》科目上对文本细节理解不足。《审计》科目中的“简答题”题型要求通过对审计场景细节的理解, 判断注册会计师的处理是否恰当, 以2023年《审计》真题为例, 该类题型常规的出题形式为: “(1)甲公司于2022年年中启用新的存货管理系统, 实现了存货的全流程自动化管理。A注册会计师对存货采用综合性方案, 测试了与该系统相关的信息技术一般控制及信息处理控制运行的有效性, 结果满意, 据此认为与存货相关的控制运行有效。请指出A注册会计师的做法是否恰当。如果恰当, 无需解释, 如不恰当, 简要说明理由。”
以该试题为例, 参与测试的三个大模型做出的判断都是“恰当”。而标准答案为“不恰当。还应当测试存货管理系统启用前与存货相关的控制运行的有效性”。这是由于题干中有一个隐藏的细节“陷阱”: 如果要认为存货相关的控制运行有效, 仅检测新系统的有效性是不够的, 需在保证新系统启用前与存货相关的控制也运行有效。
整体测试结果显示, 大模型在该类问题上的得分率仅为45%。但由于该类题型仅需答对“恰当/不恰当”即可得到部分分数, 假设全填写“恰当”, 得分率也可达到35%左右, 因此45%的得分率一定程度上可以反映出大模型在理解和判断审计场景细节上存在的不足。
要识别出这些细节对大模型挑战极大, 因为这需要理解到题干文本的“言外之意”, 从技术原理上来说, 大模型在经过TB级的大规模语料预训练后, 更擅长对于模式和规律的整体把握, 而很难准确把握问题细节。
4. 大模型应对《财管》科目计算困难重重。《财管》科目涉及较多复杂的公式计算, 例如NPV(净现值)、 等额本息还款计算、 Black-Scholes期权定价模型等, 大模型目前已能基于两种方式生成公式: (1)直接依据MarkDown语法撰写公式; (2)基于Python代码进行公式撰写, 且准确率较高。但是, 其总会由于无法精确计算或正确选择应代入公式的参数[比如本金、NCF(净现金流量)、折现率]而导致计算错误。以2023年《财管》计算分析题第一题为例:
题干: 肖先生拟在 2023 年末购置一套价格为 360 万元的精装修商品房, 使用自有资金 140 万元, 公积金贷款 60" 万元, 余款通过商业贷款获得。公积金贷款和商业贷款期限均为 10 年, 均为浮动利率, 2023 年末公积金贷款利率为4%, 商业贷款利率为 6%, 均采用等额本息方式在每年末还款。
要求: 计算前 5 年每年末的公积金还款金额和商业贷款还款金额。
正确答案: (1)前 5 年每年末的公积金还款金额=60/(P/A,4%,10)=7.40(万元); (2)前 5 年每年末的商业贷款还款金额=(360-140-60)/(P/A,6%,10)=21.74(万元)。
大模型首先通过MarkDown和Python代码正确生成了等额本息还款的计算公式(上述正确答案为知道P/A系数后的简化公式, 大模型生成的是完整公式)。但是, 其在计算商业贷款本金时出现了低级错误, 正确的金额应该为360-140-60=160(万元), 而大模型计算成200-140-60=0(万元)。
(三) 基于测评结果的大模型优势与不足提炼
基于前文的测评结果, 本文总结出如下大模型应用于财务领域的优势与不足:
1. 大模型财务能力的优势。
(1) 高效的信息处理与卓越的文本生成能力。在CPA考试中, 大模型在侧重于知识理解、 记忆以及文本撰写能力的科目, 如《税法》《经济法》《战略》上展现了显著的优势。这些科目的考试内容与大模型的核心能力高度契合, 使得大模型在这些领域的得分超过人类CPA考生。这一表现充分体现了大模型在处理大量复杂信息并提供结构化、 逻辑性强的文本输出方面的表现令人瞩目。
(2) 精确的法规检索与出色的判断能力。在本次测评中, 当大模型被赋予联网能力时, 其能够高效地检索相关法律法规, 并在此基础上做出精确的判断。特别是在《经济法》等科目中, 在联网功能的加持下大模型得分接近及格线。这种能力对于经济法/税法咨询、 合规检查等财务相关领域的工作具有重要的实践意义。
(3) 基础模型性能持续提升带来的未来可能性。随着模型参数量的不断增加, 大模型在多个CPA考试科目的得分上呈现出显著的提升趋势。此外, 目前出现的RAG(检索增强生成)、 Copilot(智能副驾)、 AI Agent(智能体)等全新大模型应用范式, 也为大模型在财务领域提供了更为广阔的应用前景。
2. 大模型财务能力的不足。
(1) 链式思维能力的局限。在应对《会计》科目中涉及的复杂链式思维问题(如长期股权投资、 金融工具、 合并财务报表等)时, 大模型暴露出一定的局限性。这些场景通常要求模型能够进行多层次、 递进式的逻辑推理, 而大模型在处理这类复杂的会计场景时显得力不从心。
(2) 基本运算准确性欠佳。在《会计》《税法》《财管》科目的测试中, 受限于生成式AI的底层技术原理, 大模型在执行仅涉及“加减乘除”的基本运算时频繁出现错误, 直接影响了其整体得分。这种基本运算的准确性对于财务数据的处理至关重要, 大模型的这一缺陷表明其在财务数据处理方面的可靠性仍有待提高。
(3) 对文本细节理解的不足。在《审计》科目的评估中, 大模型在理解和分析文本细节, 以及建立不同章节之间的逻辑关联方面存在缺陷。审计工作要求细致入微的文本解读能力和对整体审计流程的全面把握, 大模型在这一方面的不足可能会影响其在审计实践中的应用效果。
(4) 复杂公式计算能力的不足。在《财管》科目的测试中, 大模型在处理包含复杂公式和大量计算的题目时遇到了显著困难, 其得分低于实际CPA考生。这一结果表明, 大模型在处理高难度的财务分析和计算任务时, 其能力尚不足以满足专业财务工作的要求, 特别是在涉及复杂数学模型和财务模型构建的场景中。
四、 本测评对大模型财务应用的借鉴及启发
经过对测试结果的细致解读和深入分析, 本研究发现, 本次测评的结论外延影响绝不仅仅局限于CPA考试的范畴, 其对学术界、 实务界、 个人及组织都带来了一定程度的借鉴与启发。在本章节, 笔者将从四个关键维度——学习备考辅助、 会计职能转型、 财务应用场景、 教学及科研(如图9所示)对测评结果进行深入剖析, 全面探讨大模型对财务领域的广泛影响, 以期为包括在校学生、 CPA考生、 会计专业人士、 研究学者及软件开发商在内的不同受众群体提供有益的参考。
(一) 学习备考辅助维度
1. 大模型已具备入门级财务知识辅导的能力。首先, 从最直观的影响来看, 未来大模型将有能力在会计知识传授过程中担任“辅导老师”的角色, 这对于提升学习效率和备考效率具有显著意义。依据前文测试结果, 在CPA考试的《战略》《经济法》《税法》科目中, 大模型在不索引专业财务知识库的前提下, 仅依靠通用能力, 也基本具备了通过上述三个科目的潜力。
对于在校学生, 大模型可通过模拟实际案例和问题, 为“会计学原理”“初级财务会计”“管理会计”等入门课程提供强有力的学习辅助。这种模拟实践的学习方式, 让学生在贴近真实工作场景的环境中, 深入理解会计原理, 并学会如何将理论知识灵活运用于解决具体的会计问题, 以下呈现了一个具体示例。
请帮我用通俗的例子解释下, 新收入准则中的“合同资产”是什么意思?
ChatGLM: 新收入准则中的“合同资产”可以理解为一个公司在完成某个合同项目后, 尚未收到的款项。打个通俗的例子, 比如说你请一个装修公司装修房子, 你和装修公司签订了一份装修合同, 合同上写明了装修总价以及付款方式。装修完成后, 你付了一部分款项, 但合同上规定的总价中还有一部分款项尚未支付。这部分尚未支付的款项, 就相当于装修公司的“合同资产”。
换句话说, 合同资产就是公司在履行合同过程中形成的, 尚未收到的、无条件的(即仅取决于时间流逝)向客户收取对价的权利。
大模型互动式答疑服务不仅满足了考生的学习备考需求, 也为其提供了即时反馈, 增强了学习的互动性和趣味性。大模型的互动式辅导不仅提高了学生的学习效率, 还通过即时反馈和个性化指导, 增强了学生对会计概念的理解和记忆, 从而在掌握专业知识的同时, 也为未来的职业生涯奠定了坚实的理论与实践基础。
2. 大模型将推动学习方式从“被动接收”向“主动探索”转变。在传统学习模式下, 学生针对学习疑问无论是查阅资料或咨询老师, 都可能会面临反馈不及时的问题。将大模型作为学习备考辅助工具, 为学生从传统的“被动接收”知识向“主动提问”的互动式学习模式的迁移提供了难得的契机, 具体表现在如下方面: 其一, 强化批判性思维。在互动过程中, 学生被鼓励对大模型的回答进行批判性思考, 这不仅加深了他们对会计概念的理解, 也提升了他们的批判性思维能力。其二, 促进自主学习。大模型作为学习伙伴, 帮助学生培养自主学习习惯, 使他们能够在没有教师指导的情况下, 也能有效地学习和进步。其三, 提供个性化学习路径。大模型能够根据学生的学习进度和风格, 提供个性化的学习建议和资源, 从而促进学习者根据自己的节奏和兴趣进行学习。
(二) 会计职能转型维度
1. 会计人员现阶段无须过度担忧被大模型取代。尽管大模型在《经济法》《税法》《战略》等具有“文科”属性的科目上表现优异, 但其思考能力仍限于“浅层思考”, 例如无法理解题干的“言外之意”、 无法“过滤”干扰信息等。具体来讲, 在实务场景中, 如下能力是大模型所不具备的: 其一, 深度思考能力。大模型在面对复杂问题时, 仍然缺乏深层次的洞察力和批判性思维。会计专业人员能够运用他们的专业知识和经验来解读数据背后的业务含义, 提出有见地的建议和策略。其二, 灵活执行能力。会计工作往往涉及对业务流程的灵活理解和执行, 包括会计计量方式选择、 业财综合分析等。这些任务需要对细节的关注和对业务流程的深入理解, 以及在必要时进行人为判断和干预, 这些都是大模型短期内难以实现的。其三, 人际沟通技巧。会计工作不仅仅是处理数字和数据, 还需要与客户、 同事和管理层进行有效沟通。建立信任、 理解复杂的商业环境和解决冲突都需要人际交往技巧, 这些都是大模型目前无法实现的。
2. 大模型为会计人员转型指明方向。综合看来, 大模型对会计人员的影响是“危”与“机”共存的。大模型未来的确可能挤压部分会计人员的生存空间, 但也为未来会计人员突破职能边界、 实现职能转型指明了方向, 会计人员未来应积极拥抱RPA、 大模型等新兴技术, 帮助自身从基础劳动中解放出来, 一方面将触觉前置到业务活动中, 另一方面将视角提高到战略高度, 由原来的事后核算与监督拓展为通过事前预测、 事中控制和事后分析在全生命周期为企业的经营管理提供决策支持, 努力转型成为精财务、 懂业务、 会技术的复合型会计人才(金源和李成智,2023b)。
(三) 财务应用场景维度
1. 企业应扬长避短挑选“速效方案”场景。通过前文对于大模型财务应用优劣势的分析可知, 大模型具备高效的信息处理与卓越的文本生成能力, 企业在财务场景部署大模型时, 应注意扬长避短。建议先围绕大模型较为擅长的文本理解、 生成相关场景进行试点形成速效方案, 以构建会计人员对于大模型应用的信心, 适合选用作为速效方案的场景包括财务制度问答、 税法咨询、 合同要素提取、 报告撰写等。
2. 仅依靠大模型实现逻辑复杂、 计算精准财务场景的可行性不高。现阶段大模型在复杂逻辑推理、 高运算精度要求的财务场景方面存在不足。以会计核算为例, 将大模型用于CPA难度的会计核算场景, 目前可行性并不高。从数据供给的角度来看, 目前尚缺乏足够规模的高质量标注数据。高质量标注数据是训练大模型的重要基础, 它直接影响到模型的准确性和可靠性。在会计核算场景中, 数据的准确性至关重要, 因为任何错误都可能导致财务报告不准确, 进而影响到企业的决策和运营。
此外, 从需求角度分析, 会计实务界已通过会计引擎和标准化模板实现大部分记账流程自动化。这些工具和方法在实践中已经得到了验证, 并能够满足实务对于记账准确性的极高要求。因此, 即使大模型能够达到90%以上的准确率, 其在会计实务中的应用价值仍然有限, 因为实务对于准确性的要求远高于90%。
3. 企业可探索AI Agent模式以弥补大模型短板。AI Agent模式是一种以大模型作为“中枢”, 调用其他软件、 接口、 模型(如RPA、 报销系统、 专业场景的机器学习小模型等)作为“四肢”, 并开展具体行动的技术模式。AI Agent模式可以通过拆解复杂任务, 调用细分领域的专精工具组件, 从而有效弥补前文所述的大模型的短板。例如, 在智能风控场景中, AI可以通过调用企业已有的风控模型, 弥补自身在数据挖掘方面的短板, 再基于自身文本理解和生成的优势, 生成风险分析报告。
(四) 教学及科研维度
1. 依据大模型优劣势进行课程改革。
(1) 课程考核应尽量避免 “小论文”形式。鉴于当前“AI查重”技术的发展滞后于“AI生成”, 学生可以利用大模型文本生成方面的强大能力迅速撰写课程小论文, 建议教师更多地采用小组作业+汇报演讲的形式, 侧重于考核学生的专业知识思考深度和语言表达能力, 以锻炼学生大模型时代所稀缺的能力。
(2) 随着大模型在财务领域的应用逐渐成熟, 教师的教学内容和方法也需要相应地进行调整和更新。会计教师需关注大模型的发展动态, 避免将过多的教学时间投入到较容易被AI取代的知识和技能领域(例如基础知识记忆、标准化报告撰写), 应该将教学重点转移到培养学生的知识灵活运用、 批判性思维锻炼等方面。
2. 大模型财务应用方法论亟待提炼。关于大模型的财务应用, 业界普遍存在“知易行难”的问题, 缺乏一套成熟的、 被广泛认可的方法论来指导实践。现有的应用模式多样, 但尚未形成统一标准, 这在一定程度上限制了大模型应用效率的最大化和企业间的经验共享。
(1) 制定统一标准和指引: 行业组织和专业协会应积极出台关于大模型在财务领域应用的标准化指引, 包括应用场景、 方法步骤等。
(2) 深化案例研究: 通过详细记录和分析实践中的成功案例和失败教训, 提炼出具体场景下的有效应用策略, 为其他企业提供可借鉴的经验。
(3) 强化跨学科研究: 鼓励财务、 人工智能等领域的专家共同参与研究, 从多角度探讨大模型的财务应用, 以期发现新的应用场景和改进方法。
(4) 注重伦理和合规性研究: 随着大模型在财务领域的深入应用, 必须加强对其伦理和合规性问题的研究, 确保技术应用不会侵犯个人隐私、 造成数据泄露或触发道德风险。
3. 高质量标注数据与财务隐性知识待梳理。助推大模型的财务应用突破现阶段发展瓶颈的两个关键因素是高质量标注数据的获取与财务领域隐性知识的显性化, 具体来说:
(1) 专业数据集建立及共享: 为解决大模型在特定财务管理任务上的精确度不足问题(如前文《会计》《财管》得分较低), 需要系统地收集和整理实务中的财务数据, 并进行专业标注。
(2) 挖掘隐性知识: 财务专家的经验和直觉以及长期实践过程中形成的思维逻辑在决策过程中至关重要, 但这类知识很难直接显性化。通过专家访谈、 案例分析等方式, 可以逐步挖掘并记录这些隐性知识, 使其能够被大模型学习和模拟。
五、 总结与展望
(一) 总结
基于前文分析, 本文认为, 从整体层面来看财会行业对未来大模型的应用可持谨慎的乐观态度。
1. 对大模型财务应用可保持乐观的原因。
(1) 大模型已在部分场景初步显现应用可行性。大模型在《税法》《经济法》《战略》科目上较为良好的表现, 反映出其在海量信息处理、 自然语言交互、 准则法规检索等方面具有显著优势, 这使得其在财务领域的学习备考辅助、 财务制度问答、 税法咨询等场景中具备广阔的发展前景, 通过合理运用将有机会进一步转化为财务生产力。
(2) 大模型的基础性能和技术范式仍处于持续改进阶段。随着大模型参数量的不断增加, 大模型将具备更强的推理能力以及上下文理解与生成能力。同时, 当下RAG、 AI Agent等新技术范式的不断涌现, 将助推大模型实现同企业已有知识和工具的有效衔接, 进一步拓展其财务应用可行性。
(3) 当前国产大模型的财务综合能力已可以比肩ChatGPT。ChatGPT虽模型基础能力较强, 但其本身的访问限制极大地影响了其在广大财务群体中的普及应用。从本文的测试结果来看, 国产大模型由于训练语料更加本土化所带来的优势, 在《审计》《战略》《税法》《经济法》科目上的得分已经能够追平甚至超越ChatGPT, 这表明国产大模型能够更好地理解和应用与我国准则法规、 审计程序等相关的专业知识和技能。
(4) 现阶段大模型无法完全取代会计人员。尽管大模型在测评过程中在会计知识理解方面体现出较大的潜力, 但其若要实现从“理论知识”到“会计实践”的跨越, 还必须弥补深度思考、 灵活执行以及人际沟通等方面的能力短板。因此, 现阶段大模型更适合作为人机协同过程中的辅助工具, 而不能完全取代会计人员。
2. 对大模型财务应用仍需保持谨慎的原因。
(1) 现阶段大模型在部分财务能力方面仍存在明显不足。大模型在《会计》《财管》《审计》科目上表现不佳, 体现出其在需要复杂链式思维能力、 高度计算准确性、 深度理解文本细节的财务能力方面存在明显不足, 这将严重影响大模型在会计核算、 数据分析等场景的应用可行性。
(2) 大模型财务应用仍存在诸多发展瓶颈, 如无法解决, 将极大地限制大模型在未来财务领域的进一步应用。一是数据和知识瓶颈: 若要进一步解决大模型当前财务能力方面的明显不足, 高质量的数据标注和财务隐性知识的显性化至关重要, 仍需未来学界业界共同应对。二是微调(Fine-tuning)算力成本: 大模型在应用于特定财务场景时, 需要进行微调以适应实际需求, 然而微调过程所需的算力成本较高, 对于单个企业来说可行性较低, 需高校或软件厂商领衔研发财务垂直领域的基座模型。三是模型泛化能力: 大模型在特定场景下表现良好, 但在面对复杂多变的财务环境时, 其泛化能力不足, 难以应对各种未知情况。
(3) 伦理和安全方面的挑战。财务群体数量庞大, 财务数据高度重要, 因而在推动技术应用的同时必须高度关注伦理和安全问题。大模型财务应用所带来的数据隐私保护、 算法透明度、 人机协同方式、 技术性失业等关键问题仍需业界学界共同攻坚(刘勤和杨寅,2019)。
(二) 展望
回顾过去, 从电算化、 信息化(刘勤和杨寅,2019)、 智能化一路走来, 会计群体始终站在信息技术应用的前沿, 展现出对技术革新的极高热情。展望未来, 我们有理由相信, 会计群体将继续引领潮流, 将大模型更加深入地融入学习和工作的各个环节, 提升基础工作的幸福感, 促进职能转型, 助力财务价值的创造。在业界与学界的共同推动下, 我们期待大模型在财务领域迎来全新的发展阶段, 开启更加辉煌的篇章!
【 注 释 】
① https://mp.weixin.qq.com/s/0Gy1ILfYIUXkfswWT8-9_w。
② LMSys ChatBot Arena(LMSys聊天机器人竞技场),一个致力于聊天机器人排行的项目。
【 主 要 参 考 文 献 】
金源,李成智,贾冰玉.智能财务背景下的商业伦理与会计职业道德[ J].会计之友,2024(9):57 ~ 63.
金源,李成智.ChatGPT为代表的大模型对会计人员职能转型的影响与应对——基于调查问卷的例证[ J].财会月刊,2023a(18):52 ~ 59.
金源,李成智.ChatGPT对智能财务体系的影响:场景优化、技术革新与人员转型[ J].财会月刊,2023b(15):23 ~ 30.
金源,魏振,李成智.基于ChatGPT的问答式财务知识库构建与应用[ J].财会月刊,2023a(17):46 ~ 51.
金源,庄璐怡,魏振等.基于ChatGPT的财务分析:框架、应用与效果评估[ J].财会月刊,2023b(19):24 ~ 30.
刘勤,杨寅.改革开放40年的中国会计信息化:回顾与展望[ J].会计研究,2019(2):26 ~ 34.
刘勤.ChatGPT及其对会计工作的影响探讨[ J].会计之友,2023(6):158 ~ 161.
姚冬萍,陈曦,王珺.2023年注册会计师全国统一考试分析报告[ J].中国注册会计师,2024(6):70 ~ 78.
(责任编辑·校对: 黄艳晶" 刘钰莹)
DOI:10.19641/j.cnki.42-1290/f.2024.18.007
【基金项目】上海市会计学会重点课题“ChatGPT为代表的AIGC技术对会计行业的影响和应对研究”(项目编号:SHKJ2023ZDLX05);上海
国家会计学院智能财务研究院科研课题“大模型在智能财务领域的发展趋势研究”(项目编号:IF2024401)