基于PBL的“互联网+会计”MPAcc大数据分析能力培养

2018-08-09 03:32博士生导师王立宇
财会月刊 2018年16期
关键词:可视化研究生文本

程 平( 博士生导师),王立宇

一、引言

2017年5月,德勤财务机器人横空出世。随后,普华永道、安永、毕马威等“四大”国际会计师事务所表示也相继推出自行研制的财务机器人。同年7月,国务院颁布了《新一代人工智能发展规划》,从国家宏观层面规划设计了新一代人工智能未来发展思路及路径。重庆理工大学作为目前全国唯一的“互联网+会计”MPAcc深化教育改革单位,为了适应会计发展趋势和响应国务院人工智能发展战略,建立了“互联网+会计”MPAcc人才培养模式,旨在培养深度融合大数据、云计算、人工智能技术的高层次应用型会计人才。

“基于项目式的学习”(Project-Based Learning,PBL),倡导以“问题、案例、项目”为导向,培养学生的自主学习能力。PBL最早起源于20世纪50年代的医学教育,在这种培养模式下,导师通常模拟真实的情景进行教学,而学生们需要通过自主探究和合作去独立解决模拟情景中出现的问题,从而使得他们能够学习并掌握隐含在背后的科学知识。其与传统的培养模式有较大不同,最大的不同点在于PBL强调以学生的主动学习为主,而传统培养模式则以教师传输知识为主、学生接收知识为辅。李立等[1]认为PBL教学不仅能使学生自主、独立地思考,锻炼其分析与解决问题的能力,更能培养学生的团队合作意识。在PBL与课堂相结合的教学案例中,刘莉等[2]提出PBL的基本宗旨是促进学生运用在课后自学到的知识,从多个角度分析和解决实际问题,提高创新能力。

目前,随着各高校与教育专家的不断探索,PBL已经逐渐与人才的实践化培养模式相结合,并取得了一定的效果。但是,具体的实践培养还是多用于工科领域。因此,本研究充分发挥以“问题、案例、项目”为导向的思想,设计基于PBL的“互联网+会计”MPAcc大数据分析能力培养模型,并且实际应用到重庆理工大学“西部地区财务人员薪酬研究”项目中。

二、PBL与“互联网+会计”MPAcc大数据分析能力培养的契合

“互联网+”时代带来的冲击使得MPAcc研究生不得不面对其所带来的信息化挑战,包括在财务分析与决策中灵活应用大数据、云计算等新技术。不少高校也对如何培养研究生的大数据分析能力进行了实践探索。大数据本质上是数学与计算机工程的结合体[3],可以在生动地输出理论知识的同时,提供给学生一个亲自动手操作的机会[4][5]。在PBL培养模式中,导师不再是知识传输者,而是作为MPAcc研究生的设疑者、激励者、引导者、评价者。研究生作为PBL的主体,从被动地接收知识到充分发挥主观能动性,在实施项目的过程中不断地培养批判性思维,加深对已获得知识的理解并学会运用。根据学习成效金字塔理论,学习者在使用不同的学习方式之后知识的留存率差异非常明显。在学习新知识两周后,用耳朵听讲和用眼睛阅读的知识留存率仅为5%~10%。然而,使用小组讨论、马上应用和实际操练的知识留存率可以达到75%~90%。基于PBL的培养模式充分运用了学习成效金字塔理论,使MPAcc研究生在实施大数据项目的过程中充分吸收和消化已经学到的知识,提高对于MPAcc研究生来说原本并不熟悉且晦涩难懂的信息化知识的留存率。因此,PBL可以为MPAcc大数据分析能力的培养提供有效的手段。在“互联网+MPAcc”这种侧重于理解与运用的培养模式中,将PBL与大数据分析能力培养相结合,将开创交叉领域中信息化能力培养的新思路。

三、基于PBL的“互联网+会计”MPAcc大数据分析能力培养模型介绍

“互联网+会计”所需的大数据分析能力主要分为以下三个方面:

一是数据爬取能力。“互联网+”时代千万GB的数据非常普遍,及时爬取海量的会计信息是“互联网+会计”大数据分析的第一步。MPAcc研究生需要掌握的不仅是传统爬虫,还有聚焦爬虫。其工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。此外,整合清洗爬取到的数据、创建与管理数据库也是MPAcc研究生所必备的基本能力之一。

二是文本挖掘能力。大多数会计信息是文本非结构化数据,而计算机无法像人一样理解自然语言,因此需要对文本进行深层挖掘,从海量的会计信息中提取有用的结构化数据。

三是数据分析与可视化能力。运用算法分析结构化数据,更好地发挥会计的预测、计划、决策、控制、分析、监督等功能。“互联网+”时代千万GB的数据导致传统的数据分析技术手段已无法适用,灵活运用机器学习算法就成为MPAcc研究生进行相关数据分析最为关键的一步。分析完成后,将分析结果进行科学计算可视化,即将复杂的多维数据分析结果生成图像。图像可以帮助决策层快速理解分析结果,并以此来实现辅助决策的功能。

在PBL培养模式的基础上,以“互联网+会计”MPAcc所需要的大数据能力培养为中心,设计了基于PBL的“互联网+会计”MPAcc大数据分析能力培养模型,如图1所示。

在图1所示的培养模型中,以阶段任务的循环为主线。在阶段任务的执行过程中,数据爬取与清洗、预处理与文本挖掘以及分析与可视化分别为一个整体。首先,项目导师介绍项目的具体内容和基本情况,MPAcc研究生可以通过小组讨论、与导师进行交流探讨,确定相应的项目实施方案,预估项目完成期限,并明确项目目标。其次,将项目分解成若干阶段任务,并在执行阶段任务前将项目参与人员分为数据爬取与清洗小组、预处理与文本挖掘小组以及分析与可视化小组,每个小组负责一个大数据分析部分。接着,在阶段任务执行中,三个小组并不是独立进行的,需要互相监督、反馈,保证进度上的一致性。最后,在阶段任务验收环节,各小组应及时在会议上完成各自的任务汇报,导师根据汇报情况和平时表现进行考核评价。结束某一阶段任务后,三个小组轮换各自负责的大数据分析内容,开始下一阶段。

该培养模型充分融入了以“问题、案例、项目”为导向的思想,把大数据项目作为最终目标贯穿全局,通过实际参与项目的体验式学习提高MPAcc研究生大数据分析能力。PBL模式与传统模式的最大区别在于项目参与人员即MPAcc研究生在整个过程中成为了主角。会议的大部分时间用于小组成员展示与交流成果,留下少部分时间给项目导师考核、评价和总结。小组成员更多地采用翻阅参考书、观看视频和小组讨论等方式寻找项目实施的具体方法。小组之间的竞争可以促进良性学习氛围的形成,增强各个组员参与项目的积极性。

图1 基于PBL的“互联网+会计”MPAcc大数据分析能力培养模型

四、基于PBL的“互联网+会计”MPAcc大数据分析能力培养模型在项目中的应用

重庆理工大学会计学院在2017年对MPAcc研究生开展了“西部地区财务人员薪酬研究”大数据项目,旨在培养MPAcc研究生的大数据分析能力。在该项目的成功实践中,培养模型逐渐成熟,并且与传统教学效果相比,大数据分析能力有了显著的提高。

1.“西部地区财务人员薪酬研究”项目准备。为了能激起MPAcc研究生对信息化领域的兴趣,并且迅速培养他们的大数据分析能力,此次大数据项目以“西部地区财务人员薪酬”为主题。该主题不仅可以让MPAcc研究生了解当前社会背景下财务人员的薪酬状况,而且能激起他们的兴趣并积极投入到项目中。第一,在项目的准备阶段,首先由项目导师阐明此次项目的基本情况,分别从前十位的招聘网站爬取各个财务岗位的招聘信息,包括职位名称、公司名称、薪酬区间、工作地点、岗位职责等,接着进行数据清洗和数据库的整合,然后对文本进行预处理,并对整理好的结构化数据进行算法分析,最后对分析结果进行可视化处理,编写项目成果报告。第二,导师和MPAcc研究生积极互动,根据他们的实际情况确定项目的完成期限,并介绍大数据分析工具Python。第三,项目导师将项目中的十个招聘网站进行分解,具体分成三个阶段任务。第一个阶段任务是分析智联招聘、赶集网和猎聘网的西部地区财务人员薪酬数据,第二个阶段任务是分析58同城、卓博人才和中华英才的相关数据,第三个阶段任务是分析51job、大街网、拉勾网和看准网的相关薪酬数据。分解成三个阶段任务也便于三个小组轮换负责,从而让每个小组的成员都熟悉每个部分的具体操作方法。

2.“西部地区财务人员薪酬研究”项目实施。Python是项目实施中最主要的工具。它不仅具有代码简洁高效、易于上手编写的特点,而且拥有丰富强大的第三方库。Python第三方库免费开源,拥有各种强大的功能,例如网页爬取、Scrap框架、机器学习算法分析、OCR图像识别等。因此,MPAcc研究生在项目准备与实施的间隙,就能很快地理解Python代码。另外,MPAcc研究生在学习的过程中,侧重点并不是编写代码本身,而在于第三方库的代码运用,能够利用第三方库完成三个部分的核心技术任务,降低人力物力耗费,提高完成效率。

(1)阶段任务计划。首先,对整个大数据项目从功能角度进行分解,分解为数据爬取与清洗、预处理与文本挖掘以及分析与可视化三个部分。然后,MPAcc研究生们依次选择自己感兴趣的部分,每个部分形成一个项目小组,并且投票推选出组长。最后,每个小组在正式实施项目前,需要确定任务计划书。例如,在第一个阶段任务计划中,数据爬取与清洗小组就需要对如何学习第三方库做出计划,包括寻找学习视频、查阅文献等相关安排,由组长牵头,分配不同的学习任务。利用实际参与项目的体验式学习,使学生在实施过程中有代入感和责任感。在计划制定过程中,大多采用的是小组自由讨论的方式,不仅培养MPAcc研究生自主学习规划能力,而且增强了团队合作意识。

(2)基于PBL的数据爬取能力培养。数据爬取主要分为理解网页源代码、提取网站上的结构化与非结构化信息和利用数据库整合清洗三个步骤,该部分的能力培养流程如图2所示。

图2 数据爬取能力培养

因此,在这个部分的学习与应用中,MPAcc研究生不仅可以熟练掌握相关第三方库代码,并且能熟悉网页结构以及数据库的设计。

爬取数据对于MPAcc研究生来说是第一能力。小组成员需要查阅大量资料来了解网页结构,包括网页的HTML结构语言、CSS样式语言和JavaScript功能语言,以及网络服务器原理和Socket编程。在此基础上,爬取小组利用Python第三方库Beautiful⁃Soup来进行网页解析,提取结构化数据与文本数据。例如,在爬取智联招聘岗位信息的时候,需要对网页源代码进行分析,找出HTML结构标签,再使用BeautifulSoup解析和提取其中的信息。

提取完原始数据后,数据爬取小组的工作并没有结束,还需要将它们全部汇总导入至数据库SQLite或者Oracle中。在导入原始数据的同时,小组成员编写数据字典做数据维度分解,以便于灵活地处理海量数据。之后,该小组使用数据字典对大规模数据进行清洗,去除残缺、重复的数据,减少噪声与干扰数值,纠正数据的不一致。数据爬取与清洗板块是整个分析过程中最重要的一个步骤,MPAcc研究生能将学到的知识与网页解析、数据库构建进行充分结合,提高爬取数据的能力和熟练掌握数据库的设计。

(3)基于PBL的文本挖掘能力培养。文本挖掘能力培养的流程如图3所示。

图3 文本挖掘能力培养

数据库整合清洗工作完成之后,文本挖掘小组要根据所要分析的特征维度进行文本提取。文本提取是指对文本的特征项的选取,由于文本带有主观色彩,不可避免地会反映人的特定立场与观点,因此绝大部分的文本数据都不是数据分析需要的,真正有分析价值的只有文本中的核心词汇。例如,项目小组在分析薪酬与岗位职责关系的时候,某句描述岗位职责的文本信息如下:“首先对数字敏感,能统计各项数据,并做好分析;其次每月月初编制收入月报、进程表、成本月报、考核表等内部管理报表;最后能完成领导交办的其他工作。”在这个文本信息中,可能真正有数据分析价值的只有“统计分析”和“报表”。因此,如何提取出有利用价值的信息成为文本挖掘工作最关键的一步。

文本挖掘是自然语言分析的分支,因此小组成员需要查阅有关自然语言分析的基础理论知识,例如语义分析、语料库的建立、语言模型等。部分自主学习能力强的组员及时地帮助基础差的组员,采取小组内部讨论的方式,提高学习效率,培养团队意识。在此部分中,MPAcc研究生会用到Python第三方库,其中最主要的是NLTK(Natural Language Toolkit)自然语言处理库和Jieba中文分词库。文本挖掘小组通过第三方库的内置函数进行文本分词、提取、检索,为数据分析提供有价值的信息。同时,还要用Python的循环语句和函数创建来进行文本的控制和选择,熟练掌握文本挖掘的技巧。

(4)基于PBL的数据分析与可视化能力培养。数据分析与可视化能力培养的流程如图4所示。

图4 数据分析与可视化能力培养

数据分析与可视化小组在使用Python算法工具处理之前,需要复习概率论、矩阵线性代数、统计学等相关数学知识,并在此基础上学习机器学习算法,包括决策树分类、K均值聚类、Hmm模型、朴素贝叶斯等。机器学习算法不仅可以分析项目中的薪酬数据与各个特征维度的数量关系,而且是财务智能化的核心研究内容。在大数据背景下,机器学习算法俨然成为了会计专业学生必备的核心技能。

用于数据分析与可视化的Python第三方库包括Numpy、Pandas、Scikit-learn、Matplotlib等,NLTK中也有关于机器学习的算法模型。其中,Numpy是科学计算模块,提供了Python中没有的矩阵对象,支持大规模矩阵运算、矢量运算、傅里叶变换等。Pandas是基于Numpy的数据分析模块,提供带标签的数据结构和大量标准数据模型,是高效操作大型数据集所必备的工具。Scikit-learn是机器学习算法模块,其主要功能分为分类、回归、聚类、数据降维、模型选择和数据预处理六大部分。Matplotlib是科学计算可视化模块,可以将分析结果以各种图形形式展示出来。另外,利用科学计算可视化软件Matlab也能进行图形处理。

这部分任务难度较高,一方面是因为这部分需要较强的数学分析能力,另一方面是因为其所需的第三方库较多且代码复杂,不容易熟练掌握。数据分析与可视化小组需要寻找相关教学视频、查阅文献书籍,同时数学基础好的组员可以积极帮助其他组员,采用自由交流的方式,逐步提高学习效率。通过运用第三方库的函数,MPAcc研究生可以迅速地建立相关算法模型,导入数据参数,得出分析结果。之后,小组成员运用可视化工具与软件绘制分析结果图。在这部分任务的完成过程中,MPAcc研究生在深刻理解算法理论的基础上,可以逐步提高数理分析能力与作图能力。

(5)项目进度控制与反馈。项目进度控制与反馈的具体方法如图5所示。

一般而言,如何调控好项目进度对于身为“监理”的教师来说是一个棘手的问题,需要教师拥有较强的宏观调控能力,使三个实施小组有机合作。另外,参加此次项目的研究生要及时汇报各自小组的进度,及时提供信息。文本提取小组和数据分析小组需要数据入库之后才能在Python应用平台上进行文本挖掘和数据分析,并且这两部分的背景知识较为复杂,在此之前这两个小组可以分别先进行理论知识上的学习,等大部分数据入库之后再分析数据维度、提取文本等。同时,当数据爬取小组完成相应任务之后,可以利用剩余时间学习其余两部分的理论知识,一方面可以给其余两组提供帮助,另一方面也为接下来的任务轮换做足准备,从而缩短任务完成时间。

图5 项目进度控制与反馈

在这个环节中,可以采用举办研讨会的方式,让MPAcc研究生自由提问交流。同时,项目导师也需要定期检查任务完成情况,及时给出评价。在研讨会上,一个小组的成员可以向其他小组提出自己的疑问或建议,被提问组负责答疑并听取他人的建议,由此也可以更好地总结自己组的项目成果。

3.“西部地区财务人员薪酬研究”项目验收。为了保证每个MPAcc研究生学习的主动性与高效性,更改传统的课程评分标准也极其重要。项目导师设计了新的评分标准,将个人分数分成小组成绩和个人表现分两大部分,旨在提高MPAcc研究生的积极性与项目参与度。每个小组的成绩体现在PPT成果展示、知识点的运用和任务报告上。个人表现分为研讨会自由提问交流、课堂上台展示、回答问题、课后主动性等。依据新的评分标准,能达到公平验收和促进成员积极参与的目的。

(1)阶段任务成果展示与汇报。三个小组的任务成果展示环节是基于PBL的“互联网+会计”MPAcc大数据分析能力培养模型中比较重要的一部分,通过对成果的总结,加深每个学生对知识点的理解。在此环节中,项目导师要求每个小组指派主讲人上台讲解PPT和展示小组的研发成果。PPT的讲解需要主讲人对理论知识的正确理解以及每个第三方库的熟练应用,因此充足的准备必不可少。在PPT的讲解过程中,主讲人事先需要对关键点有一个比较深入的理解,才能完美展示本小组的任务成果。之后,在编写任务成果报告的时候,不仅要把结论完美呈现,还需要对每个知识点做详细解释,展示运行代码,便于其他小组成员观看学习,从而使知识不断深化,达到灵活应用的目的。

(2)项目总结。项目导师在各个实施小组研讨交流提问时进行方法上的引导,对小组成果展示做出中立评价。在有限的时间内,导师更多考虑的是如何指引学生,带领学生进行深入探究,激起学生对新知识的好奇心。在验收过程中,把大部分时间交给学生进行成果展示交流,这就需要教师有较强的组织管理能力,能及时地给出评价分数。在整个阶段任务即将结束的时候,要先对知识点进行汇总与讲解,再安排下一个阶段任务,轮换三个小组各自负责的部分,保证各个阶段任务之间的有机衔接。

同时,MPAcc研究生在进行项目总结时,需要积极思考在参与项目的过程中所学到的大数据分析知识如何与会计、审计、税务等专业领域相结合,将大数据工具运用到所学专业。例如,MPAcc研究生可以寻找若干大数据审计案例,通过数据挖掘,发现审计疑点,再通过分散核查,确认问题。此外,MPAcc研究生在学习过程中不仅能培养大数据分析能力,还可以间接地培养大数据思维。后者往往比前者更为重要,“互联网+”时代数据为王,新型财务部门的基本职能之一就是将各种经营数据归类、整理、储存,然后根据战略、核算、税务、成本管控、资金管理、绩效考核等不同用途提取相关数据、建立分析模型、进行数据校验、辅助决策。敏锐的大数据思维能帮助MPAcc研究生更好地适应“互联网+”所带来的挑战,这也是大数据项目的最终意义。

五、结论

人工智能的推广应用预示着复合型财会人才将是未来财会行业需求的主体,具备大数据分析能力和大数据思维已经成了复合型财会人才的基本衡量标准之一。通过对基于PBL的“互联网+会计”MPAcc大数据分析能力培养模型在具体项目中的实践和探索,发现基于项目的学习能明显地提高学习效率,使MPAcc研究生迅速地提高大数据分析能力,并间接地培养大数据思维。同时,该能力培养模型也对其他高校培养MPAcc研究生的大数据分析能力以及信息化应用能力具有一定的借鉴意义。

猜你喜欢
可视化研究生文本
基于CiteSpace的足三里穴研究可视化分析
思维可视化
基于CGAL和OpenGL的海底地形三维可视化
在808DA上文本显示的改善
“融评”:党媒评论的可视化创新
基于doc2vec和TF-IDF的相似文本识别
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
论研究生创新人才的培养
如何快速走进文本
幸福院里出了个研究生