基于分布式数据共享机制的高校财务决策分析平台构建

2020-05-11 11:49屠佳琪应鑫迪丁浩然
中国教育信息化·高教职教 2020年4期

屠佳琪 应鑫迪 丁浩然

摘   要:随着高校信息化系统日渐增多,数据量日益增大,高校管理层的综合管理难度越来越大,对校园各类数据的统计分析以辅助决策过程的需求越来越明显。针对上述现象,文章首先介绍了目前高校决策分析平台的研究现状和难点挑战;然后以浙江大学财务决策分析系统为切入点,介绍了高校决策平台的整体框架;最后具体介绍了浙江大学在现有分布式数据共享平台上搭建的财务决策分析系统,并扩展到通用的决策分析平台,达到科学决策、科学管理的目的。

关键词:财务指标体系;大数据决策分析;数据共享机制

中图分类号:TP391 文献标志码:A 文章编号:1673-8454(2020)07-0085-04

一、引言

随着大数据技术的日益完善,目前许多高校已经累积了大量的教学和管理数据,从而形成了规模庞大、结构多样的数据集[1]。部分高校已开始投入建设分布式大数据共享平台,整合各类业务数据,开发接口统一收集、管理、维护数据,并提供统一接口下发数据至各业务部门,从而满足高校大数据存储及其统一管理维护的需求。然而,随着教学模式的不断改革,高校对数据的需求不仅仅是存储和管理,还要基于大数据的分析、处理、挖掘从而为领导层面提供决策支持。因此,基于现有的大数据共享平台,利用大数据分析技术搭建决策分析平台,对高校决策分析具有重要的实际意义。

另外,随着公共财政体制改革的逐步深化,政府及学校对高校财务管理也提出了更高的要求,高校的财务工作理念已经逐渐从核算型转向分析、管理型[2]。因此,本文拟以浙江大学大数据平台为基础,建设基于分布式数据共享机制的高校财务决策分析平台,通过全量或增量同步多种异构数据源,将业务逻辑转化为统计逻辑,利用数据挖掘技术构建数据仓库和模型,根据校领导、各院系负责人、管理员等各类角色展示相应统计分析结果,并提供关键指标的钻取和挖掘。

二、决策平台研究现状

決策分析平台是基于大数据,利用人工智能、机器学习等方法进行数据分析和挖掘,从而发掘出数据中隐藏的规律和联系,帮助决策者快速做出决策,更科学地进行高校教学管理[3]。在西方国家高校早已盛行各类业务决策系统的今天,国内对建设基于高校大数据的决策平台的工作才刚刚起步,全面系统地介绍我国高校大数据决策平台的论文或专著较少[2]。近年来,浙江大学信息中心基于大量累积的教学和业务数据,致力于搭建分布式大数据共享平台,并已略见成效。本文在此平台基础上,搭建基于分布式数据共享机制的高校决策分析平台,并以财务数据为切入点,为校、院系领导提供财务决策方面的支持。在整个大数据共享和决策平台的开发过程中,仍然发现有不少的困难与挑战,总结如下。

1.信息系统数据缺乏统一规划和维护

由于学校未对各院系部门建设的信息化系统进行统一开发维护,导致业务部门分别开发自己的系统,重复开发业务功能,从而产生大量的冗余数据,造成信息孤岛问题;由于学校各部门缺乏共享意识和整体观念,多个部门共同维护数据却只关注自己部门的指标,对所需数据进行重复采集、交叉更新,导致不同部门对同一指标的口径各不相同,混淆决策过程[4];另外,由于缺少统一的系统数据维护管理,有些系统已下线多时或长期不更新,导致大量无用数据未及时删除。

2.信息系统缺乏分析决策功能

随着智慧校园的推进以及教育改革的不断深入,校领导科学决策离不开有效真实的统计信息[5]。同时,高校信息化系统日益增多,导致数据量及数据存储方式发生了改变。各业务系统及用户行为日志每日高达TB级别,数据存储形式也从传统关系型数据库存储结构化数据转变到分布式或实时流工具存储非结构化数据。决策者不再满足于单纯报表形式的统计,而是希望从数据中分析、挖掘、汇总出更深层次的理解,提供更重要的参考和量化指标来辅助决策[6]。然而,当前许多业务系统是联机事务处理系统,无法从海量数据中分析挖掘出新的知识点,难以为决策部门提供科学依据[1]。

3.统计流程陈旧繁琐低效、展现形式过于简单

目前,业务部门各自负责对上级领导产出统计表,依然采用一种“手工+自动”的半自动化模式[7]。各部门根据上级领导下发的指标统计任务,从各自的业务系统中根据不同的统计规则提取出数据,并做成统计汇总表,供领导参阅。工作流程中不仅费时费力,还会出现漏算、错算的问题,而且扩展性不佳。另外,当前的统计报表只是统计指标数据的简单罗列,缺少细致化的分析,无法为决策者提供教育管理、学科建设、财务情况等方面的决策参考。

4.数据部门对业务理解困难

为了构建学校统一的大数据决策平台,数据部门需要对每个部门的业务数据以及指标定义有深入的理解。但由于各业务部门有单独的一套计算各类指标的公式,从数据部门的角度,要产出对应的报表需要与业务部门技术人员和业务人员进行充分的沟通,从而理解各业务部门制定的计算规则,并对不同部门相同的指标计算逻辑进行归并汇总,这对数据开发部门来说也是一大挑战。

三、系统框架及模型建设

本文以财务数据为切入点,以搭建财务决策分析系统为例,介绍浙江大学基于分布式数据共享机制的决策分析平台。决策平台的整体框架图如图1所示,主要分为以下几部分。

1.业务数据采集

由于财务数据的私密性,经数据部门与财务处负责人的沟通,同意将涉及统计的两张表的访问权限开放给数据中心。数据中心在大数据共享平台上配置定时任务,每日全量同步这两张源头数据表,同时创建分区表,将数据分布式存储在hdfs上,便于后续统计任务的读取。这两张表主要包含了每年从年初到当前时间所有收入支出的记录明细源数据,基于这些记录,根据计财处特殊的统计规则,每天产出日报,主要包含以下指标:

(1)校领导层面关注的指标

全校资产负债情况。主要包括资产、负债、净资产三部分,并根据年初余额和期末余额两个维度进行统计。

全校预算收支执行情况。主要包括收入合计和支出合计,其中收入合计包括财政拨款、科研收入、教育事业收入以及上级补助收入等;支出合计包含人员经费和公用经费等。以上指标都根据本年预算数、本期执行数以及预算完成率三个维度进行统计。

各院系财力情况。主要包括各个院系的经常性经费、专项经费和校政策分配基金及酬金三部分,并根据上年结余、预算收入、本年支出和本期结余四个维度进行统计。

各院系毛收入情况。主要包括各个学院的科研收入、教育事业收入以及其他收入等。

(2)各院系领导层面关注的数据

各院系可统筹收入情况。主要包括经常性经费、专项经费、校政策分配基金及酬金三大部分,并根据上年结余、预算收入、本年支出和本期结余四个维度进行统计。另外,还包括各项可统筹收入包含的所有子类项目的项目详情。

各院系财政专项执行进度情况。主要包括中央财政专项和地方财政专项两部分,并根据年初结余、本年下拨以及期末余额等维度进行统计。

各院系自筹经费收入情况。主要包括教育事业收入、科研收入以及其他收入三部分,并根据本年和去年收入进行统计。

2.翻译财务统计语言

财务系统自运行以来,形成了一套特有的固定统计语言和规则,比如对每个项目按照一定规则进行编号、对各个学院进行编号、对于不同维度的指标会用固定的字母表示等等。举个例子:公式“[AZ3%;_122__*1942%]+[AZ5%;_122__*1942%]+[AZ9%;_122__*1942%]”代表材料学院今年中央财政专项中双一流专项的年初结余,以第一个中括号中的代码为例,其中,分号将公式分为两部分,第一部分“AZ”代表年初结余,对应数据表中的一个字段,“3%”代表父类项目代号以3开头的所有父项目;第二部分,“_122__*1942%”整体代表所有子项目代码以“_122__*1942”开头的子项目,其中下划线与SQL語句中的占位符为同一概念,“_122_”代表材料学院的编号,每个学院代号不同但是占位都为5位,如经济学院代码为“_01__”。公式中三个中括号互为并集关系,即统计出所有满足其中一个条件项目的总体年初结余。

由于财务统计体系改革,今年新增各学院维度的统计指标,如果按照之前的做法,每个学院会生成近千行SQL代码,总共30多个学院的代码将非常冗余且重复,因此,将财务统计语言翻译成高效简洁的SQL语句是数据中心需要解决的难点之一。

数据中心的解决方案主要分两个步骤:第一,根据公式规律统一生成统计SQL模板,其中对分学院统计条目进行特殊处理;第二,将数据表同步至大数据分享平台的hive表,以便后续分布式执行统计语句。具体来说,对于分学院统计条目来说,如各学院可统筹收入统计报表,我们会生成两张表,一张表存储每个统计子项代码对应的模板SQL,这里的模板SQL会把所有学院共同的统计逻辑归并,并将不同之处(如学院代码)进行通配符代替,从而生成模板SQL表;另一张表存储了各个学院的名称、对应的编码以及需要统计的子项编号。将这两张表每日以覆盖表的形式全量同步至hive表,为后续分布式执行统计任务提供基础数据。

3.分布式、多线程批量执行统计任务

到目前为止,大数据共享平台已经包含了财务数据源数据表、SQL模板表以及学院-子项统计关联表。然而,串行的执行这些SQL仍然会花费较长时间。因此,我们利用spark程序,分布式、多线程批量地执行SQL语句任务,目前单个任务同步执行5600条以上SQL只需5分钟就可完成。具体来说,整个执行统计任务的流程图如图2所示。

首先,读取学院-子项统计关联表并转化为rdd形式,然后利用flatmap算子将统计子项iid进行展开;其次,读取统计项模板SQL表并转化为rdd形式,然后将该rdd与之前关联表展开后rdd进行关联算子join,生成学院信息-统计子项信息-模板SQL宽表rdd;对宽表rdd进行重定义分区,修改分区个数,并对每个分区进行多线程并发执行SQL,包括根据学院编号替换模板SQL 中的通配符、执行sparkSQL以及将执行结果存入数组中;对每个分区执行的结果进行合并,并将最终结果转化成dataframe形式,最终存入输出hive表中。

4.结果多样化展示

决策平台与浙大统一身份认证系统互通,根据不同人员类型分配不同报表查阅权限,目前平台支持两类用户:一类是校领导层面;另一类是各院系副处级以上领导层面。

校领导登录平台后,可查阅5个页面:

(1)欢迎页:根据浙大整体财务情况进行汇总的图形化展示,能让校领导一目了然地了解学校近期财务概况。左上角为资产负债情况总览,根据资产、净资产、负债三种资产类型为横轴,分年初余额与期末余额两个维度形成柱形图,柱状图支持点击钻取,点击三种资产类型中的一个,页面左下角会展示两个柱状图,分别展示对应子站类型的各项子项明细的年初余额和期末余额占比情况。页面右上角为两个仪表盘,显示目前为止浙大整体收入/支出情况的预算数、执行数以及预算执行率,两个仪表盘支持点击钻取,点击收入或支出,页面右下角会出现收入或支出的预算执行明细,以柱状和折线的组合图展示,横轴代表各项明细,纵轴代表预算数、执行数以及完成率。

(2)资产负债表:以日报表格形式展现,包含资产、净资产以及负债三部分的总体和每部分子项明细的年初余额和期末余额。支持Excel下载。

(3)预算收支执行情况:日报表格形式展示,包括收入合计和支出合计两部分。每部分包含若干子项,日报以每个子项的本期预算数、本期执行数、预算执行率三个维度进行统计。

(4)各院系财力表:日报表格形式展示,包括各学院的经常性经费、专项经费以及创收经费分配,并根据上年结余、预算收入、本年支出以及本年结余四个维度进行统计。其中每个院系的名称作为超链接,点击院系名称可以跳转到相应院系的主页,其内容会在下文介绍。

(5)各院系自筹经费收入表:日报表格形式展示,包括各学院的科研收入、教育事业收入以及其他收入。科研收入分横向与纵向,教育事业收入分学历教育与非学历教育。其中每个院系的名称作为超链接,点击院系名称可以跳转到相应院系的主页,其内容会在下文介绍。

各院系副处级以上领导登录平台后,可查阅4个页面:

(1)欢迎页:对各学院的财政状况进行汇总的图形化展示,能让各院系领导可以一目了然,快速了解本学院财务概况。页面左上角为两个仪表盘,分别表示本学院今年中央财政专项和地方财政专项执行进度,仪表盘下方为子表格,对中央财政专项和地方财政专项分年初结余、年初暂付款余额、本年下拨、本年支出、期末余额以及暂付款余额六个维度进行统计。两个仪表盘支持点击钻取,点击其中一项,页面左下角会展示相应的财政专项子项执行完成率柱状图,横轴为子项名称,纵轴为完成率。页面右上方为四个饼图,分别代表本学院可统筹收入总览中的上年结余、预算拨入、本年支出以及本年结余情况,每个饼图分别展示经常性经费、专项经费以及创收经费分配三部分占比。页面右下角为本学院本年自筹经费收入总览柱状图。

(2)可统筹收入表:日报表格形式展现,包含经常性经费、专项经费以及创收经费分配三部分汇总。其中经常性经费包括公用经费、人员经费;公用经费中分为教学业务费和日常运行經费;教学业务费又包含本科生业务费、研究生业务费等。每个子项分上年结余、预算拨入、本年支出以及本年结余四个维度进行统计。另外,最细化的一层子项设置为超链接,点击弹出对话框,显示该子项中每个具体项目名称、项目代号以及项目上年结余、预算拨入、本年支出和本年结余四个维度统计值。

(3)自筹经费收入表:日报表格形式展现,包括教育事业收入、科研收入以及其他收入的本年和去年收入两个维度统计值。其中教育事业收入又分为研究生学费、留学生学费等;科研收入分纵向和横向;其他收入包括捐赠收入等。

(4)专项执行进度情况表:日报表格形式展现,包括中央和地方财政专项两部分,每部分又分为双一流专项、科研专项等若干子项。每个子项根据年初结余、年初暂付款余额、本年下拨、本年支出、期末余额以及暂付款余额六个维度进行统计。

四、结束语

高校大数据决策分析平台建设是一项周期长、业务复杂的大工程,涉及到的数据量之大、数据结构之多样以及业务逻辑之复杂,都影响着最终决策平台的成效。因此,应该首先从具体业务场景出发,构建面向主题的决策分析平台,如本文中以财务报表为例进行财务决策平台开发,然后循序渐进地建立通用的决策分析流程,从而全面进行决策分析平台的建设。另外,除了将原始单纯数字报表形式转化为多样化的图表展现形式以外,分析决策平台还需要具备数据挖掘分析功能,能通过业务大数据进行数据建模、模型训练与预测,从而更加智能地为决策者提供科学依据,协助其进行决策。

参考文献:

[1]孙彦超,王兴芬.基于大数据的高校决策分析系统的构建[J].计算机光盘软件与应用,2014(15):108-110.

[2]方志坚,高滢.基于数据挖掘的高校财务决策支持系统的研究[J].行政事业资产与财务,2019(5):34-35.

[3]李书钦,史运涛,马时来等.面向智慧决策的高校大数据平台的设计与实现[C].中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会,2018.

[4]舒忠梅,屈琼斐.大数据时代高校信息管理与决策机制研究[J].华南理工大学学报(社会科学版),2013(6):102-107.

[5]毕天睿,王昕.数据驱动决策支持系统在高校教育质量管理中的应用[J].中国教育信息化,2016(3):60-62.

[6]李安裕.基于大数据智能决策的江西高校智慧校园的建设[J].电子技术与软件工程,2018,143(21):160-161.

[7]辛良.大数据视域下高校开放式统计服务决策研究[J].决策咨询,2019,50(2):84-87.

(编辑:王晓明)