基于聚类算法的财务大数据智能分析处理技术研究

2021-08-15 11:36徐军
电子设计工程 2021年15期
关键词:神经元聚类神经网络

徐军

(上海开放大学普陀分校,上海 200062)

在财务系统的日常运行中,传统的财会人员需要完成核算、报表审查与分析等多种工作。但这些工作通常存在功能较少的缺点[1-4],难以满足日益增长的管理需求。为避免系统的这一缺点,充分挖掘财务系统的多元化价值,国内外较多的科技公司进行了大量的尝试[5-7]。其中,2000-2010 年期间,华为与中兴等国内科技公司首次尝试建立了全球的财务共享服务中心,从而降低财务的管理成本与业务效率[8-10]。随着人力资源成本的快速升高,以及云计算与大数据等新型技术的出现,工程款与劳务费等多种财会工作占据了大量的资源与成本,直接导致财务管理成本的不断攀升。

为了尽量降低财务系统的管理成本,同时更加精确地判别与预测账户风险,通过引入流程自动化技术与人工神经网络算法,该文实现了大量机械重复性工作的自动执行,同时完成了账户风险的科学判别与预测。文中利用K-means 聚类算法[11-16],对大量的财务数据样本进行了学习与分类,进一步优化了财务系统的工作执行策略,尽量规避人工风险评价的主观性与片面性。

1 财务共享系统

通常财务共享系统是以多种互联网技术为底层部件,以规范性与程序性为处理业务原则,降低重复性劳动与人为主观判断行为的新型财务服务中心,其基本结构如图1 所示。

图1 财务共享系统基本结构图

2 流程自动化技术

2.1 技术特征

流程自动化是一种基于大数据的软件自动化技术,该技术适用于财务共享系统,其主要原因在于以下几个特征:

1)流程自动化技术是一种在电脑桌面运行的自动化软件。该技术属于软件领域之内的机器人技术,能够完成机械重复与规则明确的自动软件运行。

2)流程自动化技术具有远超人工的精确度与工作效率。在维持数据处理速度与精确度的前提下,流程自动化技术具有全天候及不间断的工作能力,尤其适合大规模的企业财务运营。

3)流程自动化技术是基于非侵入式的外挂式软件。其通过模拟用户的基本操作,完全不影响用户的操作软件架构。其执行周期较短,且易于非专业人士理解。

4)流程自动化技术具有低成本与低风险的特征。其无需人工干预,只要合理地设定执行规则,相应的执行过程就不会发生错误,且提供高可靠性的流程检查。

2.2 技术实现

文中利用流程自动化技术,实现了多种高重复性的流程执行,包括开票流程执行、自动对账、收款核销与信用管理等。以开票业务为例,其详细工作流程如图2 所示。

图2 开票自动化的工作流程图

3 神经网络算法

3.1 技术特征

在20 世纪40 年代,为构建神经元的数学模型,国外的学术界提出了具有大规模并行处理能力的人工神经网络算法。通过模拟神经元细胞的工作过程,神经网络算法可以自动衡量与评价企业财务账户的风险情况,其实现一般可分为4 个步骤,其详细内容如下。

1)初始化:神经网络算法需要完成多个参数的设计与初始化,这些参数主要包括输入层、输出层与隐含层的神经元数目及其权重。其中,输入层的神经元数目由样本指标数量决定,输出层的神经元数目由数据类型决定,其权重可通过随机数、学习率与传递函数共同决定。

2)正向传播:利用输入层的数据与权重值,执行相应的线性变换,利用传递函数,即可获取隐藏层多个神经元的值。再经过隐藏层的反复运算,可以得到输出层神经元结果。

3)计算拟合值与输出之间的误差:拟合值与输出层神经元之间存在一定的差异,这一步需要精确地计算该项误差,从而进一步对该神经网络算法的参数进行调整。

4)反向传播:利用梯度下降法,对误差函数进行优化,获取神经网络算法中隐藏层的最优权值。

根据神经网络算法的4 个关键步骤,文中制定了适用于财务系统的算法执行流程,如图3 所示。

图3 神经网络算法的实现流程图

3.2 可行性分析

在神经网络算法的执行阶段,财务系统风险评价需要利用数学统计模型和神经网络算法进行较为精确的判别和分类,从而衡量多个企业的财务风险,实现应收账款的流动性。在该算法的执行过程中,数据集还存在一定数量的噪声样本,增加了神经网络算法的执行难度,降低了该算法的最终结果质量。

通过含噪数据样本的多轮训练,系统能够提取出输入层、隐含层与输出层之间的多种权重矩阵。利用这些权重矩阵,系统即可自动判别多个客户的财务现状,同时获得其财务现状与多项指标之间的非线性关系。通过详细的分析验证可知,在企业财务风险评估方面,神经网络算法具有较好的可行性。

4 K-means聚类算法

在机器学习中,聚类算法负责从设定的角度搜集与分类数据,常用的算法主要有K-means 聚类、均值漂移聚类、基于密度聚类、高斯混合模型聚类、凝聚层次聚类与团体检测等算法。其中,K-means 聚类算法是目前应用范围最广的聚类算法之一,由于具有简洁的执行原理、较优的运行效果与较低的实现难度,该算法被广泛应用于数据处理、模式识别与数据挖掘等新兴领域。

4.1 目标函数

假设d维样本数据集是待分类的数据集,其n个簇分别由F1,F2,…,Fn表示,其中心数据点分别为c1,c2,…,cn,且(1 ≤i≤n)。其中,ki是簇Fi中数据点的数量,x表示簇Fi中的某个数据点。一般而言,令Ob表示聚类算法的目标函数,其数学表达式如式(1)所示。

其中,dij(ci,xj)表示数据簇Fi中某个数据点xj到数据中心点ci之间的欧式距离,即衡量每个数据点到数据中心点之间的欧式距离之和。此时,目标函数值Ob越小,簇类的分布就越紧凑。当目标函数Ob达到最小值时,其相对应的聚类方法则达到最优状态。

4.2 具体步骤

利用K-means 聚类算法的基本原理和目标函数,文中制定了财务系统所使用聚类算法的具体步骤,其具体内容如下。

1)从d维样本数据集中选取n个初始的数据中心点,分别使用c1,c2,…,cn表示。

2)以c1,c2,…,cn为中心点,对数据集进行划分,其遵循原则:令i,l=1,2,…,n,j=1,2,…,ki且l≠i;若dij(ci,xj)

4)若∀i∈{1,2,…,n},均成立,或者算法的迭代轮数超过最大允许迭代次数,则结束算法执行,输出数据中心点结果,形成最终簇;否则,令第s+1 轮的数据中心点结果作为新簇,跳转至2)继续执行。

5)输出数据集的聚类结果。

根据以上步骤,K-means 算法需要执行多轮迭代。其具体迭代流程,如图4 所示。

图4 K-means聚类算法的具体执行流程

5 仿真结果与分析

为了验证流程自动化技术、神经网络与K-means聚类算法的有效性与可行性,基于实际的财务系统,文中对这些技术进行了必要的仿真与分析。需要说明的是,由于流程自动化技术与神经网络算法被综合运用于K-means算法的执行过程中,所以该文并没有单独对前者进行仿真,而是直接对K-means算法进行仿真与分析。在具体仿真过程中,文中随机选取了某企业379项财务数据,利用K-means算法,对这些数据样本进行了科学的分类和变量分析,其主要步骤如下:

Step1:通过分析系统的多种变量,分析企业财务现状是否满足变量分析的前提;

Step2:针对多种变量的统计结果,提取相应的风险相关变量,利用神经网络算法进行变量提取运算;

Step3:根据神经网络算法的运行结果,解释多种变量的实际现状;

Step4:计算各个变量的多项观测分数。

通过执行以上Step1~Step4 的相关步骤,得到的结果如图5、图6 所示。

图5 K-means算法执行步骤示例

图6 K-means聚类算法的执行结果

由图5、图6 可知,文中提出的K-means 算法准确地完成了财务账户数据的处理与分析,与现有财务系统对接方便,有效实现了财务账户风险的评级、判断与预测,具有较好的可行性与有效性。对于未来财务系统的设计与分析,该文所提出的技术具有一定的借鉴与参考价值。

6 结束语

通过综合利用流程自动化技术、神经网络算法与K-means 聚类算法,文中提出了企业财务账户的风险管理技术,实现了高重复性流程的自动执行,账户风险的准确评价、判别与预测。然而,文中所提技术实现的功能仍比较单一,例如:该文的K-means 算法仍未能全面实现财务系统中供应商的账户分类、判别与预测,将在未来的研究中完善这一问题。

猜你喜欢
神经元聚类神经网络
神经网络抑制无线通信干扰探究
基于K-means聚类的车-地无线通信场强研究
跃动的神经元——波兰Brain Embassy联合办公
基于高斯混合聚类的阵列干涉SAR三维成像
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于二次型单神经元PID的MPPT控制
ERK1/2介导姜黄素抑制STS诱导神经元毒性损伤的作用
毫米波导引头预定回路改进单神经元控制
基于支持向量机回归和RBF神经网络的PID整定