刘峰
(山西水利职业技术学院 山西省太原市 030006)
在大数据时代降临后,数据挖掘技术为信息资料的提取与整理提供了新的方向,为进一步提升管理会计的工作效率,则需要探索数据挖掘技术运用的新方向,这也是本文研究的主要目的。
数据挖掘对象主要是根据组织形式的不同,将数据来源分为结构化数据、半结构化数据与非结构化数据三种类型,通过文字、图像、音频以及视频等诸多媒体文件数据完成数据提取。
根据不同企业的生产流程,数据挖掘的数据来源存在明显差异,以钢铁生产企业为例,在一般的钢铁企业生产过程中,高炉将原材料以及辅助材料熔炼成高温铁水之后,再运转至炼钢炉中做进一步处理;根据产品的化学以及物理标准将熔炼好的高温钢水通过模铸等技术手段浇筑成钢锭;同时企业可以根据订单的工艺要求,对钢锭做粗轧、热轧等一系列处理与深加工等。根据上述流程,管理会计利用数据挖掘技术,所获得的成本费用主要包括直接材料费用、直接人工费用以及制造费用等,并根据每个费用对应的环节完成数据资料抓取与挖掘,实现了整个技术中数据信息的初步提炼。
在进行数据分析之前,数据挖掘需要对初步提炼的数据进行标准化,只有标准化的数据才能进行数据分析,目前学术界针对上述数据处理流程所采取的方法包括无量纲化处理以及同趋化处理处理等,其中数据同趋化处理主要是用来解决具有不同性质的数据问题,针对不同性质的数据指标进行整合后,根据逆变指标数据实现所有数据的同趋化,此时所获得的数据可以真实反映出企业的实际问题。数据无量纲化处理方法主要是要解决各类数据之间的可比性问题。在数据处理中,不同处理方法所衍生的数据预处理方法存在差异,本次研究中重点介绍了面向ABC 作业选择与合并主题的数据预处理方法。该方法的主要特征是实现了重要作业选择与重要业务合并之间的结合,对于管理会计人员而言,通过上述方法可以快速确定企业日常运营的关键数据,并且在考虑到产品生产过程的基础上,将生产跟踪表为事实依据,形成了企业日常生产的关键技术流程,对于数据挖掘技术的处理过程具有指导意义。以上文介绍的钢铁企业为例,在数据预处理中,本文所介绍的方法具体结构如图1 所示。
图1:面向ABC 作业选择与合并主题的数据预处理模式
在图1 所介绍的数据与处理模式中可以发现,通过该模式可以按照钢铁企业生产种类、生产技术等关键数据完成重要数据的采集与提取,在技术上来看上述方法具有可行性,可以为管理会计提供相应的支持,
在图1 所介绍的数据预处理分类后,可以按照归一化方法对数据做进一步加工,其中的重点包括:(1)线性函数转换。在线性函数转化中,其中的表达关系式如公式(1)所示。
在公式(1)中,x 与y 分别代表转换前与转换后的数据;MaxValue 与MinValue 分别为样本的最大值与最小值。
在样本预处理中,通过对数据做归一化处理能够完成样本的分布的评估,其坐标数据集被控制在{-1,1}中。
(2)对数函数转换。在预处理环节,对数函数转换的表达结构如公式(2)所示。
在公式(2)中,各项数据的解释与公式(1)相同,整个计算过程是以10 为底数的对数函数转换过程。
通过开展Log 分析,可以将原本绝对化的时间序列做进一步调整,组成了相对时间序列,可以降低排查难度。
1.3.1 挖掘过程
从管理会计的角度来看,数据挖掘是一个连续的过程,整个挖掘是在没有明确假设的基础上来发现数据中的关键信息,在使用高效、适宜的方法进行挖掘任务之外,确定特定的主题来执行挖掘算法。在上文所阐述的面向ABC 作业选择与合并主题模式下的数据挖掘方法中,其中的关键点就是要辨别大规模数据库中各类数据的相互关系,在将其进行数据分解之后形成若干个子问题,这些子问题中至少应包括两点:
(1)生成支持度大于给定最小支持度的频繁项集;
(2)给定的频繁项集,从中导出关联规则。
在数据挖掘中,因为最大繁荣项集中已经包含了频繁项集的关键信息,所以可先选择最大频繁项集挖掘方法来获得企业的重要信息,再依托生成关联规则的方法提取关键资料。但是也有研究认为,目前的最大频繁项集挖掘算法一直存在效率偏低的问题,所以可针对该方法进行改进,通过图形数据结构的方法来储存其中的关键项集信息,形成有限图集的储存结构以及面向图集的最大频繁挖掘算法,以此来提升数据挖掘效率[1]。
1.3.2 挖掘结果的解释与评估
对挖掘结果的解释与评估是针对挖掘结果进行的定量与定性评估模式,其根本目的是采集挖掘模式下需要解释或者评价的问题。根据本文介绍的面向ABC 作业选择与合并主题模式,在数据挖掘中需要根据关联规则的方法,通过置信度与支持度两方面的资料,借助用户给定阈值来筛选数据挖掘的规则。
目前常见的数据挖掘建模仿真工具包括Weka、Rapid Miner 以及TipDM 等集中类型,在对比之后发现TipDM 因为可以集成十余种预测算法,实现了对主流挖掘系统的覆盖。该算法的主要优点就是可以完成数据探索,掌握数据的主成分以及相关性等;在数据预处理中,可进行数据属性判断、提取数据特征资料以及坏数据处理等。所以在本次研究中本文通过TipDM 数据挖掘在线建模平台,通过类似算法完成关联数据挖掘,其中的重点内容包括:
(1)模型输入。整个模型输入主要包括两个维度的内容,其中第一方面为建模样本的数据输入,另一方面则是建模参数的数据输入。在关联数据分析中,其中的建模参数相关数据如表1 所示。
表1:建模参数的设定
(2)数据仿真的基本过程。在数据仿真过程中,整个处理过程为:①在登录TipDM 平台之后,选定管理页面新建一个方案文件或者打开已经建好的文件。②切换至数据管理页面,并上传企业的财务样本数据文件;③选择关联规则挖掘算法进行建模;④计算挖掘数据之间的关联性规则。
(3)数据结果分析。为更好的判断支持度等数据对规则数量的影响,在数据挖掘期间还需要借助其他指标完成数据识别,所以为实现该目标,相关技术人员可以选择将置信度下调为0,作用度上调为1,以此为标准进行运算,将“企业破产”为最后标准,根据这一标准进行运算后,最终的测试结果可以显示出与企业破产相关财务数据,方便管理会计进行深入的信息核算与数据处理。
在管理会计的数据挖掘中,基于模糊模型的数据处理具有可行性,这是因为任何一个企业的日常生产与经营环境都处于不断变化发展之中,在市场因素的影响下,企业无法依托单一的数据处理方法来实现数据挖掘,所以为确保数据挖掘效果,需要在现有时间序列以及回归方法的基础上,适应不平稳随机序列的运行模式,借助良好的非线性逼近能力来强化成本管理效果。所以考虑到上述情况,本次研究中选择在数据挖掘期间引入模糊模型技术,根据模糊模型所提取的信息来进一步完善管理会计模式的功能,最终提升数据挖掘效果。
从现有技术来看,模糊模型主要包括模糊生产器、模糊推理机、知识库以及反模糊化器四方面内容组成(见图2)。
图2:模糊系统结构
(1)模糊生产器可以将数据挖掘的初始资料转变为模糊值,实现了输入空间的模糊划分,常见的方法是聚类法。同时考虑到FCM 模糊聚类算法的特殊性,在将输入空间进行模糊划分后可以判断出模糊规则数。之后借助模糊聚类的方式形成规则。
(2)模糊规则库中包含了若干条模糊推理规则,参数数据库中则进一步定义了数据挖掘阶段模糊规则的参数。
(3)模糊推理机中包含了“if-then”模糊规则,实现了模糊输入空间至模糊输出空间的映射。
(4)反模糊化器可以将模糊值转变为清晰数值之后完成输出,是模糊集合到清晰实数之间的映射。
根据管理会计数据挖掘的相关要求,数据挖掘过程中应该针对企业内部管理的关键数据进行跟踪,根据数据跟踪反馈结果来判断管理会计所制定的措施是否有效,为满足该目标,在数据挖掘的模糊处理中,可以借助FCM 聚类算法的模糊划分输入空间(c)与模糊规则数(m)进行计算,在确定两个模糊数据之后,可以引导数据挖掘过程的范围与时长,最终为管理会计提供必要的支持。
一般在计算过程中,针对模糊划分输入空间(c)通常会采用DB 指标、Dunn 指标等计算方法,通过硬聚类等数据快速界定其范围。在计算模糊规则数(m)中,可以参照相关学者的研究结果,根据相关学者从算法收敛性角度的验算结果,计算出了m 与样本数量之间的相关性,证实的取值范围为1.1 ≤m ≤5,本次研究中则根据这一结果做进一步验算。
同时为验证样本误差,本文通过误差函数E 来检查模糊生产器中的数据变化,该方法的关键点就是根据样本输出的真实值与模糊模型数据输出结果计算出模型的结构与数据,其中的关系式表达结果如公式(3)所示。
在按照公式(3)进行样本处理中,样本误差函数E 与聚类数目之间存在相关性,为了更好的提取数据本身的内在联系,在模糊处理中应尽可能的增加模糊样本数量,随着规则数目的增加,则模糊模型所给出的数据与拟合值越接近,可以提升数据处理的精准度。
2.4.1 数据的预处理
为尽可能的判断模糊模型在管理会计中的运用效果,本文在数据挖掘中运用模拟模型技术,按照特定的时间序列,按照研究现象或问题之间的差异所形成的不同时间序列。在该时间序列的设定上,可以根据分秒,或者日、周月、季度等诸多时间标准进行设定。在管理会计管理中,通常会以周为单位进行数据检测,并按照月份的财务数据排序方法来测量某一段时间内的成本管理会计数据值。所以在本次研究中,本文以某生产企业2019 年1 月-2019 年12 月间的产品单位成本数据为历史数据集进行测量,并根据该结果预测2020年的企业生产成本情况,将该数据作为管理会计的重要依据。所以在该案例中,本文采用了x 的空间维度形式,其表达方法为:x=[x1,x2…xn]的表达方法。
根据案例企业所统计的结果,在2019 年1 月-2019 年12 月间,产品的单位成本维持在13396.44 元-16834.67 元之间,整体保持着不断上升的趋势。该企业的生产成本以编号为特定的销售形式,所以在本次研究中选择某一编号的实例进行成本判断,最终检测结果证明,案例商品全年的单位成本维持在3543.73 元-4134.78 元之间。在数据与处理过程中,本文通过FCM 模糊生产器进行数据处理,最终的模拟检测结果显示,当聚类数量达到4 时,样本的误差函数有明显下降;当模糊系数值达到1.5 时,则样本误差函数抵达了最小极值点。因此在数据处理中,应针对每一成本等级都能确定与之对象的线性函数,形成“if-then”的模糊规则。
根据拟合误差的大小判断模型预测值的精准度,本次研究中借助最大相对误差的方法进行预测性能判断。根据判断结果可以发现,优化模糊模型的残差之更小,这一结果证明该方法的精准度更高,通过以此完成对样本资料的分析,可以对2020 年的生产成本进行预测,这一功能满足管理会计的要求。而在对成本数据的应用进行与该企业2020 年的收集生产成本进行对比后,结果显示基于模型的预测成本与实际成本之间的差异不显著,体现出模糊模型数据挖掘技术具有合理性。
结合前文的研究结果可知,在面向ABC 作业选择与合并主题在数据挖掘的管理会计中发挥着重要作用。而作业成本法在实际上是在产品与资源之间引入“作业”机制,在企业生产中,企业的生产会消耗原材料与作业产品,最终导致生产的发生,所以在管理会计数据挖掘期间,应从企业的生产工艺入手,本剧作业成本核算等方法所统计的会计资料进行分析后,通过对逐个作业展开分析,计算出会计项目中所对应的人力、物力以及财力资源。同时因为数据挖掘技术中的关联规则可以发现频繁出现的数据,所以本文在使用该方法之后,根据管理会计的重要性原则挖掘重要作业项目之间的依存关系,最终实现有效合并[2]。同时也有研究认为,现阶段随着企业生产系统日益复杂化,管理会计需要跟踪、记录的数据可能达到数十万甚至上百万条,通过关联规则算法依然存在数据处理效率偏低的问题,所以需要通过改进关键规则的ABC 作业选择以及合并方法开展工作。
在本文所介绍的方法中,假设一个频繁项集的F 中存在k 个位数,则每个子集都是频繁的,此时子集的数量则为2k-1 个;当k 处于较大值时,子集出现的频率有明显增加。同时根据频繁项集的向上闭包性质,最大频繁项集中包含了大量频繁项集信息,所以通过数据挖掘可以将完全频繁项集进行转变。同时结合企业的实际情况来看,随着越来越多的数据库被使用,所以在数据挖掘期间可针对最大频繁项集的数据变化完成片段。
因此假设I 是所有数据项的结合,相对于一个集合X,则有X∈I,且K=|X|,此时可以认为X 为“k-”项集。相对于数据库D,本文所定义的X 支持度为D 中包含X 的事务数量,则可以记录为sup(X)。此时当sup(X)≥MinValue 时,则可以认为X 是D 中的最大频繁项集,此时再对该项集进行数据挖掘,则可以显著提升数据挖掘效果。
在数据处理中所需要处理的数据规模存在明显差异,此时在数据挖掘中需要访问的数据量级更大,为提升算法的运行效率,需要设计一个更有效的数据结构,并通过该方法进行挖掘计算,所以本文认为可通过图论数据结构的方法来表达数据[3]。
3.3.1 有向项集图
有向项集图G=(V,E)的定义为:
(1)在有向项集图中,所设定的结点集V 定义为数据库中所有“1-频繁项”的结合,此时每个节点中均包括三方面的特征内容,即频繁项的名称、频繁项的支持数量、支持频繁项的事务列表。
(2)在有向项集图E 中存在若干个具有不同表达的特殊频繁集,上述频繁集与企业的生产与经营情况有关。
3.3.2 有向项集图算法
在传统算法下,针对数据挖掘的一般要求主要是通过横向数据集的形式实现的,而为了进一步减少数据库扫描的次数,在本次研究中决定采用纵向数据集的分析方法,即(Item,Tidlist);并借助二进制编码技术,设定的数据Tidlist 的长度与事务总数L 之间是相同的,通过L 个二进制位,最终以“L/8”个字节来表达Tidlist。此时假设每个字节的取值结果为“0”或者“1”,分别对应了数据集中对应事务的支持或者不支持情况。所以在估算候选数据集支持度时,只需要执行Tidlist 的二进制逻辑预算模式,则可以进一步提升数据运算效率。
3.3.3 挖掘算法的改进
在实现有项图集构建之后,在关联规则中最大频繁项集在数据挖掘过程中可以进行完全转换,并实现项集的遍历。所以整个数据挖掘过程可以按照下列流程进行:在选择首节点为数据挖掘的起始点之后,开始访问其他邻接点,之后从该邻接点出发进行类似的方位,直至访问至末邻接点,由此形成最大频繁项集集合中;同时回退上一层的节点并进行类似访问工作,若后续生成的频繁项集中已经存在最大子集,则不会归结到集合中;相反则会进行自我保存。通过持续进行上述过程,实现了数据挖掘中不同数据的访问,知识挖掘出最大频繁的项集即可。
为判断上文所介绍方案的可行性,本文选择某钢铁企业做进一步分析。
3.4.1 数据预处理
在数据预处理中,考虑到钢铁企业的种类繁多,为更好的判断该方法在管理会计中的应用情况,本文仅以企业钢铁线材、棒材产品的管理会计工作展开分析,在数据挖掘期间,共挖掘出生产资料约3.6 万条。
3.4.2 数据挖掘
(1)选择重要作业内容。从作业链的角度来看,重要作业的概念强调了企业在生产经营管理中,管理会计所能提取到的关键信息。所以借助本文所采用的改良版的数据挖掘算法可以通过最小支持度以及置信度实现关联数据的挖掘,最终获得管理会计需要运算、分析的数据资料。所以在案例企业的管理会计数据挖掘中,通过该方法所获得的最大频繁项集为:{钢坯加热,钢锭加热,铸锭,轧制线材,退火,精整}等,每个最大频繁项集所包含的项集都是数据挖掘中的一个重要依据,在重要作业的基础上对数据挖掘中的同质化数据进行合并,最终形成一个完整的作业。例如在本次数据挖掘中,针对其中的重要作业内容可以将回火、正火以及退火等工序进行整合。
根据数据挖掘结果可以发现,钢铁线材产品与棒材产品在生产经营中主要依托铸锭工艺实现的,但是电渣锭工艺、连铸工艺等也是影响产品性能的重要指标,所以根据这一数据挖掘结果,管理会计最终得出结论,钢铁企业还应该重视制造设备的更新换代,除了要保证正常的铸锭工艺之外,电渣锭工艺、连铸工艺等对应的生产设备也是提升企业生产经营水平的重要组成部分,由此确定了该企业未来一段时间内的设备更新方向,充分发挥了管理会计的功能。
(2)重要作业的合并。在本节所介绍的技术中,在数据挖掘期间可在不设定最小置信度阈值时通过穷举方法罗列出其中的关联规则,并形成置信度,此时当所设定的阈值达到90%时,则可以获得更加精简的关联规则,例如钢铁精整→中心室检验、钢锭加热→钢坯加热等。为满足数据挖掘对效率的要求,可以在同质作业的基础上,根据作业项目之间的关联度来进行整合,对于管理会计而言,这种数据处理模式最显著的优点,就是可以判断出不同工作项目之间的内在关系,使管理会计可以从全局入手对作业项目内容进行全局性分析,并评估各个因素之间的内在联系问题,提高了管理会计的处理效果。
所以基于上述要求,在对企业重要作业内容进行合并之后,可以将管理会计数据挖掘过程精准到铸锭作业中心、钢坯修磨作业中心、轧制棒材作业中心等数个方面,管理会计可在此基础上进行下一阶段的会计管理,了解管理动因、成本动因等,有效分配各类管理资源,对于管理会计人员而言,通过上述方法可以实现资源成本的重新分配计算,掌握核心资料。
从效果来看,通过上述方法可以不断减少管理会计的数据挖掘过程,在将各种影响企业经营绩效的因素进行合并后,使会计管理人员可以更好的分辨工作的车重点,成为优化企业经营管理决策的重要组成部分。
在管理会计工作中,数据挖掘技术具有广阔的应用前景,而考虑到企业经营管理的复杂性,管理会计的数据挖掘技术会发生明显变化,所以相关人员应掌握其中的数据要点,不断对数据挖掘过程进行改进与创新,这样可以获得更加翔实的企业经营管理数据,使管理会计能够充分优化经营管理对策,使数据挖掘可以在企业管理中发挥更大的作用。