基于数据挖掘的纺织企业成本预测

2014-07-13 12:07王瑞费树岷
电脑知识与技术 2014年5期
关键词:数据挖掘模型

王瑞 费树岷

基于数据挖掘的纺织企业成本预测

王瑞,费树岷

(东南大学 自动化,江苏 南京 210096)

摘要:成本核算是企业成本控制的基础,其中成本预测是关键。在成本核算系统中,利用数据挖掘技术,寻找与企业成本相关的数据之间的规律,预测企业成本,为企业管理者进行有效地成本控制提供依据,实现准确的成本预测。该文提出了纺织企业原料成本的数据仓库模型,分析了如何使用合理的数据挖掘算法实现原料成本的预测,最后以实例阐述了数据挖掘技术在纺织企业成本核算系统的应用。

关键词:成本预测;数据挖掘;纺织企业;模型

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)05-0890-04

Cost Prediction Based on Data Mining Techniques in Textile Company

WANG Rui,FEI Shu-min

( School of Automation,Southeast University, Nanjing 210096, China)

Abstract: Cost Accounting which is the most basis step of a company doing cost control, while cost forecasting is the most important part. Now, we achieve these cost tasks better by using date mining techniques in a cost accounting system. This paper throws out a data warehouse model of material costs and a date mining algorithms to achieve material cost prediction. Finally, we expound these problems above with an example of a textile company.

Key words: cost prediction; data mining; textile company; model

随着信息化的不断发展,纺织企业也向着无纸化办公的方向不断发展。企业通过引进购买相应的财务软件,帮助实现企业信息化,代替手工核算,然而这些软件仅仅是从表面代替了人工的计算功能,并没有实现成本预测的功能[1]。成本核算由人工手动计算向计算机计算的转换,导致企业成本核算系统中存储了大量的与成本相关的数据。如何从这些海量的数据中提取出有意义的信息,帮助企业管理者分析数据并以合理的架构模型实现成本预测,控制成本的发生成为如今企业使用成本核算系统最为关注的问题。文中主要通过数据挖掘的神经网络算法实现对纺织企业原料成本的预测。

1 数据挖掘的方法

数据挖掘,即从现实世界大量含噪声的数据中通过算法发现有意义的知识的过程,是数据库知识发现(Knowledge-Discovery in Databases)的一个基本步骤,在整个知识发现过程中起着至关重要的作用。KDD的过程如图1所示。

图1

1.1数据清理与集成

现实的数据库中的数据必然是不完整的、含噪声的,数据填入数据库后通过填写遗漏值、平滑噪声来清理数据,集成不同数据库中概念、属性一致而命名不同所导致的数据冗余[2]。

1.2数据选择与转换

选择经过数据清理和集成后与挖掘任务相关的数据,通过数据方块集、维归约、数据压缩、数值压缩和离散化和概念分层产生的方法对数据进行归约处理,得到大型原始数据集的归约表示。

1.3数据挖掘阶段

数据经过一系列的预处理操作后,我们使用这些数据进行数据挖掘:

首先,确定挖掘的任务以及用户感兴趣的知识,比如成本各元素之间的相关分析,成本的短期或长期预测等等。

其次,确定数据挖掘的算法。选择合适的算法完成一个挖掘任务需要从以下几个方面考虑:一是挖掘任务的类型(预测或分析),二是数据集的大小。

整个数据挖掘的过程就是在发现与评估中寻找有效的算法,发现有趣模式,完善与提高挖掘系统效率的过程。

2 数据挖掘技术在纺织企业的应用

2.1 成本核算系统分析

纺织企业的成本一般由生產成本与非生产成本组成。生产成本部分主要包括:原料、能源、薪资和固定资产折旧等费用;非生产成本部分由销售费用、财务费用和管理费用组成。薪资(仅与出勤相关)、固定资产折旧、财务费用和管理费用属于固定成本,这部分成本不随产量的变化而变化,因而无需对其进行成本预测;其它的成本因素都属于变动成本,其中原料成本为企业成本的关键,是企业生产成本的基础,也是本文进行成本预测的对象。

2.2数据仓库模型研究与建立

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,是基于多维数据模型实现的。面向原料成本预测主题的数据模型,如图2所示。该文把原料成本作为事实表,并将其与各个数据维紧密相连,构成了原料成本的结构信息,包括:日期、分厂、原料、原料采购成本、原料耗用成本等。进行实际成本统计时,若以部门、车间为统计单位,则需要引入维的概念分层,假设分厂维由属性车间、部门和分厂定义,这些属性形成一个层次,即“车间<部门<分厂”,依据这样的概念分层,将低层的概念(车间,部门)映射到更一般的高层概念(分厂)。

图2

将此原料成本预测数据模型看作是一个3-D的数据方,给出形成维日期、原料和分厂的数据方的方体格,如图3所示。将对事实表的查询与维表的查询结合起来,维表的属性包含在数据库查询语句(SQL语句)的group by子句中,就可以检索大量的成本信息。此3-D的数据方计算的方体格总数为23=8个,可能存在的分组为{(日期,原料,分厂),(日期,分厂),(日期,原料),(分厂,原料),(日期),(分厂),(原料),()},其中()是指按空集合分组(即不对任何维分组)。

图3

2.3 数据仓库到数据挖掘

数据仓库是一个过程、一个环境,它提供了用户决策所需的历史和当前数据,为数据挖掘工具的运行提供了高质量、有价值的数据源 [3]。文中所建立的数据仓库不再是存放日常成本的各个细节,而是各个部门的原料成本的汇总数据,有助于提高数据挖掘的效率。

3 挖掘算法分析与实例

成本预测是基于对历史数据的研究,实现对未来成本趋势的预测。神经网络算法、多元线性回归算法、时序算法、决策树算法等等都可以用来实现对成本的预测。考虑到成本预测是一个非线性的数据预测,该文选用径向基函数(Radical Basis Function,RBF)神经网络算法来实现对原料成本的预测。相比于误差后向传播(Back Propagation,BP)神经网络,其具有以下优点:局部收敛性更好,RBF神经网络使用高斯函数作为激活函数,而BP神经使用全局性函数sigmoid()作为激活函数;学习速度更快,RBF神经网络的拓扑结构加快了学习速度且避免了局部极小问题,而BP神经网络的输入在很大范围内对每个节点输出都有影响;隐含层结点易确定,RBF神经网络可通过算法确定隐含层结点数,而BP神经网络隐含层结点的确定更多依赖于经验 [4]。RBF神经网络是一个単隐含层的三层前馈网络,其网络结构,如图4所示。文中选取原料采购量和库存量作为网络的输入单元,以原料的消耗量作为网络的输出单元,根据文[5]中提出的算法,确定隐含层的结点数为15个。

图4

RBF神经网络的输入层至隐含层是非线性的变换,而隐含层至输出层是依据式(1)进行线性叠加:

(1)

其中{) }称为径向基函数。基函数一般选取为高斯函数:

Ci为径向基函数的中心,与输入样本x维数相同,σi是径向基函数的宽度。当一个输入样本远离基函数中心时,Ri(x)会迅速衰减到零,那么此隐含元的输出也近似为零。

3.1学习训练过程

网络的训练分两个阶段:首先,进行无导师学习,根据网络的输入得出隐含层和输入层之间的权值,使用k-均值法:

(2)

求出k个子集中的各类样本u与其所属样本ci间的误差平方和,再对所有k类求和。样本分类的不同Je的值也不同,当Je的值最小时,得到最佳的分类。其次,进行有导师学习,确定网络的输出层和隐含层之间的权值。给出一组样本输入及理想输出,利用无导师学习得到的输出层与隐含层的权值,训练推出隐含层与输出层的权值矩阵[6]。

3.2 算法实例

读取某纺织企业数据仓库中的相关数据,考虑到棉花不同于其他原料(如:涤纶,黏胶等),具有特殊的生命周期性,该文以棉花为研究对象,每10天进行一次核算,得到表1所示 的数据。

表1

[日期\&库存(t)\&采购(t)\&消耗(t)\&2011.04.10\&1053.83\&127.89\&197.7\&2012.9.20\&1262.42\&466.69\&216.6\&2012.9.30\&1115.26\&0\&239.26\&…\&…\&…\&…\&2013.1.20\&2501.66\&83.81\&223.68\&]

设计一个RBF神经网络,库存和采购作为网络的输入,消耗为网络的输出,选取50组样本数据作为训练样本,另外15组样本数据作为测试样本,以高斯函数为径向基函数建立RBF神经网络模型。经过网络训练得到如表2所示的预测结果。

表2

[库存(t)\&采购(t)\&实际(t)\&RBF预测\&多元回归预测\&1053.83 \&127.89\&197.7

\&192.82\&203.69\&1262.42 \&466.69\&216.6\&215.23\&220.60\&1115.26 \&0\&239.26\&238.2\&200.12\&1049.34 \&168.13\&221.11\&219.74\&205.12\&1077.50 \&242.96\&230.97\&229.55\&208.50\&1063.02 \&212.10\&259.98\&258.29\&207.04\&…\&…\&…\&…\&…\&2501.66 \&83.81\&223.68\&221.48\&230.99\&]

3.3 結论

依据表2 的结果可以发现,RBF神经网络的预测结果要比多元回归算法的预测结果误差更小,同时也证实了通过原料的库存量与采购量来预测原料消耗的可行性,可以帮助企业通过本期的原料库存与采购,结合原料的使用单价,预测下一期原料的耗用价格。

4 结束语

文中建立的面向原料成本主题的数据仓库模型,在实际应用过程中,维表的信息还有待继续研究。在已建立的数据仓库的基础上,选择RBF神经网络的数据挖掘算法,通过学习训练,确定输入层、隐含层及输出层各结点之间的权值,实现对原料成本的预测。结合本文提出的数据挖掘模型与算法,可以帮助管理者实现原料成本的预测,减少工作人员对于经验的依赖性。数据挖掘技术必将在纺织企业成本核算系统中获得更大地应用。

参考文献:

[1] 翟坤.基于数据挖掘的成本管理方法研究[D].大连:大连理工大学,2011.

[2] 韩家炜.Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2007.

[3] 陈文伟.数据仓库与数据挖掘[M].北京:清华大学出版社,2011.

[4] 段路平.基于RBF神经网络的数据挖掘研究[D].哈尔滨:哈尔滨理工大学,2007.

[5] 吴成茂. 确定RBF神经网络隐层节点数的最大矩阵元法[J].计算机工程与应用,2004.

[6] 侯媛彬,杜京义,汪梅.神经网络[M].西安:西安电子科技大学出版社,2007.

猜你喜欢
数据挖掘模型
适用于BDS-3 PPP的随机模型
p150Glued在帕金森病模型中的表达及分布
探讨人工智能与数据挖掘发展趋势
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
3D打印中的模型分割与打包
一种基于Hadoop的大数据挖掘云服务及应用
FLUKA几何模型到CAD几何模型转换方法初步研究