张璐璐
【摘要】 目前 ERP(Enterprise Resource Planning)研究的热点就是挖掘 ERP 大量数据中蕴涵的知识。为解决这一问题,近年来,提出了数据挖掘(Data Mining)和知识发现(KDD)技术,本文介绍了数据挖掘系统基于ERP的设计。
【关键词】 数据挖掘 ERP技术
随着人们认识和管理水平的提高,对客观世界的描述愈来愈全面,存储的数据量愈来愈大,然而,对数据库中数据的开发应用主要是检索查询,效率很低,此外,相当数量的数据具有很强的时效性,数据的价值随着时间的推移而迅速降低。简单的数据查询或统计虽然可以满足某些低层次的需要,但人们更为需要的是从大量数据资源中挖掘出对各类决策有指导意义的一般知识,这些知识是对大量数据的高度概括和抽象。数据挖掘技术在经济中的应用是信息决策、经济管理等领域的前沿研究方向之一。本文设计了面向ERP数据挖掘的一般结构框架。将 ERP原理与数据挖掘技术相结合应用到企业ERP中销售、客户和产品这三个模块,提出了企业ERP数据挖掘的实现方法,分析了销售、客户和产品数据挖掘的系统框架,完成了概念模型、逻辑模型和物理模型的设计工作,在实际中应用该系统,获得了较好的效果,为ERP和数据挖掘的结合提供了方向。
一、数据挖掘基本原理
1.1 KDD过程
数据挖掘是数据库技术、人工智能、机器学习和统计学等学科相结合的产物。简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。一种比较公认的定义是:数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程,它是由G. Piatctsky-Shapior,W.J.Frawley等人提出的。数据挖掘作为KDD的一个基本步骤,由下列步骤组成。
(1)数据清理。消除噪声或不一致数据。
(2)数据集成。将多种数据库中的数據组合在一起。
(3)数据选择。从数据库中检索与分析任务相关的数据。
(4)数据变换。将数据变换或统一成适合挖掘的形式。比如,通过汇总等操作。
(5)数据挖掘。它是基本步骤,使用智能方法提取数据模式。
(6)模式评价。根据某种兴趣度度量,识别表示知识的真正有趣的模式。
(7)知识表示。使用可视化和知识表示技术,向用户提供挖掘的知识。
1.2 数据挖掘的对象
原则上讲,数据挖掘可以在任何类型的信息存储上进行,包括关系数据库、事务数据库、数据仓库、高级数据库系统和面向特殊应用的数据库系统(如:面向对象数据库、对象关系数据库、空间数据库、时间数据库、时间序列数据库、文本数据库、多媒体数据库、WWW等)。数据挖掘的挑战和技术可能因存储系统而异。
1.3 数据挖掘系统的分类
数据挖掘是一个交叉学科领域,受多个学科的影响,根据不同的标准可以分类如下:
(1)根据挖掘的数据库类型分类。如果根据数据模型分类,可以分为关系的、事务的、面向对象的、对象: 关系的或数据仓库的数据挖掘系统;如果根据所处理数据的特定类型分类,可以分为空间的、时间序列的、文本的、多媒体的或的数据挖掘系统。
(2)根据挖掘的知识类型分类。知识的类型包括特征化、区分、关联、分类、聚类、孤立点分析、演变分析、偏差分析或类似性分析等。一个完整的数据挖掘系统应当提供多种和集成的数据挖掘功能。此外,数据挖掘系统可以根据所挖掘的知识的粒度或抽象层进行分类。包括概化知识(在高抽象层)、原始层知识(在原始数据层)或多层知识,一个高级的数据挖掘系统应当支持多抽象层的知识发现。
(3)根据所用的技术分类。这些技术可以根据用户交互程度(例如自动系统、交互查询系统、查询驱动系统),或所用的数据分析方法(例如面向数据库或数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络、模糊和粗集理论、遗传算法、决策树、最近邻技术等)描述。复杂的数据挖掘系统通常采用多种数据挖掘技术。
(4)根据应用分类。不同的应用通常需要集成对于该应用有效的方法。比如,金融、电信、DNA、股票市场等等。普通的、全面的数据挖掘系统可能并不适合特定领域的挖掘任务。
二、数据挖掘基于ERP的设计
ERP(Enterprise Resource Planning,企业资源计划)在我国的应用已越来越广泛。它体现了当今世界上最先进的企业管理理论,并提供了企业信息化集成的最佳方案。它将企业的物流、资金流和信息流统一起来进行管理,对企业所拥有的人力、资金、材料、设备、方法(生产技术)、信息和时间等各项资源进行综合平衡和充分考虑,最大限度地利用企业的现有资源取得更大的经济效益,科学、有效地管理企业人、财、物、产、供、销等各项具体业务工作。本文从企业自身的生产、管理和发展需要出发,结合数据挖掘技术的特点和目前国内ERP系统的应用现状,探讨将数据挖掘技术应用到传统的ERP中去的操作方法,以增强ERP的决策功能,从而满足企业管理人员的需要。ERP 是英文 Enterprise Resource Planning的简写,即企业资源计划,是20世纪90年代出现的一种先进的管理理念和管理技术,ERP 作为现代企业信息化进程中典型的应用系统,是管理哲学、理论和方法的软件封装,它承载了当今国际上先进的管理思想和信息技术。东方汽轮机有限公司早在2002年就开始使用 ERP 管理,通过 10 年来的不断完善和使用,目前已实现了企业内部资源和企业相关的外部资源的整合,高度集成了企业业务流和信息共享。在此基础上公司在相关部门全面实行ERP 数据系统管理业务流程,本文就公司 ERP数据系统的实施效果,研究ERP数据系统期初数据的质量现状,对数据质量进行评估,总结其影响因素,并提出切实可行的提高数据质量的方案。
2.1 ERP数据挖掘过程
面向 ERP 数据挖掘就是在生成面向 ERP的数据仓库/数据集市的基础上,通过数据清洗、集成选择和变换原有的数据,得到特定的数据集,通过使用数据挖掘算法将隐含在其中的但是又有潜在的有用知识提取出来的过程,可将ERP数据挖掘的过程分为[8-9]:数据准备,数据挖掘,结果评价和表达。
2.1.1 数据准备
将数据准备分为 3 个子步骤:数据选取、数据预处理和数据变换。
(1)数据选取:在原始数据库中根据用户的需求抽取一组目标数据。
(2)数据预处理:包括对数据降维、消除噪声、推导计算缺值数据等。
(3)数据变换:为了减少数据挖掘需要考虑的特征或变量个数,在初始特征中找出真正有用的特征。
2.1.2 数据挖掘算法
先对数据挖掘的目标和挖掘的知识类型进行确定;在挖掘任务确定后,按照挖掘的知识类型选择合适的挖掘算法;然后对数据挖掘实施操作,从数据库中用选定的挖掘算法抽取出所需的知识。
2.1.3 结果评价和表达
具体步骤细分为:评估、解释模式模型、鞏固、运用知识。 不断地反复整个数据挖掘过程,使所挖掘出来的知识能不断求精和深化,最终使用户得到满意的结果。
2.2 系统的总体设计与规划
此系统结合石化企业、大型超市数据以及网上获得的测试数据为基础,将数据挖掘技术和企业ERP 系统结合起来,为企业提供智能决策和协同管理[10]。企业ERP数据挖掘系统开发的环境是将大量的数据来源作为预处理数据,这些数据来自石化企业ERP运行后产生的有用数据、大型超市后台数据库产生的有用数据以及来自互联网上作为测试用的可靠数据,在此基础上,通过PC机针对这些已经明确的数据库表结构设计该系统。本系统通过主流的JAVA开发工具 eclipse,通过 JAVA 开发语言结合 已 经 实 现 的 数 据 挖掘算法开发而成。采用JAVA 开发语言 ,大大提高了本系统的移植功能,JAVA的跨平台性有利于把系统移植到不同的操作系统平台上。
系统总体功能结构设计总体功能框架分为4部分:销售模块,产品模块,客户模块,其他模块。其中,销售模块功能框架图见图1所示。
ERP原理与数据挖掘技术相结合应用到企业 ERP 中的销售、 客户和产品这三个模块,在实现过程中充分运用了数据挖掘算法, 提出了企业ERP 数据挖掘的实现方法,分析了销售 、客户和产品数据挖掘的系统框架,完成了概念模型、逻辑模型和物理模型的设计工作。 并将 SQL 和 JAVA 语言发展为面向 ERP 数据挖掘系统。与企业的实际情况和测试数据相结合,在实际中应用该系统,获得较好的效果,为ERP和数据挖掘的结合提供了方向。
三、结束语
随着企业数据量的剧增,为了从数据中及时、准确的获取信息,出现了综合多种技术的数据挖掘技术。本文通过简要阐述数据挖掘技术的含义,所依赖的基础和具体实施的各个步骤,提出了数据挖掘系统的原型框架,并指出目前所面临的一些问题。
参 考 文 献
[1] 郑称德,王全胜,陈曦. 我国企业ERP系统实施的业务流程绩效实证研究[J]. 情报杂志,2010,1(2):68-72
[2] 宋旭东,张通学,刘晓冰. 面向领域的数据挖掘系统研究[J]. 计算机应用研究,2008,25(5):1432-1433
[3] 涂建东,陈崇成,黄洪宇等. 基于J2EE的空间数据挖掘系统设计与实现[J]. 计算机应用,2005,25(3):710-712