电子商务环境下企业信息平台相关关键技术研究

2014-07-13 06:45:20刘慧梅殷锋社
电子设计工程 2014年12期
关键词:数据仓库矢量分布式

刘慧梅,殷锋社

(1.陕西国防工业职业技术学院 陕西 西安 710300;2.陕西工业职业技术学院 陕西 咸阳 712000)

电子商务环境下企业信息平台相关关键技术研究

刘慧梅1,殷锋社2

(1.陕西国防工业职业技术学院 陕西 西安 710300;2.陕西工业职业技术学院 陕西 咸阳 712000)

目前物流企业以及大型制造企业管理信息系统之间的互联互通和互操作性很差,导致信息资源的巨大浪费和利用效率低下。针对企业信息集成、企业应用集成和数据抽取、转换、装载,为实现LIP开放、复杂、多层次的计算任务,对分布式对象和分布式数据库技术进行了分析,并在Matlab环境下,对这些数据进行聚类仿真。

管理信息系统;信息集成;计算任务;远程数据库

随着中国物流行业的发展,物流运营管理也正在逐步走向现代化。目前物流企业以及大型制造企业的运输公司建立了诸多运输管理信息系统,为物流运输管理及调度指挥发挥了巨大作用。但是,由于管理体制、建设时间、建设需求等多方面原因,造成信息系统的重复建设、数据质量较差,形成各自独立、自成体系的信息孤岛,各系统之间的互联性、互通性和互操作性很差,导致信息资源的巨大浪费。

1 分布式对象与分布式数据库技术

物流过程中信息的流动是跨系统进行的,物流系统必须实现跨地区的信息实时传输、远程数据访问、数据分布处理和集中处理的结合等。由于物流系统相关部分的地域分布性,为有效的控制物流企业信息平台(LIP)开发、管理和维护的复杂性,实现LIP开放、复杂、多层次的计算任务和同时快速平稳的处理大流量数据,使用了分布式对象和分布式数据库技术[1]。

1.1 分布式对象技术

分布式对象技术是指在网络计算平台上开发、部署、管理和维护以资源共享和协同工作为主要应用目标的分布式应用系统的技术。它采用面向对象的多层客户/服务器计算模型,将分布在网络上的全部资源(系统层或应用层)都按照对象的概念来组织,每个对象都有定义明晰的访问接口。目前分布式对象技术已经成为建立应用框架和软构件的核心技术,OMG的CORBA,Microsoft的ActiveXIDCOM和Sun公司的JavaIRMI是目前流行的3种主流技术。

1.2 分布式数据库技术

分布式数据库系统是物理上分散而逻辑上集中的数据库系统。分布式数据库系统使用计算机网络将地理位置分散而管理和控制需要不同程度集中的多个逻辑单位 (通常是集中式数据库)连接起来,共同组成一个统一的数据库系统。这里的逻辑单位指LIP的相关节点,由于每个节点在业务上需要处理各自的数据,因此它们都有自己的数据库、中央处理机、终端,以及各自的局部数据库管理系统。采用分布式数据库结构,解决了大量数据集中存放所带来的问题,通过系统内在的访问、采集、分布和复制机制实现对远程数据库的操作。

2 异构数据传输技术

在电子商务环境下,LIP必需解决联盟成员、客户企业、相关政府机构之间的大量异构数据传输的问题。物流网络中,所有节点企业或集团子公司的物流信息可以认为被包含在一个广义的数据库中。这种情况下,每个节点企业的物流系统就是该数据库中的一个数据源。由于不同企业的物流信息和业务组织不尽相同,该广义数据库是异构的。要挖掘并有效利用异构数据[2],需要集成物流网络中所有的数据源,这在实际操作中将是困难的。

EDI一直都是商业机构间数据交换的标准,我国的很多政府机构如海关、银行、税务、保险等都建立了各自的EDI系统,因此现阶段LIP必需支持EDI。但是EDI结构复杂、开发和应用成本昂贵,不可能被普遍应用,XML的出现突破了EDI的发展瓶颈。开放且基于文本的XML非常适用于服务器之间交换事务信息,利用XML的可延伸性及自我描述的特性,同一数据可以用不同的表现方式提供给不同用户,在多个不同的数据库之间传递信息。应用XML进行数据传输并不强迫物流网络中的所有节点企业使用统一的数据处理标准,而是通过客户化的接口来实现不同系统数据格式之间的统一,能够实现企业与多个不同的供应商、客户及配送单位之间物流信息互动,使销售或采购订单可以直接驱动物流的运作,并将即时的物流运作信息反馈到企业内部信息管理系统。

3 数据仓库技术

数据仓库[3]是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。它从大量的事务型数据库中抽取数据,并将其整理、转换层新的存储和组织格式,通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造,是一种多个异种数据源在单个站点以统一的模式组织的存储。从概念上说,数据库支持的是操作型的日常事务处理,面对的是低层操作人员与管理人员;而数据仓库支持的是信息型或分析型的数据处理,即是针对制订决策过程中管理层的需求而进行的处理,或是通过浏览大量数据以找出其中的趋势的处理,所面对的是中高层决策管理人员。

数据仓库具有下列特征:

1)面向主题性与传统数据库面向应用相对应,主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域,并通过一系列具有共同的公共码键的表在数据仓库中实现。

2)集成性原始数据与适合DSS分析的数据之间的差别很大,因此数据进入数据仓库之前,必然要经过加工和集成。

3)稳定性数据仓库主要为决策分析提供经过综合、集成的面向某一分析主题的数据,这些数据原则上是只读的,不允许决策分析人员直接对数据进行修改或删除等操作。因此数据仓库中的数据是相对稳定的。

4)随时间变化性数据仓库的稳定是相对于应用而言,由于事务处理数据库中数据是不断更新的,每过一定的时间阶段,事务处理数据就要转化为历史数据增加到数据仓库中来。

LIP中数据仓库主要作用就是跨越企业时空界限,把不同部门不同事务处理系统的数据集成起来提供一个统一的数据视图,从而使各数据仓库应用方便地获得有关公司运作状况或客户行为等方面更为综合的信息。数据仓库系统运作流程如图1所示。

图1 数据仓库系统运作Fig.1 Operation of data warehouse system

最流行的数据仓库模型是多维数据模型,这种模型可以以星型模式、雪花模式或事实星座模式(星系模式)形式存在。 LIP数据仓库采用事实星座模式,因为它能对多个相关的主题建模。在开发利用LIP时,使用的数据库服务器是Microsoft SQL Server 2000,它提供了一个综合的数据仓库平台,是设计、创建、维护及使用数据仓库解决方案更加容易和快捷。

4 数据挖掘技术及其系统实现方案

目前,数据挖掘涉及的学科领域和方法很多,有多种分类法。根据挖掘任务,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象,可分为基于关系数据库、面向对象数据库、空间数据库等多种数据库,以及基于Web的数据挖掘;根据挖掘方法,可分为机器学习方法、统计方法、神经网络方法、决策树方法和数据库方法等。

4.1 数据挖掘中聚类分析方法研究

在物流信息平台上物流企业业务量大、信息来源多和各种实时交互信息量巨大,蕴藏着丰富的隐藏信息,同时这些信息是呈实时、动态变化的。从物流企业的信息网络中抽取所需用信息作分析对企业作出正确的决策和史好的适应市场的需求是非常重要的。数据挖掘技术正是从此类汪洋大海似的信息宝库中实时发现、贮存,及时地提取,并充分地利用各领域中隐含的知识、规律、规则,以用于决策、过程控制、信息处理、查询处理等。

一般来说,作某种分析时所要求的系列数据往往是同一类型的数据,如某网点某段时间某种货品的存储数量等,这时候要用到数据挖掘中的聚类分析方法。所谓聚类[4],是将物理或抽象对象的集合分割成为由类似的对象组成的多个类的过程,由聚类所生成的簇是一组数据对象的集合,同一个簇中的对象彼此相似,不同簇中的对象间区别较大。聚类分析是根据事物本身的特性,研究对象分类的方法,依据的原则是使同一类中的对象具有尽可能大的相似性,而不同类中的对象具有尽可能大的差异性。聚类分析要解决的就是实现满足这种要求的类的聚类。作为统计学的一个分支,聚类分析已经被广泛地研究了许多年,主要集中在基于距离的传统聚类算法,如 k-means(k一平均值)、k-rnedoids(k一中心点)算法等。这些算法具有聚类结果清晰,无模糊、二义的优点,但也存在许多问题,如要求事先指定K个聚类初始点,且结果对K值(聚类数)大,}1、非常敏感,对于不同K值的聚类结果往往大相径庭。因此,如何事先确定K值是传统聚类算法所存在的最大问题。神经网络是在研究生物神经系统的启示下发展起来的一种信号处理方法,其具有强大的并行处理机制、任意函数的逼近能力、学习能力,以及自组织和自适应能力等特性,从而可代替复杂的传统算法,使信号处理过程更接近于人类思维活动。神经网络在人工智能、自动控制、计算机科学、信息处理、模式识别等方面的应用越来越广,为实现企业信息平台中的数据挖掘聚类功能,本文就应用Kohonen神经网络实现聚类分析的方法及应用进行研究。

4.2 Kohonen神经网络算法分析

自组织特征映射网络((SOM网络)是由芬兰赫尔辛基大学神经网络专家Kohonen教授提出来的,这种网络模拟大脑神经系统自组织特征映射的功能,它是一种竞争式学习网络,在学习中能无监督地进行自组织学习。由于聚类分析结果的不可知性,聚类不是基于训练数据的,而是直接对数据源进行处理,其过程是一个无导师指导的学习过程,因此,本文在聚类分析器中采用了Kohonen神经网络[5]。

Kohonen神经网络算法Kohonen算法是一种无教师示教的聚类方法,它能将任意维输入模式在输出层映射成一维或二维离散图形,并保持其拓扑结构不变,即在无教师示教的情况下,通过对输入模式的自组织学习,在竞争层将聚类结果表示出来。此外,网络通过对输入模式的反复学习,可以使连接权矢量空间分布密度与输入模式的概率分布趋于一致,即连接权矢量空间分布能反映输入模式的统计特性。该算法往往在完成极高维数、超大量数据和高度非线性问题的聚类,模式表征和数据压缩,分类等任务时是一个很有效、很简便、快速、并且稳健性好的算法。

Kohonen的学习算法如下:

1)给出输出节点(即矢量模式)的个数M及输入节点(即每个矢量元素)的个数N,并将从输入节点i到输出节点3的权值初始化。

2)对网络输入模式 X(t)=(x0(t),x1(t),…,xN-1(t))T计算输入矢量X(t)全部输出节点所连权矢量的距离。

3)从dj中选出最小值所对应的输出节点J为响应节点。

4)按照公式调整J及其邻域NEj(t)内各输出节点的权值。

5)若还有输入样本数据,则转到2),反复迭代,直到算法收敛。

4.3 实例测试与仿真分析

设有某一对一对应关系(X,Y),其中X表示输入信号大小,Y表示输入信号经过处理后的输出信号大小,现在要考察输入X与输出Y之间的关系可分为多少类。每类输入输出关系是以一定形式来表示的,这种特定的形式可称为某一聚类。从某数据库中随机选择九百多组上述数据,下面使用聚类Kohonen神经网络[6],在Matlab环境下,对这些数据进行聚类仿真。

1)准备数据源。由对应关系(X,Y)可知输入矢量为两输入模式,将数据存入二维数组p,部分数据如下:

2)选定参数。取神经元为5,取学习速率为0.2,定义网络最大训练步数为1 500步。

3)运用newc()函数创建竞争层网络,建立网络结构。代码如下:

4)运用网络初始化函数init(),对竞争网络初始化。代码如下:

5)初始化连接权矢量。代码如下:

6)运用网络训练函数train()训练上述初始化后的网络。代码如

7)调用绘图函数plot()绘制P输入矢量值的平面图和网络训练t权值矢量,并将结果以图形的形式显示出来。这里用加号“+”显示输出量,用圆圈来显示经过网络训练后的权值矢量。代码如下:

8)运用仿真函数sim()对一个具有输入矢量p的神经网络进行仿该函数最后返回网络的输出结果。以[0.7;5」为输入矢量进行仿真,代码如

5 结束语

随着企业竞争的日趋激烈,需要企业信息系统为企业决策提供有关员工、供应商和客户的详细数据,并且要求这些数据是准确、一致和完整的。只有这样才能够保证更加高效的运营[7],更高的客户满意度,以及更加快速有效的科学决策。因此消除现有信息系统间的信息孤岛问题,建立异构系统间信息共享、信息交换的有效机制,成为企业信息化建设中的首要问题。

[1]钱晓江.物流信息系统体系结构[J].东南大学学报,2001,31(11):40-41.

QIAN Xiao-jiang.The architecture of logistics information system[J].Journal of Southeast University,2001,31 (11):40-41.

[2]李玲青,窦明晖,周洞汝.C/S模式结合OLE技术在开发GIS系统中的应用[J].计算机工程,2002,28(1):260-262.

LI Ling-qing,DOU Ming-hui,ZHOU Dong-ru.application.C/S model with OLE technology in the development of GIS system[J].Computer Engineering,2002,28(1):260-262.

[3]邹咸林,杨俊杰.分布式对象技术及客户机/服务器体系结构[J].湖北民族学院学报,2002,20(3):62-65.

ZOU Xian-lin,YANG Jun-jie.A distributed object technology and client/server architecture[J].Journal of Hubei Institute for Nationalities,2002,20(3):62-65.

[4]R.Otte,M.Roy.CoRBA教程:公共对象请求代理体系结构[M].北京:清华大学出版社,1999.

[5]Tilanus B.Information systems in logistics and transport[J].Bsenier Scienee,1997(5):56-66.

[6]唐卫宁,耿国华.电子商务中基于CORBA的WEB数据挖掘研究[J].计算机应用研究,2002(7):45-47.

TANG Wei-ning,GENG Guo-hua.Research of WEB data mining based on CORBA in electronic commerce[J].The Research and Application of Computer,2002(7):45-47.

[7]张海龙,冯森,李建祥,等.电动汽车充换电服务网络运营管理系统的研究与设计[J].陕西电力,2011(11):47-50.

ZHANG Hai-long,FENG Sen,LI Jian-xiang,et al.Research and design of electric vehicle charging net management system[J].Shaanxi Electric Power,2011(11):47-50.

Research of key technology of enterprise information platform under the electronic commerce environment

LIU Hui-mei1,YIN Feng-she2
(1.Shaanxi Institute of Technology, Xi’an 710300, China; 2.Shaanxi Polytechnic Institute, Xianyang 712000, China)

At present,the interconnection between logistics enterprises and large manufacturing enterprise management information system and interoperability is poor,causing great waste of information resources and low utilization efficiency.In view of the enterprise information integration, enterprise application integration and data extraction, conversion, loading, in order to realize the LIP open, complex, multi-level computing tasks, the distributed objects and distributed database technology is analyzed, and in the Matlab environment, clustering of these data simulation-

management information system;information integration;computing;remote database

2014-01-13稿件编号201401094

咸阳市科技计划项目(2012k02-14)

刘慧梅(1976—),女,甘肃武威人,工程硕士,讲师。研究方向:软件工程。

TN-9

A

1674-6236(2014)12-0030-04

猜你喜欢
数据仓库矢量分布式
矢量三角形法的应用
基于数据仓库的住房城乡建设信息系统整合研究
分布式光伏热钱汹涌
能源(2017年10期)2017-12-20 05:54:07
分布式光伏:爆发还是徘徊
能源(2017年5期)2017-07-06 09:25:54
分布式存储系统在液晶面板制造数据仓库中的设计
电子制作(2016年15期)2017-01-15 13:39:15
探析电力系统调度中数据仓库技术的应用
基于矢量最优估计的稳健测向方法
三角形法则在动态平衡问题中的应用
基于DDS的分布式三维协同仿真研究
雷达与对抗(2015年3期)2015-12-09 02:38:50
基于数据仓库的数据分析探索与实践