■陈 培 浙江财经大学
基于网格技术的虚拟物流资源挖掘模型研究
■陈 培 浙江财经大学
网格技术可以解决异构系统间访问问题,实现跨平台的信息共享。本文将网格技术运用于虚拟物流资源动态分析中,构建了一个基于网格技术的虚拟物流资源数据挖掘过程模型,并且对模型的实现技术进行了阐述。
网格技术;物流资源;数据挖掘;过程模型
电子商务作为一种新兴的商务模式已经对传统模式造成了巨大影响,物流行业从传统的简单运输、仓储逐渐发展为现代物流,这其中也或多或少受到电子商务模式的影响。现代物流是运用高新技术使物流作业可控、智能化,要达到这个目的不乏采集大量的数据供分析。大量物流数据的获取可以通过两种途径,企业信息系统及运营的网站,总体来讲这是一种虚拟的分布式的资源。对于数据分析,数据挖掘技术是一个很好的技术手段,通过数据挖掘模型的构建与运用可以发现物流数据规律,指导企业制度、政策的制定。那么这些分布在各个地域、各个物流企业的资源该如何收集,企业间、地域间的系统平台差异、数据异构都阻碍着数据集成的进行,本文将通过网格技术来对此问题进行分析,构建模型,制定解决方案。
要做数据分析必须要有大数据源,本文的物流数据从各地域物流企业获取,但是企业内网、信息系统的数据是对外保密的,信息共享只有在合作伙伴之间,或者需要支付费用,因此,对于开源的数据只有从物流企业运营的门户网站、物流行业、贸易平台中的获取。物流企业的业务操作会形成业务数据,如果后台的这些增删查改连通互联网,形成日志、或者数据体现在页面文件中,我们可以获取这些日志,或者用一些网络抓取软件对这些数据源进行处理与分析,获得物流数据,并可以对数据进行挖掘,得到物流运作规律。
运用网络挖掘方法对物流业务的分析取决于物流行业对网站的利用率,各物流企业门户网站的构建率,网上业务的开办情况,在企业大量使用线上交易,并且开发电子商务新模式,线下大数据入网,为数据分析与挖掘提供了基础数据,我们就有构建挖掘模型的必要了。目前国内大小物流企业都有了自己的门户网站,并且支持网上业务,同时,如阿里巴巴物流、中国物流与采购网、物流中国等第三方物流平台网也取得了较大的发展。对于大型物流平台运营方、大型物流企业,均具备足够的数据源对物流数据集进行分析挖掘。
对众多互联网物流网站进行数据挖掘,使用统一的网络日志系统进行挖掘,可以避免挖掘中碰到负责的系统接口问题,将物流网站抽象成为网页与链接的集合S=(V,G),其中V是网页集,G为链接点集合。链接点可以视为一项物流业务的抽象,令表示物流活动监控点,我们定义一个映射,,,g表示物流网站中的一个链接,表示物流监控指标的集合,映射表示物流节点与监控指标集之间的关系。互联网日志可以用LOG={ID,T,userID,userNM,g},表示,其中各代码分别表示用户所做的业务操作的编码,时间,用户号,用户名及链接点,通过映射我们可以获得物流业务的监控指标。
1.虚拟物流网格
网格技术可以解决系统信息孤岛问题,是实现信息共享的一种手段。网格技术物理实现还是互联网以及企业内联网,通过虚拟资源网格及相应的运行管理系统,以资源库为数据源,实现网格运行。散布在网格中各个区域的各种物流企业基础设施、业务流信息、客户信息、订单等信息构成了一个整体,网格中各种资源作为元素,元素间的交流形成了网格互动,在互动过程中,各资源存在不同的系统平台、软硬件体系与不同计算机语言问题,统筹各空闲资源及跨平台共享这些资源即网格技术的作用,运用网格技术将分布在不同区域的计算机资源整合使用,解决大型问题就是网格计算。
2.物流网格体系结构
将网格视为一种网络体系,可以将其体系结构划分为类似TCP/IP形式的多层次架构,具体可以划分为顶层企业应用层、网格核心层、封装层、底层基础资源层。
企业应用层:企业应用层即支持企业用户的应用程序,以及支持该些应用直接数据传输的通信协议的集合。在TCP/IP应用层中有多种协议如HTTP/FTP/SMTP等多种应用层协议,这些协议直接给客户应用程序提供服务。在这个层次是使用网格的多个企业用户,以及企业信息系统所构成的资源共享应用层。呈现给企业的是一个集成化多功能终端,不用考虑数据的来源及格式,可以访问大量物流信息,使用开放的物流资源。
网格核心层:核心层由大量网格基础协议、技术规范及资源调度系统等构成,是物流虚拟化资源动态调度的核心。为应用层提供了统一的语言及编程接口,并且为企业应用提供一些系统、服务开发工具、集成平台、可视化的支持工具以及一些优化指导插件等,使用这些工具有利于企业做进一步开发、改造原有系统,以更好地使用和支持网格服务。
资源封装层:封装就是把多个零件进行组合,成为一个整体与外界其他部件进行连接的独立体,也可以对多个独立体进行封装组成一个更大的个体。资源封装层通过网格技术可以屏蔽数据的异质属性,将不同数据封装成为可以共享的数据类型。这样便于资源管理与监控,促进分布式资源的调度与优化。
底层资源层:资源层就是存储企业各类业务数据、设备、人员、产品等的基础数据库,是支持网格技术实现最基本的数据集合。
物流网格系统可以分为多个域,域可以是一个企业,或者一个园区,总之在一个单位域内物流活动频繁,物流资源间互动较多,可以将物流域定义为K(GRID)={m1,m2,…,mn},其中m表示单个资源。通过物流网格系统定期检测物流域中资源活动,将活动记录到数据库中,使用数据挖掘技术可以对活动记录数据进行分析。令H为物流监控指标在物流域L中的支持度,K(GRID)={ID,T,userID,userNM,},,表征指标对物流网格系统的影响程度,再令表示支持度的最小值,,分别为整合项集与频繁项集,表示监控指标的频数。用DB表示物流网格数据库,初始为空集,为整合项集与频繁项集。以下进行模型构建,分为三步:数据整理、关联分析与资源整合。
1.步骤一:定期资源整理
输入:J(GRID)
输出:经过整理后的J和L BEGIN
ELSE{对监控指标集合中S和R进行更新使得S←S+X. S;R←R+X.R;}以整合集R中对应的替换频繁集中的记录;
CLEAR K;CLEAR KR;}
END
步骤一通过智能代理在周期为定时对网格系统相应的各个管理域内的资源进行整理,作为进一步数据挖掘的基础。
2.步骤二:物流资源关联分析
输入:由步骤一整理得到的整合项集与频繁项集;
输出:物流监控指标关联集
BEGIN
END
物流活动频繁项集与整合项集由步骤一整理获得之后进而进入步骤二进行数据挖掘中的关联规则分析,通过两阶段求解,先获得集合中高频项目组,即两个项资源同时出现的频率相较其他资源更高;第二步进行关联规则产生,先计算最小信赖度,如果说某一组规则能够满足最小信赖度的门槛,则该条规则符合关联规则要求。经过步骤二操作我们可以获得网格系统中管理域内的某些关联规则。
网格大环境下物流管理域内和域外资源均存在交互,步骤二为域内资源间的关联规则,以下我们将域间资源整合,进行域间整合算法开发,获取跨企业的信息合并与挖掘,实现企业间信息共享与数据挖掘,获取企业间业务的关联规则。
3.步骤三:虚拟物流资源整合
输入:多个物流资源管理域集合M={m1,m2,…,mn}
输出:资源集合的整合项集R1及频繁项集L1
BEGIN
{R1←0;L1←0;//首先对整合项集R1及频繁项集L1均进行初始化为空集;DO//更新整合项集 R1及频繁项集L1
ELSE{对整合项集R1进行更新使得S←S+X.S;h←h+X.h;}THEN用R1中对应的记录更新L1中记录;
END
步骤三实现跨平台的系统信息共享,网格技术的意义就是实现跨平台无缝对接,在用户不需要开发额外的接口情况下实现异构系统的互相访问。企业也可以使用物流网格系统提供的统一的接口进行企业的系统进行开发,以更好地使用网格服务。
由以上三步走,我们构建了一个数据挖掘的过程模型,与传统的关联规则模型有相似之处,也存在区别。本文构造的过程模型沿用了关联规则的一般处理方法,但是由于数据分布方式与传统的集中式数据存在不同,对于分布式数据的处理需要经过单独处理,并进行数据整合,本文模型与一般数据挖掘中过程模型相比,增加了跨平台的数据整合步骤,即最后一步,由此得到的结果是一种整合各个物流资源管理域的,带有不同性质的数据的一个整合效果,而不是单独资源域内的同质数据,更具有参考性。
对于上述基于物流网格技术的挖掘模型,经过三个步骤获取了跨平台的整合数据集合,在本文第2部分给出了物流网格体系结构的四个层次,数据挖掘模型贯穿各个层次,模型的实现技术可以通过ASP.NET或者JSP/Servlet和Agent技术进行实现,以下基于ASP.NET及Agent技术构建模型实现技术框架。
基于网格技术的物流资源挖掘技术实现分为两个层次:应用层与网格服务层。应用层类似与网格技术体系结构中的企业应用层,主要实现企业间工作流的交互、业务逻辑处理、事件并发控制及访问权限的设置,为应用终端服务。终端通过ASP.NET程序规范实现,运用ASP.NET页面呈现网格物流资源整合情况,以IIS服务器连通企业间信息系统。网格服务层是数据层与通用接口层的汇总,包含了数据库如SQLSERVER等基础数据集,各类网络服务实例及一些通用标准规范、组件容器等。通过该层可以实现统一接口处理,企业信息系统可以通过统一接口接入网格信息平台,与其他异构企业系统连接,获取相应物流信息。
网格技术的发展给异构系统间信息共享带来了极大的便利,对于信息共享平台的建设奠定基础。物流企业存在发展不均衡,企业间的信息化水平有较大的不同,一般企业又已信息化或半信息化,多数物流企业拥有自己的门户网站,不少企业使用网上交易,在线上完成交易,积累了大量业务数据,对物流企业数据收集、整理、分析,跨企业间信息共享具有一定理论与实践意义,基于网格技术,对线上虚拟物流资源,即物流业务数据进行挖掘,构建一个合理的挖掘模型可以促进数据分析结果的有效性。本文分三步走构造了一个数据挖掘模型,可以获得企业内及企业间的资源关联规则,了解企业业务经营规律,为企业发展出谋划策。
[1]赵辉,王黎明.一个基于网格服务的分布式关联规则挖掘算法[J].小型微型计算机系统,2006,27(8):1543-1548.
[2]孙红梅,胡明.基于网格的分布式数据挖掘模型研究[J].微处理机,2008,(6):147-152.
[3]龙运军,姜大立.基于网格技术的虚拟物流资源调配研究[J].物流技术,2007,26(2):94-96.
[4]张燕.网格环境中数据挖掘执行过程模型的研究[D].北京交通大学,2011.
[5]李雅莉.基于数据挖掘的销售预测研究[J].信息化纵横,2009,(8).
[6]刘仁桂.数据挖掘在销售预测中的应用研究[D].浙江大学,2006.
[7]裴英梅.基于数据挖掘技术的现代物流决策研究[J].物流技术, 2008,27(7):47-49.