仝新顺
(郑州轻工业学院 经济与管理学院,河南 郑州 450002)
近年来烟草企业信息化发展迅速,诸如CRM、GIS等系统的应用,使得配送量和配送效率有了较大的提高。在业务进行和以上各系统运行的过程中会产生与仓储、分拣和配送等环节有关的大量数据。企业只是关注这些数据中对决策者决策和判断有价值的部分,而不需要查看这些冗杂的数据。可如何从中及时发现有用的信息呢?数据挖掘技术提供了一条可行之道。
数据挖掘(Data Mining,DM)主要用于从大量、不完全和随机的数据中,找到事先可能未知但又对决策有用的信息。在这一过程中,还可以根据已经掌握的信息对未发生的行为进行结果预测。数据挖掘的理论体系涵盖了数理统计、并行计算、可视化、数据库理论和人工智能,是一个多学科的交叉领域。数据挖掘在20世纪90年代产生以来得到快速发展,广泛应用于信息管理、过程控制、查询优化和决策支持等。
数据挖掘的功能包括两个方面,即预测和描述。预测是指利用已知的数据预测我们所关心数据和变量的值;描述是通过找出可以解释其模式的过程[1]。数据挖掘的功能可归纳如下[2]:
(1)关联分析。若在两个或者多个的数据值之间存在重复出现的现象,而且这种出现频率很高时便可认为这些数据之间存在关联,此时可利用数据挖掘技术挖掘出数据之间的关联关系。例如,在超市购物中,存在一条关联规则:买面包的顾客中有80%的同时还购买了牛奶。因此超市可以将面包和牛奶放在一起或进行捆绑促销,以增加销量。通常关联规则具有:X→Y形式,即“ A1A2...Am→B1B2...Bn”;其中Ai(i∈{1 ,...,m})和 Bi(i∈{1 ,...,n})是属性等值形式。关联规则X→Y表示“满足X的条件的同时也满足Y的条件”。关联可分为简单、因果和时序等。
(2)分类。分类是应用最多的任务之一,分类是指以确定的概念来描述一个类,即该类别的内涵描述。分类首先要事先知道训练样本标签,然后将属于不同类别样品的标签利用数据挖掘分开,最后可以利用分类模型预测使用所得样品属于哪一类。
(3)聚类。聚类是一种探索性分析过程,首先,数据库中的数据被划分成一系列的有意义的数字类别。在分类过程中,并不存在事先给定的分类标准。然后从这些相同类别的数据集中进一步挖掘,可以得到相应的分类预测模型或学习规则。最后,使用聚类分析通过不断地重复获得聚类组,及初始数据集合的层次模型。聚类分析能够从样本数据出发,自动进行分类(在同一类别中的个体之间距离较小,不同类别的个体之间的距离较大)。聚类加深了人们认识客观现实的程度。
(4)异常挖掘。在一些应用中,小概率事件或数据的发生,有时候会比发生更频繁的事件更有挖掘价值。对这些异常情况或者孤立点进行跟踪、分析,可以减少潜在的损失的发生。对异类数据的分析处理通常称为异类分析方法。
数据挖掘主要应用的技术有决策树、近邻算法、遗传算法、神经网络等。
(1)决策树。决策树是一种典型的自顶向下策略的贪婪分类算法,是一种含有内部节点和分支流程图的树结构算法。决策树算法的核心是在存放标号的树叶节点选取要测试的属性,对决策树进行剪枝。
(2)近邻算法。近邻算法是以人们思维方式相似的方式检测和匹配最近的样本,并将每一对相邻的样本进行归类的方法。近邻算法在自动化运算方面有很好的性能表现,是一种较容易理解和使用的算法。
(3)遗传算法。遗传算法是基于进化理论发展起来的高效随机搜索和优化的方法,主要解决非线性、多峰值以及全局优化等复杂度较高的问题。遗传算法综合了定向和随机搜索的优点,以适应值函数为依据,对群体内个体结构进行优化和重组,从而得到全局范围内的最优值。遗传算法同时也起到产生优良后代的作用。
(4)神经网络。神经网络是通过模拟人脑结构模型,用于聚类、分类、特征挖掘和模式识别的数据挖掘方法。神经网络方法仿照动物脑神经元结构的非线形预测模型,建立分布式矩阵,输入数据进行学习,通过反复迭代和累加计算发现数据中的模式。
神经网络为解决具有上百个参数、复杂度大的问题提供了比较简单有效的方法,其应用非常广泛。
(1)确定业务对象:了解要解决业务中的实际问题,确定数据挖掘的目的。但要预见到最后的挖掘挖掘结果可能是不可预测的,所以不要带有盲目性去探索问题。
(2)数据准备:数据的准备包括三个步骤。①数据的选择:搜索与业务对象相关的所有内部和外部的数据信息,通过筛选这些数据,选取适用于数据挖掘的部分。②数据的预处理:检查数据的一致性和完整性情况,即通过研究数据的质量,对于冗余的数据进行删除,对缺失的数据进行补充,使之成为格式标准统一的形式,为下一步的分析做准备。同时要确定将要进行的数据挖掘数据的类型。③数据的转换:利用挖掘算法理论建立相应的分析模型。
(3)数据挖掘:通过选择适当的数据挖掘工具,对上面所得到预处理数据进行挖掘,从中选取有价值的、潜在的结果或趋势。数据挖掘的工具选择要由数据挖掘的任务和数据特征去决定。
(4)结果评价:根据用户的决策需求,解释并评估数据挖掘的结果。需要结合实际问题,避免挖掘出的无意义的知识,有针对性地对挖掘结果进行评价和验证,提炼出最有价值的信息提交给决策者。解释并评估结果,通常会用到相关的可视化技术。
(5)知识的同化:将通过分析得到的知识和结论应用到业务系统的组织和结构中。
通常情况下,数据挖掘的过程不是线性的,要得到理想的结果可能要重复上面的步骤。
烟草物流由于自身的发展和需要,已经开始关注数据挖掘的应用,而且数据挖掘在烟草物流中已具备了技术可行性。这体现在两方面:首先,数据存储技术和计算速度的不断增长;第二,先进的新算法,比如神经网络等的出现。烟草物流日常业务产生的大量数据的为数据挖掘提供了丰富的数据原料,而计算机技术的发展为烟草物流企业提供了硬件保障,同时新算法的出现增加了数据处理的能力和应用的范围。
数据挖掘技术在烟草物流企业中可以应用在以下几方面[6-7]:
(1)客户分析。对客户的分析主要包括以下几个方面的内容:
①客户细分分析。利用数据挖掘聚类或分类的方法进行客户分类,通过对目标市场客户的细分分析,对客户进行分类别的服务和管理。通过细分分析对客户的购买需求、消费特点、价值倾向等进行调查与掌握,有助于帮助烟草企业获得与客户有关的更多相关信息,对于进一步的客户分析具有意义重要。
②客户流失预测。采用数据挖掘聚类和关联规则分析技术,重视那些偏离聚点的数据对象,即“孤立点”,警惕这些客户的流失。
③客户价值分析。分析客户对烟草企业卷烟业务量的贡献值。按照“二八原则”,先找出重点客户。分析方法是在预先不知道特征目标的情况下,先将重点客户的销售量等数据进行聚类分析,通过对企业不同层次的客户对业务量所作的贡献来界定客户价值的大小,然后根据客户价值的大小,在进行营销时可以对产品营销目标客户群,实施差异化服务。
④客户行为分析。找到重点客户之后,对其行为进行分析。根据不同客户类型的销售量、销售额实际数据,确定为烟草企业创造高利润的重点客户、增长较快的客户群体以及发现流失或者即将流失的客户等信息。进一步分析和研究客户偏好,挖掘潜在的烟草市场,为客户营销和市场开拓提供决策支持。例如将占重点客户销售量50%以上的卷烟产品或者增长较快的客户群体主要消费的卷烟产品作为目标类,确定客户偏好。同时也可以对不同客户群体之间进行交叉挖掘分析,发现数据库中客户组的演变特征和变化趋势,找到客户群体的变化规律。通过利用数据挖掘对不同客户的识别以及客户行为规律的发现,制定烟草企业相应的营销策略。
(2)仓储管理
①卷烟货品储位的合理化安排。烟草储位的不合理会导致仓储成本增加、仓储利用率低下。利用数据挖掘技术,烟草企业可以建立以往的卷烟流动数据库,分析卷烟历次出货的时间、品种、数量、需求者以及关联度等数据,利用数据挖掘中的关联模式可以解决卷烟的最佳储存位置和储存方式等问题。例如,有A、B两类卷烟,描述A对B的关联度—卷烟A的出现对卷烟B的影响程度,可以用可信度、支持度、期望可信度和作用可信度四个属性来描述关联规则。通过关联分析可以得出两种卷烟的简单规则,为这两种卷烟在货架上的配置提供决策建议,战略性地布置卷烟在仓库中的位置。
②制定合理的库存策略,降低库存成本。卷烟储位的合理安排是为了找到最佳储存位置以快速满足卷烟分拣的需要,同样卷烟的库存策略也要防止卷烟缺货和大量卷烟囤积占用资金和库位等情况的发生。利用数据挖掘制定合理的库存策略提高卷烟仓储效率并降低库存成本。利用数据挖掘中的分类算法通过对卷烟的存储序号、卷烟的存储数量、卷烟的单价以及所有库存卷烟数量的百分比、占卷烟总价值的百分比等数据进行分析,确定不同卷烟的合理的库存策略。
(3)烟草配送管理。烟草配送管理包括配送计划的制定和配送线路的设计优化,其中首要解决的就是配送线路的问题。
配送路径是典型的VRP(Vehicle Routing Problem)。烟草公司需要对数以千计的客户的卷烟订单进行配送,在现有资源的基础上如何合理调配车辆和线路,从而在降低成本的同时又能满足客户的需求。配送线路优化是提高烟草配送服务质量和降低配送成本的重要手段。烟草配送在整个烟草物流管理中占有重要的部分,将遗传算法等数据挖掘技术运用到烟草配送中解决运输线路选择等问题,利于有效利用现有资源和提高运输效率。
数据挖掘是一门涉及多学科领域知识的新兴技术,目前在烟草物流中的实际应用取得的成就有目共睹,为烟草企业带来了可观的效益。数据挖掘技术可以把烟草企业的营销策略、库存策略和总体规划结合起来,很好地帮助管理决策层做出科学的决策。
[1]张应征.数据挖掘技术在物流管理信息中的应用[J].科技信息,2009,(35):470-472.
[2]丁必荣,屈新怀.基于数据仓库的生产物流决策管理系统研究[J].物流科技,2008,(1):56-58.
[3]李腊元,李春林.计算机网络技术[M].北京:国防工业出版社,2004.
[4]王俊珺,夏华丽,田源.物流配送路线规划中的最短路径研究[J].农业网络信息,2007,(5):60-62.
[5]周程.物流配送路径优化策略研究[J].武汉理工大学学报,2005,29(5):798-800.
[6]陈晓杰,许振华,张娅锋.数据挖掘在烟草物流综合管理系统中的应用[J].硅谷,2009,(1):98-99.
[7]刘娜.数据挖掘技术在烟草公司供应链管理中的应用研究[D].郑州:郑州大学,2010.
[8]李廷佳.基于数据挖掘技术的物流信息系统的研究与实现[D].北京:北京邮电大学,2008.
[9]袁溪.数据挖掘技术及其应用[J].科技资讯,2010,(4):21-22.