王志慧 王梦华 李森
摘 要:众所周知,连衣裙受到女性追捧。连衣裙不仅在夏季流行,而且在其他季节都成为时尚,占据了主要市场。文章旨在利用数据挖掘技术挖掘连衣裙数据,从而产生关于连衣裙数据的真知灼见,提供有价值的商业信息进行商务智能研究。首先,采用聚类方法寻找最佳连衣裙销售策略。其次,运用统计方法研究连衣裙属性之间的关系。例如,连衣裙的风格和销售之间存在的关系,最后,分类模型将被用来指示顾客是否可以推荐一件连衣裙。
关键词:数据挖掘;商務智能;分类模型
中图分类号:F713.50 文献标识码:A 文章编号:1008-4428(2018)03-74 -03
一、数据获取与预处理
(一)问题提出
在信息化时代,企业数据量正在飞速增长。作为企业的宝贵资源的数据库,却没有被大多数企业充分深入地利用。商务智能帮助企业利用数据,将数据转换为有价值的信息,从信息中获得知识,做出更明智的决策。
分析这一主题对设计师和卖家具有重要意义,我们将使用来自www.ics.uci.edu的二手数据分析销售数量和不同属性之间的关系,具体如下:多种属性中,什么属性最有助于销售?客户会推荐什么样的裙子?
在本课题中,数据挖掘目标包括:
A1:使用聚类来找出哪些属性对销售贡献最大。
A2:使用统计方法总结变量,找出一些重要变量之间的关系。
B:使用决策树、回归和神经网络来确定这条裙子是否会被推荐。
(二)数据描述
该数据集包含关于裙子的两个文档,这两个文档结合的独特功能是裙子ID。一份列出了不同日期的销售金额,另一份是裙子的不同属性。我们将这两个文档合并为一个数据集。因此,形成 14个独立变量,分别是款式、价格、等级、尺码、季节、领口、袖扣、腰围、材质、制作、装饰、图案类型、销售和推荐。
二、商品属性分析
(一)利用聚类分析方法进行属性分析
我们可以利用数据进行分割现有数据,不同的属性可以提供更广阔的视野。聚类分析是我们分割数据的有用工具。在商店的主页上推荐这些裙子,或者在购物中心里放置模特,吸引女性的注意力。
1. 数据处理
对于“哪些属性对销售贡献最大”的问题,我们创建了数据源并删除了一些无用的属性:评级、季度、大小和推荐,这些都与销售有正相关关系。我们把销售额设为目标,输入数据集的变量的统计特性。在这一步中生成的结果将给我们一个在这个数据集最有用的预测目标响应。
因此,我们使用StatExplore节点和MultiPlot节点来帮助我们探索数据集。
2.分析结果
然后我们使用SAS Enterprise Mining进行集群,集群的数量自动设置为8。
根据结果,我们发现,自然的腰线、休闲的款式、无袖的袖衫、O领口和棉质裙子在第六部门中都有更好的销售。然而,在第一部分,高腰围、休闲风格和O领口卖得更多。而在第五部分,可爱款式、肩带装饰和立体款式都卖得更好。
(二)利用统计理论进行属性关联分析
使用统计方法,我们寻找装饰与销售、材料与销售、领口与销售、款式与销售、腰围与销售、袖长与销售、款式与销售、价格与销售之间的关系。
三、模型建立与结果分析
在分类分析方面,将使用决策树、回归和神经网络三种模型来预测问题“是否推荐一件衣服”。
(一)决策树模型
1.数据选择与决策树生成
我们首先将建议设定为目标,并设置角色为序数,并拒绝评级和销售。通过数据分区节点将原始数据划分为培训和验证集。添加数据分区的值,训练结果和验证结果为65和35,测试结果为0。我们注意到,2、4个叶片错误率最低,4个叶片均为最小均方误差。因此,我们使用了4的最大分支数。
2.结果分析
从决策树,根据季节、风格、袖长和面料类型将首先被顾客考虑是否推荐。
决策树描述了模型分析输出结果,分析是通过分裂的方式进行的。在图的上部是决策树模型的根结点,包含了所有的可能的观测数据,根结点中处于中间列出了训练数据总共为324个,41.98%可信任(推荐),而58.02%不可信任(不推荐),处于右侧的数据是验证数据结果,共有20个验证数据,其中42.08%可信任(推荐),而57.92%不可信任(不推荐)。在过程的进一步,数据被分成了两组——是否是春天,根据变量级别值,这个变量是最能区分的变量。如果是春天,左侧观测数据78条记录中有58.97%的记录是可信的;如果是夏天、秋天或者冬天,右侧246条观测记录中36.59%的客户记录是可信的。接着对于选用变量VALUE,进行下一步划分。以DELINQ变量进行下一步划分。如果春天下风格可爱,右侧100%可信任(推荐);其他风格看第三层左侧,52.24%可信任(推荐)。第三层第二个结点在这一步停止。第二层第二个节点——夏秋冬,对袖长属性进行划分,属性为无袖或者长袖或者其他的,180个观测值中有41.67%可信任;如果是短袖,66个观测值中有22.72%可信任(推荐)。如果是短袖,继续分类,如果是织物类型,19个观察值有12.82%可信任;如果是雪纺类型的,27个27.04%可信任,观测值最终到达叶子结点。
(二)回归分析的概述
选择回归节点,检查属性并选择stepwise作为选择模型。
我们可以得出结论,最重要的是季节和价格。此外,春季和中期价格也同样被认为是很重要的推荐依据。尝试不推荐的季节和价格变量中,比较哪些贡献对推荐的产品有重要影响,我们发现风格是非常值得推荐的依据,建议如下结果:
(三)神经网络
分析树模型后,我们使用了节点模型来比較它们的性能。概要统计信息比较:
由于这种情况下的预测类型是决策,所以错误分类应该作为模型性能指标。如上述分析结果所示,回归对验证和训练数据的误分类率最低。因此,回归模型是基于误分类率的最佳模型。
四、 结论
基于以上模型分析,我们可以解决提出的两个问题:自然的腰身、休闲的款式、无袖款、O领口、棉料、纯色型和均价位的裙子比其他的裙子卖得多。而春季和中等价位的裙子比其他的裙子更受推荐。这样的推荐有助于吸引更多的顾客,提供更大的销量。
商务智能(BI)作为一种概念和工具,在学科领域,尤其在战略管理学科以及信息管理学科被广泛地重视和强调。BI是获取和分析从多个渠道所收集的数据的一种应用工具和过程,使用BI工具还能够通过管理组织企业业绩来提高企业利润以及通过整合过去的成功经验来获得竞争优势。
随着大数据时代的到来,存储技术的提高,相关终端营销的数据会越来越多,目前的商务智能技术和数据仓库的构建将无法满足大数据时代的数据处理要求,需要更多的扩展研究。
参考文献:
[1]魏慧娟,戴牡红,宁勇余.基于最近邻居聚类的协同过滤推荐算法[J].中国科学技术大学学报,2016,46(09):736-742.
[2]杨凤萍. 基于神经网络集成和用户偏好模型的协同过滤推荐算法研究[D].华中师范大学,2016.
[3]PHUSIT KANCHANATRIPOP(罗邦弘). 商务智能与大数据的系统化文献调研[D].广西师范大学,2016.
[4]黄涛. 基于神经网络的个性化推荐算法研究与设计[D].重庆大学,2016.
[5]孟婷婷. 终端营销系统中的商务智能与市场感知[D].浙江理工大学,2016.
[6]高辉. 几类常用非线性回归分析中最优模型的构建与SAS智能化实现[D].中国人民解放军军事医学科学院,2012.
[7]张玉岚,曹慧敏,蒋玉洁,蔡忠民.SAS软件在果树试验数据系统聚类分析中的应用[J].辽宁农业职业技术学院学报,2009,11(3):8-10.
[8]赵华生. 基于SAS数据挖掘的C2C信用评价研究[D].西南财经大学,2009.
[9]Moro S, Cortez P, Rita P. Business intelligence in banking: A literature analysis from 2002 to 2013 using text mining and latent Dirichlet allocation[J]. Expert Systems with Applications, 2015, 42(3):1314-1324.
[10]Bodislav D A. Transferring business intelligence and big data analysis from corporations to governments as a hybrid leading indicator[J]. Theoretical & Applied Economics, 2015, XXII.
作者简介:
王志慧,女,江苏泰州人,南京财经大学管理科学与工程学院硕士,研究方向:管理信息系统;
王梦华,女,河南周口人,南京财经大学管理科学与工程学院硕士,研究方向:管理信息系统;
李森,男,江苏淮安人,南京财经大学管理科学与工程学院硕士,研究方向:管理信息系统。