分类算法在服装行业的挖掘应用

2015-09-26 01:49涂顺林赵义霞刘利
现代计算机 2015年20期
关键词:决策树数据挖掘服装

涂顺林,赵义霞,刘利

(惠州学院计算机科学系,惠州 516007)

分类算法在服装行业的挖掘应用

涂顺林,赵义霞,刘利

(惠州学院计算机科学系,惠州 516007)

0 引言

数据挖掘从理论研究到产品的开发只用了短短数年,目前在国内外都已经进入应用阶段。数据挖掘技术的应用十分广泛,从政府企业的管理、商业经营、科学研究到工业决策等各个领域都可以找到其用武之地。数据挖掘的定义几经变动,有多种不同的定义方式。其中为大家广泛采用的是:数据挖掘是从大量数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,可以为经营决策、市场策划和金融预测等方面提供依据。数据挖掘的模式主要有分类、聚类、关联规则和时序模式等[1]。

服装行业与国民经济及人民的生活消费密切相关,发展迅速。随着企业信息化的逐步应用和完善,企业已经逐渐累积了大量的数据。接下来企业信息化应用成熟的企业会逐步考虑如何利用这些海量数据为企业做决策支持,由此数据挖掘便成了企业挖掘数据中有价值信息的最好选择。本文详细分析了如何将决策树和贝叶斯分类算法应用到服装行业,并为决策者提供决策辅助,以此为服装企业进一步智能化提供参考。

1 服装行业中客户信息的挖掘

无论是线上还是线下的销售,客户的信息都是可以获取的。根据客户的属性、行为、需求、偏好以及价值等因素对客户进行分类。属于同一客户群的消费者具备一定程度的相似性,反之则存在明显的差异性。正确的客户细分能够有效地降低成本,有针对性地改善客户关系,方便制定有针对性的营销策略,避免客户流失,提高市场占有率[2-3]。

1.1客户类别的自动划分

把客户的年龄、学历、职业、收入等可能影响到其对于服装消费的数据收集起来作为条件属性,把年消费总额大小作为决策属性,构建客户分类的决策树。

部分数据如表1所示,针对表1构造决策树如图1所示。根据需要,本文将年消费2000元以上的定为高价值客户,1000-2000为中等客户,500-1000为低价值客户,500以下为流失客户。并将月收入小于1000定为A,1001-2000定为B,2001-3000定为C,3001-4000定为D,4001-5000定位E,以此类推。

通过分类发现类似 “若客户年龄为18-30岁,月收入在5000-10000元,学历为高中,职业为工人,性别为女,则为高价值客户”这样的结论。这样一来,就可以将所有的客户都分类,并有针对性地制定营销策略。

表1 客户分类训练集部分数据示例

图1 客户分类决策树

由此构建的决策树模型便可以为企业制定相关策略提供支持。例如,对于高价值客户要加强售后服务与感情联系,对于流失客户要制定优惠促销措施。对于那些由分类模型预测为高价值客户但实际并不是的客户,这意味着他或许已经转向于购买其他品牌的服装了。那样的话要加强对这些客户的服装推荐与优惠措施,争取将其转化为高价值客户。

1.2客户服装的偏好模型与服装推荐系统

通过数据采集系统可以容易的得到 “顾客年龄”“职业”“教育背景”“收入”“购买款式”等信息的交易记录。因为顾客的年龄、职业、教育背景等信息都可能影响到对衣服款式的选择,所以本文通过构建决策树来找到不同类型的顾客对衣服款式的选择[4]。

本文将决策树应用于具体的数据表,得到这样的结论,年龄小于30的年轻部门经理喜欢窄领、开叉的西服;13-18岁的男生喜欢篮球服等。这样一来,如果有年龄小于30的部门经理在选购服装时,服装推荐系统就可以为其推荐窄领、开叉的西服。分类如果再继续做下去,或许还可以找到年龄小于30的部门经理还喜欢浅色的圆领T恤。那么服装推荐系统就可以根据该经理最近的浏览记录来推荐到底是买T恤还是买西装。

1.3账号的真实性判断

对于电商来说,不真实帐号是普遍存在的。如果能检测出其中的不真实帐号,便可以有效地对真实用户进行管理,包括商品推送等。这样可以提高服装的推荐成功几率,更节约了成本。

本文用贝叶斯分类可以预测账号的真实性。通过数据采集系统可以得到每个用户这样的信息:登录天数/注册天数;交易数量/注册天数;是否使用真实头像等可能与账户真实性有关的数据。

再利用已经被检测出真实与否的账户构建贝叶斯判断模型。通过模型,我们可以知道每个类别(真实/虚假)下各属性(登录天数/注册天数;交易数量/注册天数;是否用真实头像等)的频率。得到例如“登录天数/注册天数<0.05且账号为真的概率是0.32。”这样的结论。

最后就可以利用判断模型来判断每一个用户的真实性。例如当得到账户2014001有90%是虚假账户时,就可以考虑取消该账户的服装推荐功能以节约资源。

1.4构建线下快速销售模型

目前,线下营销基本上都是靠销售人员的经验来实现服装的推荐,同样的也可以用决策树构造推荐模型。从而更加合理、科学地进行服装营销。例如,通过数据采集系统可以收集服装城中顾客的性别、年龄、身高、体重、服装、服饰、发型、言谈、眼神等信息与购买服装款式的信息。利用这些信息来构建线下服装的推荐模型[5]。

2 服装销售信息的挖掘

2.1按季度预测每一款衣服的销售情况

收集以往每一季度各款服装的颜色、布料、袖型、领型、样式、价格等所有可能影响到该款服装的销量的属性作为条件属性,以该款服装的销售量为决策变量,构建服装销售量预测的决策树。部分数据如表2所示,针对表2构造决策树如图2所示。

表2 销量预测训练集部分数据示例

图2 销量预测决策树

最终得到例如“淡黄色、丝光棉、翻领、短袖、条纹T恤是热销款式”这样的结论。当然,怎么样才叫“热销”,月销量在什么范围内是“一般”,怎么样叫“滞销”,这些都是要反复讨论的。一旦模型建立好,就可以通过服装销量决策树去预测每一款衣服的销量,当然也包括新款未上市的服装,也一样能够预测出该款服装的销量。

2.2判断某款衣服是否适合减价促销

根据以往的减价销售的记录来判断某款服装是否适合减价销售。具体是收集以往每款服装的属性,包括颜色、布料、袖型、领型、样式、价格、上市时间、上市天气情况等所有可能影响到该款服装的销量情况的属性作为条件属性,以是否做过减价促销,做什么级别的促销作为决策属性来构造判断服装是否适合促销的决策树。

3 服装行业中的其它挖掘应用

3.1实体店的选址

目前实体店的选择基本都是靠决策者按照多年的经验进行选址。同样可以利用决策树找出店铺的级别,营业面积,店铺性质,店铺地址,人流,员工数量等与营业额的关系。以营业额大小作为决策属性,帮助决策者判断某地是否适合经营某种级别的店铺。

3.2线上交易成败预测

收集过往每笔交易的交易的记录 (包括退货等交易失败的记录),服装信息(包括颜色、布料、袖型、领型、样式、价格等信息),发货店铺(或者是仓库),物流公司等所有可能引发交易失败的信息,作为条件属性,把交易状态(成功/失败)作为决策属性构造判断交易是否成功的决策树。这样可以预测是否交易成功。同时也可发现具体是什么环节容易造成交易失败,方便内部管理。

4 结语

在信息爆炸的时代,数据量的飞速增长已经成为一个不容忽视的问题。利用数据挖掘帮助服装企业在大量的数据中找到有用的数据更是大势所趋。因为客户的购买行为还要从多方面进行考虑,所以本文仅从这几个方面利用分类算法挖掘出外部环境与客户的购买行为之间的关系。由于具体缺乏确切数据可供挖掘,所以很多想法的可行性还有待讨论。而且由于很多客户不填完整信息、不填真实信息等原因也会导致挖掘结果不尽如人意,但随着多方面大量数据的获得,数据挖掘工具可以挖掘出更多有参考价值、易于理解、并具有很高的分类准确度的规则为生产实践服务。因此,分类算法数据挖掘技术在实际服装行业应用中有着很广泛的应用前景,值得进一步研究。

[1]陈安,陈宁.周龙骧.数据挖掘技术及应用[M].北京:科学出版社,2006.111-120

[2]吴建源.决策树ID3算法在客户信息分类中的应用[J].广东培正学院学报.2014,14(1):34-36.

[3]胡兰兰.决策树在淘宝店铺中的应用研究[J].贵州师范学院学报.2010,26(6):40-43

[4]齐扬,朱欣娟.基于数据挖掘的服装推荐系统研究[J].西安工程大学学报,2010,24(04):438-443.

[5]张革伕,欧阳浩男,徐琪.决策树在基于消费者外表的服装营销中的应用[J].计算机应用.2010,30(07):1999-1921,1929.

Classification Algorithm;Garment;Data Mining

Application of Classification Algorithms in Clothing Industry

TU Shun-lin,ZHAO Yi-xia,LIU Li
(Department of Computer Science,Huizhou University,Huizhou 516007)

1007-1423(2015)20-0052-04

10.3969/j.issn.1007-1423.2015.20.012

涂顺林(1994-),男,广东惠州人,在校本科生,研究方向为数据挖掘、算法设计与分析

赵义霞(1962-),女,山东济宁人,本科,研究方向为数据挖掘、算法设计与分析

刘利(1979-),女,四川宜宾人,硕士研究生,研究方向为模式识别、机器学习、数据挖掘、图像检索

2015-05-07

2015-07-01

随着信息化进程的推进,服装企业同样也在大力发展。如何利用好这些数据资产,如何使其更合理,更科学地为企业辅助决策成为一个热点议题。详细地分析分类算法在客户、服装、区域等信息方面的应用,可为服装企业建立数据挖掘系统做参考。

分类算法;服装;数据挖掘

广东省大学生创新创业训练计划项目(No.201410577030)

With the advancement of information technology,garment enterprises also develop vigorously.How to make good use of these data assets,how to make it more reasonable,more scientific has become a hot topic for the enterprise decision-making.Analyzes the classification algorithm applied in the customer,clothing,region and etcetera in details which can provide a reference to set up a mathematics mining system for garment enterprises.

猜你喜欢
决策树数据挖掘服装
让人心碎的服装
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
现在可以入手的mina风高性价比服装
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
服装家纺个股表现
基于肺癌CT的决策树模型在肺癌诊断中的应用