决策树CART算法在厨柜用户研究中的应用

2017-09-08 06:54张映琪吴志军辛林岭
电子技术与软件工程 2017年14期
关键词:决策树因素用户

文/张映琪吴志军辛林岭

决策树CART算法在厨柜用户研究中的应用

文/张映琪1吴志军1辛林岭2

厨柜行业是我国制造业中的朝阳行业,近几年来业内的竞争压力不断升温。在以用户为中心的时代背景下,研发出能满足用户期待和需求的产品成为企业的核心竞争力。文章以基于厨柜研发的用户研究为出发点,应用决策树理论的CART算法建立用户研究数据的决策树模型,并对模型进行分析和解读,目的在于为厨柜行业的新品研发提供思路和方法。

决策树 CART 厨柜 用户研究

厨柜最早出现于20世纪20年代德国为了满足国内大量的住房需求而建设的标准化公寓中,直到90年代开始由香港流传到中国大陆,并成为我国制造业中的朝阳行业。虽然厨柜行业在中国正处于上升阶段,但是伴随着厨电、衣柜、家具等行业向厨柜行业的跨界,市场竞争已经愈发激烈。我国工商联的厨柜专业委员会预测道:随着厨柜行业本身的日趋成熟,将会有一大批缺乏产品竞争力和不符合标准的厨柜企业间面临淘汰[1]。开发出优质的产品成为当下厨柜企业的核心竞争力。

1 厨柜研发中的用户研究

1.1 厨柜研发的现状

厨柜即是厨房中收纳各类厨房器具的物理载体,又是承载设计师设计思维的艺术载体,且与人们的日常生活紧密联系[2]。厨柜产品作为西方舶来的产品,在审美、使用和功能等方面是否符合中国的用户还有待研究。

根据笔者对国内一些厨柜企业的走访,目前国内的厨柜企业对新产品开发的依据主要参照:

(1)参加国内/国际各大展会,学习国际优秀厨柜企业开发的新品;

(2)收集国内近两年室内装饰行业的设计风格趋势;

(3)结合销量数据,对销量较好的产品进行升级。

其中不乏有部分企业通过问卷、访谈等形式对用户进行调查,但由于没有针对该调查形式的系统整理方法,造成用户调查结果依然无法为厨柜的新品开发提供有效的依据。

1.2 厨柜研发的用户研究方法

在当代以用户为中心的设计风潮中,挖掘用户的期待和需求等因素,并将其融入到产品开发中去,正是厨柜新品研发的突破口。为了洞察用户需求和期望,避免设计师以“自我”为中心;在厨柜产品开发之前应当对用户进行研究,从数据中挖掘出设计所需要的依据[3]。

对用户进行研究可依照“因果”关系进行调查因素的编制,即在某种条件下会产生某种结果。此类用户研究的方式逻辑性较强,有利于研发人员对后期生成的数据进行应用。整个研究过程大致可分为5步:结果因素与影响因素的设置,影响因素中细分属性的设置,各个因素的数据收集,对所有搜集的的数据进行清洗和挖掘,将挖掘的出的数据进行分析和应用。

2 决策树和CART算法

决策树理论是一种被广泛应用于数据挖掘的一种技术,用于决策树生成的计算方法有很多种,最常用的有CART、C5.0、QUEST、ID3等。文章以CART算法为例,建立辅助厨柜产品新品开发的用户研究决策树模型。

2.1 决策树理论

1960年左右,决策树理论被广泛的应用到各个领域中,特别是在人工智能、规则提取等方面[4],是一种能将混乱无序的因果关系进行梳理和分类的一种技术[5]。决策树的最终呈现模式是以“结果”为基点,依照影响因素的信息纯度进行分裂开叉的树状图。

在创建决策树之前应当先把所搜集的有效数据分为训练集与检验集。创建过程可分为建树和剪枝两个步骤,其中剪枝又可细分为预剪枝与剪枝两个步骤:

(1)利用训练集建立决策树的初型;

(2)根据前期设立的分支指数的阈值进行预剪枝;

(3)运用检验集对决策树的模型进行测试、剪枝。形成最终的决策树模型(整个过程如图1所示)。

2.2 CART算法

CART是分类回归树(Classi fi cation and Regression Trees)的简写,最早是由Breiman和Friedman 等人于1984年提出的[6]。CART算法是通过计算各个影响因素的Gini Gain指数来建立决策树,Gini Gain指数最小的因素为最佳分裂点[7]。

图1:决策树模型创建过程

由于CART算法是用于建立二叉决策树的,因此在处理多属性的影响因素时要将属性进行合并计算,如:影响因素A共有{a,b,c}三个属性,那么就会出现三种分组的情况({{a,b},c},{{a,c},b},{{b,c},a}),计算得出这三个组合中Gini指数最低的一组为分叉。Gini指数是计算每个影响因素中的杂质指标,介于0-1之间,指数越大代表该影响因素越不纯。公式为:

a代表属性组合,k代表结果变量,P代表该属性中结果变量的概率。得出属性的Gini指数之后,便可以计算出该影响因素的Gini Gain的指数,公式为:

Ni代表该属性的数量,N代表总数量。影响因素的Gini Gain即是每个属性概率乘以属性Gini指数的总和。

3 基于用户研究决策树的厨柜开发应用

调研用户的形式有很多种,如问卷、访谈、影像等。文章以问卷为数据收集的手段,收集用户关于“厨房餐厅一体化设计”的影响因素的数据;并通过数据分析软件—SPSS CLEMENTINE 12中CART算法进行数据的计算处理,生成决策树;最终对生成的决策树进行分析和解读。

3.1 数据的收集

笔者通过网络的方式收集了133份调查问卷,以这份数据为例建立供新产品开发的决策树模型。133份问卷中男性用户有63人占47.37%,女性用户有70人占52.63%,20-25岁的用户占72.18%。

问卷的“结果”因素是用户在购买厨柜时是否会将餐厅一同设计,目的在于挖掘支持餐厨一体化设计下影响因素/细分属性所组成的规则路径。该问题的影响因素围绕“风格外观、使用功能、展现形式”三个方面进行设计,共设置8个影响因素、34个细分属性(如表1所示)。

3.2 数据的计算处理

SPSS CLEMENTINE 12是市面上常用的数据挖掘软件,能将复杂的CART计算过程通过简单的设置后,快速精准的输出决策树模型。以结果因素(将厨房与餐厅一体化设计)设置为输出变量,影响因素设置为输入变量,开始进行设置:

(1)设置随机选取75%的数据作为训练集,剩余25%的数据作为检验集;

(2)选择CART算法,具体设置如下:选择Gini指数作为建树依据、最大树深设置为5、将最优裂变引起的不纯度变量的最低值设置为0.0001、勾选“Prune Tree”(节点的分叉无法明确提高树的精准度时,自动停止该节点的分裂。)最终模型的树深为5层,共产生了9条规则路径(其中纯度为100%的路径共6条),生成的决策树简化模型如图2所示(括号中的百分数表示该条规则路径的纯度)。

3.3 决策树模型分析

鉴于问卷设计的核心是挖掘用户支持厨房与餐厅一体化设计的影响因素,因此从计算生成的9条规则路径中提取结果为“是”的路径进行分析。结果为“是”的规则路径共5条,分别如下:

(1)柜体表面材质满足(石材化/水泥化/木纹化)处理下;厨柜风格满足(欧式/中式/现代/工业)风格下;改善(洗涤区/烹饪区/切配区)的体验;

(2)柜体表面材质满足(石材化/水泥化/木纹化)处理下;厨柜风格满足(欧式/中式/现代/工业)风格下;改善吊柜收纳的体验下;将周边产品(全展示/仅展示器具)下;台面材料为钢材;

(3)柜体表面材质满足(石材化/水泥化/木纹化)处理下;厨柜风格满足(欧式/中式/现代/工业)风格下;改善吊柜收纳的体验下;将周边产品(不展示/仅展示小电器);

(4)柜体表面材质满足(钢材化/玻璃化/单色化)处理下;厨柜风格满足(欧式/中式/现代/混搭)风格下;扩展(媒体/亲子)功能下;色彩为(暖色系/冷色系/黑白灰);

(5)柜体表面材质满足(钢材化/玻璃化/单色化)处理下;厨柜风格满足(欧式/中式/现代/混搭)风格下;扩展(休闲/聚会)功能。

企业在开发餐厨一体化的厨柜产品时,可以在以上各个规则路径的每个因素节点上附加成本和收益等预算数据,计算出收益最大的路径进行开发;或根据品牌的定位来筛选出最适合的规则路径。

4 总结与讨论

表1:调查问卷内容

图2:“厨房与餐厅一体化设计”的决策树模型

人们对厨房的期待和需求也渐渐的随着饮食文化、生活方式等观念的改变而改变,单纯的改变厨柜产品的外观是无法开发出打动用户的新品。厨柜产品是承载复杂的周边产品、复杂的用户行为的系统,对复杂系统的研究和探索的方法应该在多学科中的寻找合适的方法。只有通过科学的方法,对复杂的厨柜系统进行深入分析,新品的开发才能跟上需求。

决策树CART算法除了应用在以用户调研的数据建立模型之外,还能应用于厨柜产品的竞品分析、会展材料整理、入户设计调查等研究。此外,文章中案例的支撑数据较少,并不能很精准的推出预测结果,重在为厨柜行业新品开发提供参考的思路和方法。

(通讯作者:吴志军)

[1]吴志军,肖文波.厨房家具系统的整合设计[J].家具,2014(06):39-43.

[2]张继娟.整体厨柜门板结构设计的影响因素分析[J].包装工程,2014(24):42-44+49.

[3]杨舒英,张帆.整体厨柜研发过程中的“设计调研”[J].家具与室内装饰,2015(10):24-27.

[4]卢东标.基于决策树的数据挖掘算法研究与应用[D].武汉:武汉理工大学,2008.

[5]刘菲.基于决策树技术的忠诚客户挖掘研究[D].阜新:辽宁工程技术大学,2009.

[6]Breiman L,Friedman J H, Olshen R A,et al.Classification and Regression Trees[R].Montery,CA:Wadsworth International Group,1984.

[7]陈云樱,吴积钦,徐可佳.决策树中基于基尼指数的属性分裂方法[J].微机发展,2004(05):66-68.

张映琪(1994-),男,湖南科技大学硕士研究生。主要研究方向为厨房产业整合设计、设计战略与系统创新等。

作者单位
1.湖南科技大学湖南省中小型机电产品工业设计中心 湖南省湘潭市 411201
2.云南艺术学院民族民间艺术研究所 云南省昆明市 650033

国家自然科学基金项目(51405155);中国博士后科学基金项目(2015M582321);湖南省研究生科研创新项目(CX2017B677)。

吴志军(1979-),男,湖南科技大学副教授、硕士生导师,博士,湖南大学与广东工业设计城联合培养设计学博士后。主要研究方向为设计战略与系统创新、工业设计等。

猜你喜欢
决策树因素用户
解石三大因素
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
关注用户
关注用户
基于决策树的出租车乘客出行目的识别
关注用户
短道速滑运动员非智力因素的培养
基于肺癌CT的决策树模型在肺癌诊断中的应用
如何获取一亿海外用户