汝吉东,王 颖
(齐齐哈尔大学 a.轻工与纺织学院;b.网络信息中心,黑龙江 齐齐哈尔 161006)
研究与技术
基于SVM女性服装型号推荐方法研究
汝吉东a,王 颖b
(齐齐哈尔大学 a.轻工与纺织学院;b.网络信息中心,黑龙江 齐齐哈尔 161006)
针对网络服装销售中由于服装尺寸退货问题,根据不同年龄段女性体型特征数据,提出了基于机器学习方法的女性服装型号推荐方法,并给出了女性体型判别及预测的大体流程。首先,随机选择300位年龄在18~50岁的女性体型数据作为研究数据;其次,提取身高、背长、臂长、肩宽、颈围、臀围、胸围、腰围作为预测特征集,并对特征采用信息增益方法得到增益指数;再次,采用SVM方法和RBF核函数训练多个模型;最后,采用投票方式选取最终所属类,进行服装型号推荐。最终分类器采用测试集测试,结果表明模型预测准确度达到98%以上,预测结果可靠。
SVM; 服装型号; 女性服装; 信息增益; 体型判别
服装销售日益向多元化发展,除了传统的商场销售,网店的产生使服装迈向电子商务时代。在服装网络销售过程中,消费者最大的顾虑就是服装的合体性,发现其中发生的退货多数原因是服装不合体[1-2],所以根据个体体型特征数据,判别合适的服装尺寸成为亟待解决的问题。通过对大学生的生活方式、服装态度与购买行为研究[3],认为女性的网络购买商品中衣服占很大比例。所以,基于女性群体的个体体型判别及预测系统的研发具有一定的实用价值和意义。
针对体型判别问题的研究,已有多种算法被采用来解决这个问题,如丛杉等[4]采用回归模型方法研究了上海地区女大学生下体体型的分类判别;尹玲等[5]采用随机森林方法,根据测试者体型特征提取重要因子,实现了女性体型判别模型建立,准确率达到85%。尹玲等[6]采用最优分割方法,同样提取重要特征因子,根据贡献率和测量指标的相关程度,将女性体型划分为三类。谷林等[7]采用聚类方法,对体型数据根据不同特征进行聚类,然后按照反向判断方法,实现其所属的体型类别。刘咏梅等[8]采用主成分分析、样本聚类分析和基本统计量分析等,计算4种常用体型指数,分析出成都地区中老年女性新的体型划分建议及控制部位参考值。机器学习方法在多领域预测问题中得到广泛应用[9-12],本文基于支持向量机(support vector machine, SVM)方法,采用女性体型相关多个特征,对女性体型建立预测模型。消费者应用时,只要给出体型中身体局部可测特征,如胸围、身高、腰围等,预测模型就能给出针对个体体型的服装型号推荐,通过预测精度提高,解决了服装不合体问题。
SVM旨在建立两类样本间最优超平面,该超平面使其与样本间距离最大。其基本原理如下[13]:
(1)
式中:xi∈S,i=1,2...m,xj∈S,j=1,2...n代表正例和反例样本;ai代表惩罚参数。
对于给定的训练参数,正例xi∈S,i=1,2...m和反例xj∈S,j=1,2...n对应的类标为zi∈(1,-1)。k(x,xi)是高斯核函数(radial basis function, RBF),定义如下:
k(x,xi)=e-γ||x-xi||2
(2)
式中:γ为惩罚函数,k(x,xi)为RBF核参数。
2.1 数据选择
数据随机选择300位年龄在18~50岁的女性体型数据。根据网上服装销售女性服装尺码数据,按照身高将数据分为四类:S(155/80A)、M(160/84A)、L(165/88A)、XL(170/92A)。每一类中随机选取30个女性体型数据作为测试集,剩余数据作为训练集。对每一类数据训练分类器时,这一类为正例,剩余类作为反例。例如:S和M类各选出30个数据作为测试集,剩余S、M数据,选取属于S类剩余数据作为训练集正例,则属于M类剩余数据为训练集反例。
2.2 特征提取
合理的特征选择,决定了预测分类器的准确性,所以统计每一特征的各个参数值在不同类别中所占百分比,有利于分析特征在模型中起到的区分特性,进而通过合适特征选择,提高分类器的精确度。
提取的特征包括身高、背长、臂长、肩宽、颈围、臀围、胸围、腰围。每一个特征在S(155/80A)、M(160/84A)、L(165/88A)、XL(170/92A)这四类数据中,指定参数范围内人数百分比如图1所示。
从图1可见,每一柱形代表S、M、L、XL中的一类,柱形的高度表示该类中在X轴某刻度范围内的测试者占该类的百分比。如图(a)S码类别中,身高为155的人数占S码总人数的28.40%。通过分析,所有特征在(S,L),(S,XL)类别中差异显著;胸围在(S,M)、(M,L)、(M,XL)、(X,XL)中差异显著;腰围在(S,M),(L,XL)差异显著,(M,L)差异不显著;其余特征在类别(S,L),(S,XL)中差异显著,在(X,XL)类别中差异不显著;身高在(S,M)、(M,L)、(M,XL)差异也显著;背长、臂长在(M,L)(L,XL)差异不显著;肩宽在在(M,L)(L,XL)、(S,M)差异不显著;颈围在(M,L),(M,XL),(L,XL)中差异不显著;臀围在(S,M)、(M,L)、(M,XL)差异也显著。
通过对上述特征分析,为了评价每一个特征对每一个分类器提供的区分度,采用信息增益方法,对每一个特征计算了信息熵。特征评估采用信息增益方法,针对信息量化问题,香农提出了“信息熵”的概念。令随机变量C∈{c1,c2...cn},ci概率为P(ci)。C的信息增益定义为[14]:
ΔGI=H(C)-H(C|T)
(3)
其中H(C)为C的信息熵,定义如下:
H(C)=-p(ci)log2p(ci)
(4)
H(C|T)为C相对于随机变量T的条件熵,定义如下:
(5)
式中:C为样本,T为特征值,ci代表样本类,i=1,-1;tj代表特征,j=1,2,3…;△GI代表特征的信息增益值;P(ti)代表类ti在数据集中出现概率;P(tj)代表数据集中包含特征tj的概率;P(ci|tj)表示特征属于ci类的条件概率。
分析特征在体型判别及预测过程中贡献率,能进一步指导体型特征对服装型号选择的影响力,所以采用信息增益方法进行特征分析,结果如表1所示。
图1 4类身高在各项特征指定参数中所占的比例Fig.1 Proportions of four types of height in the specified parameters
表1 特征信息增益评估结果
由表1评估结果表明,在体型判别上,身高、胸围和腰围比较重要,为体型判别提供了更多信息,而肩宽、臀围、臂长和颈围依次次之。在特征分析中,身高、胸围和腰围在多类别区分中显著性高,而臂长和颈围在类别区分中不显著,这正与信息增益方法的分析结果一致。
2.3 模型建立
将四类数据S、M、L、XL,采用(S,M)、(S,L)、(S,XL)、(M,L)、(M,XL)、(L,XL)数据分别训练6个分类器,测试数据在6个分类器中分别进行预测,最优采用投票方式决定为哪一类。投票原则为:分别将测试数据在6个分类器中进行分类预测,然后将预测结果进行汇总,属于某类的票数最多,则该数据属于票数最多类。例如,选择xi∈maxxj(j=s,m,l,xl),以S为正类,其他类别为反类为例,将数据代入SVM模型:
K(x,xi)=K((Sx,(Mx,Lx,XLx)),(Si,(Mi,Li,XLi)))=e-γ||Sx,(Mx,Lx,XLx)),(Si,(Mi,Li,XLi))||2
(6)
模型建立在LINUX环境下采用libsvm软件包处理,首先将数据处理为SVM输入格式,然后采用svm-scale进行归一化,用软件grid.py选取最优参数,最后选取用svm-train训练分类器,对候选人采用svm-predict进行预测,最后投票方式,对服装型号进行选码。
2.4 评估方法
评估方法采用指标Accuracy,定义如下:
(7)
式中:TP为预测为正的正样本,TN为预测为负的负样本,FP为预测为正的负样本,FN为预测为负的正样本。
2.5 程序大体流程
女生体型判别及预测的大体流程如图2所示。从图2可见,程序首先将S、M、L、XL四类分组,分别训练分类器,如将S、M分别作为正例和反例训练分类器1,得到预测模型1,该分类器对于S、M两类进行判别预测,同理,对(S、L),(S、XL),(M,L),(M、XL)和(L、XL)分别训练分类器,得到训练模型。对于给定候选体型,采用上述六个分类器分别进行预测,预测值按照投票算法计算每种预测结果的票数,票数最高者,为最后的预测结果。
图2 体型判别及预测流程Fig.2 Body shape discrimination and forecasting process
测试集测试结果如表2所示。从表2可见,对每一类数据的预测精度都在98%以上,总精度为98.76%,预测结果可靠性高。
表2 模型测试集测试结果
基于SVM女性服装型号推荐方法,根据随机选取女性体型特征数据建立了预测模型,经数据测试,该模型根据女性个体体型特征的输入,预测模型的输出的推荐服装型号98%合体。模型预测结果可靠,并对身高、背长、臂长、肩宽、颈围、臀围、胸围、腰围特征进行分析,评价了其信息增益指数,分析了各项体型特征对服装型号选择的贡献率,有助于服装型号选择。
[1]CHAPMAN K. Sizing up fit issues[J]. AATCC Review,2002,2(10):33-34.
[2]彭文芳,钟跃崎.服装网络购物存在问题浅析[J].化纤与纺织技术,2007(1):46-48. PENG Wenfang, ZHONG Yueqi. Analysis on clothing online shopping[J]. Chemical Fiber and Textile Technology,2007(1):46-48.
[3]刘国联.大学生的生活方式、服装态度与购买行为研究[J].苏州大学学报,2002,22(3):121-125. LIU Guolian. College students’ way of life, clothes, attitudes and buying behavior research[J]. Journal of Soochow University,2002,22(3):121-125.
[4]丛杉,方方.上海地区女大学生下体体型分类判别研究[J].东华大学学报:自然科学版,2007,33(5):668-672. CONG Shan, FANG Fang. Investigation of lower body anthropometry and somatotype of female students in Shanghai’s university[J]. Journal of Donghua University: Natural Science,2007,33(5):668-672.
[5]尹玲,夏蕾,徐才国.基于随机森林的女性体型判别[J].纺织学报,2014,35(5):113-117. YIN Ling, XIA Lei, XU Caiguo. Female body shape prediction based on random forest[J]. Journal of Textile Research,2014,35(5):113-117.
[6]尹玲,张文斌,徐才国.基于有序样本最优分割法的女性体型分类[J].纺织学报,2014,35(9):114-119. YIN Ling, ZHANG Wenbin, XU Caiguo. Female body shape classification based on optimal segmentation method for orderly samples[J]. Journal of Textile Research,2014,35(9):114-119.
[7]谷林,张欣.基于聚类人体体型分类法的体型反算方法研究[J].西安工程大学学报,2010,24(1):31-35. GU Lin, ZHANG Xin. The algorithm studies of human body’s shape classification based on cluster analysis[J]. Journal of Xi’an Polytechnics University,2010,24(1):31-35.
[8]刘咏梅,代虹.成都地区中老年女性体型研究[J].纺织学报,2010,31(10):110-115. LIU Yongmei, DAI Hong. Research on body build of middle-and-old-aged women in Chengdu area[J]. Journal of Textile Research,2010,31(10):110-115.
[9]田慧欣,贾玉凤.基于集成多支持向量回归融合的上浆率在线软测量方法[J].纺织学报,2014,35(1):63-66. TIAN Huixin, JIA Yufeng. Online soft measurement of sizing percentage based on intergraded multiple SVR fusion by bagging[J]. Journal of Textile Research,2014,35(1):63-66.
[10]张秀美,孙永剑,郭亮伟.面向大批量定制的基于改进的LS-SVM服装需求预测模型[J].纺织学报,2010,31(5):141-145. ZHANG Xiumei, SUN Yongjian, GUO Liangwei. Forecasting model for apparel demand based on improved least square support vector machine (LS-SVM)oriented to mass customization[J]. Journal of Textile Research,2010,31(5):141-145.
[11]巫静,田彦杰,汪澜,等.基于SVM理论的涤纶织物分散染料上染率模型研究[J].浙江理工大学学报,2013,31(1):16-20. WU Jin, TIAN Yajie, WANG Lan, et al. Research on modeling of dye-up take rate for disperse dye son polyester fibers based on SVM[J]. Journal of Zhejiang Sic-Tech University,2013,31(1):16-20.
[12]郑爱花.基于BP神经网络的服装号型推荐方法研究[D].杭州:浙江理工大学,2010:21-35. ZHENG Aihua. Study on Size Recommending of Clothing Methods Based on Back Propagation Neural Network[D]. Hangzhou: Zhejiang Sci-Tech University,2010:21-35.
[13]CORTES C, VAPNIK V. Support vector networks[J]. Machine Learning,1995,20(3):273-297.
[14]QUINLAN J R. Induction of decision tree[J]. Machine Learning,1986,1(1):81-106.
Study on SVM Based Women’s Dress Size Recommendation
RU Jidonga, WANG Yingb
(a. College of Textile Light Industry; b. Network Information Center, Qiqihar University, Qiqihar 161006, China)
In allusion to sales return problem due to clothing size in online clothing sales, this paper proposes women’s dress size recommendation method based on machine learning method in accordance with body shape features of women in different age stages and offers a rough process to distinguish and predict women’s body shape. Firstly, 300 women aged between 18 to 50 were randomly selected and their body shape data of served as the research data; secondly, the height, back length, arm length, shoulder breadth, neck circumference, hip circumference, chest circumference and waist circumferences were extracted as a predictive feature set, and the gain index was gained through adopting information gain method for the feature set; thirdly, SVM and RBF kernel function were used to train multiple models; finally, the final class was selected with voting method for clothing size recommendation. The final classifier was tested by the test set. The results show that the preduction accuracy of the model can exceed 98%, and the prediction result is reliable.
SVM; clothing size; women’s dress; information gain; body shape discrimination
doi.org/10.3969/j.issn.1001-7003.2015.06.006
2014-11-20;
2015-05-04
黑龙江省教育厅科学技术研究项目(12541898);齐齐哈尔大学青年教师科研启动支持计划项目(2011k-M22、2011k-M21)
TS941.17
A
1001-7003(2015)06-0027-05 引用页码: 061106