基于先验算法的服装面料关联规则挖掘

2022-05-28 04:50:52李亭立
西部皮革 2022年8期
关键词:规格型号服装面料项集

李亭立

(1.湖南工业大学计算机学院,湖南 株洲412000;2.湖南省智能信息感知及处理技术重点实验室,湖南 株洲412000)

1 研究意义及方法

服装行业整体环境具有复杂动态性,服装企业大规模生产面料,难以挖掘出面料间的关联规则。服装的面料组成复杂,不同服装由不同规格型号的面料构成。现实情况下,不同功能特性的服装由不同规格型号的面料制造而成,一件服装所需的面料种类多。更进一步的,由于客户需求各式各样,导致服装生产企业在生产顺应市场环境的服装产品时,对不同规格型号的面料需求也越来越多。因此,企业只有在挖掘出不同规格型号面料间关联规则的基础上,才能更好地完成不同服饰产品的生产,进一步提升经济价值。

由于服装面料复杂多样性的特征,服装企业通过先验算法挖掘并分析不同规格型号面料间的关联规则,较人工相比,能快速找到千百种面料间的服装成品的关系构成。服装面料历史订单是标准型数据,采用先验算法可以挖掘历史订单中不同规格型号面料间的强关联关系。先验算法具有某项集频繁则子项集也频繁的特性,依据这个特性可以防止项集的数目过快的增多,能实现在更短的时间里得到频繁项集的目的,这适合面料间关联规则问题的解决。

本文为解决服装企业对不同规格型号面料关联关系挖掘难的问题,通过先验算法挖掘面料间的关联规则,实现多批多类服装面料的关联生产与销售,提升企业经济效益,推动企业智能化发展。

关联规则主要指基于某些事件或物体同时发生的情况下,这些事件或物体之间的关联联系[1]。关联规则是在大型的数据集中发掘变量间重要规则的方法[2]。Agrawal 等首次提出先验关联规则算法,关联规则的挖掘有助于分析事物间的关联性,有利于决策的制定[3]。本文通过先验算法挖掘不同规格型号面料间的关联规则,对于在复杂的服装生产过程中,分析多批多类面料的关联程度以及多款多类服装产品间的构成关系有所帮助。基于先验算法的服装面料关联规则挖掘方法有助于企业生产效率的提高以及经济效益的提升。

2 数据来源及处理

本文采用某服装生产企业的历史面料生产数据进行实验。选取该企业2017 年3 月至2018 年3 月共计106 种类别的面料历史数据进行预处理,每组数据都记录了不同型号面料的日期、面料型号以及数量信息。面料数据由于其行业性质,通常会一次性生产一批服装产品,一批产品供一段时间使用,体现在数据上会存在某些不规则数据的干扰。因此,对历史数据进行预处理非常重要。通过研究实际的生产情况,分析异常数据以及缺失数据出现的原因,根据数据特征进行相应的预处理。在进行数据预处理时,考虑企业实际生产情况中每批次面料生产数量大,并且单次面料生产量可供一段时间使用,体现在数据上可能过于离散。因此,采用重采样的方法处理数据过于离散的问题。多维度整合后的面料历史数据可以用于挖掘不同规格型号面料间的关联规则。

3 模型构建

先验算法通过循环进行逐层搜索的方式寻找关联规则,其主要分为连接步和剪枝步两部分。连接步是指将所有项集内的内容分别按照属性值顺序排序,若两个项集彼此的前部分值完全相同,只有最后一项的值不同,则可以将这两个项集进行连接。剪枝步是根据先验算法的原理去除不符合的项集的过程,即某项集不频繁其子集也不频繁的原理,则当搜索到非频繁项集时,将非频繁的项集舍弃。

支持度、置信度和提升度是评估关联规则的三个重要指标。支持度代表着在数据集中某些存在关联的数据共同存在的量与数据集中数据项的量的比值,可以用存在关联的数据同时存在的概率来表示。支持度是评估频繁项集的一项重要指标,支持度越高,构成频繁项集的可能性越高,并且支持度低于某个限度时将被去除。这个限度就是最小支持度阈值,其代表着项集的最小支持度。频繁项集是指支持度大小在最小支持度阈值之上的项集,反之在其之下的项目则是非频繁项集。在现实商业环境中,它代表着消费者要求关联规则必须满足的最低概率,用于指定规则需要满足的最低标准[4]。置信度表示的是当数据集中存在某项之后,另一不同的项也存在的概率,所有置信度越高,关联规则越可靠[5]。提升度代表着两事件之间存在着某种关联关系的强弱程度,当提升度的值越大时,则代表着两者间关联的程度也越强。当提升度的值大于1 时,说明两事件之间成正相关关系;当提升度的值为1 时,说明两事件之间没有相关关系;当提升度的值小于1 时,说明两事件之间成负相关关系[6]。

预处理面料历史数据后,构建先验算法挖掘不同规格型号面料间的关联规则。首先,遍历所有不同规格型号的面料数据,生成面料类别候选频繁1 项集。然后,计算各面料类别频繁1 项集的支持度。再将计算得到的结果依次和提前设置的最小支持度对比,去除小于最小支持度阈值的面料类别项集。然后判断剩余的项集是否为空,成立时将产生关联规则。不成立时,连接生成k+1 项面料类别频繁项集。循环连接与剪枝的步骤,直至生成具有可信度的不同规格型号间的面料关联规则。基于先验算法的服装面料关联规则挖掘流程如图1 所示。

图1 基于先验算法的面料关联规则挖掘流程图Fig.1 Flowchart of mining fabricassociation rules based on prioralgorithm

针对面料的复杂性,采用先验算法挖掘不同规格型号服装面料间的关联程度。先验算法能找出数据集之间的关联信息,其具有良好的整体性能。先验算法与频繁项集挖掘面料间关联规则的办法相比,能降低计算量,提高挖掘效率,适合本文多批多类不同规格型号面料需求预测问题的解决。在关联规则产生的部分,由于不需要再遍历数据集内的各数据项,因此频繁项集发掘是算法非常重要的一部分。在寻找频繁项集的阶段,若是数据集中的项目过多,则会产生数据组合爆炸的问题。因此传统的基于频繁项集挖掘关联关系的方法具有缺陷性。针对此问题,先验算法具有某项集频繁则子项集也频繁,以及某项集非频繁则对应超集也非频繁的特性。在相同情况下,先验算法的过程更简单,效率更高。

先验算法通过遍历数据的方式,查找其中经常出现的数据构成频繁项集,然后采取对这些频繁项集进行约束的方式来找到关联规则,基于此来帮助决策者制定相关策略。但此过程中,单单以某项集出现的次数来衡量是否是频繁项集的方法是片面的,此过程需要按照关联规则的信度标准进行衡量。采用先验算法分析不同规格型号面料间的关联程度可以找到面料间潜在的关联规则。最小支持度阈值的设置是挖掘不同规格型号面料规则的重点,通过对比不同支持度阈值生成的规则数可以得到合适的最小支持度阈值参数。为保证基于先验算法的服装面料关联规则挖掘模型有更好的效果,本实验不采用模型默认的最小支持度阈值,而采用对比的方法确定该值。由于面料种类多,分别设置支持度阈值大小为0.1%、0.5%、1%、2%、3%、4%以及5%,得到不同的生成的面料关联规则条数。其中当支持度阈值为2%时,生成了56 条关联规则,并且有32 条有0.5 以上的置信度。说明最小支持度阈值设置为2%时,挖掘出的不同规格型号面料间的关联规则具有可信度。因此,本实验设置服装面料的最小支持度阈值为2%。

提升度Lift 代表着事件之间存在着某种关联的强弱程度,当提升度的值越大时,则代表着两者间关联的程度也越强。当Lift>1 时,面料间呈正相关,且当值越大时,面料间的关联正相关程度越高。当Lift=1 时,面料间没有相关关系。当Lift<1 时,面料间呈负相关,且当数值越小时,负相关程度越高。将提升度Lift 作为规则排序的度量依据,并设置最小度量值为1。由于总共有106 种规格型号的面料,因此设置最大的项集长度为106,以此来防止关联算法失效。基于先验算法的面料关联规则挖掘模型的参数配置如表1 所示。

表1 基于先验算法的面料关联规则挖掘模型参数配置Tab.1 Parameter configuration of fabric association rule mining model based on prior algorithm

4 实验及结果分析

采用先验算法遍历服装面料历史生产数据,同时生成候选的面料类别频繁项集。按照面料类别分别计算其支持度,将计算得到的结果与最小支持度阈值做比较,去除小于2%的候选面料项集,循环连接生成候选频繁项集直至产生面料关联规则。基于先验算法挖掘出的不同规格型号面料间的关联结果如表2 所示。

表2 面料关联结果Tab.2 Fabric association results

由结果可知,面料jsfkl45786 与面料hgfsd15354 的关联程度最高,其Lift 值为5.62,Confidence 为83.72%,代表着这两种面料具有很强的正相关性,且具有可靠性。

5 结论

本文主要采用基于先验算法的服装面料关联规则挖掘方法,解决服装企业大规模多批多类面料关联规则挖掘难的问题。挖掘不同规格型号面料间的关联规则,能根据服装成品的关系构成,优化服装的生产过程。本文在研究实际业务场景的基础上,针对面料的复杂性,采取相应的方法对历史数据中的异常数据以及缺失数据进行预处理,为模型提供一批可靠的高质量数据。采用先验算法挖掘不同规格型号服装面料间的关联程度,并设计相关实验进行验证,将评价指标作为判定生成规则有效性的依据,验证面料关联规则挖掘的实现。基于先验算法的服装面料关联规则挖掘方法能找到多批多类服装面料间的关联,适配了服装生产过程中面料需求的不确定性,有利于服装企业生产效率的提高以及经济效益的提升。

猜你喜欢
规格型号服装面料项集
阜新市材料价格补充信息
阜新市材料价格补充信息
阜新市材料价格补充信息
建筑与预算(2022年2期)2022-03-08 08:41:14
浅析红外测温仪技术
紧身衣服装面料与版型设计的匹配应用方法初探
智能LED在服装面料中的应用方法
流行色(2019年7期)2019-09-27 09:33:20
摩擦条件对服装面料沾污性能的影响
关联规则中经典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一种频繁核心项集的快速挖掘算法
计算机工程(2014年6期)2014-02-28 01:26:12
一种新的改进Apriori算法*