基于粗糙集理论的设计规则提取及其应用

2013-08-24 00:43华尔天刘科红肖军军
计算机工程与应用 2013年5期
关键词:销售量约简轮子

华尔天,刘科红,肖军军,陈 颖

浙江工商大学 计算机与信息工程学院,杭州 310018

1 引言

信息和知识要素增值是现代产品设计中决定新产品竞争力的重要因素。随着数据库技术和现代产品设计技术不断发展,来自企业内外的产品信息不断增加,在缺乏强有力的管理工具支持下,已经远远超出了人的理解和概括能力。因此,如何利用有效的方法管理已有的设计知识以及准确地从海量的产品数据中提取对产品设计具有指导意义的规则和知识,已成为提高产品开发速度,缩短开发周期的关键。

从海量数据中有效提取出对产品设计有价值的知识一直是学界关注的重要问题。目前这一问题的研究主要集中在数据挖掘方法的优化方面,如赵静娴等提出一种大规模数据库的组合优化决策树算法,有效地解决了处理大规模高维数据库问题的效率和精度之间的矛盾[1];汪中等利用优化初始中心点的K-means算法,使得初始中心的质量和聚类结果得到了改善[2];周丽娟等提出一种基于聚类的模糊遗传关联规则挖掘算法,降低了扫描数据库的次数[3];范敏等提出层次朴素贝叶斯分类器,该分类器在达到分类精度的同时还能聚集节点获取相应实例的分类规则[4]。但对处理不确定、不精确、不完全的设计知识信息尚缺乏有效手段。

本文引入知识挖掘的思想,提出了一种基于粗糙集理论的产品设计规则提取技术,通过Skowron差别矩阵算法,较好地解决了数据约简问题,并以销售量为决策属性,利用分类一致性算法从顾客的角度进行产品设计规则的挖掘,建立可行的产品设计知识规则库。通过婴幼儿手推车实例,验证了该方法的有效性。

2 产品设计知识和设计规则

2.1 设计知识

随着信息技术的迅猛发展和各类先进制造理念的产生,企业内的产品开发信息和市场信息日益膨胀,形成了大量与产品相关的数据。产品数据泛指对产品的数量、属性及其相互关系的抽象表示,未经过任何加工、对决策毫无价值的符号。设计人员根据一定目的对产品数据进行系统组织、整理和分析,找出其中的联系,即形成对决策有价值的产品信息。通过对设计信息的归纳和提取,并与已存在的知识体系相结合,最终形成设计知识。设计知识是从设计教育和工作经验中得来的可以产生设计的知识,是对设计实践活动经验性的总结和积累[5]。产品设计过程中,设计人员的经验、已存在的产品信息、海量的用户反馈意见等知识,综合构成了丰富的设计知识。上海交通大学谢友柏院士将设计知识的来源划分为六个方面[6-7]:已有知识、市场信息、数字仿真或虚拟现实、物理模型试验、样机试验及已有产品运行中的表现(用户反映)。设计知识来源的多样性,进而形成种类繁多的设计知识,从逻辑抽象的角度分,有设计对象属性及其关系的知识,对象发展规律及设计控制进程知识,技巧或经验类知识,设计常识和设计知识的组织;从知识属性分,有描述设计对象的静态知识和描述设计过程的动态知识;从获取途径来分,有工程示例知识、工程规范知识和设计经验知识等[8]。针对机械产品设计过程,可以将产品设计的多种知识源归结为设计原理(包括设计向导、设计手册、设计方法学等)、设计经验、设计规范、设计过程、已有的产品及模型、试验与检测数据、市场及客户反馈信息。

产品设计知识是一个复杂动态的信息系统,用户反馈信息的变化、设计人员经验的增加、市场环境的变化都会引起设计知识的不断变化。如何从海量的产品数据中提取有效的设计知识已成为企业产品设计知识管理的关键。

2.2 设计规则

设计规则是指产品设计过程中根据所获得的知识进行分析、对比,并结合企业自身的约束,找出解决问题的实际方案。竺红卫[9]认为电路设计规则是表达集成电路版图元素几何尺寸大小及相互之间距离关系的一组数值,以保证集成电路制造成品率和电气性能。随着企业产品设计目标的改变,产品设计规则也在不断地更新。在产品设计中,每个子系统的设计必须遵照某些明确标准——设计规则,以保证这些小系统能够构成一个和谐、完整的大系统。企业如何在产品设计过程中针对自身发展的要求,从设计知识中提取出解决实际问题的方案——设计规则,是企业进行安排科学生产的关键。

3 基于粗糙集理论的设计规则提取

产品数据是客观存在的海量无序的符号,对其进行系统组织、整理和分析,即形成对产品设计有价值的设计信息;设计信息经过归纳、演绎、比较等手段进行挖掘,使其有价值的内容沉淀下来,即形成设计知识;企业根据自身发展的要求,从设计知识中提取出解决实际问题的方案,即设计规则。产品数据包含的信息量最大,其次为设计信息,再次为设计知识,最精炼的是设计规则。企业为了提高产品开发速度,缩短开发周期,必须将产品数据经过层层挖掘最终得到设计规则。现阶段设计规则提取的主要算法有遗传算法、Johnson算法、动态约简算法。

3.1 粗糙集理论

近年来,在研究不完整数据及不精确知识的表达、学习、归纳等方法的基础上,波兰科学家帕拉克(Z.Pawlak)基于“知识(人的智能)就是一种分类能力”的观点,于1982年提出了粗糙集理论(rough sets)。粗糙集理论具有很强的定性分析能力,能够有效地表达不确定的或不精确的知识,善于从数据中获取知识,并能利用不确定、不完整的经验知识进行推理等,它在知识获取、规则生成、决策分析等领域获得了广泛应用,特别是在数据挖掘领域,获得了巨大成功[10]。粗糙集中通过上下近似利用数据约简算法实现数据约简,去除某些不必要的数据,为产品设计知识挖掘提供有效的数据集。本文的研究中涉及的知识约简和知识核定义如下[10]:

定义1(知识的约简)给定一个知识库K=(U ,S)和知识库中的一个等价关系族P⊆S,对任意的G⊆P,若G满足以下两条:(1)G 是独立的;(2)IN D(G)=IN D(P)。则称G是P的一个约简,记为G∈R E D(P ),其中 R E D(P)表示P的全体约简组成的集合。

定义2(知识的核)给定一个知识库K=(U ,S)和知识库中的一个等价关系族P⊆S,对任意的R∈P,若R满足IN D(P -{R} )≠IN D(P ),则称R为P中必要的,P中所有必要的知识组成的集合称为P的核,记为C O R E(P)。

核与约简之间的关系可以描述为:C O R E(P)=∩R E D(P)。

产品设计规则的提取中需要利用粗糙集理论中的知识约简来实现数据约简,去除不重要,甚至是冗余的信息,得到产品信息;产品信息通过知识挖掘来获取设计知识,最后通过规则获取得到产品设计规则,并将其作为生产标准指导企业的最终生产。

3.2 设计规则提取模型

在现代产品设计过程中,面对复杂无序的产品数据,设计人员依据粗糙集理论,参考具体的设计参数在不同维度下的相互影响,以提取出更多潜在的有价值信息——产品设计知识,并依据企业的自身发展要求提取出产品设计规则,最终形成指导产品设计的规则型知识。设计规则的提取主要从三个方面来进行:数据约简、知识挖掘和规则提取。具体的研究框架如图1所示。

图1 基于粗糙集理论的设计规则提取模型图

3.3 设计规则提取方法

(1)数据约简

产品数据约简是指利用约简算法从大量的属性中找出对决策属性影响最大的属性,约简的方法主要有盲目法和启发式算法[6,11]。利用盲目法进行数据约简时,穷尽搜索所需要的时间和空间代价都很高,实际约简过程中主要使用启发式约简算法。本文采用基于Skowron差别矩阵的属性约简算法[10],算法描述如下:

输入:一个决策表D T=(U,C∪D,V,f)。

输出:决策表D T的所有相对核C O R EC(D)。

步骤1根据决策表的差别矩阵的定义,写出Mn×n(D T)=(cij)n×n的下三角矩阵(或上三角矩阵),其中i,j=1,2,…,n。

步骤2搜索差别矩阵的所有元素,若没有∅,则转到第3步,否则退出。

步骤3搜索决策表差别矩阵中的所有单属性元素,将其赋给C O R EC(D),输出C O R EC(D)={α|(α ∈C ) ∧ (∃cij((cij∈Mn×n(D T)) ) ∧ ( cij={α} ))}算法结束。

(2)知识挖掘

通过对产品数据约简,设计人员可以参考必需的参数在不同层次、不同角度上的相互影响,以挖掘出更多有价值的潜在信息——设计知识。决策知识获取的主要方法有:基于核值的方法[12],基于布尔推理最小决策算法[13],考虑覆盖度方法[14],确定性规则和概率性规则方法[15-16]。本文采用一种例化方向的算法——分类一致率算法[17],即从空集开始逐步将条件属性加入到知识的条件部分,使得条件部分所包含的条件属性数目增加,最终得到所需知识。算法描述如下:

步骤1初始化阶段

步骤2知识挖掘阶段

①当G≠∅,Knowled ge=∅,计算所有待引入条件属性集的

④当所有对象全部覆盖后,简化知识,算法结束。

(3)规则提取

产品设计过程中根据所获得的知识进行分析、对比,并结合企业自身的发展要求,找出解决问题的实际方案,即提取出特定的设计规则来具体指导设计师进行产品设计。

4 应用实例分析与比较

4.1 应用实例分析

为验证本文提出方法的有效性,以市场上收集到的20款婴幼儿手推车为例进行设计规则提取,企业设计下一款童车的目的是实现市场的额最大占有率。表1为某品牌婴幼儿手推车销售原始数据表,选择婴幼儿手推车8个主要变量,C={推车承重 x1,轮子大小 x2,外形尺寸 x3,座椅有效宽度 x4,靠背可调整性 x5,推杆方向 x6,价格 x7,适用年龄段 x8},D={销售量Y}。

步骤1利用Skowron差别矩阵进行数据简化。先采用等距离的方法对连续型属性进行离散化,离散规则如下:

推车承重 x1:1:[1 5 ,20),2:[2 0,25),3:[2 5,30):。

轮子大小x2:1:[4 ,5),2:[5 ,6),3:[6 ,7),4:[7 ,8),5:[8 ,9)。

外形尺寸(依据长度离散化)x3:1:[7 00,800),2:[8 00,900),3:[9 00,1 000)。

座椅有效宽度x4:1:[0 ,300),2:[3 00,350),3:[3 50,400)。

价格 x7:1:[0 ,500),2:[5 00,1 000),3:[1 000,1 500)。

销 售 量 Y:1:[0 ,200),2:[2 00,400),3:[4 00,600),4:[6 00,800)。

利用Skowron差别矩阵得到条件属性相对核为{x2,x5,x7,x8},即婴幼儿手推车销售量相关的重要设计参数是轮子大小、外形尺寸、座椅有效宽度、靠背可调整性、价格和适用年龄段。约简的结果如表2。

步骤2在删除表2中的不相容知识的基础上利用分类一致性算法挖掘婴幼儿手推车设计知识。经属性值约简后的设计知识离散化进行还原,合并,得到结果如下:

表1 婴幼儿手推车知识系统原始数据

表2 知识约简结果

R1:(轮子大小,[4,5)or[7,9))→(销售量,[0,200))。

R2:(轮子大小,[6,7))∧(靠背可调整性,三档)→(销售量,[400,600))。

R3:(轮子大小,[6,7))∧(靠背可调整性,多档)→(销售量,[200,400))。

R4:(轮子大小,[5,6))∧(靠背可调整性,三档)→(销售量,[0,200))。

R5:(轮子大小,[6,7))∧(靠背可调整性,二档)→(销售量,[0,200))。

R6:(轮子大小,[5,6))∧(靠背可调整性,二档)→(销售量,[600,800))。

R7:(轮子大小,[5,6))∧(靠背可调整性,一档)∧(适用年龄段,0~36)→(销售量,[600,800))。

R8:(轮子大小,[5,6))∧(靠背可调整性,多档)∧(适用年龄段,0~36)→(销售量,[200,400))。

R9 :(轮子大小,[5,6))∧(靠背可调整性,一档or多档)∧(适用年龄段,7~36)→(销售量,[0,200))。

步骤3鉴于企业设计下一款童车的目标是为了实现市场最大占有率,因此,提取最大销售量所对应的规则R6和R7作为企业下一阶段设计产品的设计标准,设计人员根据设计标准设计产品,缩短产品的开发和生产周期,快速响应用户的需求,进而提高产品的销售量,最终达到占领和扩大市场的根本目的。

4.2 算法比较

常见的知识挖掘算法有遗传算法、Johnson算法和动态约简算法,算法比较如表3。

表3 不同规则提取算法比较

从表3中可以看出,遗传算法、Johnson算法和动态约简算法得到相对核的个数为5,本文算法得到6个属性,在最大程度上防止了关键属性的丢失。另外,其他几个算法得到的规则数量均多于本文算法得到的知识数,表明了该算法对知识挖掘和规则提取的高效性。

5 总结

婴幼儿手推车在实际的研发和设计过程当中缺乏对已有信息的深度挖掘和重复使用,本文的研究将粗糙集理论应用于婴幼儿手推车设计规则的提取中,获取了设计中最关键的设计参数和相应的设计知识,并依据企业发展要求提取出具体的设计规则,较好地解决了设计知识挖掘和规则提取问题。在未来的研究当中可以对各规则的质量评价、优化和应用进行深入的研究。

[1]赵静娴,倪春鹏,詹原瑞,等.一种大规模数据库的组合优化决策树算法[J].系统工程与电子技术,2009,31(3):583-587.

[2]汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模拟识别与人工智能,2009,22(2):299-304.

[3]周丽娟,石倩,葛学彬,等.基于聚类的模糊遗传挖掘算法的研究[J].计算机工程与应用,2010,46(13):118-121.

[4]范敏,石为人.层次朴素贝叶斯分类器构造算法及应用研究[J].仪器仪表学报,2010,31(4):776-781.

[5]刘征,孙守迁.潘云鹤.面向设计知识重用的产品外观分类[J].机械工程学报,2009,45(4):19-25.

[6] 谢友柏.现代设计与知识获取[J].中国机械工程,1996,7(6):36-40.

[7]谢友柏.现代设计理论中的若干基本概念[J].机械工程学报,2007,43(11):7-15.

[8]马辉.产品设计知识建模与演化关键技术研究[D].杭州:浙江大学,2006.

[9]竺红卫.设计规则驱动的多层布线算法[J].微电子学与计算机,2005,22(10):30-33.

[10]苗夺谦,李道国.粗糙集理论、算法与应用[M].北京:清华大学出版社,2008.

[11]Baldwin C Y.设计规则:模块化的力量[M].北京:中信出版社,2006.

[12]杨明,杨萍.基于广义差别矩阵的核和属性约简算法[J].控制与决策,2008,23(9):1049-1055.

[13]安利平,仝凌云.基于粗糙集理论的约简、决策规则与模式[J].计算机工程与设计,2008,29(7):1773-1778.

[14]姜峰,范玉顺.基于覆盖度函数的概念格约简[J].电子与信息学报,2010,32(2):405-413.

[15]管延勇,薛佩军,王洪凯.不完备信息系统的可信决策规则提取与E-相对约简[J].系统工程理论与实践,2005,25(12):76-87.

[16]Stefanowski J.Rough set based rule induction techniques for classication problems[C]//Porc 6th European Congress on Intelligent Techniques and Soft Computing.Aachen:[s.n.],1998,1:109-113.

[17]代建华,潘云鹤.一种基于分类一致性的决策规则获取算法[J].控制与决策,2004,19(10):1086-1096.

猜你喜欢
销售量约简轮子
两个轮子“走路”
没有轮子的挖挖
读北岛:一只轮子,寻找另一只轮子
基于二进制链表的粗糙集属性约简
2017年美国电动自行车销售量增长了440%
实值多变量维数约简:综述
基于模糊贴近度的属性约简
美国豆粕出口销售量预计为0到18万吨
香喷喷的轮子
一种改进的分布约简与最大分布约简求法