数据驱动的产品概念设计知识服务模型构建

2018-08-20 03:43林园园战洪飞余军合张桂海

计算机工程与应用 2018年16期

关键词：概念设计原理聚类

林园园，战洪飞，余军合，张桂海

LIN Yuanyuan,ZHAN Hongfei,YU Junhe,ZHANG Guihai

宁波大学机械工程与力学学院，浙江宁波 315211

Faculty of Mechanical Engineering and Mechanics,Ningbo University,Ningbo,Zhejiang 315211,China

1 引言

随着市场上企业之间竞争的日益加剧，以及消费者的个性化需求日益强烈，企业要想在激烈的竞争中取得优势，就必须能够将消费者个性化需求融入到产品的设计过程中，以最快的速度、最低的成本提供质量最好的产品。又因为在产品的设计过程中，概念设计是产品设计的重要阶段，它直接影响产品功能的创造、功能的分解以及功能和子功能的结构设计等环节。因此，提高概念设计阶段的设计效率和创新水平对提高整个设计过程的效率和价值有重要的意义。

在产品的创新设计及面向产品的个性化需求方面，已有学者进行了大量的研究工作。孙厚朝等[1]对模块化配置设计问题进行了详细研究，并表示模块化设计对提高产品的设计效率有很大的帮助，在未来的应用中将会起到重要的作用。延鹏等[2]针对客户需求分析的产品配置问题，结合质量功能配置方法和基于规则推理的方法，提出了一种客户需求映射方法。邓鹏等[3]针对多类型客户需求下的模块化产品配置设计，给出了产品配置设计系统的框架结构。韩煜东等[4]为了在产品配置中满足客户感性需求的目标，提出了在感性需求和功能需求双重驱动下的产品模块化配置方法。Wang等[5]在分析客户需求的基础上，基于需求聚类方法来识别客户的价值需求，建立了产品服务的模块化体系，提出了基于本体建模的产品服务配置方法。杨艳华等[6]为了准确获得满足需求的结构方案，提出了需求/结构映射的灰关联相似性匹配与求解方案。杨波等[7]在功能描述方法分析的基础上，提出了一种对功能进行扩展建模的方法，该方法避免了功构映射过程中功能关联图出现组合爆炸，同时也避免了在概念化设计阶段使用常规机构而过早地限制产品结构形式的缺陷。郭钢等[8]为了解决传统功能模型由于缺乏形式语义，进而很难利用计算机在功能空间中进行有效的推理，将基于描述逻辑的形式语义及其推理模型引入产品功能模型。金熙哲等[9]基于功能-行为-结构映射的机构系统概念设计模型，建立了整个工艺动作过程的动作方案，集中寻求最优化有效工作时段动作方案的评价规则、数学模型和求解方案，同时给出了实例验证。陈正水等[10]基于机械系统“输入-输出流”转换的功能表达方法提出了机械执行系统功能知识扩展方法，把机械执行系统的抽象功能转化为可操作的具体形式。朱炜[11]为能够设计出符合用户需求的产品，提高设计的效率并缩短开发周期，提出了一种应用案例知识进行产品创新设计的方法。从国内外学者的研究看，大部分学者都只是从模块化配置方法角度和概念设计过程中模型优化角度进行相关的理论研究，并没有从创新设计的源头——概念设计开展深入工作。然而近几年随着互联网等大量数据的囤积，从数据挖掘角度和创新设计角度出发，为产品的概念设计提供知识服务支撑已经成为可能，经查阅文献，景旭文等[12-13]提出在产品的概念设计过程中引入数据挖掘技术与方法，基于数据资源为机械产品方案创新设计过程提供支持，但最近几年研究的相关文献较少。因此本文在前人研究的基础上，构建了数据驱动的概念设计创新知识服务模型，运用文本挖掘和聚类算法等技术，辅助设计人员快速地形成概念化设计的创新解决方案，进而加快产品的设计效率，同时提高企业的创新能力。

2 数据驱动的产品概念设计知识服务模型的构建

随着电子商务的兴起，越来越多的消费者在互联网上购买商品，用户开始在网站、论坛、微博等平台来发表他们对某产品的功能、性能和服务等方面的态度和意见，在这些用户评论中蕴含着企业的需求信息。同时专利是产品设计知识的重要来源，专利知识反映了新技术、新产品和新工艺方面涉及众多学科领域的最新研究成果，具有很强的实用性和创新性，有目的地重用产品专利中的设计知识，有助于缩短新产品的开发周期，减少新产品的开发风险。同时专利数据和论文之间存在着内在的关系，基于专利可以找出相关的论文，为产品开发设计提供相关的技术支持。还有其他相关网上数据资源，比如技术博客等，都可以为产品设计提供相应的知识服务。因此，本文基于产品评论数据、专利数据等其他数据，结合相关研究算法，同时构建相关分析模型，为产品的设计者提供相应的知识服务，模型如图1所示。

该知识服务模型主要包括算法库、模型库、数据库和概念化设计的映射过程，主要基于需求—功能—原理—结构的映射过程，同时结合相关数据资源和算法，构建相关模型，为产品的设计者提供相应的知识服务。

3 数据驱动的产品概念设计知识服务模型具体构建过程

3.1 数据驱动的需求—功能—原理—结构映射模型构建

数据驱动的知识服务模型中最重要的就是基于数据资源构建需求—功能—原理—结构的映射模型，它是整个知识服务模型中的核心部分，因此本文构建了如图2所示的映射模型。

图1 数据驱动的产品概念设计创新知识服务模型

图2 数据驱动的需求—功能—原理—结构的映射模型

该模型基于产品评论数据和专利数据等其他数据，展示了需求—功能—原理—结构的映射结构过程。首先基于消费者的评论信息，通过文本挖掘技术和情感分析技术构建了消费者的需求模型；然后构建功能模块，该模块主要分析了消费者的需求到底有哪些功能可以实现；接下来构建原理模块，该模块主要分析了这些功能的实现原理是什么，又因为在专利数据和相关的论文数据中包含着新原理和方法，这些原理和方法可以很好地帮助设计者进行相关的产品设计，进而本文基于专利数据和相关的论文数据，通过文本挖掘算法和聚类算法得到实现这个原理的结构；最后把相关的知识推荐给产品的设计者。

3.2 数据驱动的需求—功能—原理—结构映射模型构建技术与方法

3.2.1 消费者需求树模型的构建

该部分的主要内容是基于产品的评论数据构建消费的需求树模型，网络上消费者对产品的评论数据真实反映了消费者使用该产品后内心的一些真实想法，最能体现出消费者对产品的哪些功能持满意态度或者不满意，因此本文通过文本挖掘技术和情感分析技术对产品评论数据进行分析，构建了消费者需求信息模型，如图3所示。

首先运用网络爬虫爬取产品的评论信息，产品的评论信息包括评论的时间和评论的内容，把产品评论信息存放于excel表格中并且按时间顺序进行排列，然后用R语言编写程序对这些评论信息进行数据清理、分词、词性标注和停用词的删除。其次主要是对产品特征词的提取、极性词的提取、产品评价库的构造、情感词典的构造、产品特征极性强度的计算和整条评论信息的极性计算。最后对整个时间段内消费者对产品的情感波动情况进行了分析，并分析了产生波动的主要因素，同时基于社会网络对波动因素的哪些方面评价进行了分析，得到了消费者的需求信息[14]。

一般消费者对产品的评论数据呈现出一种不确定性和动态性的特点，其中不确定性就是指模糊性，因为消费者的评论数据主要是从使用功能去理解，同时对需求的准确程度不能把握，从而使实际需求变得很模糊。消费者的需求心理一方面是经常性变化，另一方面是客户对各种需求之间没有唯一的重点和次要点，也呈现出实时变化性。为此，本文采用客户需求分类树的方法建立面向客户需求分类，客户需求分类树是规范客户需求信息的依据，对客户的各种需求从不同的方面加以分类整理，使之规范化，把由客户表达的需求信息转化为企业可以识别的需求信息，从而更有利于企业与客户之间的数据交换。消费者需求树模型如图4所示。

本文根据其他学者的研究及对产品评论的用词，将客户的需求分为7大类：工业美术性需求、维修性需求、可靠性需求、经济性需求、结构需求、功能需求、性能需求。工业美术性需求是对产品的造型、颜色等方面提出需求；维修性需求包括产品的维修是否方便等；可靠性需求是指产品是否安全可靠；经济需求包括产品的价格等；结构需求包括产品的外形尺寸、密封性等；功能需求是指客户对产品的功能方面所提出的需求，如产品的传动力、承载能力等；性能需求是指产品的物理性能、使用性等，如产品的质量、重量等。

3.2.2 需求—功能映射过程的构建

图3 基于产品评论的消费者需求分析模型

图4 消费者需求树模型

该部分主要是构建客户需求与功能之间的映射关系，以及这种表达方式如何使消费者和工程师都能够更好地理解，既能使客户从需求表达中定制自己的产品，同时又能使工程师根据客户的需求表达对产品进行合理的规划和设计。用户的需求与产品设计的具体操作对象并不相同，需要合理地转化，同时消费者的需求信息往往是从自身角度出发，对产品各方面的综合要求，具有隐藏性、模糊性和动态性的特点。设计人员需要对这些需求进行理解，转化为设计语言，将结果输入到下一阶段，因此在这一部分产品设计师首先需要自己建立消费者需求到功能结构的映射库。首先消费者的需求可能由不同的功能来完成，它是一个一对多的关系，本文基于以前的历史数据，运用关联规则算法来挖掘客户需求和功能之间的映射关系。

定义1BD为历史的数据交易库，BD=＜N,A＞,其中N代表需求信息库，A代表功能信息库，需求到功能的映射关系用关联规则蕴含式Nij⇒Akf来表示，那么有Nij⊆I,Akf⊆I而且Nij∩Akf=φ，表示项集Nij在某一次交易中出现，则导致Akf以某一概率也会出现。设I={i1,i2,…,in}是交易数据库BD中的r个不同项目的组合，每一个交易T都是I中的一组项目集合，全体交易构成了交易数据库等于D交易的个数。

定义2规则Nij⇒Akf在交易数据库BD中的支持度Support指BD中包含Nij和Akf的交易数与BD中包含的交易总数之比，如式（1）所示：

定义3规则Nij⇒Akf在交易数据库BD中的可信度Confidence是指BD中包含Nij和Akf的交易数据与BD中包含Nij的交易数据之比，如式（2）所示：

定义4设定关联规则的最小支持度supmin和最小可信度confmin，寻找支持度和可信度均不小于supmin和confmin的强关联规则Nij⇒Akf。

最后将客户和功能集合之间的关联规则如图5进行描述。在矩阵中的r值可以通过两者有无关联规则来确定，如式（3）所示：

图5 需求—功能的映射过程模型

其中i=1,2,…,m;j=1,2,…,n;k=1,2,…,n;f=1,2,…,n。

3.2.3 功能—原理映射过程的构建

该模块的构建主要是分析实现该功能的主要原理，以及完成该功能所需要的技术方法与手段。该模块主要是在功能模块和结构模块之间建立一个映射桥梁，充分解释最终结构是如何完成该功能的。由于功能与原理之间的关系是一个较为复杂的问题，它们之间的关系是多对多的映射关系，即一种功能可能对应多种原理来实现，而一种原理又可能满足多种功能，因此功能和原理之间的关系本质上是模糊的[15]。本文构建了功能—原理的映射过程。

定义5功能集合Q是产品功能进行分解得到的最小功能单元的有限集合，Q={q1,q2,…,qn}。

定义6原理集合S是实现特定领域某些器械功能的原理集合，S={s1,s2,…,sn}。

定义7A是功能集合Q的一个子集，A={a1,a2,…,an}，为原象集。B是原理集合S的一个子集，B={b1,b2,…,bn}，为象集。A和B之间存在着一定的映射关系A⇔B。

定义8模糊关系矩阵R。模糊关系R一般有两种类型：（1）其元素隶属度以函数形式给出；（2）其隶属度不能用统一的函数描述，R以矩阵的形式给出，称为离散表示。若定义域内元素和值域内元素之间的模糊对应关系有一定规律可循，则R以函数形式给出，否则通过离散的方式表示。本文讨论的功能到原理的映射难以用函数的形式给出模糊关系，因此采用矩阵的形式。R表示功能到原理的映射关系，是一个n×m维的矩阵，rnm为A⇔B的隶属程度。

其中，rnm∈[ ]

0,1。rnm一般由相关领域专家来确定，确定方法如下：通过相关的专家进行打分处理，专家A打分F1，专家B打分F2，专家C打分Fn，Fn∈[0,1]，然后取这几个专家打分的平均数，首先根据工件的输入信息进行功能分析，确定功能集，其中A={a1,a2,…,an},R=Rn×m,B=A*R={b1,b2,…,bn},根据功能与原理的模糊矩阵R和集合A的合成运算生成集合B，最后得到原理映射结果集合B。其中满足一个功能的原理会有很多，可以对rnm设定一个阈值。rnm根据不同的情况设定为不同的值，本文确定rnm的阈值为0.5，对于得到的结果大于或者等于0.5的确定为得到的映射结果。因为rnm采用专家打分的方法，设置0.5这个值，说明专家对这个功能所涉及的原理的相信度已经达到了50%，当然这个阈值可以设置高一点，不同的情况可能采用不同的阈值，最后得到原理集合。

3.2.4 原理—结构映射过程的构建

一些机械产品实现最终的功能往往是由一些若干个子功能组合实现的，这样通过组合的方法得到总体功能的实现叫作方案的组合，形态学结构矩阵是实现方案组合的常用方法之一。首先要把解决的问解分解为若干个子问题，然后对每个子问题进行单独的求解，找出所有可能的技术，然后将每个子问题的各种技术进行组合求解，进而得到多种解决方案，最终选择最优的方案。本文基于形态学结构矩阵构建从原理到结构模块的映射关系，同时运用专利数据得到最终方案的集合。专利中蕴含的知识远多于设计者已知的知识和自身的经验，这些大量的专利知识又往往蕴藏于海量的专利中，因此需要采用技术手段合理地提取专利中的知识，将有利于专利知识在后续创新设计过程中的应用。形态结构矩阵如图6所示。

图6 形态结构矩阵

在形态学结构矩阵中，每个子功能可能有N个解决方案，该形态学结构矩阵就可能有nm个解决方案，这样解决方案就是指数级的增长，最后人工对解决方案的评估将会变得非常困难，因此采用0-1整数的规划方法对评估模型进行优化。对一个功能，假如该专利可以满足其功能就赋值1，如果不能满足就赋值0（若符合一个子功能的专利数没有n个，则其他的赋值0）。

形态结构矩阵是为了实现功能到结构的映射过程，在众多的专利中，能实现某种功能的专利会有很多，因此需要采用技术手段来识别这些相似的专利。本文采用聚类的方法把一些相似的专利聚成一类。

3.2.4.1 专利文本聚类分析模型构建

聚类分析是一种无监督的学习方式，能够从潜在的数据中发现有用的信息，通过聚类将数据分成若干类，使不同类内的数据相似度尽可能小，同一类的数据相似度尽可能大。对专利文本进行聚类，主要是对专利的标题、摘要和说明书这些文本信息进行聚类处理。本文构建了专利文档聚类模型，如图7所示。

3.2.4.2 专利文本聚类分析技术与方法

（1）文档预处理

①分词

原始的文本必须经过预处理，才能形成便于计算机处理的结构化形式，同时可以提高分析的效率和质量。

②停用词过滤

在原始文档中有一些对文档内容识别意义不大但出现频率却很高的词，称之为停用词。这些词在计算相似度时会引入很大的误差，可以看作是一种噪声。

③词性标注

词性标注的目的是给句子中的所有词确定一种词性分类，词性类别包括形容词、动词、名词等，对句子进行词性的标注对信息特征的抽取起着关键的作用。

（2）文档建模

①特征选择

对专利文档进行预处理后首先需要进行特征提取，特征提取是根据一些准则从原始的特征中选取一些子集，这个选中的子集必须保持原有的物理意义，并且使用数据和学习过程更容易理解。目前特征选择的常用方法主要有互信息（MI）、信息增益（IG）、词频（DF）等，这些方法通常是构造一个评价函数，对每个特征进行独立的评估，然后按照特征评估出来的结果进行排序，选择评估结果更为优秀的作为特征。在对特征进行提取后需要对特征相应地赋权重，目前TF-IDF算法是最经典的权重算法，其中TF（Term Frequency）代表词频，IDF（Inverse Document Frequnency）代表反文档频数，其计算公式如下：

其中，tft(d)代表单词t在文档d中出现的次数；maxTF(t)代表单词t在文档数据集各个文档中最大的出现次数；N代表整个文档数据集的文档数；DF(t)代表单词t的文档频数（Document Frequnency，DF）。

②构造特征空间

最后需要把文本信息转变为计算机能够理解和处理的问题，这就需要用数学模型来表示文本。常见的文本表示模型有向量空间模型（Vector Space Model，VSM）、布尔模型（Boolean Model，BM）、概率检索模型（Probabilistic Model，PM）以及后缀模型等。本文使用向量空间模型。

③构造相似矩阵

图7 专利文档聚类模型

聚类是按照样本之间的亲疏远近程度进行聚类的，为了得到较好的聚类结果，需要对样本之间的相似程度进行描述，本文基于Cosine距离函数刻画样本之间的相似性。

（3）聚类处理

在经过文档预处理和文档建模后，基于构造的空间特征向量模型对文档进行聚类分析，本文采用系统聚类的方法，系统聚类也叫多层次聚类，分类的单位由高到低成树形结构，且所处的位置越低，其所包含的对象就越少，但这些对象间的共同特征越多。其基本思想是：先将各样品看成一类，然后规定类与类之间的距离，选择距离最小的一对合并成新的一类，计算新类与其他类之间的距离，再将距离最近的两类合并，这样每次减少一类，直至所有的样品合为一类为止。对于两点之间的距离有多种定义方式，常用的计算方法有绝对值距离、欧氏距离、切比雪夫距离、闵可夫斯基距离、兰氏距离。在R语言中可以用dist()函数完成对上述距离的计算，最常用的是基于欧氏距离。欧氏距离衡量的是空间各点的绝对距离，跟各个点所在的位置坐标直接相关，体现个体数值特征的绝对差异，更多地用于需要从维度的数值大小中体现差异的分析，因此本文采用该方法用于衡量专利样本之间的相似度。用距离衡量样本之间的相似程度之后，下一步是将接近的点合并为一类。在R语言中提供了以下几种方法来衡量类与类之间的距离：离差平方和、最短距离法、最长距离法、中间距离法、重心法。两类间的距离定义为两类重心之间的距离，对样品分类而言，每一类中心就是属于该类样品的均值。本文采用离差平方和的方法，该方法基于方差的思想，同类样品间离差平方和较小，类与类间离差平方和较大，其在实际应用中效果较好。最短距离法是首先合并相近的两项，其缺点是样品之间有链接聚合的趋势。最长距离法用两类之间最远点的距离代表两类之间的距离。中间距离法衡量类间距离是取最长距离和最短距离之间的距离。重心法定义两类间的距离为两类重心之间的距离，对样品分类而言，每一类中心就是属于该样品的均值，但该方法随着聚类不断地缩小，谱系树状图很难跟踪，且符号改变频繁，计算较麻烦。

4 实例验证

通过对数据驱动的产品概念设计创新知识服务模型相关理论进行相关分析后，本文通过相关的实例验证该模型的可行性。首先构建网络爬虫爬取网络上对某款手机的评论信息进行相关的情感分析，然后得到消费者对手机某些特征的情感倾向图，如图8所示。

通过以上情感分析后，可以发现消费者对手机的电池、屏幕和游戏这三方面表现出负面情感，尤其是对电池表现出的负面情感占的比重很大。为了进一步分析消费者对这三方面哪些维度的不满，本文通过构建共现矩阵，运用社会网络分析法对共现矩阵进行可视化分析，如图9所示。

通过以上分析可知，消费者对手机电池的发热、屏幕失灵和游戏的性能等方面表现出不满意，这也是消费者需求的方面；然后构建消费者的需求树进一步明确消费者对这几方面的需求都是在性能需求方面。接着构建消费者需求—功能—原理—结构的映射过程。首先基于消费者的需求信息构建需求—功能的映射过程。该过程基于以前的历史交易数据，运用关联规则算法得到需求—功能的映射过程。编写代码得到如下关联规则，由于大小原因，本文只展示其中一部分，如图10所示。

如图10所示，在历史数据库中，手机a需求选择b功能和c功能的概率都是71.42857%，那么就可以知道b功能和c功能可以完成a需求。因此基于历史数据，运用关联规则算法构建了需求—功能的映射过程，如表1所示。

进而基于模糊矩阵构建功能—原理的映射过程，得到满足该功能的基本原理，本文挑选了满足需求的一种功能进行了验证，如表2所示。

满足一个功能的原理有很多，本文选择满足功能的权值最大的原理。然后爬取相关的专利信息经过文本挖掘后进行聚类分析得到文本的聚类图，为了表达方便，本文把专利数据进行了如图11的展示。

然后通过形态学结构矩阵得到最终的方案集合，因为矩阵大小的原因只展示其中的一部分，如表3所示。

最后通过组合得到方案的集合，如表4所示。表4中不同方案里面的数字编号代表不同的专利方案的组合信息，把这些方案组合信息推荐给产品的设计者，辅助设计师在设计过程中做出决策。

图8 手机特征情感倾向图

图9 共现矩阵可视化分析

表1 需求—功能的映射过程

表2 功能—原理的映射过程

表3 形态结构矩阵

图11 专利文本聚类图

表4 方案集合

5 总结

本文基于产品评论数据、专利数据等其他数据构建了数据驱动的产品概念设计创新知识服务模型。首先基于产品的评论数据构建了消费者的需求模型，然后构建了需求—功能的映射过程、功能—原理的映射过程和原理—结构的映射过程，最后得到相关的解决方案推荐给产品的设计者，进而提高产品设计的效率和企业的创新能力。