基于大数据和粗糙集的产品需求分析方法研究

2017-01-05 07:12司光耀李文强

工程设计学报 2016年6期

关键词：字段粗糙集权重

司光耀，王凯，李文强，李彦，牟亮

(四川大学制造科学与工程学院，四川成都 610065)

基于大数据和粗糙集的产品需求分析方法研究

司光耀，王凯，李文强，李彦，牟亮

(四川大学制造科学与工程学院，四川成都 610065)

随着产品互联网时代的到来，针对传统产品设计需求的获取方法单一、实时性差、主观性过强等问题，提出了一种基于大数据分析和粗糙集理论的产品需求分析方法.采用网路爬虫技术，实时获取存在于多种信息载体中的大体量用户需求；利用大数据分析工具和粗糙集获取不同语义层次的用户需求类型的权重，并通过质量功能配置(quality function deployment， QFD)质量屋将用户需求转换为相应的工程设计参数，从而为准确获取反映用户需求的产品设计方向提供依据.以三星手机Galaxy S6 Edge为例，通过对该款手机在微博和京东商城的产品用户评论等数据进行大数据分析，并结合粗糙集理论的用户需求计算方法，验证了提出方法的有效性.

互联网；需求分析；大数据；粗糙集； QFD

随着互联网时代和经济全球化的到来，用户需求变化迅速，产品创新设计已成为企业提高市场竞争力的最有效手段.其中需求分析是产品创新设计的前提和基础，其实施的时效性和准确性对产品创新设计意义重大.需求分析过程包含2个重要方面：用户需求获取和需求权重计算.

传统用户需求获取方式由于获取手段的落后，具有主观导向性强、缺乏个体性、成本较高等弊端，已越来越难以满足现代产品设计的需求.近年来，伴随信息技术的发展，基于数据仓库的用户需求获取方法得到了广泛应用[1-3].数据仓库是基于数学及统计学的严谨逻辑思维，并以“科学判断有效行为”为目标的技术系统.这种方法相对于传统方式有了显著的改进，但也存在以下问题：1)数据仓库需要提前对原始数据进行严格的处理、筛选；2)工作人员需要随时守候在工作岗位上，工作繁琐，实效性差；3)数据仓库分析需要昂贵的硬件，经济性差.

在用户需求权重确定方面，目前常用的方法主要包括主观赋权法与客观赋权法[4].主观赋权法的缺点在于耗时较多且具有一定的盲目性，而客观赋权法是在充分利用原始数据基础上计算权重，具有较好的客观性.粗糙集[5]理论作为客观赋权法的一种，其通过已知信息库的上下近似集合来描述，不需要提供先验信息，更具客观性.

因此，本文基于用户需求分析在产品创新设计过程中的重要作用，以及目前在用户需求获取和权重确定方面存在的主观性强和难于客观计算等问题，将大数据分析技术[6]与粗糙集理论相结合，通过大数据处理使用户需求获取更加高效和准确，通过粗糙集理论使权重计算更具客观性，形成一种基于大数据分析和粗糙集理论的产品需求分析方法，方法框架如图1所示.

图1 基于大数据分析和粗糙集理论的产品需求分析方法Fig.1 Product requirement analysis method based on Big Data and rough set

该方法包括2个主要阶段：一是基于大数据的用户需求获取与处理，对多种数据源采用相应的爬取手段获得所需原始数据，再通过大数据处理获取用户需求；二是基于粗糙集的用户需求指标计算，通过粗糙集理论计算出用户需求权重，再利用QFD质量屋将其转化为产品设计参数，从而为产品创新设计提供准确方向.

1 基于大数据的用户需求获取与处理

大数据集是指具有如下特点的数据集合[7]：数据体量特别大，一般在10 TB，很多企业的实际操作量已经达到了PB级；数据类别特别多，既包括了结构化数据，也包含半结构化和非结构化数据；数据处理速度特别快，在数据量很大的情况下，还需做到对数据的实时处理；数据真实性特别高，一般这样的数据集无法用传统数据库工具对其内容进行获取、管理和处理.本文基于大数据获取与处理技术，结合需求相似性，提出了一种基于大数据的用户需求获取与整理方法，如图2所示.

图2 基于大数据的用户需求获取与整理方法Fig.2 User requirements acquisition and processing method based on Big Data

该方法包含2个主要阶段：一是基于大数据的用户需求获取，根据数据源的不同，采用相应的工具和手段爬取用户需求数据，并保存为CSV文件；二是基于大数据的用户需求处理，将爬取到的用户需求数据上载到大数据软件中，经过字段筛选和需求整理，最后形成规范的用户需求.

1.1 基于大数据的用户需求获取

为了保证分析结果的可靠性，获取无干扰条件下的用户需求，是保证需求分析准确性的前提.目前，越来越多的产品用户会通过网络表达自己对产品的看法，其中绝大多数产品评论是自发的、无目的性的需求表达，所以可以认为网络上的用户评论是产品用户在无干扰条件下作出的可靠数据.想要爬取网络上的用户评论数据，可以采用各种搜索引擎，如：微博搜索、网页搜索、博客空间等.为了保证数据源的多样性，本文同时采用网页搜索爬取商务网站数据和微博搜索爬取社交网站数据.网页搜索可以通过工具编辑爬虫程序爬取网页数据，例如Python(一种面向对象、解释型计算机程序设计语言)脚本解释器.通过引入程序中需要使用的模块，找到需要爬取数据网址的URL(uniform resourcel locator, 统一资源定位器)，进行数据爬取.微博搜索可以应用微博分析工具，进入产品的官方微博，对有关话题进行可视化分析，就可以得到用户信息、评论、评价星级等数据.将微博可视化分析工具爬取下来的用户数据保存为一个CSV文件，就获得了数据源.

1.2 基于大数据的用户需求处理

针对爬取到的大量数据集合，需要对其进行预处理并形成规范数据，大数据预处理工具包括Hadoop[8]，Splunk[9]和Hpcc等，本文选择Splunk软件对获取的原始大数据进行数据预处理.具体处理过程如下：

1)建立大数据索引属性.将爬取到的CSV文件上载到Splunk中：通过建立索引属性，用建立的索引属性指示爬取到CSV数据文件，上载CSV文件就可以显示出来.Splunk通过分析上载文件，选择一些在事件中频繁出现的字段作为Splunk所谓的感兴趣字段.

2)提取有用字段并进行分类.由于用户的评价信息是模糊的自然语言，Splunk给出的字段未必有用，例如：快递、服务态度等，这些字段与产品自身的技术特征无关，所以对用户需求分析来说为无用字段，经过筛选或自主定义后，获取有用字段.在保留的有用字段中，提取具有相同意思的字段，将其划分为一类，例如在字段中出现了“热”和“烫”两个不同字段，但其实质表示的都是电池发热问题，所以这2种字段所包含的评论都可以归类为“电池散热不好”.根据这种方法，将模糊的用户评论进行需求陈述，转换为简洁直白的用户需求，如表1所示，将一款手机的顾客陈述转换为用户对产品功能的需求陈述.

表1 某手机用户评论与需求陈述的转换

Table 1 Transformation of user comments and requirement statements for a certain mobile phone

用户评论需求陈述没太多期待,就那个屏幕就觉得丑了屏幕外观有待改进感觉屏幕好容易碎屏幕强度不够

3)组合有用字段并计算关注度.为了更加直观地表示经过需求陈述后的用户需求所包含评论的条数，可以将字段进行组合，例如上述的“热”和“烫”字段组合为一个新字段“电池散热不好”.通过分析这些组合后的字段所包含评价的条数(或其所占总条数的百分比)以及用户评论中所体现的满意程度，可以判定用户对产品的哪些方面比较关注和感兴趣，以及该产品在这些方面的性能表现.基于处理过的用户需求，要将其转化为设计问题并安排优先次序，确定各用户需求的指标权重是重要环节.

2 基于粗糙集与QFD质量屋的技术特征权重计算

粗糙集理论是一种数据分析处理理论，由于其充分利用了原始数据，其处理结果具有较好的客观性.本文根据粗糙集理论的特性，对用户需求进行赋权计算，并通过QFD质量屋将用户需求转换为确定的设计问题，获得最佳的产品创新方向，如图3所示.

图3 基于粗糙集的用户需求指标权重计算过程Fig.3 Weight calculation process of user’s requirement index based on rough set

该过程主要分为3个步骤：一是根据粗糙集理论和大数据分析后的用户数据，列出用户满意度决策表，计算出用户需求权重；二是通过QFD质量屋进行需求和技术特征之间的转换，列出技术特征与需求之间的关系矩阵；三是将关系矩阵与需求权重相结合，计算出技术特征权重，进而明确产品创新方向.

2.1 基于粗糙集的用户需求权重计算

基于粗糙集[10]的权重计算:首先确定m项顾客需求Ci(i=1，2，…，m)，选择n位顾客Uj(j=1，2，…，n)，对每位顾客的需求进行重要度评价，将结果分为很重要、重要、不重要三个等级，以分值来表示，分别记为5，3，1.针对相同的一批顾客对产品的满意度D进行评价，满意度的评价方式同重要度评价一样，也采用等级评价的方式，把结果分为很满意、满意、不满意三个等级，分别记为3，2，1.用顾客需求C代表决策表的条件属性集C，顾客满意度D代表决策属性集D，则可以构建用户满意度决策表，根据决策属性表，将条件属性集C导出等价类为IND(C)，将决策属性集D导出等价类为IND(D)，其中IND表示二元不可区分.则可将条件属性集C划分为m1项，即IND(C)={C1，C2，…，Cm1}；将决策属性集划分为m2项，即IND(D)={D1，D2，…，Dm2}.

则定义粗糙集中D的C正域为

POSC(D)=IND(C)∩IND(D)，

(1)

定义D对C的依赖程度为

(2)

其中|POSC(D)|和|U|表示其集合中所含元素的个数.rC(D)度量了将条件属性集C划入决策属性集D的数量，其值越大表明D对C的依赖程度越高.为了计算条件属性集中需求Ci的重要度，可以从条件属性集中去掉Ci，计算出的依赖程度记为rC-Ci(D),将其与rC(D)的差值记为依赖程度的变化幅度,若变化幅度大，则说明Ci的重要度高，反之则小.

可定义Ci∈C关于D的重要性为

(3)

则Ci的权重为

(4)

2.2 基于QFD质量屋的需求转换

QFD是以市场为导向，以用户需求为产品开发依据的一种多层次演绎分析方法，也是联系用户需求与技术特征结构的工具.首先构建质量屋的基本构架，再输入用户需求信息，通过分析评价得到输出信息，实现需求的转化.产品创新阶段的质量屋如图4所示.

图4 产品创新阶段的质量屋Fig.4 The quality house of product innovation stage

通过质量屋，将用户需求(A)对应得出相应的工程特性(B).为表示各个工程特性项与各个市场用户需求项之间错综复杂的关系(D)，以数值来定量表示：记强相关为9，表示要满足该项用户需求必须具备此项工程特性；记一般相关为3，表示要满足该项用户需求可以采用不同的工程特性；记弱相关为1，表示该项用户需求与此项工程特性的关系很弱.

2.3 技术特征权重计算

通过加权求和计算技术特征绝对权重

(6)

进而可以计算技术特征相对权重

(7)

2.4 结果分析

3 应用实例

以Galaxy S6 Edge手机为例，展示本文提出的产品需求分析方法的具体实施过程.

3.1 基于大数据的用户需求获取与整理

分别应用Python以网页搜索的方式爬取京东商城的S6用户评论数据，以微博可视化分析爬取微博用户关于S6的评论.以微博用户数据为例，其分析过程如下：

首先将数据载入Splunk.

1)将采集到的CSV文件上载到Splunk中.

2)建立索引为GalaxyEdge.

3)在搜索栏输入index=“GalaxyEdge”，则可出现上载的数据.

将文件成功导入Splunk后进入Splunk搜索应用(search & reporting)，可以看到该应用程序的左侧栏处显示的默认字段和一些附加字段，即Splunk所谓的感兴趣的字段.通过特定的索引，出现在50%或超过50%的事件中，会被定义为字段.在所有字段中寻找一些可以用来作需求分析的字段，如：text表示用户评论，comments_count表示微博的评论数，id表示微博的id，clientip表示发送微博作者的ip地址.单击“text”字段，在弹出的对话框中会显示其中的分类字段值，这里的值是一些对应的微博评论.如图5，Splunk默认显示排名前10的值.在字段值中可以看出最多的评论是“转发微博”，有1 700多条，可见大部分人在关于话题#S6 Edge真的来了#中并未发表自己的看法，而仅仅是转发该微博供他人阅读.由于“转发微博”这个字段与分析用户需求无关，但该字段值的数量又很多，可利用Splunk手动选择将包含该字段的事件删除，命令如下：

index="GalaxyEage" text!="转发微博"

图5 表示S6手机用户评论的“text”字段的值Fig.5 Value of the field “text” representing the user comment of S6 mobile phone

首先，代表用户评论的字段是text，它包括的是一条条评论及字符串，希望在评论中抓取与产品设计相关的要素，如：屏幕、分辨率、摄像头、耗电量、散热、系统流畅度、手感等.

使用makemv命令，其作用是提取一个字段，默认空格为分隔符并把该字段分解为多值字段.

Splunk把所有东西都看作事件，使用mvexpand命令把多值字段的每个值转变为一个单独的事件.但这样做对分析来说没有意义，因为它仅仅是把一条条的评论拆成一个个字符.接着使用match函数，例如:match(text，“屏幕”)，该函数会在text字段中匹配出所有包含字符串“屏幕”的评论.挖掘要素的命令可整合为如下一段完整的命令:

index="GalaxyEdge" sourcetype="csv" | makemv text | mvexpand text |

eval hashtags=mvfilter(match(text，"屏幕+")) | stats count by hashtags

这里使用eval命令的作用是计算表达式的值并将其存储在一个新字段里.将提取的数据装入hashtags中，并统计该字段.

统计的部分结果如图6，如果想看到有多少关于“屏幕”的评论，需要将以上一条命令的结果作为输入，并加入命令：

addcoltotals labelfield=Total label=ALLcomment

addcoltotals命令允许生成一个包含汇总信息的新事件Total，这个事件用以计算已有事件的总数.标签名由用户自己赋值，这里将其赋值为ALLcomment.

最后得到关于“屏幕”的评论为28条.提取出其中对产品设计有帮助的评断，并通过需求陈述将这些模糊的用户语言转换为简明的用户需求.将各项用户需求用仪表盘的形式表示，如图7所示，每种颜色(灰度)对应一条用户评论，评论数目越多，则表盘的颜色(灰度)越多，说明用户对此项需求的关注度越高.

图7 用户参数仪表盘表示的某手机用户需求Fig.7 The user needs of a certain mobile phone expressed by user parameters of the instrument panel

为了保证数据源的多样性，同样爬取京东商城关于三星手机Galaxy S6 Edge的用户评论情况，共获得11 580条用户评论，经统计，可得出12项用户需求，如表2所示.

表2 S6手机各项用户需求评价数目统计

Table 2 Statistics of the comment number of each user demand about S6 mobile phone

用户需求微博用户需求评价数目/条京东用户需求评论数目/条1.手机外形美观673302.强度高26283.功能多334.价格适宜524025.信息安全28386.电池耐用1115777.按键做工良好19408.摄像功能好49589.手感舒适112310.老年人专用6211.使用安全5812.系统流畅851340

选择出评价数目较多的前5项(数目越多表示用户越重视，分析价值越高)，如表3所示.

表3 5项评价数目较多的用户需求

3.2 基于粗糙集的需求权重计算

本文的数据源有2个：京东用户评论和微博用户评论，因两者的数据量不同，应分别计算两者的需求权重，并进行赋权.以微博用户评论为例进行计算.

经统计，对所选5项用户需求提出评价的用户数目为297人(微博用户评价数目的总条数为364条，这是因为部分用户同时对5项需求中的多项进行了评价)，其中总的好评数为143条，中评数为89条，差评数为65条，可以发现这个比例与京东网站的评价比例极为不符，这是因为数据是处理过的，减少了商家通过某些商业手段得到的无效评价的影响，也摒除了用户对快递、服务等非产品本身工程特性的评价.

为了使计算简洁，将其简化为20名顾客的产品顾客满意度决策表，如表4所示.以手机外形美观为例，该需求的评价总数目为67条，其中好评有49条，中评有15条，差评有2条，按照比例缩减为好评14人，中评5人，差评1人.以好评为例，缩减方式为：选择3到4人为一组，按照时间顺序排列(按照时间顺序组合用户是因为用户对产品的观点可能受到同时期其他产品或环境等因素的影响，评价时间越接近的用户受到这些因素的影响越小，组合也就更有说服力).计算之前爬取到的用户评价星级的均值，将数值1～2.5定位为重要，2.6～4.5定位为一般，4.6～5定位为不重要，根据2.1节中重要度分级方式，分别记为5，3，1，并将好评记为3，中评记为2，差评记为1，按比例分配，满意度为3的有9人，为2的有6人，为1的有5人.

表4 顾客满意度决策表

以需求C1为例，根据公式(3)、(4)计算其需求权重：

同理，求得京东用户需求权重为：q′1=0.193，q′2=0.244，q′3=0.083，q′4=0.184，q′5=0.297.

微博评论条数为1 700条，京东用户评论条数为11 580条，依据各需求占2种数据源评论条数的百分比进行赋权，各项需求权重为：

q″2=0.221，q″3=0.111，q″4=0.230，q″5=0.275.

3.3 基于QFD质量屋的技术特征权重计算

进行需求转换，将用户需求转换为对应的工程特性，但这种对应关系并非一一映射，而是多相关性映射关系.微博评论者的某个需求可能对应若干的工程特征要求，同样的某个特征要求可能满足多个微博评论者提出的需求.由此构成局部的Galaxy S6 Edge产品规划质量屋，构建质量屋如图8所示.

图8 S6手机创新阶段质量屋Fig.8 Innovation stage quality house of S6 mobile phone

在生成的质量功能屋中，不可避免地会发生各种冲突：工程特征间的技术冲突、质量和成本的冲突、各个用户需求的冲突和功能间的冲突.这些冲突需要设计师规划解决.当然，凭借质量功能屋，可以完成从用户需求到相应功能指标的转换，转换时参考客户基准评价从而确定更有价值的技术特征创新方向.具体步骤如下：

步骤1：根据质量屋列出用户需求与技术特征的关系矩阵.

步骤2：计算各项设计特征的绝对权重wj.

步骤3：计算各项技术特征的相对权重Mj.

根据计算结果，技术特征权重由大到小依次是系统设计、电池设计、成本控制、外形设计、内置摄像头性能，这5个技术特征中系统设计、电池设计、成本控制权重明显高于其他两项，说明这3项没有达到用户预期，急需改进.内置摄像头性能和外形设计权重偏低，说明S6的这2项在同类产品中有一定的优势，改进的急切程度不高.所以，我们可以得出S6的后续设计需要围绕系统、电池、成本来进行，并且这3项中系统流畅度提升要优先进行，成本控制可最后考虑.

4 总结

本文根据大数据和粗糙集理论，提出了一种基于大数据分析和粗糙集理论的产品需求分析方法，该方法具有如下特点：一是基于大数据技术，完全应用数据全体，排除了小数据时代过多依靠抽样分析、问卷调查等手段引入的人为主观引导和误差；二是以粗糙集理论为基础，结合QFD理论，计算产品各项技术特征权重，最后，根据权重数值的大小，准确反映产品潜在改进方向.

[1] 孙伟，马沁怡，刘晓冰.基于设计仓库的产品需求获取与处理方法研究[J]. 计算机集成制造系统，2003，9(8):686-690． SUN Wei， MA Qin-yi， LIU Xiao-bing. A method of product requirements acquisition and processing based on design repository [J]. Computer Integrated Manufacturing Systems，2003，9(8): 686-690．

[2] 郭伟，胡明艳.基于Web源的用户需求获取及分析方法 [J]. 计算机集成制造系统，2004，10(9):1165-1170． GUO Wei， HU Ming-yan. Methodology of exploring and analyzing the VOC based on extensive Web data source [J]. Computer Integrated Manufacturing Systems，2004，10(9):1165-1170．

[3] SUNG M B，SUNG H H，SUNG C P. A Web-based system for analyzing the voices of call center customers in the service industry [J].Expert Systems with Applications，2005，28(1):29-41．

[4] 王靖，张金锁.综合评价中确定权重向量的几种方法比较 [J].河北工业大学学报，2001，30(2):52-57． WANG Jing，ZHANG Jin-suo.Comparing several methods of assuring weight vector in synthetical evaluation [J]. Journal of Hebei University of Technology，2001，30(2):52-57．

[5] 李延来，唐加福，蒲云，等.质量功能展开中顾客需求的排序算法[J].计算机集成制造系统，2007，13(6):1196-1203, 1240． LI Yan-lai，TANG Jia-fu，PU Yun，et al.Sorting algorithm of customer requirements in quality function deployment[J].Computer Integrated Manufacturing Systems，2007，13(6):1196-1203, 1240．

[6] 李学龙，龚海刚.大数据系统综述 [J].中国科学(信息科学)，2015，45(1):1-44． LI Xue-long，GONG Hai-gang. A survey on big data systems [J]. Scientia Sinica(Informations)，2015，45(1):1-44.

[7] VIKTOR M S，KENNETH C.大数据时代(生活、工作与思维的大变革)[M] .盛杨燕，周涛，译.杭州：浙江人民出版社，2013: 27-45． VIKTOR M S，KENNETH C.Big Data(A revolution that will transform how we live， work and think)[M]. Translated by SHENG Yang-yan, ZHOU Tao. Hangzhou: Zhejiang People’s Publishing House，2013: 27-45．

[8] JIANGTAO Y， YONG L， MARIO B，et al. GOM-Hadoop: A distributed framework for efficient analytics on ordered datasets[J]. Journal of Parallel and Distributed Computing， 2015，83:58-69．

[9] ZADROZNY P， KODALI R. Splunk.大数据分析[M].唐宏，陈建，译.北京:机械工业出版社，2014: 29-80． ZADROZNY P，KODALI R.Big data analytics using Splunk[M]. Translated by TANG Hong, CHEN Jian. Beijing:China Machine Press，2014: 29-80．

[10] 陆佳圆，冯毅雄，谭建荣，等.产品顾客需求权重的动态趋势预测与分析[J].计算机集成制造系统，2011，17(10):2129-2136. LU Jia-yuan，FENG Yi-xiong，TAN Jian-rong, et al. Prediction and analysis for dynamic trend of customer requirements weight on product[J].Computer Integrated Manufacturing Systems，2011，17(10):2129-2136．

Research on product demand analysis method based on Big Data and rough set

SI Guang-yao， WANG Kai， LI Wen-qiang， LI Yan， MOU Liang

(School of Manufacturing Science & Engineering， Sichuan University， Chengdu 610065， China)

Traditional product design method has many problems on requirements elicitation， such as unitary method, poor timeless and strong subjectivity. So a method of product requirements analysis based on Big Data and rough set was put forward. By the web crawler technology， designer could real-time acquire vast and unstructured product requirements in a variety of information carrier. By the Big Data analytic tool and rough set, the types of different semantic user requirements could be acquired. By the house of quality, product requirements were converted to the corresponding engineering design parameters, thus making sure the direction of product design was right. In addition， taking the “Galaxy S6 Edge” for example， by the Big Data analysis of this mobile phone’s user comments in micro-blogging and Jingdong MALL and the using of user requirements calculation method based on rough set， the effectiveness of the proposed method is verified．

internet; demand analysis; Big Data; rough set； QFD

2016-08-05.

本刊网址·在线期刊：http://www.zjujournals.com/gcsjxb

国家自然科学基金资助项目(51435011,51505309)；科技部创新方法工作专项(2013IM030500).

司光耀(1990—)，男，黑龙江哈尔滨人，硕士生，从事大数据技术在产品创新设计中的应用研究，E-mail：1780452857@qq.com.http://orcid.org//0000-0001-6211-1476 通信联系人：王凯(1982—)，男，四川成都人，讲师，博士，从事产品创新设计等研究，E-mai: kai.wang@sun.edu.cn.

10.3785/j.issn. 1006-754X.2016.06.001

TH 122

1006-754X(2016)06-0521-09

基于大数据和粗糙集的产品需求分析方法研究

1 基于大数据的用户需求获取与处理

2 基于粗糙集与QFD质量屋的技术特征权重计算

3 应用实例

4 总 结

4 总结