在线评论的产品缺陷识别方法

2017-12-06 18:11张玉红闫相斌

黑龙江科技大学学报 2017年6期

关键词：分类器聚类分类

刘丹，张玉红，闫相斌

(哈尔滨工业大学经济与管理学院, 哈尔滨 150001)

在线评论的产品缺陷识别方法

刘丹，张玉红，闫相斌

(哈尔滨工业大学经济与管理学院, 哈尔滨 150001)

为了从互联网环境下的用户评论中分析企业产品的缺陷，利用半监督分类中基于分歧的Co-forest算法对用户关于产品的评论进行文本分类，对Co-forest算法识别出的缺陷评论再基于主题模型BTM算法进行缺陷主题聚类，得到缺陷主题、主题描述详情及占比。以某品牌的一款畅销除湿机为例，对京东网站的评论进行相关研究。研究结果表明：Co-forest算法在基于在线评论的缺陷识别分类上相对于以往研究所采用有监督分类以及半监督分类Tri-training方法具有更高的性能。

缺陷识别；在线评论；半监督分类；主题聚类；除湿机

0 引言

随着市场经济的疾速兴起，各企业间竞争与博弈日渐猛烈，产品品质对于企业的重要性日益分明，企业想要保持长期稳定的发展，需要不停地努力提升其产品品质。目前国内外对互联网在线评论识别产品缺陷的研究比较少，现有的互联网环境下在线评论的产品缺陷识别研究多数是英文语境。对互联网在线评论的文本数据挖掘最核心的内容是选择文本特征，英文环境下特征研究在中文环境下研究并不适用。国外研究表明：对在线评论的产品缺陷识别研究中基于负面情绪判断产品缺陷具有一些不足，原因是有的关于产品的负面评论与产品缺陷无关，只是体现了用户个人的负面情绪[1]。

笔者在考虑互联网具有的独特特征对用户评论产生的影响后，以之前有学者提出的社交媒体分析框架[2]为基础，对现有的中文环境下产品缺陷识别模型中有监督学习方法人工标注效率低，以及半监督学习基于分歧的Tri-training[3]分类算法性能不够好的问题进行改进，提出使用Co-forest[4]半监督学习分类算法，较之前研究产品缺陷的分类方法具有较高的算法准确率和召回率，对中文环境下网络评论下进行企业产品缺陷识别研究分类效果有一定的借鉴价值。Co-forest算法识别出的缺陷评论再基于主题模型BTM[5]算法进行缺陷主题聚类，得到缺陷主题、主题描述详情及占比，缺陷主题聚类结果可直接为企业产品研究人员决策时使用。

1 识别框架

文中获取的产品缺陷是用户发表在社会媒体的在线评论、对产品的正常使用产生影响的严重问题或者故障，以及会影响用户满意度的产品缺陷。要实现基于在线评论的产品缺陷识别，并将这些产品缺陷呈现给企业人员，方便企业人员及时决策进行产品改进，可分为数据采集、产品缺陷分类算法、产品缺陷主题聚类三个阶段。

第一阶段数据准备。可将数据准备再具体划为三个下属模块：采集数据，根据Java抓取程序得到京东产品评论的原始数据；数据清洗去噪，对获取的用户评论首先筛掉不包含中文的无效评论，下一步对筛选后的产品评论进行文本预处理，如文本分词、去停用词等操作，文中的文本分词采用哈尔滨工业大学研究的语言云平台LTP；人工标记环节，将筛选后的产品评论进行人工标注，当作企业产品缺陷识别模型中分类器的训练样本数据和待测样本数据。

第二阶段基于在线评论的产品缺陷识别文本分类模块。作为本文的核心阶段，具体过程包括文本特征提取、文本向量化，构建产品缺陷分类模型并将产品缺陷分类模型应用于测试评论数据进行产品缺陷的识别，从而验证模型的有效性，再将分类得到的含有缺陷的产品评论进入下一阶段。

文本体征提取就是要找到文本中附带信息价值高的若干词语或单字，然后将这些若干词语或单字转换成文本特征向量来表示文本本身所体现的含义。目前学者专家们在进行文本特征提取时，主要采取的文本特征提取方法有四种方法。第一种信息增益，是目前产品缺陷识别研究经常使用的一种方法，也是本文所选取的方法；第二种是互信息方法；第三种是期望交叉熵方法；第四种是利用卡方来计算。另外，在文本特征提取中采用词频-逆文档频率法(TF-IDF)来计算产品缺陷识别中文本特征权重。根据信息增益TF-IDF得到文本特征向量后，分别使用决策树J和支持向量机两种分类方法和半监督分类中Tri-Training和Co-forest算法进行文本分类，从用户评论中得到含产品缺陷的用户评论。

半监督学习主要围绕怎么能更好地运用未标记样本帮助分类器训练模型。根据运用各种方式处理无标记数据，可将半监督学习划分为四类：基于生成式模型、基于低密度划分、基于图以及基于分歧[6]。文中所要解决的问题是中文环境下产品评论的缺陷识别，采用基于分歧的半监督分类方法。

半监督分类专家学者们通过大量的分析与实验提出了不同于标准协同的改进方法[7]。由于协同训练中指定了分类器类型，同时在无标记样本的标注流程以及挑选文本分类器的预测过程中反复地运用十倍交叉验证让分类消耗时间较长。为了解决十倍交叉验证时间开销过大的问题，三体训练法 (Tri-training)根据单视图样本数据集生成三个不同的文本分类器，将三个分类器以少数服从多数来的原则生成伪标注数据，当两个分类器对一个未数据归为正向数据，而第三个分类器归为反向，则此样本被标注为伪标注正向数据成为第三个分类器的训练数据。半监督分类Tri-training算法使用三个文本分类器，其结果会受到没有考虑原始数据集的差异及由此训练产生的原始分类器的差异。为了更好地减少这种影响，使用基于分歧的半监督分类Co-forest算法，不强制规定样本集有充分冗余视图来进行文本分类，而是利用集成学习计算无标注样本的标注可信度，避免十倍交叉验证这种消耗时间特别多的方法。半监督学习Co-forest方法还扩大了样本训练器的数量，通过多种差异引入来避免分类器学习早熟。

第三阶段产品缺陷主题聚类阶段。上一步骤中得到根据缺陷分类模型筛选后的待测评论，交付给缺陷主题聚类模型处理，从而获得多个产品缺陷主题以及对应缺陷详情及占比。主题聚类算法中，目前常用的有LDA[8]主题聚类，这种聚类算法可以对包括多个主题的评论进行聚类，但LDA算法主要在长文本方面的效果较佳，而由于京东评论属于短文本，针对短文本所具有的稀疏特点，LDA主题算法的聚类效果并不是很理想，故文中应用基于BTM主题建模的方式对包含缺陷的评论聚类。BTM算法是在2013年，由Xiaohui Yan等提出的主题模型聚类算法，该算法模型在短文本上的聚类表现比较理想，而在长文本方面聚类的情况也与LDA算法不相上下。BTM算法综合了LDA和一元混合模型的优点，根据文本中包含的词语组合建立主题模型，词语组合与主题服从狄里克雷分布，词语与主题服从多项式分布。

2 缺陷识别模型的算法实现

2.1文本特征集

基于上述分析，参考张嵩等[9]提出的进行改进后SMART方法框架，构建基于在线评论的产品缺陷识别框架的文本特征集，包含特殊条目特征、产品的特征、语义特征。

对于SMART方法框架中的情感特征，在之前的相关研究中，当进行产品缺陷判定时，可通过情感分析的方法来判定用户评价中所具有明显和隐晦的情感趋势，再依据产品各方面的整体情感程度来判定出产品是否有缺陷，但此方法的条件是依据有极强负向情感趋势的产品评论可以表示产品有故障，但是，有学术研究显示同样的情感词在各种场景所体现的情感程度有差异[10]。上述实验是在英文语境下进行，而在中文社会媒体的环境下，由于语言特性、用户表达习惯、产品所具有差异性等多方面的不同，该结论需要在中文环境根据产品进一步验证，验证情感特征是否适用于产品缺陷识别的文本特征提取。对此本文进行了预实验，验证情感特征在中文在线评论下产品缺陷识别过程中的适用性。

预实验数据是来自京东商城上某品牌畅销的一款除湿机的评论，从这些评论中随机选取400条含缺陷的评论和400条不含缺陷的评论。在对评论分词，去停用词等预处理操作后，使用基于情感词典的方式对800条产品评论进行情感分析预实验。文本特征预实验中情感极性的算法是张成功[11]关于情感极性的算法，其算法是先分别算出用户的产品评论中的每个句子的总极性强度。而该条产品评论的总极性强度是依据句子中的各极性短语的强度，通过把各句子的极性强度求和得到的。

经过上述预实验情感分析极性强度的计算，可以得到情感分析预实验结果，见表1。从表1可分析出，在所有的产品评论中，含有产品缺陷的评论中负面评论小于30%，而非缺陷评论即未包含产品缺陷的评论中仍有10%负面评论，如果以负面评论作为判断产品评论为产品缺陷评论的依据，将有70%的缺陷评论不能被识别到，造成大量的缺陷评论未能被发现，并且情感倾向为负面的评论中缺陷评论不到80%。预实验结果证明情感特征在中文环境下社交媒体在线评论的产品缺陷识别问题中采用情感特征效果并不是太理想，故文中的文本特征集中不加入情感特征。文中的文本特征集为特殊条目、产品特征、语义特征，参考之前学者的研究，使用信息增益的方法提取产品特征，并向文本特征集中加入产品的特殊特征和语义特征。根据TF-IDF方法计算文本特征权重，并用空间文本向量的方法表示产品缺陷文本，进行产品缺陷分类和产品缺陷主题聚类。

表1情感分析预实验结果

Table1Preliminaryexperimentalresultsofsentimentanalysis

正面评论中性评论负面评论缺陷评论36．25%34%29．75%非缺陷评论60．5%30%9．50%

2.2文本分类算法

一般来说，有监督学习文本分类为了生成高精度的文本分类器要求非常多的标注人员参与样本数据标记工作。而在互联网大数据条件下，由于网络评论内容的表现方式多种多样，产生的无标记数据量也十分庞大，给人工标注工作也造成了很多困难。在人工参与标记样本的成本相对比较大的情况下，半监督学习分类就有了存在的价值。而半监督分类中最具代表性的协同训练需要样本有着充分视图的数据集合，而现有样本集合又很难满足上述规定。而半监督学习分类算法中的三体训练法 (Tri-training)，分类结果会受到没有考虑初始数据集的差异及由此训练产生的初始分类器的差异的影响，为了更好地减少这种影响，文中采用的半监督分类中Co-forest算法使用集成方法得到未标注样本的标注置信度，同时增加了分类器的数量，这样可以更好地展现集成学习所带来的好处，并且对未标注样本数据的标注置信度的计算也会更加精准，以此弱化干扰样本给分类器带来的消极作用，得到更佳的分类效果。

Co-forest算法伪代码[12]如下：

输入内容

有标注样本集合Lable

无标注样本集合ULable

Hi代表不含有训练器hi的训练分类器合集

代表第i个训练器使用的根据无标注样本中得到的相对可信赖的样本

具体算法

构建含有N棵随机树的随机森林体系

根据Lable样本集合开始N次学习，得到随机森林训练器hi(i(1,N))

Allow = true

While(Allow)

{

Allow = false

循环N轮

循环浏览无标记样本中的每一个变量x

{

若判定结果为pass，那么可以将新学习样本添加中，Allow = true

}

循环结束

}

2.3BTM聚类算法

由于在线评论的自由开放性，用户在发表评论时并不一定会遵循某个固定的标准或规则对内容进行组织。根据现有的算法分类器构造分析来看，绝大部分分类算法都是凭借产品的内部结构组成(如除湿机水箱、出风口等)进行归类。主要可分为两种情况，第一种是直接建立一个多训练器，对产品所具有的若干内部组成仅用一个分类器进行分类；第二种是建立若干二元训练器，通过多个分类器的集成来按照产品内部组成分类。产品缺陷主题聚类的方法可以把对产品某个缺陷的描述相关的评论汇合，这样对企业分析产品缺陷也很有帮助。

文中选择了BTM算法，原因是很多评论中含有多个类型的主题，BTM算法可以自发地去聚合这些主题，得到的主题结果可解释化程度高，比较适用企业人员决策。由于短文本篇幅过少，上下文语境相对不全面，短文本层面的数据稀疏给主题聚类模型带来很大的困难，故文本特征稀疏在短文本研究是十分棘手的问题。BTM主题聚类算法是为短文本量身打造的，它在解决短文本的数据稀疏方面更有针对性。由于主题可看作若干有关系的词语的汇合，其中词和词之间的关联可根据同时出现的词语来表达和描述，因此BTM可以由在文本中同时出现的词语而建立模型训练，因为BTM模型的样本来源涵盖文档中同时出现的词语全部组合，很有利于主题聚类形成。

3 实证分析

3.1实验背景与对象

目前，国内对中文互联网环境下的网络产品评论的研究还是比较稀少，已有的监督分类识别产品缺陷需要大量的人工参与样本数据标注，而且有的样本数据标注要求的专业度高，可大量人工参与标注带来了诸多困难，文中提出使用半监督分类算法对产品缺陷评论分类时可大幅度减少人工参与标注数量，并且与在产品缺陷分类领域使用的Tri-training分类算法相比的精度更高。在产品缺陷分类后，使用针对短文本的BTM主题模型聚类算法，得到可直接帮助企业人员决策的产品缺陷主题及缺陷主题关键词。

3.2实验数据采集

文中的实验对象是京东商城中O品牌的某款畅销除湿机，采用Java语言编写除湿机的用户评论抓取程序，抓取了该款除湿机在京东商城上从上市到2017年1月10日期间的所有用户评论，共计17 966条。其中去除不含中文的无效评论，如只包括表情、数字、英文的评论。筛选无效评论后剩余有效用户评论共计15 587条。在抓取除湿机评论时，抓取字段包括产品评论时间、产品评论内容以及产品评论打分。

3.3实验数据预处理与人工标注

文中的实验研究将由3名研究生协助对所有除湿机评论数据进行标记。研究人员在对样本数据正规标记前先进行了试标注环节。在试标注环节中，三名研究生同时对从样本中随机抽取100条数据进行标注，判定数据是否包含缺陷评论，之后由三人商议标注结果形成判定规范。通过试标注环节可尽量减少人工标注过程产生的误差。预标注过后，三名研究人员分别对全部数据进行标注，以少数服从多数的原则确认数据的标注结果。在对除湿机的评论标记流程中，研究人员对除湿机评论里有没有体现出产品缺陷做出判断，产品评论中包含产品缺陷则标为1，产品评论中未体现产品缺陷则标为0，并将标注结果添加到产品评论表的缺陷属性中。最后的人工标注除湿机评论的结果显示，除湿机评论中包含用户反映的产品缺陷的用户评论数量为1 748条，比例为11.2%；不包含产品缺陷的用户评论数量为13 839条，比例为88.8%。

在对除湿机用户评论的预处理流程中，实验采用哈工大的语言技术平台LTP对产品评论进行分词处理，然后通过现有的停用词表对除湿机评论进行去停用词处理，从而得到可训练产品缺陷分类模型的产品评论。再根据Java程序利用信息增益和TF-IDF方法提取在线评论中产品的属性特征转化为文本向量。文本特征提取和选择对分类准确性有着不可忽略的影响，评论中所包含的特征较少，如果仅取信息增益值最高一部分的作为特征值，信息增益最高的特征出现次数相对稀少，很多评论都不具有信息增益特别高的文本特征，故在对重复次数从1～5测试后，文本特征在至少要重复四次时分类效果更高，故决定文本特征为信息增益提取出的至少有四条评论所具有特征。

由于训练集中缺陷评论约占11%，在这种情况下仍使用训练数据集默认缺陷评论与非缺陷评论的比例1∶8情况下得到除湿机评论分类模型未能较好地表现出缺陷评论与非缺陷评论的差别，而采用1∶1的方式，对于测试集实里验中的除湿机评论缺陷与非缺陷评论比例k能贴合实际情况，故做了除湿机缺陷评论与非缺陷评论比例的预实验，以随机森林算法对训练集有标记数据和测试集数据以不同的缺陷与非缺陷比例进行除湿机评论分类实验，得到除湿机评论分类实验结果见表2。

表2 训练数据缺陷与非缺陷比例

根据除湿机评论训练数据集缺陷与非缺陷比例的预实验结果如表3所示。文中实验从算法评价指标中F1值、分类后主题建模偏向精度值更高以及除湿机评论分类缺陷与非缺陷比例更接近实际情况等因素考虑，实验选取了缺陷与非缺陷1∶5的分类比例作为训练集中含缺陷的评论以及非缺陷评论分类比例，并以此生成的文本特征转换成文本特征向量，应用到除湿机缺陷文本分类和除湿机缺陷主题模型聚类。

表3 对照标记数据比例

3.4分类实证

为了检验3.1节中所提出的基于在线评论的产品缺陷识别分类模型的适用性，实验设定两类对照的方式，通过设定AB两类样本完成有监督学习分类与半监督学习分类的算法比较，AB类的样本都采用相同的人工已标注样本集合和测试样本集合。其中A类除湿机评论分类实验为有监督的除湿机评论分类算法，采用决策树算法和支持向量机(SVM)算法进行对照实验，这一种情况下的实验不会采用无标注样本参与辅助，只采用有标注样本参与模型学习过程；B类采用Tri-training算法以及Co-forest算法的半监督学习算法，其中Tri-training算法的基分类器同样分别采用决策树算法及支持向量机算法，半监督分类算法采用标注样本和无标注样本参与协同，增大分类器学习的样本数量。实验数据的对照标记数据比例如表3所示。对已人工标记的评论集合使用分层抽样的方式来抽取评论，从所有标记评论中抽取40%的评论当作检验分类算法的测试评论集合；剩下的60%的评论分成已标记评论集合和无标记评论集合两种，而且持续修改已标记样本数据集和未标记样本集的比例k1，共构成8组数据。例如编号1的样本集合占全部样本量1%的133条除湿机评论，是有监督分类算法和半监督分类算法的训练样本，另外对1%已标注评论后余下的59%无标记评论来帮助分类器进行B类分类算法。在评价分类算法各项性能上，使用除湿机缺陷分类的正向样本(包含缺陷的评论)的F0.5值作为分类算法评价与对比的观测值。除湿机评论分类算法的实验工具选择方面，监督学习分类利用数据挖掘工具Weka软件，半监督学习分类采用周志华教授的开源代码Tri-training算法和Co-forest算法代码，通过Java语言编写程序检验文中的分类算法性能。整个分类算法实验共计十组，每一组分类算法实验的结果如表4所示。

表4 分类算法结果

表4中第一列代表除湿机评论分类实验分组的序号；第二列代表在不使用无标记数据的监督学习情况下，分别使用决策树和支持向量机(SVM)算法进行除湿机评论分类训练所得出的模型在测试集上的F0.5值；第三、四列代表在使用本组的除湿机有标记数据以及无标记数据的半监督学习情况下，采用基于分歧半监督的Tri-training和Co-forest作为协同训练中基分类器训练所得出的分类性能结果。从表4中除湿机评论分类算法结果可以发现，在使用同样的已标注样本数据集的基础上，根据无标记除湿机评论数据的帮助，半监督分类算法B类与有监督分类算法A类以F0.5值作为评估指标来看各组的F0.5平均提升7%；而且，B类算法在只获得占全部样本10%的已标记样本的条件下，与A类应用全部样本的40%左右有标记样本的分类性能指标比较接近。并且在标注数据比例不断升高的条件下，有监督学习分类算法和半监督学习分类算法的F0.5值最终都收敛在0.65左右的水平。根据以上的除湿机缺陷分类算法的性能指标表明，半监督分类在进行除湿机缺陷的分类算法效率方面较有监督分类算法相比能大幅度缩小人工标记的样本数量；而且在相同数量大小的已标注样本的条件下，半监督分类的准确度比有监督学习分类的准确度要多一些。本文提出在产品缺陷识别方面采用Co-forest算法与有监督分类算法和半监督Tri-training算法相比较占一点上风，可以帮助企业在产品缺陷识别分类领域更好地发现产品缺陷。

3.5产品缺陷模型聚类实证

以Co-forest算法判定包含缺陷的评论共396条为主，再对包含缺陷的产品评论实现主题聚类从而得到产品缺陷主题。本节实验选取Java语言进行BTM主题聚类算法实现。设置BTM算法参数topic_num=14，alpha=2.5，beta=0.01，iter_num=3 000， instance_num=1，得到结果见表5。

表5 BTM主题聚类结果

从表5可得，除湿机产品缺陷评论中占比最大的是噪音大，达到了48.74%。虽然对噪音的感知因人而异，但有大量的用户提出了噪音大的问题，证明噪音问题应该引起企业产品管理部门的关注。除了噪音大之外缺陷占比比较大的使水箱小和功率小，用户反映水箱小导致晚上总要倒水，使用排水管容易漏水，功率小导致抽湿速度慢，湿度下降慢等情况企业也应该重视。除了上述反映比较多的问题以外，小比率的缺陷在BTM主题聚类算法中也有体现，如漏水、机子抖动、温度显示不准、出热风等。即使是小比率的产品缺陷，企业也不能忽视。

4 结束语

基于互联网环境下用户评论分析企业产品的缺陷,通过采集用户发表在社交媒体的在线评论数据，研究了产品缺陷识别的分类算法，以某品牌的畅销除温机为例验证了产品缺陷识别方法的性能更佳。

[1] Abrahams A S, Jiao J, Wang G A, et al. Vehicle defect discovery from social media[J].Decision Support Systems, 2012, 54(1): 87-97.

[2] Abrahams A S,Fan W, Wang G A, et al. An integrated text analytic framework for product defect discovery [J]. Production and Operations Management, 2015, 24(6): 975-990.

[3] Zhou Z H, Li M. Tri-training: exploiting unlabeled data using three classifiers[J]. IEEE Transactions on Knowledge & Data Engineering, 2005, 17(11): 1529-1541.

[4] Li M, Zhou Z H. Improve computer-aided diagnosis with machine learning techniques using undiagnosed samples[J]. IEEE Transactions on Systems Man & Cybernetics Part A Systems & Humans, 2007, 37(6): 1088-1098.

[5] Yan X H, Guo F, Lan Y, et al. A biterm topic model for short text[C]//. Hang Zhou: Proceedings of the IW3C2 Conference, 2013: 1445-1555.

[6] 周志华. 基于分歧的半监督学习[J]. 自动化学报, 2013, 39(11): 1871-1878.

[7] Goldman S A, Zhou Y. Enhancing supervised learning with unlabeled data[C]// Proceedings of the Seventeenth International Conference on Machine Learning， Morgan Kaufmann Publishers Inc. 2000: 327-334.

[8] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3-7.

[9] 张嵩, 吴剑云, 樊卫国, 等. 基于社交媒体分析的手机缺陷识别[J]. 计算机集成制造系统, 2016, 22(9): 2264-2273.

[10] Loughran T, Mcdonald B. When is a liability not a liability Textual analysis, dictionaries, and 10-Ks[J]. The Journal of Finance, 2011, 66(1): 35-65.

[11] 张成功, 刘培玉, 朱振方, 等. 一种基于极性词典的情感分析方法[J]. 山东大学学报(理学版), 2012, 47(3): 50-53.

[12] 闫耀辉, 臧洌, 黄同心. 基于协同训练的Co-Forest算法在入侵检测中的应用[C]// 北京：全国青年通信学术会议, 2010.

(编校李德根)

Productdefectrecognitionmethodforonlinereviews

LiuDan,ZhangYuhong,YanXiangbin

(School of Economics & Management, Harbin Institute of Technology, Harbin 150001, China)

This paper describes an effort to analyze the defects of enterprise products from Internet users comments. The analysis involves performing text classification of the product reviews using semi supervised classification algorithm based on user Co-forest differences; providing defect topic clustering of defect review identified by Co-forest algorithm based on BTM algorithm based on topic model in a way that affords the defect theme, topic description details, and the proportion; and conducting related research on the Jingdong website comments using a brand of a best-selling dehumidifier as an example. The results show that the Co-forest algorithm boasts a higher performance than supervised classification and semi supervised classification Tri-training method in terms of defect recognition and classification based on online reviews.

defect identification; online reviews; semi-supervised classification; topic clustering; dehumidifier

10.3969/j.issn.2095-7262.2017.06.025

TP391.4

2095-7262(2017)06-0698-07

2017-09-21

刘丹(1992-)，女，黑龙江省农垦宝泉岭人，硕士，研究方向：电子商务与商务智能，E-mail:paluadan@163.com。

在线评论的产品缺陷识别方法

0 引 言

1 识别框架

2 缺陷识别模型的算法实现

3 实证分析

4 结束语

0 引言