中文在线评论中产品特征抽取研究

2014-12-25 08:58胡龙茂
电脑知识与技术 2014年33期
关键词:在线评论

胡龙茂

摘要:在线评论中特征抽取是产品意见挖掘的基础,直接影响到最终挖掘结果的准确性。针对现有特征抽取方法的准确率和召回率偏低问题,该文通过设计词性序列模板产生候选特征集,利用PMI-IR方法进行筛选,最终获得产品特征集。实验结果表明,该方法取得较好效果。

关键词:在线评论;特征抽取;序列模板;PMI

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)33-8076-03

Abstract: As a foundation of further analysis in in Chinese Online comments, features extraction influences the precision of the opinion mining results. Aiming at solving problems of relatively low precision, rate of coverage when using existing product features method, this paper designs part of speech sequence templates to obtain product features candidates, then utilizes PMI-IR method to filter product features candidates and obtain product features set. Experimental results show that this method is effective.

Key words: online comments; feature extraction; sequence template; PMI

1 概述

随着电子商务的兴起,越来越多的用户从网上购买商品并发表购后评论。与此同时,用户在购买商品之前,也都会查看其他用户对所购商品的评论,试图发现其他用户对商品的总体意见及各属性的意见,从而决定其购买行为。由此, 近年来许多学者对在线评论展开了研究, 意见挖掘就是这类研究的热点之一, 其目标是从海量的在线评论中分析每个用户对于商品的态度。现有的评论挖掘研究主要包含四个任务:产品特征抽取;评论观点抽取;评论观点的极性以及强度判断;评论挖掘结果的汇总以及按用户观点排序[1]。特征抽取是整个意见挖掘的基础,只有全面准确地抽取出用户评论中所涉及的产品特征,之后的分析才能有的放矢。因此, 本文将尝试探讨中文在线评论中产品特征抽取研究。

2 相关研究

目前,已有不少学者针对英文产品评论中特征词抽取方法进行研究。文献[2-3]首先对评论语料进行词性标注, 提取出所有的名词和名词短语构成事务文件, 然后利用Apriori关联规则抽取高频的特征词, 最后通过修剪规则提高准确率和覆盖率。文献[4]提出了一种双向传播方法(DP, DoublePropagation), 根据词汇依赖关系, 并考虑了代词和否定词的影响, 进行特征词和感情词的抽取。文献[5]引入句法特征使用基于条件随机场模型的监督学习方法实现评价对象抽取,明显提高了评价对象的抽取召回率。国内也有不少学者对中文产品评论属性词抽取方法进行研究。文献[6]抓取大量介绍产品的网页,从中手工整理构建属性词表。文献[7]首先应用中文分词工具对网络评论信息进行分词和词性标注,得到最初的产品特征名词集合,然后采用潜在狄利特雷分布文本训练模型筛选出候选产品特征词集合,进而通过同义词词林拓展和过滤规则得到最终的产品特征集合,通过实验对比分析验证了所提方法的有效性。

因为现有产品特征抽取方法的准确率和召回率都不太高,所以有必要进行深入研究,该文主要工作如下:(1)设计词性序列模板产生候选特征集,词性序列模板不仅包含了名词和名词短语,还包括字符串、非及物动词和动词短语模板。(2)利用PMI-IR方法筛选候选特征集,构建产品特征集。

5 总结

本文尝试了新的方法对中文在线评论进行产品特征抽取, 取得了较好的效果, 今后将结合特征词-评价词对的抽取方法,提高产品特征抽取的准确率。

参考文献:

[1] Popescu A M,Etzioni O.Extracting product features and opinions from review[C].Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing,Stroudsburg,USA :Association for Computational Linguistics,005:339-346.

[2] Hu Minjing,Liu Bing.Mining Opinion Features in Customer Reviews[C].Proceedings of the 19th National Conference on Artifical Intelligence,ACM Press,2004.

[3] Hu Minjing,Liu Bing.Mining and Summarizing Customer Reviews[C].Proceedings of the ACM SIGKDD Conference on Knowledge Discovery and Data Mining,ACM Press,2004:168-177.

[4] Qiu G, Liu B, Bu J, Chen C. Expanding domain sentiment lexicon through double propagation[C].Proc. of the 21st International Joint Conference on Artificial Intelligences,2009:1199?1204.

[5] 吕品,钟珞,蔡敦波,等.基于CRF的中文评论有效性挖掘产品特征[J].计算机工程与科学,2014,36(2):359-366.

[6] 张孟,彭一凡.中文倾向性分析的研究[C].第1届中文倾向性分析评测研讨会论文集,2008:38-45.

[7] 马柏樟,颜志军.基于潜在狄利特雷分布模型的网络评论产品特征抽取方法[J].计算机集成制造系统,2014,20(1):96-103.

猜你喜欢
在线评论
消费者个体特征对在线评论有效性的影响研究
在线评论情感属性的动态变化
在线评论对电子商务商品销量的影响研究
在线评论对消费者购买意图的影响研究
基于情感倾向的在线评论对购买决策的影响
基于复杂网络构建面向主题的在线评论挖掘模型
在线商品评论的类型研究
在线评论对大学生网络购物决策的影响研究
巧用“在线评论”提升图书网上销量
消费者个体行为偏好对在线评论真实性的影响机理研究