贾东立 崔新宇 申飞
摘要:随着淘宝、京东等电商平台的兴起,网上购物逐漸成为主流,但由于网上购物的特殊性,导致消费者不能获取到足够的商品信息,因此该文结合现有的自然语言处理技术,利用情感分析的方法来对商品的评价信息进行挖掘,为消费者提供更加全面的商品信息。此外该文还就现有的情感词典进行扩充,提升了情感词典在情感分析中的准确率。
关键词:商品评价;情感分析;情感词典
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2019)16-0242-03
开放科学(资源服务)标识码(OSID):
Abstract: With the rise of e-commerce platforms such as Taobao and Jingdong, online shopping has gradually become the mainstream, but due to the particularity of online shopping, consumers cant obtain enough commoditys information, so this article combines existing natural language processing technology. Using sentiment analysis to deal with goods reviews, and providing a more comprehensive product information to consumers. In addition, the article also expands the existing sentiment dictionary, which improves the accuracy of the sentiment dictionary in sentiment analysis.
Key words: commodity evaluation; sentiment analysis; sentiment dictionary
1 背景
随着网上购物的兴起,人们在网上购物的次数越来越多,网上购物在方便人们生活的同时也存在着一些问题,由于网上购物时不能像线下购物一样能够接触到实物商品,而且商品的各项信息都是由商家所给出的,这就造成了信息的不对等,就会导致消费者买到了假货,残次品,或与自己期望不符的商品,造成一定的损失。此时,利用情感分析的方法对商品的评价信息进行挖掘,不仅能够为消费者提供重要的参考信息,也存在着一定的商业价值。
目前情感分析的方法主要有两大类:其一为基于机器学习的方法,该类方法是使用人工标注的文本语料作为训练集,通过机器学习的方法来构建训练模型,然后利用训练完成的模型来对文本进行分类。常用的方法有支持向量机(SVM)、朴素贝叶斯法(NB)、K最近邻法(KNN)等[1]。其二是通过情感词典的方法,该方法的核心是通过词典与规则的方法来计算文本的情感值,并以此分析文本的情感倾向。该类方法更加通用,对短文本处理有着不错的效果,但对情感词典的完备程度要求很高。目前国内对情感词典的研究已有了一定成果。文献[2]通过人工分类和点互信息(PMI)的方法构建了情感词汇本体,该词典是国内使用较多的通用词典之一。文献[3]通过对微博用语的分析,利用人工标注和校对的方法构建了微博领域的专用情感词典,在微博领域取得了不错的实验结果。文献[4]提出利用表情图片结合情感词的方法来扩展情感词典,并利用熵的概念对语料库进行优化,提高了分类的准确率。文献[5]提出了基于规则和统计的方法来扩充情感词典,明显提升了情感词典的准确率。文献[6]利用Word2Vec工具对知网情感词典、大连理工大学情感词典等通用词典进行筛选,构建出了SentiRuc词典,并在通用领域数据集上取得了不错的实验结果。
结合商品评价的语料特征,本文提出了利用商品评价中的高频情感词来对通用情感词典进行扩充的办法,在商品领域取得了不错的实验结果,明显提升了情感分析的准确率。
2 系统框架
本文根据系统需要实现的具体功能,将整个系统划分成5部分,分别为数据获取模块(A)、数据预处理模块(B)、商品特征抽取模块(C)、情感词典构建模块(D)和情感分析模块(E)。其总体结构图如图1所示。
在数据收集模块中,本文使用了基于网络爬虫的方法来对京东网站进行了爬取,共计爬取了京东商城各型手机的评价信息十几万条,为接下来的情感分析提供了充足的数据支撑。
对于文本预处理,参考目前文本预处理技术,本文采用了中文分词、词性标注和去停用词的方法对文本信息进行预处理。并借助Python自带的结巴(jieba)语料库来对文本进行分词和词性标注。在停用词处理中,本文采用了哈工大停用词表来过滤句子中的语气词、虚词、标点等。
在商品特征提取模块中,本文采用了基于统计与语义信息相结合的方来抽取商品的特征,并以通用领域概念模型为基础[7],建立商品特征词典。
情感词典的构建作为整个系统的核心,本文在通用情感词典的基础上,结合商品评论自身特点设计语料特征对其进行改进。
对于情感分析模块,本文利用扩展情感词典,并结合语义的方法来对评价信息进行分析。
3 基于基础情感词典的扩展改进
3.1 基本思想
情感词典作为情感分析最为核心的一部分,其完备程度对情感分析的准确度起决定性作用。本文先构建了程度副词词典和否定词词典;之后对评价文本情感词进行词频统计,然后结合商品评论自身的特征,对评论中高频情感词汇进行抽取,并结合规则对其进行权重赋值。
3.2 程度副词和否定词词典的构建
程度副词,它是用来修饰情感词,增强或减弱情感词的情感强度。如:非常失望和有点失望,他们所表达的情感强度是有差别,“非常失望”的情感强度要更高一些。本文使用的程度副词词典源于知网(Hownet)情感词典中的“中文程度级别词语”词典,并通过分析商品评价信息添加了词典中未收录的程度副词共计54个。本文依照程度副词的情感强度将程度副词分为6挡,其权重分别为2.0、1.8、1.5、1.2、0.8、0.5.部分程度副词及其权重如下所示:
否定词,它是用于反转一个句子或词语的情感倾向,如“我对这件商品很不满意”和“我对这件商品很满意”,它们就具有相反的情感极性。本文通过分析商品评价信息,共计筛选出30个否定词,如:不、没、非、无等词语。并建立起否定词词典。
3.3 商品评价扩展词典的构建
本文选取了知网(Hownet)情感词典作为基础词典,该情感词典包含情感词17887个[8]。本文按照情感强度和情感倾向对情感词进行权重赋值,共分成10级,取值范围为[-2.5,2.5]间距为0.5,其中正值表示为褒义情感倾向,负值为贬义情感倾向,数值表示权重,权重的绝对值越大就表示情感强度越大。
首先,对商品评价中的情感词进行词频统计,然后,对出现的高频情感词进行抽取,并对情感词进行权重赋值。本文抽取了商品评价中前1000个高频情感词。对于权重的计算,本文采用了公式(1)来给情感词进行赋值。
式中[Ei]为情感词的权重;[Ni]为该情感词汇出现的频率;[Nt]为频率最高词汇的出现频率;[Sn]为词性表示,褒义词汇则为1,贬义词汇为-1。在计算出所有高频情感词的权重后,就可以将赋完权重的情感词扩充到基础情感词典中。
3.4 情感计算
在对情感词典进行扩充后,就可以利用扩充后的词典对商品评价信息进行情感分析,具体的步骤如下:
1)对评价信息进行预处理;2)遍历商品评价信息,依据之前构建的商品特征词典,将评价信息进行特征分类,建立起各个特征的评论数据集;3)逐条分析各个特征数据集,抽取评价信息中的情感词、否定词和程度副词,并在情感词典中进行匹配,获取该词在情感词典中的权重,之后根据公式(2)来计算该条评论的情感得分。在计算出每一条评价的情感得分后就可以利用公式(3)和公式(4)计算出每个特征数据集的总情感得分和平均情感得分。
式中:[si]为该条评论的情感得分,q为在该条评价中否定词出现的次数(q的初始值为0),[nk]为程度副词k在程度副词词典中对应的权重,[wi]为情感词i在情感词典中对应的权重。
式中:[Sj]为特征数据集j的情感总分,[sj]为数据集j的平均情感得分,[ si]为该数据集中每一条评论的情感得分,[ni]为数据集中情感词出现的次数。
4 实验结果与分析
4.1 实验数据与评价标准
为了验证本文提出的情感词典扩展改进方法是有效的,本文利用网络爬虫爬取了京东商城苹果手机的评价信息,共计5000条。对文本进行预处理后,利用本文所构建的扩展词典对评价信息进行分析,选取正确率(precision)、召回率(recall)、f1-score(F)作为性能评价的指标来对分析结果进行评价,具体定义如下:
4.2 扩展词典效果对比与分析
本文对苹果手机的评价信息进行试验,分析了其在不同扩展情况下,情感词典的效果,具体试验结果如表所示,准确率的变化情况如下所示:
从表2和图2可以看出知网情感词典对本文从京东商城上爬取评价信息的准确率为82.51%。而使用本文所提出的基于基础情感词典的扩充办法所构建的扩充词典的准确率、召回率和F1值都在逐步提高。在扩展词汇达到50个之前,其准确率增速最快,在扩展词汇达到100个时其准确率达到最高,在扩展超过100个时,扩展词典的准确率趋于平稳。和知网情感词典对比发现,本文所构建的扩展词典的准确率达到了91.13%,比基础情感詞典的准确率增加了9.48%,因此本文提出的使用高频情感词来扩充基础情感词典的办法是可行的。
5 结束语
本文设计的基于情感词典的商品评价系统,通过情感分析技术来对商品评价信息进行处理,抽取评价中的商品特征,并利用情感词典为其打分,通过视图的方式为消费者提供更加直观的商品信息。此外本文还在基础情感词典的基础上,提出一种通过加入高频情感词的方法来对情感词典进行扩充。经过该方法扩充的情感词典在准确率、召回率和F1值方面都有所提升,与基础情感词典相比,本文所扩展的情感词典的准确率普遍高于基础词典,证明了该方法是可行的。
参考文献:
[1] 李继东, 王移芝. 基于扩展词典与语义规则的中文微博情感分析[J]. 计算机与现代化, 2018(2): 89-95.
[2] 徐琳宏, 林鸿飞, 潘宇, 等. 情感词汇本体的构造[J]. 情报学报, 2008, 27(2): 180-185.
[3] 王勇, 吕学强, 姬连春, 等. 基于极性词典的中文微博客情感分类[J]. 计算机应用与软件, 2014, 31(1): 34-37.
[4] 张珊, 于留宝, 胡长军. 基于表情图片与情感词的中文微博情感分析[J]. 计算机科学, 2012, 39(S3): 146-148.
[5] 梁亚伟. 基于表情词典的中文微博情感分析模型研究[J]. 现代计算机, 2015(21): 7-10.
[6] 杨小平, 张中夏, 王良, 等. 基于Word2Vec的情感词典自动构建与优化[J]. 计算机科学, 2017, 44(1): 42-47.
[7] 夏火松, 杨培, 熊淦. 基于特征提取改进的在线评论有效性分类模型[J]. 情报学报, 2015, 34(5): 493-500.
[8] HowNet[R/OL]. HowNet'sHomePage. http://www.keenage.com/html/c_bulletin_2007.htm
【通联编辑:谢媛媛】