基于手机商品评论文本的情感分析与挖掘

2019-06-30 13:55王洋
企业科技与发展 2019年5期
关键词:文本挖掘情感分析

王洋

【摘 要】目的:随着互联网技术的发展和智能设备的普及,电商平台出现了大量商品评论信息,分析和挖掘商品评论文本的情感,对于研究用户需求、商品口碑具有极其重要的价值。方法:文章利用编程语言python获取电商平台的商品评论信息,采用算法与人工相结合的方式,从数据预处理、特征词表的构建、修饰词表和情感词表的扩充等方面分析商品的评论信息和用户对相应属性的评价观点。结果:实现了商品属性和评价情感词的抽取和分类,实现了商品评论的情感倾向性分析,深入了解用户需求和产品口碑。局限:依赖情感词典进行情感分析,为取得更加精确的结果,情感词典需要不断完善。

【关键词】情感分析;产品评论;文本挖掘

【中图分类号】TP391.1 【文献标识码】A 【文章编号】1674-0688(2019)05-0130-03

1 背景介绍和研究目的

智能手机作为最主要的智能移动终端,深刻地影响着人们生活的方方面面。有报告显示,2017年上半年,中国手机市场出货量达2.81亿部,智能手机用户规模达到6.55亿人[1]。消费者面对日益同质化的手机难以选择,同时手机厂商也难以捕捉用户需求,从而进行针对性的产品更新和升级。

情感分析又称为情感挖掘、意见抽取、倾向性分析,是指通过用户对某一事件或商品的评论文本进行分析、归纳,进而发现其观点和倾向性情感[2]。基于手机评论文本的情感分析,能有效地解决上述问题,对研究消费者需求和推动产品更新换代具有积极的指导意义。

2 情感分析方法

(1)数据的获取与预处理。本文利用编程语言python,从电商平台“京东商城”抓取了手机产品的评论文本,包括会员姓名、评价内容、追评内容、评价时间等字段,考虑到抓取数据存在冗余和无效数据,必须对抓取到的数据进行预处理,包括对获取的数据进行冗余的删除、字符的过滤、词形的转换等,然后借助中文分词工具Jieba去除停用词和分词。

(2)词典构建。本文以中文情感词汇本体库为基础词典进行情感词典的扩建,该词典由大连理工大学构建。本研究中规定情感词的极性取值:-1为贬义、0为中性、1为褒义,以便更好地计算评论中的情感强度。同时,通过人工添加的方式补充手机评论领域特定的情感词并赋予强度值,例如人工添加“发烫”并赋值为-1,进行情感词典的补充。借鉴高宁[3]对于程度副词与否定副词共现的研究,同时参考施寒潇[4]、梅莉莉[5]等人的研究,建立情感词典、程度副词词典和否定词词典。分词后的评论文本结合以上3个词典计算出每个属性的情感倾向。

(3)细粒度情感计算模型。计算情感词I的情感强度值的公式为I=α×β。其中,α表示情感词的强度,β表示情感词的极性值。根据自定义补充的情感词典,α的取值为1~7。β的取值为-1、0、1,分别表示负面情感、中性情感和正面情感。结合程度副词、否定词,将情感词的情感得分进一步优化,最终公式为Ei=(-1)γiPiIiMi。其中,Ei为最终情感词得分,γ为否定词的数目,决定情感词的词极性。P表示程度副词的强度,数值越大,则强度越高。

3 实证研究

3.1 数据收集与处理

本研究通过python从“京东商城”爬取iPhone X、iPhone XR、荣耀Magic2、华为P30 Pro、小米9、OPPO R15x、vivo iQOO、荣耀Play、vivo Z3和荣耀8X 10款手机的相关评论,共10 000条评论数据,在去除重复评论后共获得9470条样本评论数据。将抓取的评论内容进行去停用词、分词等预处理,再运用TF-IDF算法进行关键词提取。word2vec词向量分类结合人工筛选,抽取归纳手机属性和近义词,并对评论数据按手机属性计算情感得分。

3.2 爆款手机影响因素的建立

词云图的制作(如图1所示),通过对预处理后的评论文本提取高频词,并绘制词云图,可以直观地展示出评论重点,有助于手机特征的总结归纳。

从词云图和高频词中归纳消费者购买手机的主要关注点发现有七大属性,并基于word2vec词向量分类与人工筛选相结合的方法,抽取七大属性相关近义词。

七大属性和相关近义词部分结果见表1。

3.3 手机评论情感分析研究

对所搜集的评论集进行情感划分,计算每款手机七大属性的得分,结果如图2所示。

将属性得分总分结合各手机型号的均价,可以把10款手机划分为以下3个层次。

第一层次为荣耀Play、荣耀8X、OPPO R15x和vivo Z3,这4款手机的不同配置均价在1 600~2 000元的价格区间,低于中国信通研究院公布的2018年国内市场智能手机的均价(2 523元)[6]。该类手机的特点是“物美价廉”,以低于2 000元的价格获取能保证用户日常体验的硬件配置,虽然不及各品牌的旗舰机型,但也区别于使用感极差的低端手机。

第二層次为小米9、荣耀Magic2和vivo iQOO。该类手机的特点是“主打性价比”,保证在使用顶级硬件设备的情况下比其他厂商的旗舰机的价格更低,以价格优势获取部分高端手机使用者。例如,小米9在各项得分上均保持平均分以上的水平,唯一的短板是其电池容量较小,用户对其电池续航有所担忧。

第三层次为iPhone X、iPhone XR和华为P30 Pro。这类手机的特点是“追求极致”。众所周知,iPhone引领着智能手机行业的发展,推动了指纹解锁、面部识别等技术的运用,其定价也从4 000元逐步提升到2018年的上万元,iPhone具有非常强大的品牌价值。但是近年来,iPhone创新乏力,在外观和技术上都没有明显的创新,导致了iPhone在我国的销量不断下滑。这也符合边际效用递减规律[7],即iPhone在没有跨越式发展的情况下,例行的升级换代已经无法打动消费者。

作为国产品牌的华为手机近年来发展迅速,凭借mate系列和p系列成功占据高端手机市场。华为P30 Pro凭借其独占一档的拍摄能力获得了用户的广泛好评,成为华为手机P系列的核心招牌。在电池续航和性能方面,华为P30 Pro的得分都处于较高水平,但在屏幕方面的得分较低,这也是被消费者广泛吐槽和质疑的,认为华为P30 Pro不应该配置一块较低水平的屏幕。

通过上述分析发现,中国智能手机市场有几个明显的特点:第一,中国作为发展中国家,消费者的消费水平不断提升,但仍未达到发达国家水平,这就导致消费者对于价格十分敏感,售价成为消费者选择手机的重要筛选标准。体现在除iPhone以外的品牌全部都推出了“低价千元机”和“性价比手机”,以获取更多的消费者。第二,消费者对手机的需求愈发多样,从硬件配置到系统流畅度再到拍照能力和电池续航,用户对手机的各个方面都更加挑剔,这也是小米、荣耀等品牌所推行的策略,即“无明显缺点的水桶机”,以提高手机口碑。第三,我国除華为手机之外,其余手机的品牌价值并不突出。对比iPhone,我国仅有华为手机站在高端手机市场,不以绝对的性价比作为核心竞争力。如何提升手机的品牌价值,是国内手机厂商必须关注的一个重要问题。

4 结语

手机评论文本中蕴含了大量的情感信息,通过对手机评论文本进行情感分析,可以挖掘其中的用户情感和商业价值。本研究对于消费者和厂商而言都具有借鉴意义。这一研究方法不局限于手机行业,也同样适用于拥有大量用户评论的其他商业领域。

同时,本研究也存在不足之处。情感评分依赖于完备的情感词典,情感词典需要进一步完善。此外,受抓取平台的限制,与手机近10万量级的销量相比,研究所反映的结论有限。

参 考 文 献

[1]中国互联网络信息中心.第41次《中国互联网络发展状况统计报告》发布[EB/OL].http://www.cbdio.com/BigData/2018-02/01/content_5672382.htm,2018-02-01.

[2]李天辰,殷建平.基于主题聚类的情感极性判别方法[J].计算机科学与探索,2016,10(7):989-994.

[3]高宁.现代汉语程度副词与否定副词共现的认知研究[D].长春:吉林大学,2013.

[4]施寒潇.细粒度情感分析研究[D].苏州:苏州大学,2013.

[5]梅莉莉,黄河燕,周新宇,等.情感词典构建综述[J].中文信息学报,2016,30(5):19-27.

[6]迪信通在云南.中国信通研究院发布最新报告:2018国内手机均价2523元[Z].http://www.sohu.com/a/298428947_401685,2019-03-01.

[7]张昆仑.边际效用递减规律新探[J].天津财经学院学报,2004(4):8-10.

[责任编辑:陈泽琦]

猜你喜欢
文本挖掘情感分析
基于语义的互联网医院评论文本情感分析及应用
基于双向循环神经网络的评价对象抽取研究
数据挖掘技术在电站设备故障分析中的应用
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
基于LDA模型的95598热点业务工单挖掘分析
在线评论情感属性的动态变化
文本数据挖掘在电子商务网站个性化推荐中的应用
从《远程教育》35年载文看远程教育研究趋势
慧眼识璞玉,妙手炼浑金