陈舒
摘要:通用型情感分析技术较为成熟,却有一定的领域局限性。针对时下热门的网络订餐平台评论进行挖掘,引入搜狗细胞词库,修正错别字,并对网络术语和颜文字进行转换,在通用HowNet情感词库的基础上,自建网络订餐关联逻辑词库,使用TF-IDF加权算法,最终构建出专属网络订餐情感词库,提升了情感评分准确度,同时分析出网络订餐的主要属性,并对此进行更深层次的意见挖掘。
关键词:
网络订餐;情感分析;专属词库;意见挖掘
DOIDOI:10.11907/rjdk.172637
中图分类号:TP301
文献标识码:A 文章编号:1672-7800(2017)012-0033-03
Abstract:The universal sentiment analysis technology is more mature, but there are certain limitations of the field, this paper reviews the popular nowadays network ordering platform for mining, the introduction of Sogou cell thesaurus, correcting typos, and the network terminology and color text conversion, based on the general emotion lexicon HowNet, self built network ordering logic Association Thesaurus the use of Term frequency–inverse document frequency(TF-IDF)weighted algorithm, and finally construct the exclusive network ordering emotion lexicon, enhance the emotion score accuracy, at the same time analysis of the main attributes of the network order, and make deeper digging opinions.
Key Words:network ordering; sentiment analysis; thesaurus; opinion mining
0 引言
随着都市生活节奏的加速和无现金交易的普及,产生了曾红极一时的团购网站,还有如今的网络订餐平台,人们的餐饮习惯也被潜移默化地改变着,从最初的自己做饭,到堂食,再到如今的外卖。最新数据显示,仅2017年第二季度,我国外卖餐饮交易量就高达459.5亿元。订餐平台可为客户提供对商家满意度的在线评分和在线评论功能。评分的高低可以给予潜在客户一定参考,但是并不能让这些客户以及商家本身明确了解其优势和不足。另外,大部分外卖依托第三方有偿送餐平台,如达达、蜂鸟等,送餐员服务良莠不齐,如果不能及时发现问题,势必会给商家造成重大损失。餐饮作为第三产业,服务是其中的重要因素,而在线评论能有效体现出服务质量。依靠传统的客服专员逐条审阅,已无法应对海量订单,而日益成熟的情感分析技术[1],能够很好地挖掘评论中的有效信息,帮助客户和商家共建更好的网络订餐市场。然而,目前并没有网络订餐专用的词库,仅依靠通用情感词库和饮食类词库进行分析[2],结果不够理想,需要构建专属情感词库。
1 数据特征分析
通过网络蜘蛛对饿了么(www.ele.me)、美团外卖(waimai.meituan.com)两个最热门的外卖美食网站的评论进行抓取分析,评论主要针对以下7个方面,这7个属性的积极或消极,对最后的情感值计算起到关键作用:①配送方面:配送快/慢,态度好/差,包装完整/不完整;②菜品本身:口味合适/不合适,分量足/不足,新鲜/不新鲜,卫生/不卫生。同时,这7个属性对商家而言也是最有价值的,所以需要进行更深层的意见挖掘。此外,评论呈现以下几个特点:
(1)文本较短,错别字频繁。个别网站开设评论激励机制[3],但大部分会选择外卖的人,并不愿意多花精力去认真评论。
(2)偏爱网络术语和颜文字。热衷外卖美食的人群,日常多与互联网密不可分,语言习惯势必受到一定影响,尤其在表达强烈情感时,更喜欢频繁使用网络术语和颜文字,例如:表达消极情感的“我勒个去”、“( ̄へ ̄)”,表达积极情感的“种草”、“(*^▽^*)”等,而这些十分重要的信号,并没有体现在情感词库中。
(3)通用情感词库不适用。一些词语如“头发”、“蟑螂”等食品中的常见异物,本身在通用情感词库中没有情感倾向,但在评论中出现,则间接表达了极大的消极情感,在逻辑上和网络订餐评论有着强关联,而其它一些不出现或很少出现在网络订餐领域的词汇,则变成了噪声。
统计数据显示,网络订餐的主力为80和90后,而80和90后中超过75%的人群使用搜狗输入法,所以考虑将搜狗细胞词库引入本文模型。
2 专属情感词库构建
本文基于统计学原理,利用TF-IDF(Term Frequency–Inverse Document Frequency)加权算法构建专属情感词库的流程如图1所示。
TF-IDF算法的主要思想是:如果某个词在一类文本中出现频率较高,但在其它类型文本中不出现或很少出现,则认为此词具有良好的分类能力[4]。
(1)考虑到个人对颜文字和网络术语的不同偏爱,这些新词出現的频率成分散状,为了避免因词汇低频出现错误的过滤,首先利用搜狗细胞词库中的“颜文字”(词条共600个)和“网络术语”(词条共489个)对原评论进行转换,例如图2所示的这些颜文字均转为“高兴”一词,并且为了加强情感,转换后的词重复出现一次,即图2颜文字最终转为“高兴高兴”出现在原评论,以此实现最简单的加权。
(2)Hownet通用情感词库中,添加搜狗细胞词库中的“饮食大全”词库(词条共6 918个)。
(3)添加搜狗细胞词库中的“常见错别词和短语”词库(词条共466个),对评论中的错别字进行修正。
(4)使用TF-IDF算法进行自动分类,区分通用情感词和专属情感词,并对专属情感词库多进行一轮手工筛选。
(5)建立网络订餐逻辑关联词库,并添加至专属情感库中。
3 逻辑关联词库构建
参考曾淑琴、吴扬扬[5]“基于Hownet的词语相关度计算模型”文章中的算法,在Hownet的基础上,对外卖评论中的同义词和逻辑关联词进行扩展,其中,与前文提出的重要属性相关的词,举例如下:①配送快:飞快、神速、热乎、烫;②配送慢:龟速、催促、坨了、冷冰冰;③分量足:好撑、吃不完;④包装不完整:漏、摔烂、到处都是。
卫生与否的属性除了依靠同义词判断外,很大程度取决于是否吃出异物。因此利用网络蜘蛛[6-7]脚本对评论中关键词“吃出”后紧随的词语进行抓取,并人工筛除,得出常见的异物名词如下:头发、虫子、苍蝇、铁丝、指甲、老鼠屎、避孕套等。
4 重要属性意见挖掘
将与上文7个重要属性相关的同义词和逻辑关联词均替换为相对应的属性情况,例如,出現上文中提出的“异物”名词,则直接替换为“不卫生”。
统计这些关键词出现的次数,可反映广大用户的真实导向,呈现给商家即可,例如,本地某连锁饮食店的统计数据是:配送快(167)/慢(18),态度好(194)/差(0),包装完整(27)/不完整(16),口味合适(82)/不合适(2),分量足(55)/不足(7),新鲜(76)/不新鲜(9),卫生(58)/不卫生(1)。
5 评论情感值计算
除7个重要属性外,评论中还包含了不少外卖专属情感词,如果按照积极情感词出现+1和消极词-1进行统计,可以计算出近似的情感值。但是这种不考虑句式的计算是不妥当的,按照中文表达习惯,转折句在表述相同内容的情感词时,传递出来的情感值更强,而总结句表示对一段文字的归纳,反映了最直接的情感。因此,在情感值计算中,这两种句式都应该赋予更大权重[8-10]。
常见的句式主要有两种:转折和总结。代表性关键词如表1所示。
7 不足与展望
然而,本文设计依旧存在一些不能被顺利分类的情况:
(1)评论中存在方言,表达强烈情感的词则无法被挖掘出来。
(2)形如:“真!他!妈!难!吃!”或者“好吃到飞”这样的句式,在分词分句过程中存在一些问题,也不能继续进行正确的情感分类。
此外,在对重要属性的意见挖掘中,虽然可以统计出频繁出现的菜品名称,但无法较好地关联到是否为针对某道菜品的评论,这些将在接下来的研究中继续细化。
参考文献:
[1] 魏韡,向阳,陈千.中文文本情感分析综述[J].计算机应用,2011,31(12):3321-3323.
[2] 叶强,张紫琼,罗振雄.面向互联网评论情感分析的中文主观性自动判别方法研究[J].信息系统学报,2007(1):79-91.
[3] 李胜宇,高俊波,许莉莉.面向酒店评论的情感分析模型[J].计算机系统应用,2017,26(1):227-231.
[4] 申剑博.改进的TF-IDF中文本特征词加权算法研究[J].软件导刊,2015(4):67-69.
[5] 曾淑琴,吴扬扬.基于HowNet的词语相关度计算模型[J].微型机与应用,2012,31(8):77-80.
[6] 周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29.
[7] 杨定中,赵刚,王泰.网络爬虫在Web信息搜索与数据挖掘中应用[J].计算机工程与设计,2009,30(24):5658-5662.
[8] 赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848.
[9] 周立柱,贺宇凯,王建勇.情感分析研究综述[J]. 计算机应用, 2008, 28(11):2725-2728.
[10] 李方涛.基于产品评论的情感分析研究[D].北京:清华大学,2011.
(责任编辑:黄 健)