刘丹丹 邱恒清 赵应丁
【摘要】 微博是当下社交网络中最流行的社交工具典型代表,微博信息具有及时性,流动速度快,内容情感色彩丰富,微博的分析是对社会学、信息学、计算机科学、统计学等多学科交叉领域的研究,成为了其新的热点研究方向。鉴于自主采用Java语言开发的新浪微博的情感识别与分类系统,对中文微博的情感进行识别与分类研究。系統使用爬虫技术,抓取微博的文本内容,然后利用支持Java开发语言的ICTCLAS分词工具进行分词,去停用词,文本规范等预处理操作,再抽取情感特征,对文本情感识别与分类,最终输出分类结果。实验中通过多种方法对比,选择实验效果较好的方法,最终实验结果表明:朴素贝叶斯的主客观句识别效果优于支持向量机分类方法,基于支持向量机一对一多步识别中文微博文本情感类别效果优于一对其余一次识别方法,且准确率达到63.76%,召回率达到74.4%,总体实验结果较传统粗粒度研究有明显进步。
【关键字】 微博 网络爬虫 情感识别 情感分类 支持向量机
引言
随着web2.0的快速发展,社交网络逐渐从各个方面影响着中国网民。微博成为了社交网络中社交工具的典型代表。网民使用微博在互联网上的活动主要是获取信息与发布信息,发布的信息含有自己对某事物的看法、观点、感知等个人情感。
它们主要以文字,表情符号(新浪微博默认表情及标点符号)形式出现。通过用户之间的互动传播(一个微博用户具有双重角色,即博主与粉丝),这种社交网络媒体具有传播速度快,传播范围广等特点。因此对微博情感识别与分类就显得尤为重要。
对微博文本的情感进行识别与分类,不仅能让企业及时了解客户需求寻找到潜在的客户群体,通过实时、准确地评估其情感。能够获得客户市场反馈信息及客户的消费习惯,帮助企业进行有效的需求管理及企业战略调整,从而快速应对市场变化,提高企业竞争力。还能帮助政府部门实时监控民众情绪,对负面情绪及时采取措施,防止不法分子企图通过微博平台传播谣言,以此保证社会的和谐稳定,政府了解民意,为制订国家政策提供参考。
同时也能协助医生分析心理障碍者,及时掌握患者情绪波动,准确对患者病情进行有效的对症下药。避免了患者不能准确描述病情,而带来的不相关治疗。
因此对微博情感进行研究具有重要的理论与实践意义。文章意在为政府或企业等利用到微博情感分析数据的领域提供基础。
鉴于自主采用Java语言开发的新浪微博的情感识别与分类系统,对中文微博的情感进行识别与分类研究。系统使用爬虫技术[1],抓取微博的文本内容,然后进行分词,去停用词,文本规范等预处理操作,再抽取情感特征,对文本情感识别与分类,最终输出分类结果。
一、相关工作
1.1文本获取及预处理
对微博数据资源的获取有两种形式,一种是用户以普通文本形式直接在系统前台相应位置输入待分析的文本,系统可以自动进行情感识别与分类;另一种是用户以微博文本URL形式输入,系统对用户输入URL连接采用网络爬虫技术抓取微博正文内容。
网络爬虫结构先将用户输入URL作为爬虫起点,通过web协议(主要是HTTP协议)采集页面,使用多线程或并列技术获取网页数据信息,网络爬虫结构也提供了链接过滤模块(过滤掉不符合URL规范的链接),页面数据库模板(存储已经爬取到本地的原始页面数据,以备预处理阶段建立索引使用)。
为了提高分类的准确率,减少获取文本内容不必要干扰,对文本进行预处理操作十分必要。系统的预处理操作主要包括:
1.文本规范化处理,判断待处理的文本是否含有由两个#组成的话题标签,若有则删除两个#及它们之间的文字内容。
2.使用正则表达式判断微博文本是否含有以下三种含@微博标签,若有将它们删除①以@开头,以:结尾②以@开头,以空格结尾③以回复@开头以:结尾。
3.判断英文词语是否含有感情色彩,删除不必要的英文词语。
4.用中文描述替代含有感情的“?”和“!”去除一些标点符号。
5.使用得到普遍认可的支持Java开发语言的ICTCLAS分词工具分词,去除停用词。
1.2文本特征抽取
文本特征抽取[2-3]是从文本中选取一部分能够反应其内容信息的特征词汇并计算其特征权重。特征抽取的主要目的是为了降低向量空间的维度,消除无关特征的噪音,通过选择可区分性强的少量特征来提高分类器的分类精度和效率。常用的特征选取方法有: 文档频率、信息增益法、期望交叉熵等。文档频率[4](Document Frequency )一种简单的特征约减技术,常用自动特征选择,通过设置目标特征的文档频率阈值来进行特征的抽取。DF是含有该目标特征的文档数与所有文档数的比值,可表示为
信息增益法[5]是指文本包含该特征项与不包含该特征项时的信息熵的差值,根据所获信息增益的多少筛选有效特征,已成为机器学习领域应用较为广泛的特征选择方法。信息增益法计算公式可以表示为:
由于当特征数目较少时,使用该方法得到的数据稀疏,分类结果会不理想,因此本文首先对预处理后待分析的文本里出现的每个词计算其信息增益,设置一个阈值,抽取特征词,按照信息增益值降序选择特征项组成特征向量。
期望交叉熵[6](Expected Cross Entropy)反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。
词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。
期望交叉熵计算公式:
为了提供特征词抽取的时间效率,针对微博的数据量很大的特点,使用期望交叉熵和TF-IDF求方差的方法抽取情感特征词。
1.3文本情感识别与分类
采用基于朴素贝叶斯主客观句识别方法[7]和支持向量机的分类方法[8-11]对文本分类。朴素贝叶斯方法是一种基于事件概率简单而误差率较小的分类方法。基本原理是:在事件相对独立的条件下,事件A在事件B发生的条件下的概率且与事件B在事件A发生的条件下概率是不相同的。及文档A属于B i类概率表示为
系统应用思想:对有已知类别集合S(x1,x2,…,xn),求在待分类项出现的条件下,集合中各个类别出现的概率,哪个类别的概率值大,就认为待分类项属于那一类别。并将对每个特征项主客观句的条件概率计算结果输出,作为支持向量机分类器的输入值。
系统的工作流程图如图1所示。
二、实验分析
使用第二届自然语言处理与中文计算机会议所提供包含4000条已经标注是否含有情感色彩的中文微博语料,含有13252个句子,且主观句中又表明了所属具体情感类。情感类别分为7个类别,分别是:喜好、安乐、惊奇、厌恶、悲哀、愤恨和恐惧。
选择这些数据作为系统测评数据主要是与系统测试结果进行比较,核实评价实验结果的召回率(R),准确率(P),性能评价指标F值。求解公式如下所示:
系統将实验测评数据首先进行预处理,对其进行规范化、分词去除停用词、抽取情感特征,然后采用朴素贝叶斯方法,使用其公式计算结果来识别主观句,支持向量机方法先将抽取的特征词转换成向量形式,再将向量化后的文本放到向量机的模型中,最终输出分类结果。通过计算支持向量机的情感分类方法召回率达到74.4%,准确率高达63.76%,F值达到0.6534.
实验中采用准确率,召回率,F值测评指标,对常见的情感特征抽取方法[16]实验结果进行了对比,见表1,通过对比朴素贝叶斯和支持向量分类方法对主客观句的识别结果,得出结论:本实验中对主客观句的识别朴素贝叶斯方法比支持向量机方法的实验结果更好。因为支持向量机方法准确率虽更高,但召回率较低。
实验结果见表2。对已识别的主客观句,我们采用支持向量机的一对一的多步分类方法及一对其余的一次分类方法进行情感分类。
实验结果见表3。实验结果表明:一对一多步情感分类方法效果优于一对其余一次分类。因为一对其余分类方法可能出现重叠现象或因不可分类现象而引起数据集的抖动。因此实验最终选择支持向量机的一对一多步分类方法。
三、结语
微博作为网民在互联网主要活动之一,逐渐从各个方面影响着人们,网民带有情感的言论对各行各业都有着不可估量的使用价值。因而对微博文本的数据分析研究有一定的社会意义。
通过查阅文献发现基于朴素贝叶斯识别主客观句的方法及基于机器学习支持向量的方法有较高的精度。而由于针对中文微博的研究大部分是理论性的研究,因此本文通过构建系统,将基于朴素贝叶斯的识别主客观句个方法及支持向量机的方法的研究思路实践化。实验结果对企业、政府及广大网民均有重要的社会意义。
展望:
1.后期会打破仅在初步解决微博文本的情感识别和分类问题的研究,接下来会投入对用户的图片信息,链接的视频声音信息进行研究。
2.本文去除英文词语,采用的是人工标注方法。鉴于部分国人倾向于有使用英文的习惯,所以会不断的完善系统情感库,或设计系统能自动翻译,以此减少人工工作量。
参 考 文 献
[1] YANG Yuekui,DU Yajun,HAI Yufeng,et al.A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree[A],Asia Paciic Conference on Information Processing (APCIP 2009)[C].Washington DC:IEEE Computer Society,2009:420-423.
[2] 张彪.基于关联分析的文本分类特征选择算法[J].计算机工程.2010(22):184-186.
[3]谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2011,26(1):73-83.
[4] Dai Liuling,Huang Heyan,Chen Zhaoxiong.A Comparative Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing,2004,18(1)26-32.
[5] 李海瑞.基于信息增益和信息熵的特征词权重计算研究[D].重庆大学,2012.
[6] 廖一星.文本分类及其特征降维研究[D].浙江大学.2012
[7] 蒋良孝.朴素贝叶斯分类器及其改进算法研究[D].中国地质大学,2009
[8]杨鼎,阳爱民.一种基于情感词典和朴素贝叶斯的中文文本情感分类方法 [J].计算机应用研究,2010,27(10):3737-3739
[9]A.Basu,C.Watters,M.Shepherd.Support Vector Machines for Text Categorization.Proceedings of the 36 th Hawaii International Conference on System Sciences,2003.
[10]赵晖.支持向量机分类方法及其在文本分类中的应用研究[D].大连理工大学,2006.
[11]张博.基于SVM的中文观点句抽取.[D].北京.北京邮电大学,2011
[12]Youngjoong ko,Pjinwoo Park,Pjungyun Seo.Automatic Text CategorizationusingtheImportanceofSentence s[A].Proceedingofthe19thinternationalconferenceonComputationlinguistics[C],Taipei,Taiwan,2002:1-7.
[13] 韩忠明,张玉莎,张慧,等.有效的中文微博短文本倾向性分类算法[J].计算机应用与软件,2012,29(10):89-93.
[14] 张艳辉,杜文韬,刘培玉,等.基于词典的微博的倾向性分析[C].第五届中文倾向性分析评测研讨会,2013:50-52.
[15] 张珊,于留宝,胡长军.基于表情图片与情感词的中文微博情感分析[J].计算机科学,2012,39(11A):146-148.
[16] 刘明吉,王秀峰.Web 文本特征信息的特征获取算法[J].小型微型计算机系统,2002,23(6):683-686.