翁 捷宋正荣 李 旸
(1.安徽农业大学,安徽 合肥 230036;2.铜陵学院,安徽 铜陵 244000)
在2011年1月发布的《第27次中国互联网络发展状况统计报告》里,中年和青少年成为了网民的最主要组成部分,而其中大多数是在校大学生。微博作为一种信息交流平台,以其短小精悍、传播速度快、用户交互性强等优势,逐步成为人们喜爱的信息交流空间。高校是一个充满活力的场所,不仅仅在校学生,很多老师、部门也都开始使用微信参与学生和学校的话题交流。
微博的特点在于“微”。和BBS、Blog等相比,用户发言的信息长度很短,语言更加口语化。同时,因为表情符号的活用,用户乐于在微博上用带有较强情感色彩的语言或表情,来表达自己的观点、情感、兴趣和对事件的看法等等。因此,“情感”成为了微博信息研究中很重要的一环,我们可以通过数据挖掘的方法,对微博的信息进行情感分析,判断话题的倾向性和情感强度,便于我们了解学生的情感趋向。
1.数据预处理
对于获得的微博信息文本,首先要做的工作就是对数据进行预处理,即通过中文分词和排重过滤,获得我们需要的数据。
首先,基于分词字典进行中文分词,把文本划分为一个个词单元,常用的中文分词字典有《中国分类主题词表》和《中科院分词词典》等,同时还可以添加自定义的词表,比如新生的网络词汇或者特定事件发生后出现的词汇等等。中文分词后,会出现大量无意义、重复的数据,通过排重过滤可以去掉多余的噪声数据,仅仅保留需要的关键字,比如带有情感趋向的关键字、能够作为该段文本主题词的关键字等等。
2.基于情感词字典计算情感强度和倾向性
情感字典是计算文本情感强度和情感倾向性的主要依据。国内外的学者在对大量的词汇进行整理、研究后,制作出了专门的情感字典。比较著名的中文情感字典有知网(How Net)的情感词语集、台湾大学的NTUSD简体中文情感极性词典、大连理工大学信息检索研究室的中文情感词汇本体库、哈尔滨工业大学信息检索研究室的情感词库、中科院的汉语情感语料库等等。在这些情感字典中,搜集并整理了贬义的负面情感词语、褒义的正面情感词语、情感表达强度的程度副词等等,并对表达不同强度的词语做了情感强度的划分。
和中文分词的分词字典一样,可以根据需求引入新的情感词,并且给出这些情感词汇的情感强度。这些情感词一般以网络中新生的网络流行语为主,也包括一些标点符合或汉字的特殊组合(即日本网络文化中出现的“颜文字”)。一些平常看似毫无意义的符号组合,往往在网络中会有着表达特殊情感的功能,而这些颜文字在我们日常的中文分词、断句过程中,往往容易把它们按照无意义的符号文本处理,比如“(TДT)”表示伤心,“\(*T△T*)/”表示高兴等等。
除了情感词外,在微博的情感计算中,还需要考虑到在微博中广泛使用的表情符号。微博中的表情往往以“/表情含义”来表示,因此有人提出只要根据表情含义对表情的情感倾向和情感强度进行分类和定义即可。但是实际上的结果却是,在微博中出现的绝大多数的表情,其实都是中性化的表情,本身并不带有绝对化的情感倾向。如果文本本身并没有很强的情感倾向,大部分的表情符号都会以带有调侃性质的中性情感出现;如果文本本身带有比较强的情感倾向,表情符号的情感倾向会和文本的情感倾向保持一致,所表达的情感强度也仅仅是对文本的情感强度进行加强。所以,在计算表情符号对微博文本的情感影响时,可以进行有取舍的计算。如果微博文本的情感强度达到了一定的阀值,可以把表情符号的情感强度计算进去,否则就忽略表情符号的情感强度。
根据从微博文本中提取出来的情感词、程度副词、否定词,可以在各个词单元之间联系的基础上计算出整段微博文本的情感强度和情感倾向。
1.微博文本的情感强度计算
对于微博文本的情感度进行计算时,思路大致和通常的网络文本一致。即先把每个独立的微博文本T分成一个个单独的句单元,即T={s1,s2,s3……,sn}。根据情感词的情感强度和情感趋向、情感程度副词对于情感词情感强度的影响、否定词对于情感词情感倾向的影响,以及表情符号对于文本情感强度、情感倾向的影响,求出用户发言中每个句子si的情感得分sentiment(i),再求出该发言中的整体情感得分。计算方法如下:
首先计算词汇的情感倾向,其中p表示词汇w的褒义倾向,n表示词汇w的贬义趋向:
再引入否定词对于情感的影响,u表示否定词n出现的次数:
再引入程度副词对于情感的影响,adv表示程度副词,S(adv)表示程度副词的强度:
话题T的情感强度计算方法如下,其中w表示没有被否定词和程度副词修饰的情感词,n表示有否定词修饰的情感词,adv表示有程度副词修饰的情感词:
2.对于扩展情感词的情感强度和倾向性计算
由于网络上会经常出现新兴的网络流行语,有些流行语是网民新造的词汇,有些是把原有词汇的意思做了引申或改变。或者是在某些事件发生后,和事件相关的一些词汇会出现语义或情感倾向的改变。因此,需要对情感词词典进行更新,重新计算或者赋予某些词相应的情感强度或者情感倾向。
计算的一种思路是,根据词汇中各个字单元的情感倾向来计算该词汇的情感度。即统计情感字典中,组成这个情感词的各个字单元在不同情感倾向下出现的概率,再求出字单元各个情感倾向的权重,最终求出这个词的完整情感倾向。计算方法如下:
其中,pci是字单元ci在情感字典中作为褒义词的权重,nci是字单元ci在情感字典中作为贬义词的权重。fpci是字单元出现在褒义词词典里的概率,fnci是字单元ci出现在贬义词词典里的概率。pn表示褒义词词表的字单元个数,nn表示贬义词词表的字单元个数。
通过情感词的字单元情感强度和情感倾向的统计,可以求出新的情感词的情感强度和情感倾向。
实验的语料来自铜陵学院部份学生微博信息的收集。对于各条微博进行了情感倾向的分类分析。使用的分词软件是中科院的ICTCLAS2014,基础情感字典是中科院的汉语情感语料库。采用了通用的SVM算法进行分析。
收集的学生微博3531条,其中带有褒义倾向的1274条,带有贬义倾向的973条,中性的1284条。每次随机从褒义倾向和贬义倾向的微博文本集中各抽取200条进行实验,实验抽取三次。得出的结果如下:
第一次 第二次 第三次正面 负面 正面 负面 正面 负面查准率 73.50%79.00%75.00%78.00%79.00%77.00%查全率 77.78%74.88%77.32%75.73%77.45%78.57%F1值 75.58%76.89%76.14%76.85%78.22%77.78%
查准率指正确分类的文本数与实际分类为该类文本数的百分比,查全率指正确分类的文本数与属于该类别的文本数的百分比。F1值是由Van Rijsbergen提出的对查准率和查全率进行评判的标准指标。这三个数值越高,表示分类的准确度越高。
从实验结果可见,通过SVM法对于微博话题情感倾向的判断准确度还是比较高的。但是由于用户在微博里的发言随意性很大,新兴的网络用语层出不穷,需要不断增加情感字典里的情感词才能达到更高的准确度。但是在一般的情感字典基础上,现有的倾向性分析已经可以作为我们对微博话题倾向性的一种参考,便于从微博的话题中,自动判断话题的倾向性,作为舆情考量的一种参考。
作为国家人才培养者的高校,在教授学生专业知识外,还必须了解学生、引导学生,使其成为国家需要的合格人才。随着网络的日益发达、电子产品的日益成熟,学生越来越多地在网上发起话题、讨论话题,网络成为学校了解学生的一个重要舞台。因此,高校在原有的学生管理模式上,需要增加信息化的方法去观察、收集、处理各类网络信息。通过信息化的方法,寻找更加科学有效的方法对学生进行管理和引导。
作为了解学生网络行为的一种途径,微博话题的情感度分析可以帮助学校了解学生对一些话题的态度及倾向性,对一些发生在学生身边的事件进行舆情分析,或者对事件的发展进行预测,进而为学校处理一些事件提供参考。
目前对于微博话题的情感倾向研究还处于起步阶段。原有的对BBS、Blog、WEB等平台上的文字进行的情感倾向研究,虽然适用于微博话题的情感倾向研究,但由于微博话题更加短小明快,更加口语化和无规则化,因此还需要对微博话题的特点做更进一步的分析,特别是对于网络用语的探索,将会是影响到微博话题情感倾向的关键因素。同时,对于微博话题的情感倾向性研究,也可以延伸到网络文本及各种网络社交平台上,成为人们监控、分析舆情的有效辅助手段。
[1]张伟舒,吕云翔.微博情感倾向算法的改进与实现[J].知识管理论坛,2013,(9):21-27.
[2]曾佳妮,刘功申,苏波.微博话题评论的情感分析研究[J].信息安全与通信保密,2013,(3):56-58.
[3]张鲁民,贾焰,周斌.基于情感计算的微博突发事件检测方法研究[J].信息网络安全,2012,(8):143-145.
[4]张彬.文本情感倾向性分析与研究[D].郑州:河南工业大学硕士学位论文,2011.
[5]喻琦.中文微博情感分析技术研究[D].杭州:浙江工商大学硕士学位论文,2013.
[6]张东霞.基于高校学生微博的舆情热点分析与发现[J].东南传播,2013,(6):87-89.
[7]王振浩.基于情感字典与机器学习相结合的文本情感分类[D].哈尔滨:哈尔滨工业大学硕士学位论文,2011.