武光利
(1甘肃政法学院 信息工程学院,甘肃 兰州 730070;2甘肃省证据科学技术与应用重点实验室,甘肃 兰州 730070)
微博因其使用简便,已发展成一种新的社交网络及信息发布平台。自问世以来,得以迅速发展。微博上含有大量的情感倾向的言论,对其进行情感分析可以得到有用的决策信息,可应用于民意调查、舆论监控、政府决策、商品销售等。微博更新速度快、消息量大、含有大量的情感信息,吸引了大批学者对其进行研究,针对微博的自然语言处理研究已成为一个新的研究热点及前沿性课题,微博情感分析就是其中的一个热点课题。情感分析又称观点分析,用于分析文本中观点持有者对事件的支持、反对或中立态度,也即分析文本表达的正面、负面或中性情感[1]。
微博短文本有词语信息丰富多样、语料简短、主题松散等特点,相对于长文本来说,在相应的情感分析上将面临更多的问题,如文本矩阵的稀疏性、情感词的多样性等。文本情感分析过程由文本预处理、情感特征提取、情感分类等步骤组成。中文微博情感分类方法可以分为两大类:一类是基于情感词典的情感分类方法,一类是基于机器学习的情感分类方法。
微博短文本预处理主要包括过滤无关信息、文本分词、词性标注等。由于微博通过图片、视频、文字等来表达信息,还因其可以转发引用他人微博存在一些微博文本特有标记,所以在预处理时,首先将这些无关标记如链接以及“@”“//”标签及其后包含的内容,“#”与“#”符号之间的内容及符号一起去除。英文单词和视频及图片也去除,保留表情符号[2]。
面向中文的分词和词性标注技术已相对成熟,国内有中科院计算所开发的ICTCLAS中文分词标注系统,可以实现中文分词、词性标注、命名实体识别和未登录词识别,词正确率高达 97.8%;这些相关软件的开发为中文微博短文本情感分析奠定了良好的基础。
虽然微博中的文本只有140个字符,但是包含的信息量却非常巨大,而且微博文本还有未登录词较多、口语化严重等特点,采用向量空间模型表示微博文本,以词汇和词性作为特征,根据提出的基于层次结构的特征降维方法对特征空间进行降维。面向微博短文本的情感分析的特征选择,首先要去除掉与情感无关的且类别关联度较小的特征,排除不必要干扰。其次为了提高微博短文本的情感倾向性判别的准确性,特征选择需获取能获取与情感分类有关联的特征信息。因此,必须针对微博消息选择合适的特征抽取方法,才能提高情感识别的分类效果。目前特征选择方法主要有互信息、信息增益、词频、文档频次等。
2.3.1 基于情感词典的微博情感分析方法
基于情感词典的微博情感分析方法主要根据情感词典,将一条微博语句的情感极性值之和作为该条语句的情感极性。该方法依据情感词典将情感极性分为正向情感、负向情感和中性情感。具体公式[3]如下:正向情感(如果正向情感词数>负向情感词数)、负向情感(如果正向情感词数<负向情感词数)、中性情感(如果正向情感词数=负向情感词数)。
基于情感词典的微博情感分析方法可分为词语特征级、句子级情感判别,该方法主要的优点是粒度细、分析准确。但受到自然语言处理技术及相关抽取技术的限制,该方法容易丢失数据集中隐藏着的重要模式,使得未来研究工作中还有很大的提高空间。
2.3.2 基于机器学习的微博情感分析方法
基于机器学习的微博情感分析方法是通过各种算法将微博短文本分为正面、中性、负面三类情感[4]。这类方法是用机器学习的方法将将微博情感分析看做分类问题来处理。常用的机器学习算法有朴素贝叶斯NB、支持向量机SVM、最近邻方法KNN、最大熵ME和条件随机场CRF等[5]。选取微博文本中有利于情感极性分类的词或短语等作为特征,构建向量空间模型。通过向量空间模型提取的特征再训练分类器进行分类。通过训练集的构建分类器,通过测试集来对分类器的性能进行验证。训练集语料的大小和质量、特征的提取的好坏将直接决定分类器的好坏。
虽然面向中文微博情感分析的分类准确率已达到了一定的水平,但是仍有提升的空间,主要原因有以下两个方面:一是由于无论采用哪种方法都涉及特征的选取问题,如何提取更加有效的特征来提高分类的效果是问题的关键所在。二是中文微博表达的内容信息量大、千变万化,需要对汉语的语言特点进行更加深入的研究,才能够找出更合适的方法来进行微博情感分析。
[1]王银,吴新玲.中文微博情感分析方法研究[J]广东技术师范学院学报(自然科学版),2014年第3期.
[2]周胜臣,瞿文婷,石英子,施询之,孙韵辰.中文微博情感分析研究综述[J]计算机应用与软件,2013第3期.
[3]陈晓东. 基于情感词典的中文微博情感倾向分析研究[D]华中科技大学,2012.
[4]孙建旺,吕学强,张雷瀚. 基于词典与机器学习的中文微博情感分析研究[J]计算机应用与软件,2014年第7期.
[5]刘楠. 面向微博短文本的情感分析研究[D]武汉大学,2013.