严霞 张琨
摘 要: 教学评价情感特征不明显,复杂句式使用较多,而传统的情感分析方法往往忽略对复杂句式的分析。针对评教文本上述特点,提出一种基于情感词典的情感分析方法,该方法基于评教领域情感词典,融合复杂句式特征,定量计算文本的情感强度。将该方法应用于南京理工大学研究生综合管理信息系统中的评教文本,实验结果表明,所提方法有效地解决了评教文本的情感分类问题,具有较强的实用性。
关键词: 评教; 情感分析; 教学质量; 情感词典
中图分类号:TP391.1 文献标志码:A 文章编号:1006-8228(2019)01-51-04
Abstract: The emotional characteristics of teaching evaluation are not obvious. The more complex sentence patterns in teaching evaluation text are usually ignored by traditional algorithms. According to the characteristics of teaching text, a sentiment analysis algorithm based on sentiment dictionary is put forward to solve the problem. The proposed algorithm fuses complex sentence on the basis of domain-extended dictionary to quantify the emotional intensity. The algorithm is used in the evaluation texts of the postgraduates' comprehensive management information system in Nanjing University of Science and Technology. The final results show that the algorithm effectively solves the problem and has strong practicability.
Key words: teaching evaluation; sentiment analysis; teaching quality; sentiment dictionary
0 引言
学生是接受教育的对象,对教学质量有着直观清晰的感受,评教信息能有效反应课程的质量情况[1]。随着研究生培养规模和培养类型的不断增加,评教数据与日俱增,教师和管理者很难通过人工方式处理海量评论的情感分类问题[2]。因此,从大量评教文本中高效自动提取出有价值的信息成为亟待研究的课题。
本文针对评教文本情感倾向不明显,建议性评论数量大,复杂句式使用多等特点,提出一种基于评教领域情感词典,融合复杂句式特征的情感强度计算方法,并根据建议词表,自动抽取出评教文本中的建议性评价。以南京理工大学信息系统中产生和存储的评教数据作为研究对象,验证其有效性和科学性。
1 国内外研究现状
文本情感分析旨在运用机器学习算法或基于语义词典的分类方法分析海量评论的情感类别[3]。基于机器学习的分类方法主要是通过训练样本完成褒贬分类器的训练,然后通过分类器自动判断评论信息的正负情感倾向[4]。李燕玲[5]将改进的SVM算法应用于广西大学的评教文本中,进行教学质量的预评估,并通过实验验证了该算法的可行。Yu B[6]等人针对分类精度有限的问题提出了一种结合字符和词的双输入卷积神经网络模型CP-CNN来提高分类效果。基于机器学习的情感分类算法存在处理过程复杂、准确率受数据集影响大等问题,而评教文本验证数据集相对较小,准确率很难達到让人满意的效果。
基于语义词典的分类方法是利用情感词典识别待分析文本中表达或影响主观情感的要素,通过数值化形式展现,并将得到的情感值累加起来获取文本的整体情感类别。刘若兰等[7]从网络爬取教材在线评论文本,将建材领域的情感用词加入到通用的情感词典上,设计适合教材评论的情感分类算法,并通过实验验证了算法的有效性。陈开望[8]使用语义相似度算法构建适用于评教文本的情感词典,将情感强度和极性数值量化,研究并实现了基于情感词统计的情感分类算法。
此外,现有的基于语义词典的方法缺乏对复杂句式的分析。因此,本文结合评教领域特有词汇和评价相关网络词汇扩展基准词汇,构建适用于评教文本的情感词典,并基于否定词表、程度词表、转折复杂结构词表,设计适合评教文本的情感程度计算方法。
2 情感分析算法与建议抽取
2.1 数据预处理
2.1.1 数据清洗
评教文本具有随意性和主观性,非书面和非规范用语多,如:同音异字、错别字、拼音表达的评论等。此外,语料中掺杂冗余评论、无价值评论(如“无”,“……”等)。如果不对这些噪音数据加以处理,则会导致语料分词、词性标注产生错误,势必会影响分析结果的准确性,因此,执行分词操作前,先要执行对原始数据的去噪操作。本文的去噪处理主要包括剔除无价值的评论和冗余评论、拼音替换、错别字纠正、繁简转换等。
2.1.2 文本分词
文本分词是利用工具或算法将句子分割成单独词的过程[9]。分词结果的准确性对后续情感分析有着不可忽视的影响。目前的分词技术已取得很大的成功,准确率得到了大幅度提高,已有很多成熟的分词工具供开发者使用。本文采用哈尔滨工业大学研发的自然语言处理工具(language technology platform, LTP)来进行分词,该平台提供了中文分词,词性标注、语义依存分析等功能。在分词准确率测评中,LTP在很多数据集上都优于其它分词系统。
2.1.3 评教领域情感词典构建
国内已经整理出很多实用性强的情感词典,其中使用最为广泛且最具权威的是董振东教授编著的知网情感词典。2007年,知网发布了最新版本“情感分析用词语集(beta版)”,本文采用该词语集中的评价词典作为基准词典,基准词典共有6846个评价词语,正面3730个,负面3116个。教学评价中含有的一些领域词汇还尚未纳入通用情感词典中,如:层次分明,治学严谨,偏题,照本宣科等,将这些词加入情感词典,并人工标注其情感极性。此外,随着互联网的发展,“给力”“不忍吐槽”等网络流行用语层出不穷,我们将与评论相关的常用的网络词加入基准词典,形成评教领域情感词典。
2.2 情感分析算法
2.2.1 特征选择
本文选取四个特征作为识别情感和判别情感强度的要素:情感特征、程度副词特征、否定词特征、复杂句式特征。
⑴ 情感特征
情感特征是指评教文本中带有正负情感表征的有代表性词汇,观点或情感大多由情感特征来展现[10]。因为教学评论字数很少,往往不超过200字,所以正负面情感词更是决定了情感的倾向。为了定量表示词汇的情感极性,使用数值1、-1、0来分别定量表示正、负以及中性情感特征词汇。
⑵ 程度副词特征
程度副词特征用于判别情感强度。评教文本中含有大量的抒发自己感情的评论,如“老师讲课特别认真”,“这门课有点难,要投入更多时间”。情感程度被定为好或一般,其差异很大程度上取决于程度副词的使用。汉语中的程度副词不多,可以逐个列举出来。蔺璜[11]列出85个常见程度副词,并将其归至到更加细致的7个分类。本文以知网中文情感分析用词中提供的程度级别词语为基准,参考蔺璜的常用程度副词分类表,人工整理了一份程度副词,并按强度不同将程度副词分为了三个级别,表1展示了三个级别作用与权重。
将程度副词的修正系数与其修饰的第一个情感词的值相乘。程度副词e对第i个情感词的修正系数de(i)定义为:
其中,e为第i个情感词起往前特定长度内检索到的第一个程度副词,de(i)为程度副词e对第i个情感词强度的权重,M,N分别为第一级别和第三级别程度副词的集合。
⑶ 否定词特征
否定词在评教文本情感倾向性判断上有着重要影响,被奇数个否定词修饰的情感词会反转其原有的极性。根据评教语料库,参考郝雷红[12]对否定副词范围的界定,整理出18个常见的否定词。评教文本中可能含有多重否定的句子,若有奇数个否定词修饰情感词,则将该情感词极性值乘以-1,若有偶数个或无否定词修饰,则该情感词极性保持不变。否定词对第i个情感词的修正系数定义为ne(i):
其中,cn为修饰第i个情感词的否定副词个数。
⑷ 复杂句式特征
根据句子的结构可以将中文文本分为简单结构和复杂结构。简单结构文本由主谓宾构成,结构简单,情感极性单一。复杂结构文本由多个单句通过连接词组合,各单句情感极性可能不同的文本,如“虽然老师布置的作业有些多,但这个课程让我受益匪浅”,句子的情感极性更加偏向于“但是”引出的单句极性,因此分析评教数据极性更加需要考虑复杂句式。本文暂不考虑复杂句式中前后单句极性相同的连接词,给极性相反的连接词建立转折词表,如“……,但”、“……,却”、“……,只是”、“即使……,也”、“虽然……,但是”等。
算法中,将文本模式分为两种模式,无转折复杂结构模式中,文本倾向与情感词典分析极性相同。有转折复杂结构模式中,评论文本情感值等于第二个关联词后文本的情感值。
2.2.2 情感分析
评教文本大多由多个句子组成,而前后句子的情感极性很多是不一致的,但往往单句内的情感倾向是一致的。因此本文将一条评论分成多个段,段之间由逗号、句号、感叹号等隔开,若单段内含有转折连接词,则连接的两段合并为一段处理。以段為独立分析单元,先使用分词工具将单段分词。对于确定为情感词的词语,将该情感词分值与程度副词修正系数、否定修正系数相乘得到部分情感值,然后将独立单元内所有部分情感值相加,从而得到该段情感值。独立单元的情感强度和极性由情感值的大小和正负表示,情感分值大于零,则将该段归类为正面情感,且绝对值越大,情感极性越强。评论的正面情感值则是评论各个情感值为正的独立单元值相加,负面情感值为评论的各个情感值为负的独立单元值相加,该评论的情感值由正负面情感差决定。独立单元情感分值的计算方式如下:
其中qi为第i个情感词的情感极性,正情感倾向,qi=1,负情感倾向qi=-1,ne(i)表示修饰该情感词否定特征对qi取值的影响,de(i)表示修饰该情感词的程度副词对情感强度的影响,图1为独立单元的情感分值计算流程图。
评论实例:“虽然选这门课程同学不是很多,但是老师每次讲解都很细致,收获很大”。分词后数据为:“虽然/c选/v这/r门/q课程/n同学/n不/d是/v很/d多/a,/wp但是/c老师/n每/r次/q讲解/v都/d很/d细致/a,/wp收获/v很/d大/a”。转折复杂结构判断后分析数据为:“老师/n每/r次/q讲解/v都/d很/d细致/a,/wp收获/v很/d大/a”。该评论的情感分值:
2.3 建议提取
学生评价中有直接带强烈感情色彩的,也有中肯建议的。建议性评论是学生评教中的重要组成部分,是教师与学生进行交流的重要方式。把建议提取出来反馈给教师本人,有助于提高教学质量。参考知网发布的“情感分析用词语集(beta版)”中的主张词表,根据中文用语习惯和语料库,人工整理了26个带有建议特征的词语,包括“希望,更好,建议,可以……更,能够”等,形成建议词表。根据构建的建议词表,采用匹配法抽取出评论文本中的带建议信息的评论。
3 结论
实验文本选取南京理工大学研究生综合信息系统存储的4620条非空评教数据。在数据清洗阶段去除相似、无意义、冗余的评论后剩余2727条,经过人工逐条识别,具体数据信息如表2所示。
所有评价中带有建议信息的评论有418条。将评论文本前后均为肯定的情况标注为正情感倾向,文本前后均为否定的情况标注为负情感倾向,一条评论中若包含两种情感的取其中一种较为明显的,若正负情感差值小(算法中Q<阈值y,y暂且设置为2),则归为中性情感倾向。评论前后各段均为提建议的也统一标注为中性情感倾向。图2为南京理工大学研究生综合管理信息系统的一门课程前5条评教文本,其中1,4为正面情感倾向文本,5为负面情感倾向文本,2,3为中性情感倾向评价,带有建议信息评价有2,3。
为验证算法准确率,忽略情感强度,只判断极性。采用常用指标精确率P(precision),召回率R(recall),准确率A(accuracy)对所获得的结果进行检验。
其中判定正面情感样本中,TP(True Positive)表示判断正确的数目,FP(False Positive)表示判断错误的数目。判定负面情感样本中,TN(True Negative)表示判断正确的数目,FN(False Negative)表示判断错误的数目,得到结果如表3所示。
与传统的基于词典的情感计算方法相比,本文提出的计算规则准确率得到提高。算法还存在以下问题。
⑴ 若阈值y设置过大,则会降低正负情感评论分类的准确率,若阈值y过小,则会影响中性情感倾向评论的准确率。
⑵ 基于词典的分类算法准确率很大依赖于情感词典和判断规则的质量。
⑶ 随着时代的发展,网络新词、旧词新意使原有词典中的词汇不适用于新语言环境,算法推广扩展能力差。
因此,在进后的学习中,需要探索扩展性强,准确率更高的方法,使评价分析结果更加客观、科学。
参考文献(References):
[1] 教育部:更好发挥课程学习在研究生培养中的作用[J].中国大学生就业,2015.5:12-13
[2] 邢政权. 高校学生评教制度存在的问题及改革研究[D].西北农林科技大學,2017.
[3] 赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010.21(8):1834-1848
[4] Chen J Q, Zhang Y. Text Sentiment Analysis Based on Neural Networks with Language Model[J]. Modern Computer,2018.
[5] 李燕玲. BT-SVM多分类算法在教学质量评价中的应用[D].广西大学,2014.
[6] Yu B, Zhang L, Management S O. Chinese short text classification based on CP-CNN[J]. Application Research of Computers,2018.
[7] 刘若兰. 教材在线评论的情感倾向性分析研究[D].新疆师范大学,2017.
[8] 陈开望. 数字校园中文本情感倾向性计算方法研究[D].北方工业大学,2015.
[9] 孔希希,廖述魁,程兵.基于不同分词模式的文本分类研究[J].数学的实践与认识,2018.48(01):116-123
[10] Li Y, Shen B. Research on sentiment analysis of microblogging based on LSA and TF-IDF[C]// IEEE International Conference on Computer and Communications. IEEE,2017:2584-2588
[11] Lin H, Guo S H. On the Characteristics, Range and Classification of Adverbs of Degree[J]. Journal of Shanxi University,2003.
[12] 郝雷红.现代汉语否定副词研究[D].首都师范大学,2003.