李效伟
(山东女子学院 信息技术学院,山东 济南 250300)
学生评教留言的倾向性分析*
李效伟
(山东女子学院 信息技术学院,山东 济南 250300)
学生评教留言经过逐年累积,已经形成一个巨量的信息资源,如何进行挖掘和分析这些资源已经成为一项紧迫的任务。本文采用频率、信息增益、条件概率比、期望值差异等四种特征选取方法对留言进行分析,采用ICTCLAS分词软件进行分词,利用MATLAB软件进行矩阵奇异值分解和降维,使用支持向量机进行训练和预测数据,从而能够对学生留言的情感倾向性给出很好的预测结果。最后通过实例说明了文中算法的有效性。
倾向性分析;分词;特征选择;降维;支持向量机
学生评教留言经过逐年累积,已经形成一个巨量的信息资源,对其进行数据挖掘已经成为刻不容缓的工作,如何更好地利用大量的留言体现了一个学校对其教学水平和方法进行提升和改进的能力,一个高水平的学校应积极发展对学生留言的挖掘,对其进行分析、处理并最后得出结论,及时了解和分析教师的教学现状和学生们的听课反馈。
国内外相关学者对文本倾向性分析进行了大量研究[1-5],虽然英文的倾向性研究已经很成熟并得到了丰硕成果[6-17],但是中文文本的倾向性研究还处在发展阶段,有着广阔的发展空间。柴玉梅等[1]通过分析中文文本内容褒贬色彩的客观性和褒贬倾向性分类的可行性,将特征选择方法和褒贬特征提取技术结合起来,实现了名人网页的褒贬倾向性分类;唐慧丰等[2]通过对中文文本不同分类方法的对比分析,提出采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,在情感分类方面取得较好的效果;Tan等[6]针对中文文本,通过对四种特征选择方法和五种学习方法进行实验,提出信息增益特征选择方法与SVM进行组合,能够得到较好的预测结果;Prabowo等[7]提出一种规则分类、监督学习和机器学习相结合的方法,能够对电影评论、产品评论和MySpace留言进行倾向性分析;Li等[8]提出结合K-means聚类算法和SVM来实现无监督学习的方法,并利用此算法进行在线论坛热点的侦探和预测。
Tan等[6]针对中文文本,通过使用MI(Mutual Information)、IG(Information Gain)、CHI(CHI Statistics)和DF(Document Frequency)四种特征选择方法和质心分类、K近邻、Window分类、贝叶斯分类、支持向量机五种分类方法进行实验,提出信息增益特征选择方法与SVM进行组合,得到较好的预测结果,但是其只是针对1 021个文本数据进行实验,并未能够将其应用到学生评教留言中,学生评教留言具有一定的特殊性,它是对教师教学活动的评价,其中含有对教师丰富的情感,并非只是对一件物品的评价。针对学生评教留言,本文提出了一个学生评教留言的倾向性分析算法。首先,利用ICTCLAS对2 500条留言文本进行分词,其次,进行词性过滤,保留名词、动词、形容词和副词四类词语,再次,进行词语过滤,使用基于频率、信息增益、条件概率比和期望值差异四种方法进行实验,然后,生成词频矩阵,并将矩阵进行奇异值分解、降维、去除冗余数据操作,最后,利用SVM将生成的矩阵进行训练和预测。本文特别针对学生评教留言,为实际的教学评价活动提供一定的决策支持,能够生成较好的预测结果,使得此算法能够更好地应用于实际的教务系统和教学活动中。
本文特别针对学生评教留言,提出一种基于期望值差异的词语过滤方法与支持向量机相结合的倾向性分析算法,算法流程如图1所示。
图1 算法流程图
算法流程如下:
输入: 500条留言作为训练数据, 2 060条留言作为预测数据。
输出:2 060条预测数据的倾向性结果,以及本算法的正确率和拒识率。
(1)分词。用ICTCLAS50分别对训练数据和预测数据进行分词。
(2)词性过滤。保留名词、动词、形容词和副词四类词性词语。
(3)词语过滤。利用基于频率、信息增益、条件概率比和期望值差异的过滤方法对词语进行过滤。
(4)生成词频矩阵。以“词项×文档矩阵”的格式生成词频矩阵。
(5)矩阵处理。获得训练文件,对矩阵进行奇异值分解、降维、去除冗余数据后生成训练文件。
(6)训练。用LIBSVM对训练集进行训练,获得训练模型。
(7)预测。将预测集导入LIBSVM,利用上一步获得的训练模型进行预测。获得倾向性结果,计算本算法的正确率和拒识率。
2.1 学生留言的预处理
2.1.1 训练数据的选取
训练数据的质量直接决定预测的效果,训练数据是需要精挑细选的一些留言数据,必须具有良好的分类代表性,选取遵循以下原则:
(1)需要过滤掉所有空留言、只含有标点符号的留言以及不包含任何词语的文本。
(2)重复性留方过滤。完全重复的留言,以及留言文字相同但是有标点符号不同的文本需要删除,因为它们的向量基本相同。向量相同的留言放到libsvm中处理只会增加计算量。
(3)训练数据中各类的数目要大体相当。
(4)删除部分表达意思相近的留言。
(5)训练数据不宜选取过多,也不宜过少,如果过多就会存在很多重复性的向量,如果过少,训练集太小,不能很好地进行预测。训练集的大小在500条左右即可。
基于以上选取数据的原则,本文从数据库中抽取了500条数量相当的差评留言和好评留言。
2.1.2 双重否定短语的确定
一般情况下,一条留言中出现否定词就会被判定为差评。例如:“讲课太过于粗糙,条例不太清晰”,这样的留言中含有“不”,会被判定为差评,这样进行判定看似是理所当然的,实则不然,例如留言“注意启发学生课外阅读,不拘泥于课本,能调动学生积极性,活跃课堂气氛”,其中含有“不”,但是“不”后面跟的是“拘泥”,在语言中,双重否定表达的是肯定意思,根据语义分析这是好评,但是训练器把它标记成差评了,这样不符合客观事实。为了解决这个问题,本文把两个表达否定意义的词语组合成一个短语,形成一个表示肯定意义的短语,优先对这些组合起来的二元词语匹配,并在后续处理过程中把这些短语当做一个词语对待。
在留言中经常出现的双重否定词语包括:不拘泥、不单纯、不忘、不脱离、不失、不死、不死板、不拘于、不枯燥、不只、不少、不错、不容易等等。
2.2 特征词的四种选择标准
2.2.1 基于频率的过滤方法
基于频率的过滤方法中,一条留言中一个词语出现一次以上都是按照一次计算。本文采用了长匹配优先的方式对其进行匹配。如果一个词语包含另一个词语,则被包含的词语的次数不能加一,例如第一条留言中出现“清楚”,包含“清”,第二条留言中包含“清”,则“清”出现的次数只能是一次,而不是两次,还有一种特殊情况是“松”被分作了两个词性,“松/a”和“松/ng”,对于这种情况需把所有词语的词性去掉之后再统计这个词语出现的次数。去掉出现频率低于二次的留言之后,还剩下407个词语。
2.2.2 基于信息增益的过滤方法
基于信息增益的过滤方法中,根据IG计算公式计算需要留下的IG值:
c表示类别,属于此类或者不属于;τ表示此特征出现与否,布尔型。若特征与类别无关,则IG=0。按照IG值的大小排序,获取IG值较大的407个词语。
2.2.3 基于条件概率比的过滤方法
基于条件概率比的过滤方法,根据下面公式计算P(word),P1=P(word|C1),P2=P(word|C2):
在这里P(word)越小越有意义,说明word在不同类别中出现的概率差异大。若P1/P2=1或者P2/P1=1,则说明word的出现与类别判断无关,可去掉;若P1/P2=0或者P2/P1=0,则说明word的出现与类别高度有关,此类词语需保留。
2.2.4 基于期望值差异的过滤方法
基于期望值差异的过滤方法,其具体计算方法是:一个词项word在类i中出现的期望值ei=word在所有数据表中出现的总次数×P(Ci),令fi表示word在类i中出现的实际次数,则
其中E的值越大越有意义。
在Intel双核CPU、主频3.06 GHz、内存2 GB的台式机上实现一个实例,来验证本文算法的有效性。
3.1 数据集
本文使用山东女子学院教务系统2011年评教数据作为数据来源,原始数据来源于教务系统中的学生留言,共计3 000条。由于这些数据包含无意义数据,经过筛选,从前1 000条数据中选出500条作为训练数据集,预测数据集为从后2 000条中筛选出的1 309条数据。
3.2 训练
本文基于真实数据集,利用四种词语过滤算法,使用SVM进行训练。训练结果如表1和图2所示,表1中标记为“0”的训练结果为负面评价,标记为“1”的训练结果表示为正面评价,每个单元格中的三个数字分别表示正确率、错误率和拒识率。
表1 训练集实验结果
图2 训练集实验结果统计
从表1和图2可以看出,基于频率的过滤方法、基于信息增益的过滤方法、基于期望值差异的过滤方法训练数据的正确率达到了80%以上,错误率都低于20%,但是基于条件概率比的过滤方法正确率不到50%。从这些数据来看,针对学生评教留言文本,选择基于频率、信息增益、期望值差异的词语过滤方法能够达到较好的效果。
3.3 预测
预测结果如表2和图3所示,表2中标记为“0”的训练结果表示为负面评价,标记为“1”的训练结果表示为正面评价,每个单元格中的三个数字分别表示正确率、错误率和拒识率。
表2 预测集实验结果统计
图3 预测集实验结果统计
从表2和图3可以看出,基于频率的过滤方法、基于信息增益的过滤方法、基于期望值差异的过滤方法预测数据的正确率达到了70%以上,错误率都低于30%,基于期望值差异的过滤方法错误率低于20%,与其他三种算法相比,基于期望值差异的词语过滤算法效果最好。从这些数据来看,针对学生评教留言文本,基于期望值差异的词语过滤算法与SVM结合能够达到较好的效果。
本文特别针对高等学校学生评教留言,通过实验研究了基于频率、信息增益、条件概率比、期望值差异的四种词语过滤方法与支持向量机结合,最终给出文本倾向性结果的效果,通过对比分析,得出基于期望值差异的词语过滤方法与支持向量机结合的算法,能够对学生评教留言的倾向性给出较优的预测结果。
[1] 唐慧丰. 基于监督学习的中文情感分类技术比较研究[J].中文信息学报, 2007,21(6):88-94.
[2] 柴玉梅,熊德兰,昝红英. Web文本褒贬倾向性分类研究[J].计算机工程, 2006,12(9):89-91.
[3] 杨超,冯时,王大玲,等.基于情感词典扩展技术的网络舆情倾向性分析[J].小型微型计算机系统, 2010,31(4):691-695.
[4] 何凤英.基于语义理解的中文博文倾向性分析[J].计算机应用, 2011,31(8):2130-2137.
[5] 李艳红,程翔.基于网络论坛文本挖掘的笔记本电脑满意度研究[J].微型机与应用,2014,33(18):61-65.
[6] TAN S,ZHANG J.An empirical study of sentiment analysis for Chinese documents[J].Expert Systems with Applications, 2008,34(4):2622-2629.
[7] PRABOWO R, THELWALL M. Sentiment analysis: a combined approach[J]. Journal of Informetrics, 2009,3(2):143-157.
[8] LI N, WU D D. Using text mining and sentiment analysis for online forums hotspot detection and forecast[J]. Decision Support Systems, 2010,48(2):354-368.
[9] STEFANO B,ANDREA E, FABRIZIO S.SentiWordNet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining[C]. Proceedings of the Seventh Conference on International Language Resources and Evaluation. Malta:European Language Resources Association ,2010:2200-2204.
[10] PANG B,LEE L.Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008,2(12):131-135.
[11] ERIK C,BJORN S, YUNQING X, et al. New avenues in opinion mining and sentiment analysis[J]. IEEE Intelligent Systems, 2013,2(28):15-21.
[12] LIU B,ZHANG L. A survey of opinion mining and sentiment analysis[M].New York:Springer US, 2012.
[13] THERESA W,JANYCE W, PAUL H. Recognizing contextual polarity in phrase-level sentiment analysis[C]. Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg:Association for Computational Linguistics, 2005:347-354.
[14] EFTHYMIOS K,THERESA W, JOHANNA M. Twitter sentiment analysis:the good the bad and the OMG![C].Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, New York:Springer US, 2011:538-541.
[15] PANG B,LEE L.A sentimental education: sentiment analysis using subjectivity summarization based on minimum cuts[C]. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Stroudsburg:Association for Computational Linguistics, 2004:212-217.
[16] DAVE K,LAWRENCE S,PENNOCK D M.Mining the peanut gallery:opinion extraction and semantic classication of product reviews[C].Proceedings of the 12th International Conference on World Wide Web, New York:ACM,2003:519-528.
[17] PANG B.LEE L.Thumbsup sentiment classification using machine learning techniques[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,2002:79-86.
展讯通信推出紫潭安全解决方案
北京,中国 2016年1月24日——展讯通信(上海)有限公司(以下简称“展讯”),作为中国领先的2G、3G 和4G无线通信终端的核心芯片供应商之一,今日正式推出面向智能手机及物联网等应用领域的紫潭安全解决方案。该方案作为中国首款搭载可控芯片及操作系统的双OS安全解决方案,将实现硬件平台、操作系统以及生物识别等关键技术的高度安全,从而重新定义国产安全智能终端的标准。
为了应对移动终端及物联网发展中日益普及而爆发的信息安全问题,紫光集团旗下的展讯开发了基于自主安全可信架构的智能终端解决方案——紫潭,该方案具备生物识别、公私分离、硬件加密、安全通信、可管可控、整机安全六大特色。特别是其硬件平台采用展讯自主研发的安全定制芯片——椒图,支持可信计算STEE安全级别的安全应用处理器,代码安全认证的安全启动模块,符合国际和中国标准加解密算法的加密模块,实现语音/数据加密通信的安全通信处理器,以及敏感数据特殊区域存储的存储加密。
通过专用加密通信技术、代码防篡改技术、安全运算区隔技术,椒图从最核心的芯片硬件源头解决整个移动终端系统的完整性和安全性。作为一款采用28 nm工艺的八核五模LTE智能安全手机芯片,它具有更强运算能力的ISP、GPU及更低功耗。该芯片从硬件源头解决系统完整性、关键应用完整性等问题,可防止篡改Boot、OS、服务及应用,杜绝恶意代码运行。
展讯通信有限公司董事长兼首席执行官李力游博士表示:“手机安全和芯片有200%的关联,从安全意义上将,芯片的自主可控、自主设计显得极其重要。作为中国本土的芯片设计企业,展讯通信责无旁贷地扛起这份重任。此次推出的紫潭安全解决方案是第一次真正实现了从硬件、周边附件、芯片物理层、底层基础软件到上层应用软件安全可信,自主可控的目的。”
中国工程院倪光南院士对紫潭安全解决方案表示肯定:“在信息核心领域,我们不能受制于人,要做到真正的自主可控,安全可信。很高兴看到基于紫潭方案的安全手机的推出,搭载展讯自主研发的芯片并集成双OS操作系统,在保密通话、虹膜识别技术上的应用创新,实现了技术上的巨大突破,它的产业转化将对信息安全具有重要的意义。”
更多信息,敬请访问:www.spreadtrum.com
(展讯通信供稿)
Orientation analysis for student comments
Li Xiaowei
(School of Information Technology, Shandong Women’s University, Jinan 250300, China)
In the teaching evaluation system of most universities, student comments accumulate year by year, and have been a source with huge amount of information. How to use these comments to reflect the capability of a university to enhance and improve its level and methods of teaching has been an urgent lask. This paper fell in the scope of text orientation and gave orientation analysis of student comments using feature selection such as frequency, information gain, probability ratio, and difference in expectation, and used the software named ICTCLAS to get the segmentation of comment text. Then it used LIBSVM to train and predict data and used Matlab software to run singular value decomposition and dimensionality reduction. The system can give emotional tendentiousness as the result of the comment analysis. Examples are given to show the performance of our algorithm.
orientation analysis; segmentation; feature selection; dimension reduction; support vector machine
山东省高等学校人文社会科学研究项目(J14WJ02);全国统计科学研究计划(2012LY022);山东省自然科学基金(ZR2011FL005)
TP391
A
1674- 7720(2016)03- 0024- 04
李效伟.学生评教留言的倾向性分析[J] .微型机与应用,2016,35(3):24- 27,30.
2015-10-05)
李效伟(1989-),男,研究生,助教,主要研究方向:人机交互与虚拟现实。E-mail:xiaowei_li@hotmail.com。