摘 要现如今对文本情感分类的方法多种多样,将语义理解与统计学方法相结合的机器学习算法是目前比较可取的方法之一。这种算法的步骤是,首先对文本中的情感词汇进行汇总,作为特征应用,通过统计学方法衡量出这些特征的初始权重,然后通过对文本语义结构进行分析修改特征权重,最后应用以Bayesian作为基本分类算法的Boosting算法对文本最终进行分类。实验结果表明,基于语义理解的Bayesian分类算法的分类准确率远远的高于基于统计学的Bayesian分类算法,这种算法的分类准确率最高可以达到百分之九十。
【关键词】语义理解 情感分类 Boosting算法
以情感为基础开展的文本分类活动也就是文本情感分类,主要是在分类的过程当中,分析文本当中体现的情感倾向,并以此为基础加以分类。它在众多方面都有广泛应用,例如智能问答、商品推荐、股票预测以及报刊编辑等领域,都体现出潜在的应用价值。在分析文本当中语义倾向性的前提下,借助于判断基准词同词汇之间相似度的这一方法,来有效判断词汇体现出的感情倾向性。除此之外,通过分析词汇当中的语义倾,还能够体现出新闻文本的态度。部分研究人员改进SO-PMI算法,并且尝试应用到文本的情感分类当中,取得比较理想的成果,给了他人很多的新思路。以语义当作基础进行分类的方法,在很大程度上减少了样本训练量,同时减轻对特定专业知识的依赖程度。当前情况下,大量的研究人员在该领域尝试进行研究,已经有了很大的突破,但仍然存在一个问题,那就是还不能具体有效分析词汇在倾向性方面的强度。在统计机器学习领域,有研究人员尝试应用机器学习技术来解决文本的情感分类难题,其中应用比较广泛的包括朴素贝叶斯算法以及最大熵技术等,来分类电影评论。为了把基于统计学技术的优势发挥到极致,但同时还不能过分的依赖于统计学方法,本篇文章利用自然的语言处理算法,介绍语义分析技术以及统计学技术综合应用的优点,借助于分析语义并且确定特征权重,外加利用Bayesian算法进行情感分类。为了进一步减少文本在情感分类过程当中的误差,改进分类的效果,在此尝试应用Boosting算法到文本的情感分类当中,实现基于语义的Boosting情感分类,进一步改进情感倾向性处理水平。
1 语义倾向性分析
语义倾向指的是某个词汇同词汇体现的概念词之间主要内涵的偏离程度,可以说是度量语言的重要标尺。通常情况下应用两个不同的维度来分析特定词汇的倾向性,也就是偏离方向的判断以及偏离强度的判断,这些度量方法在现实生活当中已经得到广泛应用。在文本情感分类环节,偏离方向是判断词汇含义于贬义或者是褒义,具体而言就是确保文本可以更通俗易懂进行表达,因此也叫做情感方向。所谓偏离强度是指褒义程度或者是或贬义程度的大小,也叫做情感强度。分析语义的倾向性也就是分析不同词语体现的情感倾向,来具体分析文档整体上的情感倾向,在这其中需要测定的便就是情感强度以及情感方向。
2 Boosting算法
Boosting算法是由最早由Schapire提出,并且在发展过程当中不断有研究人员对其进行改进,是近些年应用最为广泛的学习算法之一,同时也是应用最广泛的,其所应用的理念类似于合并不同的学习模型并完成输出。因为这一算法简单易用,除了调解迭代次数之外不需要调解其它的参数,也不需要了解特定领域。只要数据足够充分,就可以满足预测的精度。如今,Boosting算法正渐渐的得到了人们重视,在图像识别以及模式处理当中得到应用,并生成了一系列的分类器,不过每个分类器还依旧有着之前一个的影子,因此,为了减少错误率的累加,就给予上一次分类器错误分类的样例更高的权重。
3 Bayesian—Boosting情感分类
通过采用的是Bayesian分类方法对情感特征进行选取及权重计算,首先要做的是对文本的特征空间有着非常清晰的界定,可以应用特征来来替代文本。不过文本当中的情感倾向主要是由文本当中的情感词来确定的,同其他的词汇没有太大的联系。所以在情感分类的时候,特征空间需要筛选情感词汇,而不需要囊括全部词汇组成特征空间。目前而言对于这种算法的研究成果已经在众多的国家863计划项目中出现,在情感模块当中应用效果理想。本文基于语义理解的学习方法,是文本进行情感分类的新思路。从理论角度而言,对词汇进行褒贬的时候,仅仅依靠统计学措施無法实现,必然会对情感分类的标准产生结构性的影响,也就是说单纯应用语义理解计算来情感分类,也无法将机器学习的成果应用的活灵活现。
通过语文理解对训练样本集中300篇文本进行分类,然后选择出感情倾向明显的前150篇作为SVM的训练文本,之后进行三组数据分析,在特征选择过程中分别判断文档频率、X2统计法进行统计,如表1所示。
通过应用统计学方法衡量出这些特征的初始权重,然后通过对文本语义结构进行分析修改特征权重,最后应用以Bayesian作为基本分类算法的Boosting算法对文本最终进行分类。实验结果表明,基于语义理解的Bayesian分类算法的分类准确率远远的高于基于统计学的Bayesian分类算法,这种算法的分类准确率最高可以达到百分之九十。
综上所述,本篇文章通过介绍语义理解以及统计学技术相结合起来进行文本分类的效果,可以实现理想的情感分类,让我们对这种分类方法有了具体了解的同时还能够解决文本的情感分类。Boosting集合不同分类算法,通过训练迭代来改进分类效果,最终能够得到理想的分类器。
参考文献
[1]翟璐.一种基于Boosting算法的新模型在银行信用评级中的应用[D].北京交通大学,2016,6(20):39-40.
[2]Romano Y,Elad M.Boosting of Image Denoising Algorithms[J].Siam Journal on Imaging Sciences,2015,8(02):1187-1219.
[3]Wu J,Pan S,Zhu X,et al.Boosting for multi-graph classification.[J].IEEE Transactions on Cybernetics,2015,45(03):430.
[4]Schreiner T,Rasch B.Boosting Vocabulary Learning by Verbal Cueing During Sleep.[J].Cerebral Cortex,2015,25(11):4169.
[5]Korytkowski M,Rutkowski L,Scherer R.Fast image classification by boosting fuzzy classifiers[J].Information Sciences,2015,327(C):175-182.
[6]Liu L,Zou P,Zheng L,et al.Tamoxifen reduces fat mass by boosting reactive oxygen species[J].Cell Death & Disease,2015,6(06):e1586.
作者简介
黄彬(1992-),男,长江大学计算机科学学院在读研究生。主要研究方向为大数据技术。
作者单位
长江大学计算机科学学院 湖北省荆州市 434023