前缀字母为特征在维吾尔语文本情感分类中的研究

2016-11-15 20:19高阳冉兴萍木合塔尔·艾尔肯
科教导刊 2016年26期
关键词:词缀机器学习

高阳++冉兴萍++木合塔尔·艾尔肯

摘 要 在构词法上,主要通过词根和词干上加上各种词缀而形成新的词语,属于黏着型语言。构词的词缀丰富,有名词词缀、动词词缀、形容词词缀、数词词缀等。词缀具有很强的专有性,其专有性在词缀上会有明显的表现,可用来做情感分类特征。本文提出了使用切词前缀的方式,研究了词缀在SVM-KNN分类器中的表现。

关键词 情感分类 词缀 SVM-KNN 机器学习

中图分类号:TP18 文献标识码:A DOI:10.16400/j.cnki.kjdkz.2016.09.063

A Study on the Characteristics of Prefix Letter in Uyghur

Language Text Sentiment Classification

GAO Yang[1], RAN Xingping[1], Muhtar Erkin[2]

([1] Department of Computer Engineering, Changji University, Changji, Xinjiang 831100;

[2] College of Software, Urumqi Vocational University, Urumqi, Xinjiang 830008)

Abstract In word formation, mainly through roots and stems with a variety of affixes and the formation of new words, which belongs to agglutinative language. Word formation affixes are rich, noun affixes, verb affixes, adjective affix and affix numerals. Affix has a strong specificity, its specificity in the affix will have a significant performance, can be used to do the characteristics of emotional classification. This paper proposes to use the prefix segmentation way, studied the affix to SVM-KNN classifier performance.

Key words sentiment classification; affix; SVM-KNN; machine learning

1 引言

1.1 文本情感分类研究的现状

文本情感分类,也称为意见挖掘,主要实现的是对带有强烈情感倾向的文本进行分类。在研究对象容量大小差别,出现了基于词语、句子、篇章等级别的情感分类研究;在研究方法上,出现了基于资源的和基于统计的情感分类研究。近些年来,对文本情感分类领域的研究,主要的研究内容集中在以下几个方面:文本的情感极性分类、文本的主观性分析、词语的语义倾向性识别、观点提取等。具体的研究工作分布在以下几个领域:词的极性分类、主客观分类、基于机器学习的文本情感分类方法、基于情感词标注的文本情感分类。

1.2 基于机器学习的文本情感分类方法

下面将近年来国内外这方面的研究做简要的陈述。Pang等人最早使用基于统计的机器学习方法来研究文本情感分类问题,使用SVM、最大熵、朴素贝叶斯等分类器,同时以不同的特征选择、特征降维方法对internet上的影评文本进行情感分类研究。Pang等人还实现了另外一项工作,构造了一个基于minimum-cut的分类器,从而把文本的极性分类问题转化成求取句子连接图的最小分割问题。Lin等人把分类问题的方法用于观点识别问题,通过基于统计的机器学习的分类算法解析词的用法获取文本的观点。Bruce、Wiebe等人使用Bayes对句子进行主客观分类。Whitelaw等人提取文本中带有形容词的词组和词组的修饰语作为特征,用向量空间文档表示,然后以SVM分类器进行分类,从而区分文档的褒贬情感倾向。在句子级别的文本情感分类领域,Yi等人以模式匹配的算法进行了深入的研究。Goldberg和Zhu提出了一种新的基于图的半监督算法来解决电影评论的等级推定问题,与以前的多分类模型相比,性能大幅提高。Mei等人提出了一个新的Topic-Sentiment Mixture(TSM)概率模型,该模型能同时获得文本的情感信息和主题信息,在没有任何先验领域知识的情况下,也可以发现一个Weblog数据集所蕴含的潜在主题。Ni等人以信息增益(Information Gain)和卡方作为特征选择的方法,用Na ve Bayes、SVM和Rocchio,s算法对原来的情感文本作为二分类问题研究。

2 基于句子级别的情感分类

句子级别的情感分类,是指鉴别情感句的情感倾向后对其进行归类,也可以说是一种特殊的情感文本分类。文本情感分类根据其所研究的载体的粒度可分为三类:篇章级情感分类、句子级情感分类和词/短语级情感分类。

随着互联网技术的发展,以及Web2.0的出现,人们从早期被动地接受大型的网站信息平台的信息,转变到可以自主参与到信息的发布、产生,并能自主地参与平台进行信息交流,各信息受众间也可以互相进行信息交互,网络上有带有个人主观性的信息就越来越多。为了获得民众网络上出现的对诸如人物、事件、产品的评价信息,情感分类就应运而生了。

句子级别的情感分类,属于特殊的文本情感分类,其所做的研究是以句子为载体。在用户交互性、参与性很强的Web2.0时代,网上有个人主观色彩的信息多是以单语句形式出现,如电子商务网站的产品评论、网络论坛对重大事件的态度以及民众对重要时事、政策观点,尤其是微博、微信的出现,这一特点体现的更为充分。对句子级别的情感分类的研究对于商品经济的发展、政府重大方针政策的制定、舆情监控等都具有重要的意义。

2.1 SVM分类器

其原理为:假设样本线性可分,训练出一个二类超平面,超平面满足二类之间距离最大的,称之为最优超平面。在SVM中最为核心的内容是:如何把训练超平面的问题,和统计理论中的二次优化问题结合起来。根据结构风险最小化原则,从而取得最优解。首先给定一个用于训练的样本集 = {(,),(,),…,( ,)},其中, = {}, = 1,2,…,。为训练样本的总的个数,为模式空间的维数,为区分样本的类标。支持向量机要解决的是如下的一个最优化问题:

() = + (1)

(· + )≥

≥0, = 1,2,3,4,…,

解决这个问题,通常依据最优化理论,转为其对偶问题

() = (2)

0≤≤, = 1,2…,, = 0

用下面的判别函数分类

( + ) = (()+ ) (3)

其中 = (),()为处理非线性SVM时,将向量映射到高维空间的核函数。

2.2 KNN简介

NN分类器的基本原理:输入一个待标明类别的样本向量,与测试集中的每一个样本比较,在样本中找出K个与之相似的,将这个样本中出现最多的类别作为标志依据,同时对相似度设定阀值,用于判定的类别。

KNN算法如下:

= () (, , , ) (4)

其中,为待标记类别的样本向量,为K个最邻近的样本向量中的第个文本,表示其所属的类别;(,){0,1},当的类别属于类别时取1,反之取0;是类别为确定阀值;(, )为待标记类别的样本向量与训练样本之间的相似度值。

(, ) = =

=

其中,表示特征权重,N为特征向量的维数。

3 SVM-KNN分类器

3.1 对SVM分类机理的分析

SVM和KNN分类器,综合运用方面,中科院的李蓉等研究员,在原理上给出了严密的数学证明和推导,并提出了定理。

在定理 中,SVM分类器相当于一个每类只选择一个代表点的1-NN分类器。

3.2 SVM-KNN分类器简介

SVM-KNN原理:首先使用SVM分类器判断待确定类别样本点和超平面之间的距离,然后对距离设定阈值,对于超过阈值的样本点,使用SVM分类。对于在阈值之内的点,使用KNN分类器确定类别。

4 实验结果及分析

本实验采用SVM分类器,采用以切词的前缀为特征,即在前述维吾尔语情感分类流程中,在去停顿词后,然后以空格为标记,将整篇文本分为一个个单个的词,在对词进行切前缀取代词来做特征,取代传统的以词做特征进行分类的方式。

本实验中多类分类器的构造,是使用“一对一”方法构造()/2个二分类器实现的,依卡方为特征选择方法。

本实验中所应用的二分类器所使用的核函数均为多项式核函数,() =[(*) + 1],核函数参数(0.5)。错误惩罚参数C的值为(4),分类阀值的值取(0.5)。

本实验使用的语料为三类情感语料:褒义、贬义、中性。从实验结果,以前缀作特征的方法比以词做特征有着更好的性能。首先,能一定程度上提高分类的准确率,尤其对于贬义类的情感句子的分类取得了较大的提高,最高可以提高14个百分点。使用词缀作特征的另一个优点:能够大幅度降维,这就一定程度地解决维数灾难的问题。在分类中,随着维数的增加所需要的计算量通常是以指数级别增长的,实验证明词缀的方法能够对降维起到了良好的效果。当取5个后缀字母的词缀时,特征维数变为5599,较之以词做特征的15372个特征,下降了近50%之多。分别以词、5个字母词前缀、6个字母词前缀、7个字母词前缀作实验对比,总的特征维数分别为:15372,7599,9443,11370。从三类的实验结果可以看出,一般在特征维数选定在1500-2000时,能获得最优的效果,准确率达到最大值。

5 总结和展望

本文结合维吾尔语的特征,使用切前缀字母作特征,在SVM-KNN分类器中对非平衡文本数据进行试验,实验结果证明,在一定的维数范围内,能够提高分类的精度。

参考文献

[1] Huang XJ, Zhao J. Sentiment analysis for Chinese text. Communications of CCF, 2008,4(2) (in Chinese with English abstract).

[2] 肖伟.基于语义的BLOG社区文本倾向性分析[D].2007.12.

[3] Bruce R, Wiebe J.Recognizing subjectivity:a case study in manual tagging.Natural Language Engineering,1999.5(2):1-16.

[4] Wiebe J,Riloff E.Creating subjective and objective sentence classifiers from unannotated texts.In Proc.of the 6th Int.Conf.on Computational Linguistics and Intelligent Text Processing,2005:486-497.

[5] Whitelaw C,Garg N,Argamon S.Using appraisal groups for sentiment analysis.In Proc.of the 14th ACM Int.Conf.on Information and Knowledge Management,2005:625-631.

[6] Yi J,Nasukawa T,Bunescu R,et a1.Sentiment analyzer:extracting sentiments about a given topic using natural language processing techniques.In Proc.of the 3rd IEEE Int.Conf.on Data Mining,2003:427-434.

猜你喜欢
词缀机器学习
Module 1 Basketball
词尾与词缀的区别研究
现代维吾尔语的词缀功能及从中存在的奇异现象的处理探讨
隰县方言词缀“圪”浅析
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
基于支持向量机的金融数据分析研究