基于SVM的文本情感倾向性智能分析方法

2021-11-11 03:34王冰毕新伟
赤峰学院学报·自然科学版 2021年10期
关键词:支持向量机特征提取

王冰 毕新伟

摘 要:情感分析属于一项具有强大实用价值的分类技术,可以识别出文本中隐藏的观点。为方便用户获取所需文学作品,本文提出基于SVM的文本情感倾向性智能分析方法。利用向量空间模型计算用户模型与文本匹配度模型的向量相似程度,增强文本信息的结构化特征,完成文本信息预处理;建立否定词、条件词等情感资源,确定特征提取规则,通过计算互信息值,以阈值高低为依据做特征提取,降低特征维数;将文本特征作为训练数据,获取分类线方程与分类间隔,求出最佳分类平面,明确情感倾向所属类别,再采用Logistic回归模型分析出情感倾向程度。仿真实验证明,该方法的查准率与查全率较高,表现出较好的情感智能分类性能。

关键词:支持向量机;文学文本;情感倾向;智能分析;特征提取

中图分类号:TP391  文献标识码:A  文章编号:1673-260X(2021)10-0016-04

1 引言

文学文本表示组成文学语言艺术品的语言系统,是表达人生体验的特殊语言结构,可分为诗歌、小说、散文等形式。随着科学技术的日新月异,如何从海量文学作品中选出优秀的文本对读者而言非常重要。文本情感倾向分析是计算机、智能信息与自然语言处理领域中较为活跃的分支。通过对文本主观内容进行过滤分析,识别并判断该内容表达的真正含义。在如今信息“沸腾”的时代背景下,每天会产生大量的新的文本数据,所以需要对这些内容进行高效分析,识别出情感倾向,方便用户获取想要的文学作品。

为满足上述需求,相关学者提出如下情感倾向分析方法。陈潇[1]等人以半监督问答为基础,对文本数据进行褒义、贬义的分类。对已经标注过的文本与未经标注的文本进行分析,建立异构网络,再通过该异构网络获取相关词的向量,并将获取的词的向量在可分层匹配的情感分类模型中应用。王立志[2]利用改进粒子群优化的方法实现文本情感分析。利用word2vec词向量加权的方式量化信息,再将该信息作为可识别输入;引入交叉算子将粒子群的算法进行改进,并且交叉算子还可对损失、惩罚与核等函数进行优化,实现文本情感分类。

但是上述两种方法没有准确的提取文本特征,包括一些重要的情感词与依赖关系等,影响情感倾向分析的准确性,给读者带来不便。为解决这一问题,本文的文本情感分析采用支持向量机(Support Vector Machine,SVM)进行。SVM是个较为智能的学习模型,具有监督功能,如实际存在非线性情况,可采用映射函数利用现有文本建立线性函数分类。此种空间转换可使该模型的分类能力大幅提高,有效解决了关于维数的灾难问题,本文模型还采用更有效的文本特征提取方法,进一步提高文本分析精度。

2 基于SVM的文本情感倾向性智能分析

2.1 文本数据预处理

文本通常表现为字符串,表达丰富的信息,但是不能直接用于情感分析。数据预处理是文本情感倾向分析的必经阶段,主要目的是将计算机不能识别的、海量非结构化数据进行处理,使其满足计算机处理要求。

本文对数据进行预处理可采用向量空间模型(Vector Space Model,VSM)的方式[3]。向量空间大都是利用自然语言查询,基于此,可将查询结果作为一个小信息处理,则在向量空间内的某一信息项可被表示为:

公式中,n代表全部索引项,wjn则表示信息项 内索引项的权重。

设定Dj为文本项,ki为索引项,ki在Dj中的出现频率为tfi,j,逆文档率为idfi,文本项数量越多,逆文档率越小,词语w的区分能力就越好,其中对于索引项权重的计算利用TD-IDF(Term Frequency-Inverse Document Frequency)方法进行,其计算公式如下:

假设全部索引项ki是相互独立的,通过对上述相似度度量值的计算即可完成数据预处理,使所有文本信息具有结构化特性,为特征文本特征提取奠定基础。

2.2 基于互信息值特征提取

根據文本数据预处理结果可知,处理后的文本的特征向量较多,如果不对其中的关键词语进行选择,则会产生维数灾难[5],提高计算复杂性。所以需利用特征提取的方式去除关联性不强的特征,降低特征维数。

2.2.1 情感资源建立

本文对文学文本中的部分否定词、条件词语转折词等进行分析,建立情感资源。

收集程度副词,计算不同强度值,程度副值与强度如表4所示。

2.2.2 特征提取规则

本文共制定如下五条特征提取规则:

(1)文本中的关键词特征,确定名词、动词、形容词与副词数量。

(2)否定词特性,将总次数对2取余,如果值为1,此时情感词的极性相反;如果值等于0,情感词极性不发生变化。

(3)程度副词特性,如果情感词前面有程度副词,则文本情感强度随之变化。

(4)条件句式特性,若情感词前面出现条件词,则条件句式特性值等于1,反之为0。经过对随机语料的分析,条件词对情感表达强度有弱化作用。

(5)转折句式[6]特性,当情感词前面只有一种转折词时,则判定情感词极性为反;如果为两种,则表示不发生变化。

2.2.3 文学文本特征提取

特征提取利用数学形式表示即为从初始特征集合T={t1,t2,…,tn}内选择一个真子集合T′={t1,t2,…,tn′},其中n′≤n,则提取后的特征数量小于初始特征数量。本文通过计算互信息值(Mutual Information,MI)的方法来进行文本特征提取。

互信息值实质描述的是两个事件集合之间存在的关联性,针对特征提取而言,互信息表现出词条t′与类别ci存在的相关性,表达式如下:

公式中,i表示类别数,p(t)代表t在训练集合中出现的次数,p(t′|ci)表示t′和ci一同出现的概率。针对计算得的全部MI值,进行由高到低排序,将阈值较高的词条当作特征词。本文特征提取流程如图1所示。

2.3 潜在语义分析

经过上述特征提取后,能够获取文本较为显著的特征,但是没有考虑“一词多义”的问题,因此,还需进一步对潜在语义进行研究。

首先确定如下概率变量:P′(Dj)表示文本集合中选取文本Dj的概率,P′(wj|zk)代表在潜在变量zk约束下,某词语wj的条件概率,P′(zk|Dj)为潜在变量[7]中文本Dj的概率分布情况。

根据以上定义,经过下述步骤可构成一个生成模型:

步骤一:结合P′(Dj)随机选取一个文本Dj

步骤二:在文本Dj基础上,通过P′(zk|Dj)选取文本表达的潜在变量zk。

步骤三:获得一个不具有潜在变量的观察变量对(di,wj),将生成过程变为联合概率分布形式:

构建完生成模型后,通过最大相似性表达式来确定参数,实现潜在语义挖掘。表达式如下:

2.4 情感倾向智能分析

将上述获取的文本表明特征与潜在特征当作训练数据,利用SVM构建分类器模型,即一个决策函数[8]。该模型可以接受没有类别标签的新样本输入。

基于SVM的情感倾向分析的实质就是在n′维特征空间中确定最大间超平面,该平面能够将不同种类数据最大程度进行区分。基本思路图如图2所示。

在图2中,H为分类线,Ha與Hc为穿过各自分类线最近的数据点且和分类线相互平行的直线。

最优分类线不但能正确划分两种不同类型的数据,还能最大程度划分类间隔。获取分类线的方程式如下:

公式中,w′表示斜率[9],属于一个常数,x′是横向坐标值,b为一个常数。

在对文本进行情感分析时,对公式(12)做归一化处理,确保数据点集合(x′i,y′i)在满足公式(12)的同时也符合下述公式要求:

Logistic回归属于一种数据挖掘[10]方式,其回归函数不仅持续递增,还和线性回归方程存在递减一致性,所以可通过该回归函数表示文本情感强度。具体过程是:利用回归函数使变量的无穷区间映射在[0,1]中,通过设置合理阈值来调节分类区间,构成持续特征表示。

在反映文本情感倾向性强度过程中,在SVM分类基础上,使用Logistic函数的持续性表示情感趋势强度的走势。假定g(x″)=a′x″+b′代表初始线性方程,g(x″)是文本分类函数,且满足SVM分类面条件,则与其相对的Logistic回归强度函数表示为:

3 仿真实验分析

为评价不同方法对于文本情感分析的准确性,实验语料库利用Python开发的网页从当当网中获得文学文本信息。实验环境中存在五个节点,分别为2个Master与3个Slave,操作系统是Ubuntu14.04。为准确评价出文献[1]、文献[2]与本文方法的分析性能,利用查准率、查全率和F值三个指标进行评价。

在已知不同文学分类文本特征情况下,文献[1]、文献[2]与本文方法的情感倾向分析结果如表5、6和7所示。

由实验结果可知,随着特征种类的增多分类结果表现出良好特性,指标值都有明显提高。其中本文方法在无论在哪种特征组合下,都能表现出良好的情感倾向分析性能。这是因为支持向量机具有较强的学习能力,通过最优分类平面准确划分文本情感倾向,使情感分析更加智能化。

4 结论

本文利用SVM方法在多维特征空间中找出最大间隔超平面,通过该平面实现文学文本情感倾向分类,在Logistic基础上确定每种情感强度,完成情感倾向智能分析。实验证明所提方法的查准率、查全率与综合评价值均较高,表现出良好的分析性能。但是也存在一些不足,有待进一步改进。结合已有成果,后续工作主要研究可以自动完善情感词典,对于网络不断出现的情感词,能够及时更新,但是由于本文只考虑了简单词语对情感的影响,在今后研究中还需增加一些复杂句式。

参考文献:

〔1〕陈潇,李逸薇,刘欢,等.基于网络表示的半监督问答文本情感分类方法[J].郑州大学学报(理学版),2020,52(02):52-58.

〔2〕王立志,慕晓冬,刘宏岚.采用改进粒子群优化的SVM方法实现中文文本情感分类[J].计算机科学,2020,47(01):231-236.

〔3〕陈郑淏,冯翱,何嘉.基于一维卷积混合神经网络的文本情感分类[J].计算机应用,2019,39(07):1936 -1941.

〔4〕党莉,陈锻生,张洪博.对抗长短时记忆网络的跨语言文本情感分类方法[J].华侨大学学报(自然科学版),2019,40(02):117-122.

〔5〕吴鹏,李婷,仝冲,等.基于OCC模型和LSTM模型的财经微博文本情感分类研究[J].情报学报,2020,39(01):81-89.

〔6〕赵传君,王素格,李德玉.跨领域文本情感分类研究进展[J].软件学报,2020,31(06):143-166.

〔7〕吴小华,陈莉,魏甜甜,等.基于Self-Attention和Bi-LSTM的中文短文本情感分析[J].中文信息学报,2019,33(06):100-107.

〔8〕林世平,林松海,魏晶晶,等.融合知识图谱的文本情感分析[J].福州大学学报(自然科学版),2020, 48(03):269-275.

〔9〕张新生,高腾.多头注意力记忆网络的对象级情感分类[J].模式识别与人工智能,2019,32(11):997 -1005.

〔10〕王名扬,吴欢,贾晓婷.结合word2vec与扩充情感词典的微博多元情感分类研究[J].东北师大学报:自然科学版,2019,51(01):55-62.

猜你喜欢
支持向量机特征提取
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于曲率局部二值模式的深度图像手势特征提取
一种针对特定无线电信号的识别方法
基于改进支持向量机的船舶纵摇预报模型
基于模糊K近邻的语音情感识别
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究