基于伽马对数算法的文本情感分类研究

2022-09-01 02:29张冠东卢方
微型电脑应用 2022年8期
关键词:伽马对数类别

张冠东, 卢方

(上海第二工业大学,1.文理学部,2.计算机与信息工程学院,上海 201209)

0 引言

文本语言的感情色彩一直是判断舆论走向的一个重要因素,褒义和贬义的文本常常会影响阅读者的主观感受。随着信息技术的发展和大数据时代的来临,人们获取信息的方式也在迅速发生变化,但是阅读各种社交媒体上的文本文字依然是人们了解信息的主要方式。换言之,人们对某些社会事件或者现象的看法,除了受到自身知识面的影响以外,还会受到社交媒体文字情感色彩或者社会舆情的间接影响。例如,一些金融新闻会对投资者的投资策略产生影响,从而改变投资者已有的投资习惯[1]。一些产品使用后的评论会对新闻阅读者产生影响,从而左右其购买决策[2]。

一般而言,在文本文字撰写(例如评论、意见等)结束后,作者可能需要对该文本贴上文字标签以方便归类。由于文字标签也是带有感情色彩的,因此,如果标签感情色彩和内容感情色彩能够保持一致,那么就有助于这段文本被更好地归类以及被更多人传阅。然而,受到作者水平的限制,文字表达内容的感情色彩往往与其标签有一定的偏差。所以,如何正确地选择内容和标签感情色彩一致的文本是值得探讨和研究的话题。

本文通过对伽马算法的改进提出一种新的算法——伽马对数(Gamma-Logarithm)算法——对带有标签的文本文字的分类进行分析,从而判断文本感情色彩与标签的感情色彩是否一致。选用一些文本文字作为实验对象,实验结果表明伽马对数算法比其他算法对文本情感识别的准确率更高。在实际应用中,可以将该模型用于大规模的文本情感筛选,从而判断识别文本和标签情感是否匹配。在现实生活中,该模型可用于舆情分析从而快速有效地了解舆情趋势。

1 文献综述

由于文本感情色彩对于文本选择而言十分重要,目前国内外已经有很多研究在讨论文本情感色彩的重要性。在国内,赵澄等[3]利用支持向量机(support vector machines, SVM)模型对金融文本的情感进行分析,使得股票预测方法准确率有所提升。李源等[4]提出了一种基于字词双通道网络的文本情感分析方法,该方法利用卷积神经网络对字向量和词向量分别进行卷积运算来对文本进行分类,提高了文本分类的准确率。

在国外,HALIM等[5]通过机器学习的方法采用特征提取的方式对邮件文本进行分析,识别文本中的隐藏情感,这种方法不但能够帮助收件人确定邮件的正负情绪,还能帮助收件人更好地回复邮件。针对特定的事件或者主题,ABDI等[6]提出了一种文本的感情色彩估计模型(the auxiliary dataset-Latent dirichlet allocation)来预计用户的感情趋势,并取得了很好的效果。

虽然国内外诸多研究使得文本情感识别取得了一定的进展,但是由于文本情感的判断较为复杂,且不同的读者或用户对语句的情感理解有一定的差异,因此文本的情感分析仍有不少的挑战。此外,如果仅仅考虑文本情感的褒义或贬义色彩,那么很多中性的词汇将很难进行归类。因此,本研究从文本的中性和非中性的角度对文本的情感色彩进行识别。

2 模型介绍

2.1 伽马函数

伽马函数(Gamma function)或者称为欧拉第二积分,是一种阶乘函数,在分析学、概率论、偏微分方程和组合数学中有着重要的应用。对于真实且为正的值,经典伽马函数公式[7]可表示为

(1)

伽马函数是统计学上的一种常用分布函数,目前已被用于多个领域的研究。CARDOSO等[8]采用伽马函数矩阵进行了全面数值计算。

2.2 对数函数

对数函数是以幂为自变量的一种函数,是为了寻求化简的计算方法而发明的。假设输入变量x>0,其公式为

F(x)=Logax

(2)

这里a一般为正。对数函数在数据挖掘领域有着广泛的应用,例如,MOKKADEM等[9]的研究验证了迭代对数的紧凑特性。本文将该函数结合到新的数学模型中对文本的情感进行研究。

2.3 k均值(k-means)算法

k均值算法是一种常见的聚类算法。该算法通过计算每个类别的中心簇点,将数据聚集在相近的簇点附近。k-means的距离计算一般以欧几里得距离为基础,该距离的算法为

(3)

其中,X={x1,x2,…,xn},Y={y1,y2,…,yn} 分别表示n维空间中的两个点。基于欧几里得距离,k均值算法的一般步骤为先随机从数据样本点中选取k个点作为初始中心点,然后计算样本数据点到中心点的距离并确定新的中心点,再计算新的中心点到各数据样本点的距离并再确定新的中心点,一直循环直到中心点不再变化或达到最大的循环次数。k均值算法已经在各种研究中被广泛地应用。张一迪等[10]基于观测协方差矩阵相邻特征值之差统计量构成的五维矢量序列,利用k均值算法使数据分词信号和噪声2类取得了较好的精确度。由于k均值算法可以通过设定k的值来确定类别的数量,且文本的感情色彩可以分为中性和非中性色彩,因此本研究通过使k=2,将文本的情感色彩类别分成2类。

3 模型设计——伽马对数算法

由于伽马算法能够对语言信号进行分类[11],因此在基于该算法的基础上,本文结合对数函数提出一种新型的算法计算文本的情感值并进行分类。假设文本T={t1,t2,…,tn}是由n个词汇所组成的文本,伽马对数算法可表示为

(4)

其中,Γ(*)为伽马算法,Lg(*)是以10 为底的对数函数。由于SnowNLP是一种被用于计算文本情感的工具包,因此先用该方法计算出文本的情感色彩值,再运用伽马对数算法进行综合情感色彩计算。

4 检验标准

分类模型中的精确率是用于判断分类准确率的一个重要指标,精确率通过真阳性、真阴性、假阳性和假阴性来定义。真阳性(true positive,TP)指的是数据分类中将正确的类别判断为正确;假阳性(false positive,FP)表示数据分类中将错误的类别判断为正确;真阴性(true negative,TN)表示数据分类中将错误的类别判断为错误;假阴性(false negative,FN)表示数据分类中将错误的类别判断为正确:因此,精确率(precision,P)可以表示为分类的项目中有多少是相关的[12]。由于本研究聚焦于通过文本的情感色彩划分文本的类别,因此通过对文本内容的情感色彩分类和该文本标签的情感色彩分类是否属于同一类别来计算分类准确率。

5 实验分析

5.1 实验流程

选用公共数据集(https:∥github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset)中的文本数据进行研究,该数据集包含中文文本数据和其类别。由于该数据集中数据包含了文本内容和标签,因此需要先将标签和内容进行分离,并进行数据清洗后再做分析。通过对比研究几个不同算法的情感值来检验伽马对数算法的优劣,这些对比算法是对数算法、伽马算法、整句文本情感计算,其流程示意图如图1所示。

图1 流程图

5.2 实验结果

根据图1,分别选取不同数量文本进行分析,对比数据如表1~表3所示。

表1 匹配精确度

表2 准确度提升率 %

表3 准确率平均提升率 %

表1表示了文本情感色彩的匹配程度,1.0表示完全匹配,其结果说明,和其他几种算法相比,伽马对数算法的情感识别准确率较高。从表2的计算结果得出,伽马对数算法比整句情感计算、对数算法和伽马算法在分类精确度提升方面都超过了3%,而平均准确率提升幅度也超过了5%(见表3),这说明和其他几个算法相比,伽马对数算法在文本情感识别计算方面有了明显的提升。

6 总结

文本情感分析是文本分析中的一个重要研究方向,本研究在运用SnowNLP得出情感色彩值的基础上采用伽马对数模型进行情感识别分类,并取得了较高的准确率。该研究的成功能够对舆论导向的网民情绪波动、主流媒体的话语引导以及大规模统计文字语言的色彩偏向等方面起到量化分析研究的作用。此外,该模型的运算过程简洁,适用于大规模的文本分析,可以帮助决策者在特定文本类别的前提下有效地掌握情感导向,从而做好事先的应对。

猜你喜欢
伽马对数类别
明晰底数间的区别,比较对数式的大小
一起去图书馆吧
比较底数不同的两个对数式大小的方法
三大抽样分布的理解与具体性质
简析基于概率预测的网络数学模型建构
航海家的故事
活用对数换底公式及推论
神奇的对数换底公式
瓦斯科·达·伽马
选相纸 打照片