考虑情感强度的加权社会网络偏好信息识别研究

2020-03-24 03:49来能烨
智能计算机与应用 2020年11期
关键词:权值分词副词

来能烨

(上海工程技术大学 管理学院,上海 201620)

0 引言

通常情况下,大多数网民会在各种社交网络上表达出对社会热点事件的不同看法。因此,如何有效识别其态度、行为和情感偏好程度成为被广泛关注的研究热点。情感偏好是情感强度的另一种表达形式,在根本上决定着人的思想、行为和生理活动,制约着情感的动力特性。

基于此,诸多学者及专业人士从各方面对该问题进行了研究并提出各自观点。Pablo C 等人[1]指出,社交网络领域的主要研究方向之一,是寻找和分析用户之间可能存在的联系。这些发展允许用户在其联系人网络上进行扩展,而不必在全部用户中进行搜索;Çavdar,A B 等[2]研究挖掘社交和交互数据,将这些信息与当前的数据分析模型结合起来,得出其结合程度是有限的的结论。可使用客户的社交网络信息来增强这个基本模型,以包含客户所做的间接贡献;Daniela F E 等[3]描述了如何将Twitter 上的性别识别作为一种智能的商业工具,来确定用户之间的隐私问题,并最终为更有可能积极响应目标广告的客户提供更个性化的服务;Ran X[4]研究网络传播效应,也被称为同伴效应或社会影响过程,并提出了几种替代估计方法,当存在共同决定影响和选择的未观察特征时,这些方法有可能正确识别传染效应。采用蒙特卡罗模拟结果,设计了一种网络空间调整估计器;杜永萍等人[5]提出了一种CNNLSTM 模型下短文本情感分类方法,该方法以卷积神经网络模型为基础,构建大小不同的卷积窗口,对文本的谱义特征进行提取,采用长短时记忆模型,预测文本的情感倾向。通过在不同文本中进行验证,证明方法有效提高了网络文本情感识别的召回率,但是其准确率相对较低。穆永利等人[6]提出了一种基于E-CNN 的情绪原因识别方法。该方法首先对本文进行卷积、池化等操作来融合句子中的语义信息,通过CNN 集成降低数据不平衡性对识别效果的影响,解决了传统识别方法规则制定繁琐、需要对文本进行空间降维等问题。该方法可以从所有信息中有效识别全局信息,但是没有给出一个能够判断句子中真正情感的子句的合理度量,使得最终识别结果不够准确。

为提高情感偏好识别的准确率和识别效率,本文提出了一种考虑情感强度的加权社会网络偏好信息识别算法。该算法的优越之处在于将网络文本语句中不同程度的副词赋予不同的权重值,通过本身定义的权重值与句中的副词权值相乘来获得文本的总体情感强度。通过GMM 算法进行情感偏好状态测定,完成识别全过程,总体识别效果更好,具有较好的应用价值。

1 文本挖掘

文本挖掘以语言学、统计梳理分析等作为主要理论依据,在信息检索技术的基础上,从网络繁杂的用户信息中,将能够表现出各类特征的独立信息提取出来。在文本挖掘过程中,文本分词是很重要的一部分,其关键部分在于歧义切分。在英文文本中,因其单词之间有空格能够被视为分隔符,所以歧义切分过程较为方便,但是中文文本中每句话的字词都是相互联系的,没有明显的分隔标记,相对英文文本来说,中文文本的歧义切分较为复杂。

为了使分词具有较好效率的同时也能充分保证分词的准确性,使用词典与互信息相结合的分词方法,对文本进行分词处理。将MI(x,y)定义为词x和词y的互信息,则有:

式中,当MI(x,y)≥0 时,表明二者经常同时出现,同时证明两个词的关联性很强;当MI(x,y)≈0,则代表x和y同时出现的次数极少,从而证明二者的关联性较弱;当MI(x,y)≤0 时,则表明x和y不会同时出现,二者之间没有关联性,为互补分布。

通过对词语互信息的计算,原词典中信息就会随之丰富,从而获得词与词之间的互信息矩阵为:

在进行文本分词时,为丰富词典信息,使用双向匹配分词法对网络文本语句进行切分处理。在处理过程中,当正向和逆向切分的最终呈现效果不同时,通过互信息选出最适合整体的分词结果,同时计算切分后词语的整体平均互信息以减少词语个数对切分结果的影响。其计算方法如式(3):

式中,n表示被切分词语数量,Wi表示第i个切分词语。

由于中文文本中的语言表达形式较为复杂,直接挖掘分析切分后的语句尤为困难。因此需要将分词处理的文本整合成更适合定量研究的文本情感形式。首先,提取各网络文本内的情感特征项,然后对提取后的情感特征项做文本系统结构化,并将其作为中间状态依次对文本信息进行描述。在文本系统中,文本之间是相互不发生联系的,因此从数据整体来看文件之间数据是没有结构关系的,而结构化就是将程序中逐渐积累出的内容和数据进行归纳整理,使程序数据条理化,更易于后期的处理。

文本通常能够通过词语来表达特征,如关键词、主题词、短语等。一般情况下,文本特征大致可以划分为语义特征和描述特征两类,通过处理特征项就可以实现文本分析。提取语义特征中的评价对象主要过程如下:

(1)采用中分词方法对文本进行分词处理。

(2)对切分后的名词进行比对,得到评价对象。

(3)选出文本中含有评价对象的句子。

(4)将修饰评价对象的词语进行筛选,将其视为情感词,并且将修饰情感词的副词定义为修饰词。

(5)记录情感词及修饰词的相对位置。

2 情感强度模型

2.1 基于情感强度的词表构建

在文本中,句中的一些副词往往可以表达出这个句子的情感强度,不同程度的副词赋予不同的权重值。整个句子的最终情感权值,可以通过自身定义的权值与句中的副词权值相乘而获得。

本文选择219 个程度副词,根据其强度分为5个等级(W1,W2,W3,W4,W5),分别赋予不同的权重值见表1,构建的文本情感见表2。

表1 程度副词权重Tab.1 Weight of degree adverbs

表2 情感词表Tab.2 Sentiment word table

2.2 文本情感计算规则

将文本D分解成句子S的集合,则D={S1,S2,···,Sn},每个句子的情感权值(Si)为:

则整篇文本的情感权值为:

式中,Swi表示每个句子中副词的权重值;如果F(S)>0,则可以判定该文本为正向情感;如果F(S)<0,则可以判定该文本为负向情感;如果F(S)=0,则可以判定该文本为中性情感。

计算情感词W的值Swi如下式:

式中,Np表示正向词的数目,Nn表示负向的词汇数目。

考虑到文本中句型对情感强度判定的影响,根据不同句型归纳出句子的情感值如下:

疑问句:F'(Si)=F(Si)×(-0.2)+(-0.5)

反问句:F'(Si)=F(Si)×(-0.6)+(-0.5)

感叹句:F'(Si)=F(Si)×(1.5)

假设句:F'(Si)=F(Si)×(-0.2)

通过句子的情感值可以获得文本的情感权重值为[7]:

当F'(S)>0时,则表示为正向情感[8-9],F'(S)<0 时,则可以定义为负向情感,F'(S)=0时,则文本可以定义为中性情感。

再次加入程度副词进行计算如下:

式中,Ne为否定系数,*为调节过程。

若感情词与否定词相邻,则可以判断该文本为负偏好情感,因此将其否定系数Ne设置为-1。σ表示调节系数,如果筛选出的情感词与程度副词“非常”、“极其”等相邻时,则可以判定其为正偏好情感,其表达式如下:

如果情感词与“一般”、“还可以”等程度副词相邻时[10],则可以将该文本定义为中偏好情感。则其情感得分如下式:

3 加权网络信息偏好识别算法

通过计算用户对目标个体的情感偏好指数,可以了解用户对任意事物的选择倾向,并能反映出相对于他人的不同价值取向,即价值取向表现的优劣程度足以直接反映出个人的情绪偏好。

语篇情感偏好识别主要是通过语篇中句子的情感权重来判断。考虑情感强度的社会网络偏好信息加权识别,是在文本挖掘和情感强度模型建立的基础上,通过GMM 算法进行特征提取和向量转换,确定情感偏好状态,完成识别过程。具体流程如图1所示。

图1 识别流程Fig.1 Identification flow chart

为了更有效的识别文本情感偏好,需对文本进行预处理。文本处理包括:命名实体及过滤停用词等。本文在Windows 操作系统下,获取相关文本数据,并对文本中表情符号、网址等无意义的文本进行清理。

采用GMM 算法识别情感词。其具体数学表达形式如下:

式中,xt为第t个高斯分布的D维随机向量[11],ai代表第i个单高斯分布的权重值,且定义pi(xi)(i,…,m)为高斯分布函数,则:

式中,∑i表示协方差矩阵,μi表示均值矢量。协方差矩阵可以用满矩阵,也可以使用简化后的对角矩阵。高斯分布密度如下式:

式中,为了能够得到最佳的样本分布概率,采用EM算法来估计GMM 模型的参数[12]。

设待测样本为y,将分类器给出的似然度标记为,其中,k代表各情感强度,则各情感强度权值如下:

似然度直接决定分类器的置信度,更直接的表现是似然度的分散程度。置信度越高,则判定结果越准确。完成识别全过程步骤如下:

(1)将文本输入分类器,做词法和语法分析,获得更易识别的文本结构。

(2)对获得的结构化文本进一步分析,将其与相应的情感规则进行匹配。结合情感强度模型,做情感划分,得到情感值。

(3)输出情感值。将判断用户偏好的情感值反馈给机器。

(4)抽取反馈中有价值的信息,更新词典。

4 仿真实验

为了验证考虑情感强度的网络评论情感偏好识别方法的有效性,本文使用了八爪鱼采集器,爬取了新浪微博上关于“新冠肺炎疫情”爆发期间的热门评论,共计2 943条作为数据来源进行对比实验。

实验所用情感词主要来源于《知网》的情感分析用语词集,并且加入了一些最新出现的网络情感用词,对词语进行去重处理后,获得的主要情感词。

为验证本文算法的准确性,将文献[4-6]中提出的方法与本文算法进行比较。利用各算法的准确率Pre、召回率Rec和F值作为评判项。Pre其表达式为:

Rec能够衡量系统查全率,其表达式为:

在识别过程中,往往不能够使准确度和召回率同时具有较好的表现,因此常使用F值来对识别的整体效果做评估。F值的常用表达式如下:

其中,各参数含义见表3。

表3 分类评价标准参数含义表Tab.3 Meanings of parameters for classification evaluation criteria

各算法的各项指标值如下图2 所示。

图2 不同方法的准确率对比图Fig.2 Comparison of precision of each method

由图2 可见,在7 次迭代下,本文方法对网络偏好数据的分析与识别准确率较高,说明在进行语篇情感偏好识别时,对语篇中句子的情感权重判断效果较好。在文本挖掘和情感强度模型建立的基础上,考虑情感强度的社会网络偏好信息加权识别方法实际应用效果较强。

应用情感分析用语词集,在系统查全率即召回率方面进行对比结果如图3 所示。

图3 不同方法的系统数据召回率对比图Fig.3 Comparison of recall of each method

由图3 可知,在进行系统召回率测试时,本文方法的召回效果对比结果鲁棒性较强,说明本文方法对文本中表情符号、网址等无意义的文本进行清理后,实际有用的数据能够被系统查全即有效召回。

将以上两次实验数据进行二次拟合,使用F 值进行整体效果评估。评估结果如图4 所示。

图4 不同方法的F 值对比结果Fig.4 Comparison of F values of each method

从图4 中可以看出,在情感识别的过程中,文献[4]算法整体效果最差,本文算法要优于其它文献方法。最终获得的召回率、准确率和F值的数值都高于前两者。因此,证明本文算法是可行的,并且识别效果更优。

5 结束语

用户对网络使用体验感要求增高,情感强度能够有效获取用户对某种属性喜爱程度。本文提出的考虑情感强度的加权社会网络偏好信息识别算法,经对比试验得出如下结论:

(1)通过将其本身定义的权重值与句中的副词权值相乘来获得文本的总体情感强度,优化语句情感权重,实现语句的整体阈值。

(2)在排除无意义文本信息后,对文本进行特征提取及向量转化,通过GMM 算法进行情感偏好状态测定,总体识别效果更好。

猜你喜欢
权值分词副词
一种融合时间权值和用户行为序列的电影推荐模型
分词在英语教学中的妙用
短句—副词+谓语
结巴分词在词云中的应用
结巴分词在词云中的应用
财务风险跟踪评价方法初探
基于洪泛查询的最短路径算法在智能交通系统中的应用
副词和副词词组
hardly是hard的派生词吗?
聚焦现在完成进行时