基于语义的新闻标题情感分析

2018-04-20 03:27王菲尔
文教资料 2018年35期
关键词:情感分析人民日报词典

王菲尔

摘    要: 新聞标题作为新闻最重要的部分,其中暗含新闻作者的情感倾向,也会影响阅读者对新闻的看法。本文基于语义对新闻标题进行情感分析,使用情感词典提取情感词,并匹配句中含有否定词、程度副词、连词,以及感叹句、反问句的情况下的语义规则,进行新闻标题情感值计算。选择新浪新闻和人民日报新闻标题作为语料,也想借情感分析探究新闻文本的自身特点。

关键词: 语义    词典    情感分析    新浪新闻    人民日报

引言

新闻标题是以最精练的文字将新闻中最重要、最新鲜的内容提示给读者。标题不但涵括了新闻的内容,而且也代表了新闻写作者对这篇新闻的评价。因此往往暗含新闻写作者自身的情感倾向。现在,新闻作者为了吸引读者注意,往往采用夸大的情绪描述新闻标题,也导致了对新闻内容的不实反映,这种现象被称为“标题党”。但是在一些权威新闻媒体上,这种现象比较克制。新闻标题中暗含的情感倾向,对阅读者的影响也很大,由此产生的舆论效应,不可忽视。因此,本文选取新闻文本中最重要的组成部分之一——新闻标题,对其进行情感分析,以期对新闻文本的情感倾向性做出判断,并为进一步的舆情分析提供帮助。如何对新闻标题中的情感作出恰当的把控,也是本文想要通过情感分析探讨的内容。

当前常用的文本情感分析方法主要有两种。一是基于机器学习的情感分析,采用传统的文本分类技术,将情感词汇作为提取的特征词,并结合其他特征训练分类器。常用的方法有朴素贝叶斯(NB)、支持向量机(SVM)、最大熵(ME)等。国外如Pang等[1]采用上述方法,对影评数据进行情感分类,并比较三种机器学习方法,结果显示支持向量机的方法达到最大准确率。国内研究有徐军等[2]用朴素贝叶斯和最大熵的方法对新闻及评论语料进行情感分类,最高准确率达90%。昝红英等[3]采用SVM+规则的方法研究新闻文本情感倾向,并与Bayes+KNN+规则的方法进行比较,验证前一种方法的普适性。潘云仙[4]用基于JST的模型进行新闻文本情感分析,对新闻标题进行极性判断。基于机器学习的方法对训练文本的质量要求很高,且容易忽视语句的上下文信息。因此本文采用另一种基于语义的情感分析方法。这种方法基于情感词典和语义规则设计算法,结合了词汇的语义特征和上下文信息,更为合理。如Turney等[5]用点互信息计算词汇语义相关度,来判断情感词的极性。刘群等[6]提出基于《知网》的词汇语义相似度计算,提高了词语相似度计算的准确率。朱嫣岚等[7]用基于HowNet的词汇语义相似度,计算词语的情感倾向。李晨等[8]基于情感词典和语义规则相结合,构建了正负面情感词典、否定词词典、程度副词词典、转折归总词典,计算新闻文本的情感倾向。此外,更多的对新闻标题或新闻文本情感倾向性的研究,是从新闻学本身出发的。如李小将[9]探究报纸新闻标题制作中情感因素的运用;樊耀聪[10]探究情感因素在新闻传播中的应用等。

基于现有的研究成果,可以看出这些研究大都以提高情感分析准确率为目标,少有通过情感分析对新闻文本本身进行解读。而本文以新闻标题作为切入点,将着重利用情感分析的结果,探究新闻文本的自身特点。本文将选取“新浪新闻”、《人民日报》新闻作为语料,通过对两家新闻标题情感倾向性的对比,分析各自新闻标题的特点,并探讨新闻写作中情感把控的问题。

1.新闻文本情感分析的实验流程

本文采用基于语义的方法对新闻标题进行情感分析,基本流程见图1.1。

1.1语料收集

本文分别整理收集“新浪新闻”和《人民日报》新闻标题各5000条,共计10000条新闻标题,构成情感分析的语料库。标题选择范围基本是两年以内的新闻,内容涵盖时政、地方、法治、国际、军事、财经、汽车、房产、教育、科技、彩票、娱乐、金融、体育、食品、旅游、健康、教育、游戏、时尚等方面。

1.2文本预处理

本文采用中科院汉语词法分析系统ICTCLAS[11]进行分词及词性标注,其主要功能还有命名实体识别、新词识别等。系统采用CHMM(层叠形马尔可夫模型)进行分词,分词速度996KB/s,分词精度98.45%,是目前准确率较高且较有效率的分词系统。

1.3情感词提取

首先建立情感词典。情感词典的建构是情感分析中至关重要的一步,对情感分析的结果有很大的影响。目前较为常用的中文情感词典有Hownet情感分析用词语集,其中包括了正负面评价词语集、正负面情感词语集、主张词语集和程度词语集;台湾大学NTUSD(National Taiwan University Sentiment Dictionary)包含了正面情感词典和负面情感词典;以及大连理工大学的中文情感词汇本体库[12],对多部情感词典进行整理归纳,较为全面,还对每个情感词汇的词性种类、情感分类、强度、极性等做了标注,将情感分为7大类、21小类,是目前比较成熟的中文情感词典。下表将大致描述这三部情感词典的词汇分布情况。

表中可以看出,大连理工大学的中文情感词汇本体库在情感词汇数量上占绝大优势。因此,本文在中文情感词汇本体库的基础上建立情感词典,对其进行筛选,删除一些新闻文本不适用的词语,并添加一些新闻文本中常见的情感词语,如“泥潭”“中国梦”“破获”等。最终,词典共含有13249个正面情感词语,13581个负面情感词语,合计26830个。

1.4语义规则匹配

在计算新闻标题的情感值之前,除了对情感词的情感值进行计算,还需要基于语义规则对情感词进行加权处理,标题中其他影响情感倾向的因素有否定词、程度副词、连词、反问句、感叹句等。

程度副词同样会影响词语情感倾向的强度,这时词语的情感值受程度副词语义强度的影响发生变化。程度副词权值表示为M■。本文基于HowNet的中文程度级别词语,构建程度副词表,并设置程度副词权重。

连词连接两个句子時,句子的情感倾向会因连词的不同而产生变化。常见的类型有并列、承接、递进、选择、转折、假设、因果、条件、解说、目的。其中,递进、转折、假设、因果类的连词会增强连词后的情感强度。用Mconj表示这些连词的权值。

特殊句式如反问句、感叹句都能增强语气程度,因此也有加强情感倾向的效果。反问句通过反问标记词识别,并且问句的标志“?”也给反问句识别提供了帮助。反问句权值用Mreh表示,设为-2。感叹句则较为简单,直接通过“!”识别。感叹句权值用Mex表示,设为2。

其中α为常数,当α=1.6时,情感识别准确率最高。这样确实可以减少上述情况的发生。

(3)新闻中常用描述性语言编写标题,其中不含有情感词汇,但往往也表达了情感倾向。尤其是对犯罪案件或社会问题的描述类标题,其表达的是负面情感,但这种情感经常无法识别出。

(4)情感词典中的词汇不够全面,也会导致识别的准确率下降。新浪新闻中存在大量网络情感词汇,在情感词典中有待补充。此外,还有许多多义情感词,在何种语义条件下不含有情感倾向,也是今后语义规则中要考虑的问题。

2.3数据分析

2.3.1新闻标题情感词

本文对“新浪新闻”标题和《人民日报》新闻标题的情感词进行统计分析。分别对新闻标题中含有的情感词的数量、情感分类、词频等作出统计。

“新浪新闻”标题含有1482个情感词,其中正面情感词842个,负面情感词640个;《人民日报》新闻标题含有1043个情感词,其中正面情感词799个,负面情感词244个。新浪新闻标题所含情感词数量远高于《人民日报》。这也体现了门户网站新闻标题较为情绪化,为夺人眼球而多采用富有情感的词语;而国家权威新闻机构的新闻标题更为严肃。这一点在正负面情感词的数量上同样体现。“新浪新闻”标题正负面情感词数量几乎相当,而门户网站也的确会采用负面情感倾向的标题来吸引阅读者的注意。《人民日报》新闻标题负面情感词数量远低于正面情感词,作为权威新闻媒体,也忌讳过多地扩散负面情绪。

两家新闻标题使用最多的负面情感词汇都是贬责类(NN)的情感词汇,这体现了新闻的批判性。正面情感词汇则是赞扬类(PH)词汇,在这一项上,《人民日报》的使用量甚至超过了“新浪新闻”,褒扬也是新闻媒体常用的新闻态度。安心类(PE)、相信类(PG)的词汇使用,《人民日报》也在“新浪新闻”之上,“让人民安心”“成为可信赖的对象”等表述在《人民日报》新闻标题中也确实十分常见。

此外,本文还对两家新闻标题情感词汇进行词频统计,各挑选出了20个最常用的标题情感词汇。具体如下:

可以很明显地看出,人民日报的高频词汇使用频率远高于新浪新闻,也体现了人民日报新闻报道涵盖范围的狭隘,较之门户网站新闻类别的多样,人民日报新闻更多聚焦于国家、政治、社会方面,娱乐性较弱。人民日报高频词“发展”“创新”“建设”“改革”等,几乎全是描述社会主义建设的词汇,而新浪新闻高频词“教育”“专家”“创业”“技艺”等,则涵盖了教育、科技、经济等领域,使用频率第二高的“勇士”一词,则常见于体育领域。且新浪新闻高频词分布较为平均,也说明了其新闻涉及领域全面。

2.3.2新闻标题情感值

本文通过基于语义的计算,得出人民日报和新浪新闻的标题情感值。具体情感倾向分布见下表:

可见中性情感新闻标题依然占据近半,体现了客观是新闻的重要特性之一。负面情感与正面情感的分布也与情感词汇的极性分布基本一致,也印证了上文所说。门户网站多采用情感丰富的新闻标题,尤其是更会吸引阅读者的负面情感标题,以期收获更多点击率。国家权威新闻机构不宜博人眼球或扩散较多负面情绪,负面情感标题较少;而其报道内容又多与国家党政的发展有关,因此正面情感较多。其中人民日报正面情感远超新浪新闻,与人民日报高频词汇使用频率远高于新浪新闻有关。

此外,本文还分别选取了两家新闻标题情感值的极值进行对比。见下表:

人民日报负面新闻标题的极值集中在重大案件或国家重大问题上,对这些行为或现象进行严厉批判;正面新闻报道的极值则与国家发展有关,褒扬了国家社会发展中积极的一面,或者鼓励大众为国家发展做出努力。无论正负面新闻,人民日报在进行褒贬时,都采用严肃口吻,较为客观地描述事件,采用的情感词汇也对强烈情绪的表达十分克制。反观新浪标题,则在情感上更加强烈,且多采用“?”“!”等标点符号,增强情感表达。负面情感标题中社会新闻占据绝大多数,内容也不都是批判,只是用大量负面情感词汇的叠加来增强视觉效果,吸引阅读者。正面情感新闻标题也大都是娱乐、体育、新闻、八卦,同样用多个正面情感词汇的叠加和标点,来达到最大情感表达。

3.总结

本文借助情感词典,并基于语义规则,对新闻标题的情感倾向进行分析,通过对标题中否定词、程度副词、连词、反问句及感叹句的语义规则匹配,从而提高新闻标题情感识别的准确率。选择人民日报和新浪新闻的新闻标题作为语料,对情感分析的结果进行探讨。

把人民日报作为国家权威新闻媒体代表,新浪新闻作为门户网站等非权威新闻媒体代表,情感分析对比发现:情感表达方面,国家权威新闻媒体的新闻标题所表达的情感克制,客观陈述事实,负面情感少,体现了权威媒体的严肃性;门户网站的新闻标题情感表达强烈,多用标点以及极性情感词的叠加,以增强视觉效果,达到吸引阅读者的目的。情感内容表现方面,权威媒体新闻内容狭隘,多集中于国家政治,娱乐性弱;门户网站新闻涉及范围广泛,娱乐性强。这也给新闻写作者带来了一些思考。为了增加新闻点击量与阅读量,夸大新闻标题情感表达,使标题与事实不符,这确实可能会吸引一些读者。但这样却失了新闻写作的原则。真实客观,如实报道,不强加情感,才是新闻写作应有的原则。

本文基于语义的新闻标题情感分析,也有一些不足之处。第一,所采用的情感词典还不够全面,会有一些情感词汇没有涉及;第二,样本容量不够大,只有一万条语料,还无法准确检验这种情感分析方法的正确率,对新闻标题的情感分析也无法形成强有力的支撑;第三,语义规则也不够全面,有许多遗漏的语义规则。这些不足之处也是今后此类情感分析可以完善的方向。

参考文獻:

[1]Bo P., Lee L.. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C]// Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004:271.

[2]徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007(06):95-100.

[3]昝红英,郭明,柴玉梅,吴云芳.新闻报道文本的情感倾向性研究[J].计算机工程,2010,36(15):20-22.

[4]潘云仙.基于JST模型的新闻文本情感分类研究[D].保定:河北大学,2015.

[5]Turney P. D.. Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews[C]// Meeting of the Association for Computational Linguistics. 2002:417-424.

[6]刘群,李素建.基于《知网》的词汇语义相似度计算[J].中文计算语言学,2002.

[7]朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006(01):14-20.

[8]李晨,朱世伟,魏墨济,于俊凤,李新天.基于词典与规则的新闻文本情感倾向性分析[J].山东科学,2017,30(01):115-121.

[9]李小将.论报纸新闻标题制作中情感因素的运用[J].新闻研究导刊,2015,6(12):140.

[10]樊耀聪.情感因素在新闻传播中的应用[D].西安:西北大学,2014.

[11]张华平等.ICTCLAS中文分词系统.http://www.nlpir.org/.

[12]徐琳宏,林鸿飞,潘宇,等.情感词汇本体的构造[J].情报学报,2008,27(2):180-185.

[13]陈晓东.基于情感词典的中文微博情感倾向分析研究[D].武汉:华中科技大学,2012:35.

[14]杜振雷.面向微博短文本的情感分析研究[D].北京:北京信息科技大学,2013:46-47.

猜你喜欢
情感分析人民日报词典
评《现代汉语词典》(第6版)
词典例证翻译标准探索
在线评论情感属性的动态变化
《胡言词典》(合集版)刊行