基于LDA和GBDT算法的对文学作品爱国主义特征的分类研究

2019-06-18 11:44毛频对外经济贸易大学外语学院北京100029
文化创新比较研究 2019年13期
关键词:文档文学作品爱国主义

毛频(对外经济贸易大学外语学院,北京 100029)

爱国主义是社会主义核心价值观,自古至今,爱国主义一直是文学作品中最重要、最能引起读者共鸣的主题之一,可谓日月高悬,激励了一代又一代的仁人志士,为了国家和民族的利益,毅然承担起历史赋予的重任,赴汤蹈火在所不惜,在中国历史上留下了浓墨重彩的一幕又一幕。弘扬爱国主义,传递正能量是毋庸置疑的,因此所有相关媒体、平台在推介文学作品时,价值取向是首先要面对的问题,优先推荐爱国主义题材的佳作,淘汰宣扬分裂、背叛国家等思潮的不符合社会主义价值观的作品。脍炙人口的现当代爱国主义小说有《红日》《红岩》等。进入当代消费社会,文学的互联网化越来越成为当代文学创作和阅读的重要特征。文学创作活动异常活跃,阅文等互联网文学企业不断产生发展,政府意识形态主管部门把控价值取向时,不可能对所有文学作品进行分析和判断,文学企业在评价某个文学作品的特征时,也需要掌握文学作品本身的特点以及读者对这部作品的感受。现在已经进入大数据时代,随着互联网海量数据的产生,以及自然语言处理算法的不断革新,使得使用机器学习技术处理自然语言成为可能[1],我们认为,对文学作品本身的文本以及用户阅读文学作品后的反馈进行量化分析,判断该作品对读者产生了怎样的价值取向,该文以读者是否产生爱国主义情感为例,进行分析研究。

1 概述

该任务本质上是机器学习中的分类问题。分类问题属有监督学习,在离线的模型训练阶段需要有标注的样本集,样本集可被分割为训练集、测试集、验证集。样本由多个特征构成,其中有个特殊的特征被称为目标特征,对应的是人工标注的文学作品类标签(爱国主义作品、反面题材作品、中性作品)。类标签可以从官方对文学作品的定性来获取,值得一提的是,爱国主义与反面题材作品占到了全部文学作品的小部分,大部分是中性题材的,因此在控制样本比例时需要考虑这一点。样本数据的其他特征可以通过自然语言理解技术中的Topic Model(如PLSA、LDA等)来抽取作品的关键词及其权重来构造。国内已有部分学者使用LDA方法用于历史研究[2],还有的成功运用于对海量微博话题进行主题抽取。对于待分析的新作品(阅读量大、传播范围广的),则可以使用GBDT算法,基于从读者评论中抽取的特征来进行分类。

2 逻辑与算法原理

2.1 处理流程概述

处理流程分两类:离线处理和在线预测。离线处理包括数据预处理(特征提取,构造样本集)和模型。在线预测指的是利用分类模型对没有标签的数据的爱国主义倾向进行预测,可以发现主题的演化内容,超越了Blei等人的动态主题模型[3]。关键步骤包括数据预处理、离线训练和在线预测三部分。在数据预处理时,如果处理的是样本集,输出结果中目标特征值为(0,1,2),如果处理的是待预测实例,则不包含目标特征值。离线预测的训练集、测试集和验证集都同时包含了爱国主义评论、负面评论和中性评论。

2.2 关键技术

文学作品爱国主义影响力分类算法涉及两类关键技术,它们分别是数据预处理涉及的特征提取和分类算法。前者主要涉及自然语言理解中的Topic Model技术,该方案选择了前沿的LDA模型(隐性狄利克雷分布模型)。后者主要涉及分类算法的构造,该方案选择了主流的GBDT算法。

2.2.1 LDA模型

LDA模型一种TopicModel,TopicModel即主题模型,顾名思义就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计角度来说是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从概率模型生成的,每个实体可能由若干个主题合成,主题概率之和为1。LDA本质上是一个多重贝叶斯模型。假设我们有M篇文档,对应第d篇文档中有Nd个词。

模型的目标是找到每篇文档的主题分布和每个主题中词的概率分布。首先需要确定合成文档的主题个数,记作K,所有的分布基于K个主题展开。

LDA假设文档主题的先验分布满足Dirichlet分布,即对于任一文档d,其主题分布满足θd:θd=Dirichlet),其中α为分布的超参数,是一个K维向量。

LDA假设主题中词的先验分布分布也是Dirichlet分布,即对任一主题k,其词分布βk为:βk=Dirichlet),η为分布的超参数,是一个V维向量。V代表词汇表的大小。

对于任意一篇文档d中的第n个词,主题分布θd的后验分布为:

βk的后验分布为:Dirichlet(βk)

由于主题词产生不依赖具体某一个文档,因此文档主题分布和主题词分布是独立的。理解了上面这M+K组Dirichlet-multi共轭,就理解了LDA模型原理。

剩下的问题是,基于这个LDA模型如何求解我们想要的每一篇文档的主题分布和每一个主题中词的分布呢?一般有两种方法,第一种是基于Gibbs采样算法求解,第二种是基于变分推断EM算法求解。

用我们的分类算法,可以将每部作品或该部作品的全部读者评论看成一个文档,主题数设置为1,那么就能抽取出该作品或读者评论的主题词及其权重。

2.2.2 GBDT算法

GBDT(Gradient Boosting Decision Tree)被称为梯度提升决策树,可用于回归或分类。随着深度学习的不断发展,以其自动提取特征的优势被更多的应用在关系抽取任务中。关系抽取可以看成是多分类问题,奠雨洁等人将GBDT用于微博立场检测当中,通过对语料库手动提取特征,完成文本分类[4]。

在GBDT的迭代中,假设前一轮迭代得到的强学习器是 ft-1(x),损失函数是 L(y,ft-1(x)),我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x),让本轮的损失函数 L(y,ft(x))=L(y,ft-1(x)+ht(x))最小。也就是说,本轮迭代找到决策树,要让样本的损失尽量变得更小。

通过损失函数的负梯度来拟合,我们可以通过拟合损失误差的办法,这样无论是分类问题还是回归问题,都可以通过其损失函数的负梯度的拟合,就可以用GBDT来解决分类和回归问题。区别仅仅在于损失函数不同导致的负梯度不同而已。

在我们的应用中,实际上是多元(3个类标签)GBDT分类算法,假设类别数为K=3,则此时对数似然损失函数为:

其中如果样本输出类别为k,则yk=1。第k类的概率 pk(x)的表达式为:

3 实证研究

《红岩》这部小说以解放前夕“重庆中美合作所集中营”敌我斗争为主线,展开了对当时国统区阶级斗争全貌的描写。作品结构错综复杂又富于变化,善于刻画人物心理活动和烘托气氛,语言朴实,笔调悲壮,被誉为革命的教科书。该书被中宣部、文化部、团中央命名为百部爱国主义教科书。该研究爬取了豆瓣网《红岩》的读者评论5199份,其中有文字的评论1480份,使用python3.6调用对LDA和GBDT算法编写程序进行了测试。在运用LDA算法时,分别调用了NLTK,stop_words,gensim的python包,汉语分词使用开源的中科院汉语词法分析系统ICTCLAS,使用测试结果现实,对于读者评论,删除了停用词、书名、人名、出版等与主题无关的词。我们设定了爱国主义题材关键词为六个,分别是:信仰,红色,党,革命,感动,英雄所占比例为46%。反面题材作品使用六个主题,关键词分别为:洗脑、不真实、套路、文革、恶心、政治色彩,所占比例为12%,其余没有这些关键词的为中性评价,比例为42%。从读者评论看,不少负面评论是阅读结束以后,读者感觉故事不真实而做出的评论,这表明读者对同一作品在不同的时间阅读,会有不同的感受,时间越长异样的感受越明显。

根据第一步LDA的主题模型计算结果,对每个读者评论的每句话进行GBDT的三分类,有爱国主义题材关键词的为句子赋值为1,有反面题材作品关键词的句子赋值为-1,均没有的赋值为0,仍然使用python语言,对数据进行GBDT分类,训练后的模型表达式为:pk(x)=exp(fk(x))/∑Kl=1exp(fl(x)),使用此式,随机选择100个的读者评论句子进行了验证,成功率为91%,说明可以判定大部分读者的感受判定,基本实现了机器判定文学作品是否为爱国主义题材的目的。

猜你喜欢
文档文学作品爱国主义
当文学作品扎堆影视化
浅谈Matlab与Word文档的应用接口
为什么文学作品里总会出现“雨”
有人一声不吭向你扔了个文档
在疫情大考中彰显爱国主义力量
Word文档 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
爱国主义教育
文学作品与数学
台湾文学作品中的第一女