东盟涉华舆情识别及特征分布研究*
——以主流英汉媒体为分析对象

2022-08-23 08:39王连喜向杰益黄锡轩蒋盛益
情报杂志 2022年8期
关键词:英汉语料对华

王连喜 向杰益 黄锡轩 蒋盛益 赵 瑞

(1.广州市非通用语种智能处理重点实验室 广州 510006;2.广东外语外贸大学信息科学与技术学院 广州 510006)

0 引 言

涉华新闻是网络空间国际舆情的重要载体,是中国了解国外社会对华态度的重要参考来源[1]。涉华舆情分析是指对海外媒体中出现的涉及中国的报道或论述进行识别和计算的过程。

国内、国际涉华舆情研究分别起始于20世纪90年代和21世纪初,其成果主要集中于中、美两国[2]。当前涉华舆情研究的重点主要围绕其总体特征、发展态势、对国家发展的影响、传播渠道、情感偏好以及应对策略等角度展开,其方法以定性分析为主[3]。在东盟涉华舆情研究方面,主要是采用文本分析法、定量分析法对相关媒体对华报道的舆情特征及其倾向性或主客观性等进行分析。在舆情特征分析方面,仅有少数学者进行了针对性的探索,如罗奕等[4]对新加坡、马来西亚(马来)、印度尼西亚(印尼)、菲律宾、泰国和越南大众媒体的涉华报道进行舆情监控,发现这些国家的报道存在一定偏差,但对中国优化自我宣传策略有很大的帮助。陈瑶雯等[5]对东盟各国的舆情合作、冲突等情感进行计量分析发现,人们对国际涉华舆论中的“不同见解”或负面消息容忍度较低。在倾向性分析方面,大部分成果是以东盟特定国家的代表性媒体为对象,其结论难以客观反映出该国的整体对华状态。吴德识[6]以内容分析、案例研究等方法对越南媒体《人民报网》在2003-2012年的涉华报道进行研究发现,该报基本上采取客观公正的态度,呈现出了积极友好的中国政治外交形象。张玉等[7]运用内容分析法研究了印尼两大主流媒体的涉华新闻,发现其涉华报道以客观中立倾向为主。吴君静[8]以2018年马来报纸《星洲日报》为对象,不仅分析了马来西亚涉华新闻的特点,还以传播学理论、信息计量方法得出华人社会对涉华新闻呈现出了立体式关注。吴超等[9]通过聚类方法对周边国家的对华舆情进行分析发现,印尼、马来西亚、菲律宾总体呈现出较为积极的舆情态势,而越南总体呈现负面的对华态势。上述研究表明,东盟国家的早期涉华报道在一定程度上依然受到西方媒体的影响,总体呈现复杂的涉华舆情特征,但对于“一带一路”倡议提出之后的涉华报道关注点及发展态势尚未发现新的成果。

综上,当前针对东盟或特定成员国的涉华研究多以人工分析为主,其方法以统计学习为主,其对象多针对东盟的单个国家或部分区域,其数据来源较为单一、时间跨度较短且均为“一带一路”倡议提出之前的。受已有工作启发,本文试图通过对更大规模的数据进行处理和分析,将“一带一路”开局前五年(2014-2018年)的东盟主流英汉媒体新闻作为研究对象,在进行语料标注、模型构建、结果预测等步骤后,对东盟舆情特征进行挖掘,从而分析出东盟对中国社会的关注热点及其变化趋势,为国内外开展相关研究提供参考。

1 研究框架与方法

1.1 研究问题

本文的基本问题为涉华新闻识别及舆情特征分析,即以东盟英汉媒体的涉华新闻语料为对象,通过构建分类学习模型识别并分析出涉华新闻报道的基本特征。具体要解决的问题如下:针对涉华新闻识别领域缺乏学习语料的问题,通过数据采集和人工标引方式形成一定规模的高质量训练语料;针对涉华新闻预测问题,通过构建多种分类模型并选择最适合该任务的模型完成全部数据的预测;对比东盟英汉主流媒体对华关注的异同和报道特征。

1.2 研究框架与思路

本文的总体框架按照“语料获取与标注”→“数据预处理”→“模型构建”→“结果分析”的思路开展研究,其过程如图1所示。

图1 研究框架

首先确定东盟的主流英汉媒体,并利用爬虫算法获取大规模的新闻语料,然后在进行语种识别、简繁体转换、数据过滤以及其他数据清洗操作之后,从获取语料中随机抽取少量语料进行人工标注并形成英汉涉华新闻分类的实验语料;接下来,选择多种学习方法在实验语料上构建涉华新闻识别模型,最后选择具有最佳预测效果的模型对获取的大规模新闻语料进行预测,同时还通过统计分析和可视化方法对涉华报道的舆情特征及主题进行呈现和分析。

1.3 基于BERT的涉华新闻识别方法

文本分类是解决涉华新闻识别的常用方法之一。新闻文本分类的常用方法包括机器学习方法和深度学习方法,如决策树、支持向量机、朴素贝叶斯、K近邻、最大熵、卷积神经网络模型(CNN)、循环神经网络模型(RNN)、预训练语言模型等[10]。随着预训练语言模型的发展,BERT(Bidirectional Encoder Representation from Transformers)模型成为了当前最常用的文本分类方法之一,并在文献学科识别任务上取得了较好的效果[11-12]。BERT是一个预训练的语言表征模型,它的关键在于Transformer模型的提出和应用,该模型完全抛弃了RNN和CNN等常见的网络结构,而是采用注意力机制对语言数据进行建模。

BERT模型的结构如图2所示,其中,En表示字的文本输入,Trm是Transformer编码器对文本的向量化表示。事实上,Transformer的本质上是一个基于Self-attention的Seq2seq模型。

图2 BERT模型结构

从结构上看,BERT主要由Transformer编码器堆叠而成,在每个Transformer层中加入Self-attention,使得每个Transformer层在对每个字进行编码时可以查看该字的前后信息。Self-attention主要是通过在Transformer中加入Query、Key、Value矩阵来实现的。BERT通过控制Transformer编码器块的堆叠层数、多头注意力机制数目和各个隐藏层大小等参数即可配置预训练模型。从处理过程上看,基于BERT的文本分类工作主要包含预训练和模型微调两个阶段。

预训练阶段主要包含MLM (Mask Language Model)和NSP(Next Sentence Prediction)两个预训练任务。在MLM任务中,训练语料中token会被随机替换成[MASK]字符串,随后再通过BERT模型对[MASK]化后的token进行预测,其过程类似于英语学习者做完形填空的题型训练,这种自监督的方式可使模型学到词与词之间的语义信息。而在NSP任务中,BERT模型会接收两个句子,其任务是预测这两个句子是否具有相邻性的上下句关系。利用NSP可赋予BERT适应于理解句子之间关系的下游任务,如自然语言推理、自动问答等。

BERT模型的微调阶段主要是针对自然语言处理领域的下游任务的。具体而言,BERT在该阶段提供了不同的输入、输出格式,以及不同训练参数来适配不同的任务类型。例如,在使用BERT进行新闻文本分类任务时,需要重点关注以下参数的设置:文本的最大长度;隐藏层的数量;学习率。

2 数据来源与实验设计

2.1 数据来源

在收集东盟主流英汉媒体列表的基础上,一方面参考中国新闻社与中国传媒大学新闻学院联合设计开发的世界华文传媒新媒体数据库系统( http://hmdb.chinanews.com)的结果,另一方面邀请国别与区域研究及从事东盟官方语种教学的专家进行甄选,最终选定了44个英语类和25个汉语类新闻网站作为数据来源,媒体列表如表1所示。可以看出,除文莱外,其他国家的英汉媒体数量相对较多、覆盖面也相对较广。由于受到社会经济发展水平和人口结构的限制,老挝的华文媒体起步较晚,目前尚未形成有较大影响力的华文媒体和英文媒体。

表1 东盟英汉主流媒体

续表1 东盟英汉主流媒体

随后,通过编写网络爬虫算法对相关媒体进行定制化采集,最终得到英汉新闻量分别为1 035 592篇和508 439篇。接下来,从获取语料中抽取一定规模的新闻以人工方式进行涉华与否判断(“0”和“1”分别表示非涉华和涉华),最终形成英汉实验语料分别包括15 049个样本和55 058个样本。在语料中,其“0”和“1”的分布近似均衡。

2.2 实验设计

为了得到较好的分类效果,选择贝叶斯、逻辑回归、决策树、随机森林、AdaBoost、K近邻、支持向量机、多层感知机、TextCNN、BERT等10种传统机器学习和深度学习模型进行实验效果对比,并利用TextRank算法提取涉华新闻中的关键词集以进行舆情特征分布分析和主题挖掘。在实验中,以7:1:2的比例将实验语料划分为训练集、验证集和测试集,并以Accuracy作为评价指标。

BERT模型选用Google AI基于多语言开发的预训练语言模型作为中文和英文共有词向量。本实验的超参数设置如表2所示。

表2 超参数设置

3 结果分析

3.1 基于多种学习模型的涉华新闻识别效果比较

由表3可知,在选择的10种模型中,BERT在两种数据集上都得到了最高的分类准确率,相比其他模型有较大的性能提升。因此,在后续大规模涉华新闻预测过程中,选择BERT模型对采集的英汉媒体新闻进行分类预测。

表3 基于多种学习模型的涉华新闻分类结果比较

3.2 基于BERT的涉华新闻预测及分析

利用BERT模型对采集的全部英汉新闻语料进行分类预测,然后以国家、年份、媒体类型作为特征统计,并计算东盟各成员国的涉华新闻报道率。涉华报道率是指某国家同类媒体的涉华报道量占该媒体类型的全部新闻报道量的比例。经统计与计算,东盟国家的涉华报道率分布结果如表4所示。

表4 东盟涉华报道率统计结果分布

由表4可知,东盟的汉语媒体涉华报道率较英文媒体高出24.14%,其中英汉媒体分别以新加坡和菲律宾的涉华报道率为最高,但菲律宾的涉华报道舆论阵地明显偏向于英语类媒体,而新加坡、泰国、缅甸等则在两类媒体上均表现出了较高的对华关注度。尽管分析语料在媒体分布和语料规模上存在不均衡性,但由于所选择的媒体是具有代表性的,可见上述结果是具备一定的客观性的。

从具体媒体的涉华报道率上看,大于平均值的汉语类媒体主要来自《国际财经日报》(72.58%)、泰华网(67.5%)、《世界日报》(59.41%)、缅华网(51.99%)、胞波网(58.27%)等5个媒体,而大于平均值的英语类媒体主要来自《每日快报》(29.03%)、《商业时报》(17.84%)、《新加坡政府指南》(12.63%)、《商业世界报》(10.35%)、Mizzima新闻网(9.7%)、《民族报》(8.53%)、《今日报》(8.41%)、亚洲新闻网(8.00%)、《民族报》(7.96%)、《雅加达环球报》(7.69%)、《马来西亚星报》(7.42%)、ABS-CBN新闻(5.91%)、《曼谷邮报》(5.62%)、《婆罗洲邮报》(5.44%)等14个媒体。由此可见,新加坡、菲律宾、印尼、马来西亚、泰国、缅甸等国家的对华关注度较高,且他们涉及的媒体数量也相对较多。

由于不同国家、不同语种的新闻媒体数量和数据规模差异较大,所以仅从横向比较难以客观反映出东盟的对华关注度变化趋势。基于此,本文还从纵向视角比较了涉华报道率的变化趋势。

图3 汉语类媒体涉华新闻报道趋势

由图3所示结果可知,菲律宾、缅甸在汉语媒体上的涉华报道率均高于东盟的平均值,新加坡在2015年、2016年、2018年等年份均高于东盟相应年份的平均值;印尼、越南、马来的涉华报道趋势与东盟的总体变化趋势非常相近;泰国的对华关注度从2014年处于东盟的最高值,到后续逐步呈现递减趋势,直到2018年才接近东盟均值。从变化趋势上看,新加坡、越南在“一带一路”开局5年的对华关注度表现平稳,印尼、越南呈现升降交替的“W”趋势,缅甸呈现“V”趋势、菲律宾呈现倒“V”趋势。从峰值上看,不同国家的最高涉华报道率出现年份不尽相同,泰国和新加坡分别出现在2014年和2015年,菲律宾、越南、马来西亚出现于2016年,印尼出现在2017年,而缅甸和柬埔寨则形成于2018年。

图4 英语类媒体涉华新闻报道趋势

由图4所示结果可知,新加坡、缅甸的英语涉华报道率均高于东盟平均值,且呈现“W”趋势;柬埔寨呈现不规则的“V”趋势,而文莱呈现不规则的倒“V”形状。

越南、菲律宾、文莱的涉华报道率低于东盟的平均值,但菲律宾的对华关注趋势表现平稳;除印尼外,其他国家的涉华报道率基本呈现逐年递增或相对稳定的发展趋势,且以新加坡对华关注度的递增趋势最为明显。从峰值的出现时间上看,越南、印尼、缅甸出现在2016年,菲律宾、文莱出现在2017年,新加坡、马来西亚、泰国、柬埔寨均出现在2018年。

综合图3和图4的结果可以看出,每个国家在相同时间点的汉语媒体涉华报道率均高于英语媒体,这说明汉语媒体是东盟国家涉华新闻报道的主要阵地。另外,从华人华侨的分布角度看,菲律宾、越南、缅甸是华人华侨占比最低的三个国家(均低于3%),但是菲律宾和缅甸在英汉媒体上的涉华报道率均高于东盟平均值,甚至他们的对华关注度在特定类型媒体上出现了最高值。值得注意的是,越南在英汉媒体上的对华关注最高点均出现在2016年,而马来西业、文莱等华人华侨占比相对较高的国家的对华关注度低于平均值,由此可说明华人华侨的占比不是影响东盟国家对华关注度的重要因素,其主要因素极有可能来自其他方面,例如政治、经济、文化等领域。

3.3 基于TextRank的关键词提取及分析

为了进一步探析东盟对华关注主题的变化问题,本文通过TextRank算法[13]对东盟成员国的涉华新闻文本以年度为时间窗口进行关键词提取,最终形成的结果如表5和表6所示。

TextRank算法的基本思想来源于谷歌公司2003年提出的Pagerank算法,它通过把文本分割成若干组成单元(如单词、句子),并通过他们之间的相邻关系构建网络,然后利用投票机制对文本中的重要成分进行排序。与LDA、HMM等模型不同,TextRank不需要事先对多篇文档进行学习训练,仅利用单篇文档本身的信息即可实现关键词提取和自动摘要生成,所以其应用性更为广泛。

表5 汉语媒体涉华新闻报道重要词汇 (top 10)

续表5 汉语媒体涉华新闻报道重要词汇 (top 10)

表6 英语媒体涉华新闻报道重要词汇 (top 10)

续表6 英语媒体涉华新闻报道重要词汇 (top 10)

根据表5和表6的结果以及关键词之间的语义关系进行归纳,可观察到以下现象:

从媒体类型与报道主题的关系角度看,东盟国家在不同媒体上形成的重点关注主题存在明显差异:a.在汉语媒体上,除越南外,其他国家都关注了“一带一路”倡议及其合作情况,而这类主题在英语类媒体则是以很低的权重出现甚至未出现。b.除菲律宾和越南外,其他国家在汉语类媒体上较少关注中国国际政治问题,例如南海问题、中美贸易战问题,但他们在英语类媒体中则是以非常大的权重出现。c.汉语类媒体中出现了较多与文化、娱乐等主题相关的关键词,而在英语类媒体中则密集出现了马中、泰华、柬华、香港、台湾、特朗普等反映中国国际政治关系、中国内政问题的政治类关键词。

从主题分布角度看,不同国家的对华关注主题分布既存在共性,又存在独特性:a.所有国家都非常关注中国的经济类和政治类主题,但汉语媒体更倾向于经济类主题,英语媒体对政治类主题更感兴趣。b.在政治类主题方面,汉语类媒体多报道台海关系、香港问题等中国内政问题,而英语类媒体则持续关注南海问题、中美关系等中国国际政治关系问题。c.除政治类和经济类主题外,新加坡、印尼、马来西亚、缅甸、泰国等在汉语媒体中表现出了对汉语学习、电影、美食等文化类主题的偏爱,泰国、越南则重点关注其与中国有着长期合作关系的旅游领域。d.在英语类媒体中,南海、香港、美国、特朗普以及对象国政府机构名或官员名等政治类倾向明显的主题词在报道中占有重要地位。另外,新加坡、马来西亚、菲律宾、文莱等马来群岛国家对中国的农历新年以及中国经济增长的关注度相对较大,其原因可能是因为华人占比较大,而与中国接壤的缅甸和泰国则较为重视旅游主题。e.部分国家在英汉媒体的报道倾向上有着非常明显的差异,如越南和菲律宾在汉语媒体上分别对旅游和中国内政问题的关注较多,但在英语媒体上则都对南海问题、中美贸易战等中国国际政治问题更为关注。

此外,还可看出东盟涉华关注主题是随着对象国与中国的关系以及中国国际关系的变化而产生变迁。尽管各个国家在不同类型的媒体上有出现主题的持续性关注趋势,但是纵向比较后可发现以下现象:a.汉语类媒体关注主题的变化趋势大,英语类媒体关注主题的持续性强。例如,马来西亚在汉语媒体上起初比较重视中马关系、中国内政问题和文化问题,而于2017年则开始重点转向关注“一带一路”倡议下的中马合作问题;泰国于2014—2015年在英语类媒体上的关注主题以旅游类主题和中泰合作问题为主,但从2016年开始转向了南海问题、中美贸易战、中韩关系、中朝关系等主题。b.对于“一带一路”主题而言,马来、菲律宾、泰国、新加坡于2017—2018年形成了重点关注,而印尼和缅甸的关注时间点都是出现于2015年。c.与中国相关的重大事件容易得到东盟国家的关注,例如马航MH370失联、跨国电信诈骗案、萨德问题、南海争端、中美贸易战等事件在发生当年甚至后续年份都有被持续关注。d.中美关系问题自特朗普2016年当选为总统开始,便得到东盟各国的关注,然而他们重点关注的是特朗普政府与中国之间的关系,但基于历史及现实利益的考虑,一直对中美博弈处于持续观望状态中。

4 结 论

本文以“一带一路”开局前五年为时间窗口,通过语料标注、模型构建、分类预测、结果分析等步骤完成了面向东盟主流英汉媒体的涉华新闻识别和舆情特征分析,主要工作与结论如下:a.通过人工方式标注了包含15 049个英语新闻样本和55 058个汉语新闻样本的实验语料;b.基于BERT模型预测出的英汉涉华新闻语料分别为55 107篇和13 6624篇,其平均涉华报道率分别为5.22%和29.36%;c.新加坡、菲律宾、印尼、越南、泰国、缅甸等国家的对华关注度相对较高,马来西亚、文莱等华人华侨占比相对较高的国家的对华关注低于东盟平均值;d.汉语类媒体多倾向于报道中国内政、“一带一路”、文化、旅游等政治类和经济类主题,而英语类媒体则重点关注中国国际政治关系问题;e.部分东盟成员国在不同类型媒体上出现了关注主题的变化。

受制于实验条件,本文的研究工作还有一些改进空间:a.将探究更多传统机器学习模型和深度学习模型在涉华新闻分类任务上的表现;b.对识别的涉华新闻语料进行更深层次的挖掘和分析,包括涉华新闻的细粒度主题识别、倾向性分析及观点抽取等。

猜你喜欢
英汉语料对华
从构词词源看英汉时空性差异
面向低资源神经机器翻译的回译方法
美行业协会众声反对白宫新的对华关税威胁
致力于对华友好的玻利维亚总统莫拉莱斯
商务部:中方欢迎欧盟终止对华光伏双反措施
濒危语言与汉语平行语料库动态构建技术研究
核心句理论在英汉视译断句技巧中的应用
国内外语用学实证研究比较:语料类型与收集方法
英汉汉英商务口译学习词典编纂原则
英语教学中真实语料的运用