摘" 要:旨在构建专有日文政治隐喻语料库,解决目前针对日文政治语篇,成规模、高质量的政治隐喻语料资源匮
乏、识别方式单一的问题。使用日本国会演说作为原始语料,制定一套完整的标注体系,并进一步对语料库进行统计分析。该语料库可论证政治隐喻在日文中同样被普遍使用,且种类多样。在此基础上,采用机器学习算法搭建识别模型进行实验。根据实验结果,该语料库可作为日文隐喻研究基础数据库,为后续日文政治隐喻的自动识别提供有力支撑。
关键词:政治隐喻;语料库;日语文本;自动识别
中图分类号:TP391;G353.1" 文献标识码:A" 文章编号:2096-4706(2024)10-0081-06
A Method for Constructing a Japanese Political Metaphor Corpus
ZHU Yi1, LI Weiran1, LIU Zongnan2
(1.Dufl School of Software, Dalian University of Foreign Languages, Dalian" 116044, China;
2.School of Foreign Languages, Shenyang Ligong University, Shenyang" 110158, China)
Abstract: The paper aims to construct a proprietary Japanese political metaphor corpus, addressing the current problems of a lack of large-scale and high-quality political metaphor corpus resources and a single recognition method for Japanese political discourse. It uses speeches by the Japanese Congress as the original corpus, develops a complete labeling system, and further conducts statistical analysis on the corpus. This corpus can demonstrate that political metaphors are also widely used in Japanese and have a variety of types. On this basis, Machine Learning algorithms are used to construct recognition models for experiments. According to the experimental results, this corpus can serve as a basic database for Japanese metaphor research, providing strong support for the automatic recognition of Japanese political metaphor in the future.
Keywords: political metaphor; corpus; Japanese text; automatic recognition
0" 引" 言
隐喻(Metaphor)最早被看作是一种修辞方式,直至莱考夫和约翰逊所著的《我们赖以生存的隐喻》[1]一书问世,正式提出了概念隐喻,隐喻突破了传统的修辞学框架转向了认知层面。我们每一个人的生活都充满着政治,政治家表达权力的基本工具之一正是他们使用的语言。政治话语中同样充满了不同类型的隐喻,而且这里使用的隐喻是有据可查的。政治家们往往通过这些类型的隐喻试图让群众接受他们的观点以达到自己的政治目的、巩固自己的地位或是满足某种利益。然而,国外大多数政治隐喻实证研究集中在英文和中文[2],国内的研究也少有其他语种。为弥补日文政治隐喻相关的语料库资源并不丰富这一缺陷,本文将根据概念隐喻理论及前人研究,制定一套相对规范的标注体系,构建完成针对日文的政治隐喻语料库。
1" 政治隐喻相关研究
基于语料库方法的政治隐喻实证研究大多是选取相应语篇构建封闭语料库后,研究者们先穷尽识别文本中的隐喻表达,然后利用概念隐喻理论及批评隐喻分析手法,结合政治背景或人物特点等,分析语言背后所使用的政治隐喻,捕捉政治人物的话语策略和根本意图,揭示其中的意识形态。近十年,国外学者运用语料库方法分析研究概念隐喻占比过半[3]。Cox [4]对2010年奥巴马的国情咨文进行分析,结合了当时的时代背景、社会情况,揭示了奥巴马使用这些隐喻的意义以及他对总统角色的看法。Borčić等人[5]将2009年和2012年的克罗地亚共和国总统伊沃·约西波维奇在访谈节目上的政治采访作为语料,分析其中的概念隐喻。研究表明采访里较多使用拟人隐喻、实体隐喻以及运动隐喻,且在肯定态度的表达中更为常见。Pavlikova [6]讨论了2020年特朗普和拜登的选举演讲中所使用的隐喻,语料随机选择了两位10篇演讲(各5篇),统计其中隐喻表达的出现频率。结果显示在谈论经济、国家和民族的内容上,二位都会使用隐喻,而特朗普比拜登使用的隐喻表达更多。
国内的概念隐喻研究也逐步采用语料库这种自下而上的研究方式。孙毅等人[7]对英国脱欧话语进行批评隐喻分析,语料选取英国太阳报上的脱欧板块(Brexit),揭示了英国和欧盟之间对立冲突的关系。武建国等人[8]以美国政府网站上的31篇中美贸易谈判语篇为语料,考察美国政府如何操纵话语、通过隐喻指代与中国的贸易关系,塑造中国的负面形象,进而实现贸易保护主义“合法化”。钟玲俐等人[9]以习近平总书记系列对外演讲为语料,归纳和分析其中所包含的“路”隐喻及其国家身份构建功能。此外,近3年国内基于自主学习的语言自动识别研究逐渐增多,如徐琳宏等人[10]基于计算机自主学习算法对语篇引文情感进行自动识别;刘璐等人[11]针对自然语言显式命题展开自动识别和解析,并建立有效识别模型;以及卫欣玲[12]关于自然语言中歧义字段自动识别系统设计的探讨。这些研究对象已不仅仅限于隐喻,可见语言自动识别相关研究范畴呈拓展趋势。
毛文伟[13]提到,因为日本的法律对于著作权有着严格的规定,日本的研究者们在此问题上持谨慎态度。如果获得或是使用素材的方式在法律上存在问题的话,研究结果就不能公开发表,且语料库的基础建设也未受到日本各大学和相关研究机构的重视。早期的语料库主要是用来研究语言的规律、发展和变化的一个集合,随着计算机技术与语言学研究的紧密结合,语料库被重新定义为数字化的、成一定规模的、能被计算机程序处理的语料集合[14]。目前,隐喻识别问题已成为自然语言处理的一项子任务。在大规模语料的背景下,人工识别标注会耗费很多成本,而基于监督学习算法的自动识别研究也需要一个较为规范、标注质量较高的语料库作为基础。正是基于上述客观因素,本文构建专有日文政治隐喻语料库,并在此语料库基础上进行自动识别实验评估,为此后相关研究提供一定参照。
2" 语料库的构建
2.1" 设计原则
参照目前既有的语料库构建分析研究[15,16],如徐琳宏等针对中文引文情感语料库的建设路径,提出了构建过程分为数据的采集和预处理、语料标注以及质量监控3个步骤。本文在参考上述既有步骤基础上,结合日语政治话语语料库实际语言特征,提出构建日文政治隐喻语料库的设计流程如图1所示。
2.2" 语料采集
本文选择日本网站“首相官邸”,语料选取了2018年至2022年10篇日本国会总理大臣演说,共8.9万字,具体演说信息如表1所示。首先,从网站检索栏处输入每篇演讲标题,可直接获得关联视频及语料原文。将语料原文保留为文本文档txt格式,针对每篇演说,按语句分割。分句后剔除重复句子,将处理好的句子存入Excel文件中,完成语料的预处理,等待标注。
2.3" 标签设置
本文为句子级别的隐喻标注,即每个句子中是否含有隐喻表达。目前现有的国内外公开隐喻数据集并不特定某个领域,标注内容各不相同;例如按照句法构成特点,隐喻一般分为名词性隐喻、动词性隐喻、形容词性隐喻等类型。本文参照了CCL2018测评中文隐喻检测任务所使用的评测数据集,共4 394个中文句子,该隐喻数据集标注了动词性隐喻、名词性隐喻和负例。此外基于现有的政治隐喻实证研究,学者们对政治话语中的隐喻表达也进行了详细划分[17,18]。因此,本文结合这两部分隐喻标注的特点,设置日文政治隐喻语料库的标签。除句子外,共4种标签(PosTag、Types、Keywords、Label)。各标签含义具体描述如下:
PosTag:本文聚焦动词性隐喻和名词性隐喻,因此仅标注“动词”“名词”以及“负例”三类。例如“新しい資本主義を実現していく車の両輪は、成長戦略と分配戦略です”,这里实现新资本主义的两项战略就是车子至关重要不可或缺的轮子,该表达属于名词性隐喻。“新型コロナで、我が国の経済社会は、大きく傷つきました”,这里对于日本的经济社会,“新型コロナ”就是敌人,在同敌人的对抗中难免受到伤害“傷つく”,该表达则属于动词性隐喻。
Types(Types of political metaphor):参照前人研究,按拟人隐喻、旅程隐喻、战争隐喻、建筑隐喻、机械隐喻、自然隐喻、力量隐喻、教育隐喻、经济隐喻、财富隐喻、容器隐喻、艺术隐喻、旗帜隐喻共13大类对分句后的语料进行标注。在语料库统计与分析部分中会进一步对以上13类政治隐喻阐释说明。
Keywords:该标签主要标注原句中识别出政治隐喻的关键词,例如上述两个例句中,隐喻关键词为“両輪”和“傷つく”。其中,动词是日语中最复杂的一类词,在句子中会有很多不同的形态,标注动词性隐喻的关键词时需还原成动词原形。Keywords直接对准句子中政治隐喻表达的关键部分,也方便其他研究者更好地理解。
Label:为后续实现日文政治隐喻自动识别等其他下游任务,单独制定标签判断该句是否含有隐喻表达。“含有隐喻表达”的句子标注为0,“不含有隐喻表达”的句子则标注为1。
上述隐喻识别的过程基于概念隐喻理论和批评隐喻分析方式,标注过程中不难发现:很多句子中不止一处隐喻表达,因此在本文所构建的语料库中除Label标签外,其他标签需尽可能地标注出句子中所有的隐喻表达;由于Label只需判断整个句子是否包含政治隐喻表达即可,仍按0、1标注。
2.4" 质量监控
初回标注工作由一名熟练掌握日语的硕士生、一名日语政治语言学专业博士、一名日语母语留学生共同阅读、完成标注,后由大连外国语大学日本语学院组成的专家组进行质检。如果标注的结果一致,直接将对应句存入语料库;如果不一致,则需送入疑难数据库,由专家与标注者共同探讨,意见一致后重新判定该句,进行修改标注后存入语料库。图2选取部分语料进行展示。
3" 语料库统计分析
3.1" 语料库总体建设情况
目前日文政治隐喻语料库共标注句子1 829条,其中按词性标注包含动词性隐喻293条、名词性隐喻465条、既有动词又有名词的为203条、负例868条。按Label标签分为“包含隐喻表达”即0共961条,“不包含隐喻表达”即1共868条,如图3所示。首先使用日文分词工具MeCab绘制词云图,参数max_words选择350,效果如图4所示。图中文字越大,该词出现的频率越高。通过词云图,能够更加直观快速地把握所选语料的大致内容和语境。
从政治隐喻的分类来看,统计了13类政治隐喻的句子数量如图5所示。数量由多到少分别是旅程、拟人、战争、建筑、机械、教育、自然、力量、艺术、容器、旗帜、经济和财富。再次强调的是,虽然句子总数为1 829条,但很多句子包含2处或2处以上的隐喻表达,所以政治隐喻类型的句子统计总数并不等于1 829个。
3.2" 政治隐喻类型具体分析
基于标注完成后的语料库,汇总了13类政治隐喻的关键词并统计词频,按照词频由高到低顺序排列如表2所示。其中,括号里的数字表示关键词出现频数,没有括号的为出现一次。
旅程隐喻、拟人隐喻、战争隐喻和建筑隐喻是诸多国家领导人常用的政治隐喻表达[19-21],从本文所构建的日文语料库中,也不难看出这些类型同样是日本首相十分常用的。数量最多的为旅程隐喻,日本首相熟练运用旅程这一概念域,向大众展示出对国家未来发展正向、积极的态度。虽然提到了现有的“负担”如医疗、社会保障、育儿以及冲绳基地负担,但通过高频使用“進める”“目指す”“進む”等词,仍能传达出日本有充足信心解决目前的问题、减轻这些负担,国家正朝着更好的方向前进。拟人隐喻的大量使用也是日文政治演讲语篇的一大特征,包含了“手”“目”等人体部位隐喻,比如对国际社会伸出“支援の手”以及同国民携手共创新日本等,体现了日本同其他国家目标一致共同进退、政府和国民共同努力的决心。此外,通过“国家是人”等概念映射也使得人们切身地感受到日本的现状。例如句子1)中日本的价值只是“沉睡”(眠る)并不是完全消失,通过相关政策会重新恢复日本的观光旅游业,价值便会再次醒来。
1)日本に眠る価値を再発見し、観光地の受入れ環境整備を一挙に進め、当面の観光需要を回復していくための政策プランを、年内に策定してまいります。
译文:重新发现沉睡在日本的价值,一举推进观光地接收环境的整备,年内制定恢复当前观光需求的政策计划。
其次,数量较多的是战争隐喻。受全球新冠疫情的影响,日本首相的政治演讲中同样包含这部分内容。例如句子2)中十分鲜明地使用“闘い”“最前線”这两个具有战争对抗意义的名词,意在表明日本对新冠疫情的态度即首当其冲积极抗疫、重视保护国民生命安全。通过这种冲突性质的语言表达,也更能凸显出抗疫过后美好生活的来之不易,每位国民感受到了友善互助、温暖的氛围,侧面促进国民们更加感谢政府、对政府保持积极态度。
2)そして、ウィルスとの闘いの最前線に立ち続ける医療現場、保健所の皆さん、介護現場の皆さんをはじめ多くの方々の献身的な御努力のおかげで、今の私たちの暮らしがあります。
译文:而且,多亏了一直站在与病毒战斗最前线的医疗现场、保健所、看护现场各位的献身努力,才有了我们现在的生活。
其他类型的隐喻虽然与上述隐喻比较数量占比不大,但在日本政治话语中的使用具有丰富政治内涵。比如在旗帜隐喻中日本高举自由贸易大旗,更是直截了当地隐喻自己为“旗手”,凸显了自身在贸易中发挥着重要作用。在经济隐喻中使用“清算”一词,凸显对象国的负面形象,解决目前朝鲜等一些外交问题;对于人员分配、日本的未来等则使用“投資”一词,以经济隐喻暗示投资虽然有风险,但投资者内心更期待更看重后续的收益,这也体现了日本对这些方面的经济投入或是政策制定是期望看到成效的。
综上,基于本文所构建的日文政治隐喻语料库,不难发现在日本政治话语中政治隐喻的使用是十分频繁的,且隐喻类型多样。首相在话语中使用隐喻,构建出日本和平友善、互帮互助的国家形象。并且从国民角度看,日本政府同国民们共患难、共同努力解决社会保障民生问题,也将经济成长的“果実”分给所有国民,通过隐喻操作意在群众心中树立一个良好的正面的形象,获得群众支持。
4" 实验评估
为进一步验证语料库的识别性能,本文提取语料库中的句子和label标签作为实验数据集,非隐喻表达的数据即label为1共868条,隐喻表达的数据即label为0共961条。按照7:2:1划分为训练集、测试集和验证集,并搭建了三种传统机器学习模型(支持向量机、朴素贝叶斯、随机森林)进行隐喻识别。其中,支持向量机的惩罚参数C设置为1,kernel默认为’rbf’;随机森林参数n_estimators设置为70。
实验采用Python语言,针对日文文本,使用第三方库Mecab的parseToNode方法进行分词以及形态解析。根据日文的语言特点,分词后保留名词、形容词、形容动词和动词四种词性。文本向量化表示方法采用TF-IDF(Term Frequency-Inverse Document Frequency),是一种基于统计的数学方法,算法简单高效。其中,TF表示某一个给定的词语在该文档中出现的频率,计算过程如式(1)所示;式中ni, j表示该词在文档dj中的出现次数,分母则是在文档dj中所有词语的出现次数之和。IDF表示一个词语普遍重要性的度量,计算过程如式(2)所示| D |表示语料库中文档总数,分母中|{ j;ti ∈ dj}|表示包含词语 文件数目,如果该词语不在语料库中,会导致这部分为0,因此一般情况下分母使用1+|{ j;ti ∈ dj}|。评价指标为准确率(Precision,P)、召回率(Recall,R)和F1值,其实验结果如表3所示。
根据实验结果,基于本文所构建的日文政治隐喻语料库,识别效果较好的模型为随机森林,F1值达到80.87%。虽然数据量有限,但可基本完成对语句的政治隐喻识别。未来,可扩大数据量、优化模型算法,并针对日文这一自然语言,优化文本特征提取方法,进一步提升整体识别性能。
5" 结" 论
本文主要介绍了日文政治隐喻语料库的构建工作,从学界既有研究看,目前针对该方向的研究缺乏成规模、高质量的全文数据语料,为此本研究制定了一套专门的语料标注规范,对日文政治隐喻研究领域的语料库进行构建。该语料库具有重要的理论与实践意义,能够拓展政治隐喻研究对象的范围,丰富对日的相关研究;也为相关标注工作提供了可参考的标注规范。
另一方面,考虑到在大规模语料里所有隐喻类型的使用可多达千次甚至万次,全部由人工识别会消耗大量的成本,因此本文语料库可用于日文政治隐喻自动识别工作,为此提供一定的数据支持,可节约研究人员对语料库隐喻识别的时间和精力,为日后该领域的相关研究提供一种新思路。
参考文献:
[1] Lakoff G,Johnson M. Metaphors We Live By [M].Chicago:the University of Chicago Press,1980.
[2] 侯学昌,孙亚,梁宇航.国外隐喻实验方法研究综述(2016—2020) [J].外语学刊,2022(5):15-21.
[3] 于霖林,金胜昔.近十年国外概念隐喻研究方法考论 [J].浙江外国语学院学报,2022(4):39-47.
[4] COX J L.Politics in Motion: Barack Obama’s Use of Movement Metaphors [J].American Communication Journal,2012,14(2):1-13.
[5] BORČIĆ N,KANIŽAJ I,KRŠUL S. Conceptual Metaphor in Political Communication" [J].Zbornik Sveučilišta u Dubrovniku,2016 (3):73-94.
[6] PAVLIKOVA Ž. The Concept of Metaphor in Political Speeches (Metaphors in the Electoral Speeches of Donald Trump and Joe Biden in the 2020 Presidential Elections)[C]//Proceedings of the 5th Annual International Scientific Conference.Bratislava:Vydavateľstvo EKONÓM,2020:313-321.
[7] 孙毅,熊佳腾.英国脱欧话语的批评隐喻分析 [J].解放军外国语学院学报,2022,45(2):1-9+137+160.
[8] 武建国,谢思思,李晶.政治话语“合法化”的批评隐喻分析——以美国政府发布的中美贸易谈判话语为例 [J].当代外语研究,2022(4):111-122.
[9] 钟玲俐,刘正光,李思艺.批评隐喻视角下外交话语中的“路”隐喻和国家身份构建——以习近平总书记系列对外演讲为例 [J].北京第二外国语学院学报,2022,44(6):114-132.
[10] 徐琳宏,丁堃,林原,等.基于机器学习算法的引文情感自动识别研究——以自然语言处理领域为例 [J].现代情报,2020,40(1):35-40+48.
[11] 刘璐,彭诗雅,玉郴,等.自然语言显式命题自动识别和解析方法 [J].中文信息学报,2021,35(2):41-51.
[12] 卫欣玲.基于知识库的自然语言中歧义字段自动识别系统设计 [J].自动化技术与应用,2023,42(1):69-72+151.
[13] 毛文伟.日语语料库建设的现状综述 [J].日语学习与研究,2009(6):42-47.
[14] 黄水清,王东波.国内语料库研究综述 [J].信息资源管理学报,2021,11(3):4-17+87.
[15] 张冬瑜,杨亮,郑朴琪,等.情感隐喻语料库构建与应用 [J].中国科学:信息科学,2015,45(12):1574-1587.
[16] 徐琳宏,丁堃,陈娜,等.中文文献引文情感语料库构建 [J].情报学报,2020,39(1):25-37.
[17] 凤群.隐喻和政治神话的实现:美国总统演讲的批评隐喻分析——从里根到奥巴马 [J].解放军外国语学院学报,2013,36(1):18-22+127.
[18] 黄一峰,姚艳玲.日语政治演讲语篇批评隐喻分析 [J].日语学习与研究,2021(3):110-119.
[19] 黄秋林,吴本虎.政治隐喻的历时分析——基于《人民日报》(1978-2007)两会社论的研究 [J].语言教学与研究,2009(5):91-96.
[20] 陈红.俄罗斯主流媒体政治话语中政治隐喻的批评隐喻分析(2000-2016) [J].东北亚外语研究,2018,6(3):3-10.
[21] 孙毅,李全.政治隐喻与隐喻政治——基于特朗普总统就职演讲的隐喻图景分析 [J].山东外语教学,2019,40(5):35-47.
作者简介:朱毅(1979—),男,汉族,辽宁大连人,
副教授,硕士,研究方向:人工智能、大数据;李蔚然(1997—),女,汉族,黑龙江哈尔滨人,硕士研究生在读,研究方向:多语言信息检索、政治隐喻;刘棕楠(1983—),男,汉族,辽宁大连人,讲师,博士,研究方向:政治语言学。