数字人文视角下的《拉贝日记》情感识别与分析*

2023-03-12 09:14黄紫荆邱玉倩赵小萱
图书馆论坛 2023年3期
关键词:拉贝语句南京

黄紫荆,邱玉倩,沈 彤,赵小萱,陈 刚

0 引言

文本情感分析是对文本数据进行分析并判断情感倾向的技术[1],广泛应用在舆情监控、优化决策等方面。近年在跨学科范式下,数字人文(Digital Humanities)发展迅速[2-5],采用情感分析等语义技术对历史文献和经典文学进行挖掘,对人文学科的创新发展具有重要意义[6]。南京大屠杀作为中国近代史上震惊世界的重大惨案,一直是学者关注热点。《拉贝日记》由德国商人约翰·拉贝所著[7],以第三方视角记述南京大屠杀见闻。由于当时德国与日本结盟,拉贝是纳粹党南京小组组长,拉贝的特殊身份使其记述具有很高的历史价值。过往《拉贝日记》主要为相关研究提供历史依据,研究内容主要包括探讨南京国际安全区的成立与运作[8-10]、南京大屠杀前后的市民生活[11-12]、揭示日军暴行[13-14]等。也有部分学者对拉贝在中国的思想见闻及《拉贝日记》的真实性进行探讨[15-16]。目前关于《拉贝日记》内容本身的研究并不多见,也尚未引入量化方法对文本进行整体解读。

战争往往会给民众带来剧烈的情感冲击,与一般历史档案相比,《拉贝日记》包含更多情感层面的内容。一方面其情感表达折射出拉贝个人立体的形象;另一方面,部分学者将理性与情感对立起来[17-18],认为情感会让史料记述存在立场、眼界的偏见[19]。数字人文视角下的历史文本研究倡导量化、整体论的研究视角[20]。对日记全文进行情感识别,探索日记情感书写与历史现实的关系,对厘清《拉贝日记》情感书写是“叙事的前提”[21]还是“外部作用的结果”[15],以及补充揭示拉贝的人物形象,均具有探索价值。

情感分析主要涵盖情感识别、情感抽取与情感检索等下游任务,其中情感识别研究最为广泛,主要通过人工标注、情感词典与机器学习来实现[22]。《拉贝日记》面临语料稀缺和缺乏业内标注数据集等问题,给情感识别带来挑战。完全靠人工标注情感极性,精确度最高,但需耗费大量人力资源[1]。NLP平台为学者封装便捷的接口,但存在对基准词的依赖问题,由于史料具有专业性和特殊性,仅依赖平台的模型方法,可能训练效果不佳[23-24]。情感词典是文本情感分析的重要方法,但也存在不能联系上下文语义、依赖先验知识的限制[25]。深度学习技术在语义分析领域日渐成熟,为情感研究带来新机遇[26-29]。BERT(Bidirectional Encoder Representations from Transformers)是由多个Transformer双向堆叠而成的预训练模型,已在多个NLP(Natural Language Processing)任务上取得最佳成绩[30]。BERT对同一个词在不同语境中动态编码,相比Word2Vec、Glove等传统词嵌入方法(Word Embedding),能有效解决《拉贝日记》中的一词多义问题[31-32]。目前针对特定领域的数据标注项目,人工与模型混合的工作方案被证明可以在降低人力成本的同时兼顾准确率[33-34]。

本文基于人工标注与BERT模型对《拉贝日记》进行分句情感极性识别,通过时序统计、地图映射和史料对照,探索性分析南京大屠杀前后拉贝的情感分布特征、变化趋势和对不同人物的情感倾向,以期为研究《拉贝日记》、南京大屠杀历史提供新视角和参考资料。

1 研究对象与数据预处理

1.1 研究对象

《拉贝日记》包括拉贝从1937年9月7日到1938年2月26日记录的南京战时日记和相关报告文件,全文共计约37.7万字。战时日记的起始日期为1937年9月7日,结束日期为1938年2月26日,共计159天,13.3万字。期间包括1937年11月12日日军占领上海、12月1日南京保卫战打响和12月13日南京城市沦陷3个重大历史节点。

日记中拉贝的活动范围集中在中山大道沿线和国际安全区为主的主城区。国际安全区位于南京主城西北,占地3.86平方千米,是南京沦陷后拉贝等为来不及撤退的难民创建的避难所。日本对安全区的存在呈含糊的默许态度[35],但占领南京后经常强行闯入安全区犯下暴行[36]。

约翰·拉贝于1882年11月23日出生,先后在德国西门子驻北京分公司、南京分公司工作。1937年11月12日,上海沦陷后日军直逼南京,拉贝冒着生命危险坚守于此保护人民。拉贝因其德国公民身份及出色的个人能力被推举为南京国际安全区主席。拉贝本为商人,无心政治,但在南京城沦陷前后参与庇护超过20万中国难民。该时期恐怖经历使得拉贝思想和行动产生巨大变化[16],情感随之转变。

1.2 数据说明与处理

情感极性识别是对带有感情色彩的主观性文本判断情感倾向的过程,本文选取《拉贝日记》的个人日记部分作为研究对象,并将全文语句分为积极、中性、消极3个情感极性,以句子作为识别粒度。积极情感包含期待、快乐、信任等,消极情感包含生气、恐惧、悲伤等,中性情感表示该语句没有明显的情感倾向。原始数据剔除非日记内容后,使用Python进行分句与结构化处理,得到有效数据4,416条①。由于缺乏语料数据集,首先综合百度智能云(cloud.baidu.com)的NLP情感倾向分析模块的识别结果与人工判读,对2,500条随机数据建立标注数据集。由于《拉贝日记》是战时叙事,拉贝的情感起伏相比人对产品或舆情的情感起伏要更强烈,情感语境也让标注人员的主观认同问题更突出,同一语句需要更多的人员参与标注。为降低结果的主观性,人工阶段采取3轮的情感标注流程,最终同意百分比为98%。针对数据量偏少问题,采用小样本数据增强中的“回译”方法[37],扩充数据,以减轻模型过拟合影响。本文基于百度翻译接口,将对已标注的语句进行3次连续批量翻译(中文>日语>英文>中文),以降低语义的重复率,同时防止语义失真。得到2,500条回译数据,与已标注的数据组成5,000条模型训练数据,其中“训练集:验证集:测试集”比例设定为“3∶1∶1”,剩余的1,916条数据后续通过训练后的模型预测情感极性。此外,将1937年南京城市地图、《拉贝日记》中的主要建筑和事件点在Arc GIS软件中进行配准和分层数字化,还原《拉贝日记》时期的南京城市空间格局以用作后续分析的辅助资料。

表1 人工数据标注规则及示例

2 研究方法

2.1 模型原理

本文在人工标注基础上,采用BERT模型对未标注数据进行词嵌入与情感极性分类。在日记情感分析中,文本有复杂丰富的情感语义特征,首先需要进行词嵌入处理。BERT是由多个Transformer双向堆叠而成的预训练模型,通过注意力机制来建模输入序列中的单词之间的关联。BERT模型的输入处理模块将每个句子序列处理为3个[1]向量的和:词向量(Token embeddings)、段向量(Segment embeddings)与位置向量(Position embeddings)。词向量表示对当前词对应的向量;段向量表示对当前词所在句子的位置编码,该向量用于刻画文本的全局语义信息,并与单字/词的语义信息相融合;位置向量表示对当前词的位置编码,由于出现在文本不同位置的字/词所携带的语义信息存在差异,如“拉贝担心难民”与“难民担心拉贝”,因此需要附加位置向量以作区分。将输入处理模块结果再输入BERT的双向Transformer编码模块,使用Encode特征抽取器进行文本特征提取,最终将得到具有双向上下文敏感的话语特征的词向量。

2.2 实验参数

选取Bert-base-chinese,一种采用中文词典且粒度到标点符号的BERT模型处理数据。该模型采用12层Transformer,隐藏层大小为768,Multi-head Attention参数为12。实验中每次训练样本数(batchsize)为16句,训练迭代次数为4,序列长度为140,优化器为Adam,损失函数为交叉熵损失函数。为了防止模型过拟合的影响,学习率稍作降低,保持在0.000009。首先在词嵌入环节,通过Berttokenizer预训练模型处理输入的语句,查询字向量表将每个字转换为一维向量;得到Berttokenizer输出的向量后,将词向量、段向量和位置向量的和输入BertForSequenceClassification模型,进行编码和情感极性分类,得到识别结果。

2.3 训练结果

本研究数据量偏少,可能导致训练准确率与验证、测试准确率差距变大,模型过拟合。因此实验降低学习率以缩短训练准确率与测试、验证准确率的差距,最终训练结果见表2。BERT的适宜迭代次数(epochs)为2~4次,从第1次到第4次训练,训练准确率和验证准确率不断提高,平均训练损失下降速率变缓,平均验证损失收敛在0.67。最终的训练准确率为0.91,验证准确率为0.81,测试准确率为0.84,BERT模型能在样本量偏小的情况下较为准确地识别出情感倾向,具有较好的适用性。之后将剩余的1,916条数据通过模型预测进行情感极性识别,最终整理得到《拉贝日记》个人日记部分的分句情感极性表,其中积极情感语句743条、中性情感语句1,964条、消极情感语句1,709条。

表2 模型训练情况

3 情感可视化分析

结合上文情感识别的数据结果从整体和分人物两个维度对《拉贝日记》进行情感可视化分析。首先将个人日记的全部结果进行整体性分析,旨在探析《拉贝日记》呈现什么样的情感叙事特征?情感变化是否深切受到外部局势的影响?情感叙事是否具有明显的情节编排?之后探讨拉贝对不同人物的情感倾向。日记作者对所记述的不同人物有不同的情感态度,并且随着时间推移对同一人物的情感往往也有所变化。分析《拉贝日记》情感叙事在不同对象之间的差异化表现,不仅可反映出拉贝的社交圈层和性格特点,也为分析其记述是否有明显的立场偏见,是否明显受到外界局势和他人行为的影响提供参考信息。

3.1 整体性情感分析

将全部数据进行数量统计与情感曲线制图(图1),以获得全文的情感分布特征及各类情感语句占比。从语句的每日分布情况看,虽然受限于精力、记录环境等因素,但即使在情况最恶劣时期,拉贝仍然有着一定篇幅的文字记录内容,体现了拉贝记录暴行的决心。在残酷战争背景下,全文中性情感语句数量最多,整体占比0.44,拉贝写作风格偏向理性。观察全时期的情感曲线,发现日记的情感曲线趋势变化会先于重大历史节点出现,反映出拉贝对形势敏锐的洞察力,印证拉贝未雨绸缪的处事性格[38]。整体逐渐下落的情感曲线展现出拉贝在战争局势不断恶化下,心理压力持续加重的精神状态;而情感曲线下降速率则与外部形势的变化相契合,表明拉贝情感波动主要受到不明朗时局的显著影响。

图1 全文情感曲线及各类情感极性语句计数

第1天到第53天拉贝的情感曲线呈现缓慢下落趋势,第53天内累计情感得分为“-160”分。此时期是淞沪会战和南京空袭时期,拉贝情绪受到频繁空袭的负面影响。经统计原文中这段时期含有“天气”语句出现29次,美好天气意味着空袭威胁,“阳光明媚,天气晴朗!”“上午9时多坏的天气——就是说,天空阳光灿烂!”等语句透露出拉贝的负面情绪。

第53天日军正式占领上海,到第72天南京保卫战打响,拉贝的情感曲线整体下落到-238分。情感曲线先快速下降,在第60天开始变得平缓,积极情感占比变大。南京形势恶化使得拉贝倍感压力,但之后也发生了一些带给他希望的事情。第60天(1937年11月19日)委员会成立[7]92。第61天(1937年11月20日)拉贝收到妻子来信[7]93。第64天(1937年11月23日)拉贝因55岁生日的到来感到快乐,并收到了妻子的电报与礼物[7]102。第66天(1937年11月25日)拉贝收到日本对安全区成立的友好回应,获知国民党军队正面抗敌的信息,收到妻子的来信并与邻里互帮互助[7]105。第70天(1937年11月29日),他看到了希特勒的照片,幻想自己的元首会帮助中国,并带给他勇气和力量[7]117。

第72天到第84天南京城市沦陷,此段时期是拉贝情感曲线在全时期下降最迅速的时期,情感得分从“-238”下降到“-427”,平均每天有超过16句负面语句,高于每日均值。此时中外人士利用一切可能的交通工具逃离[16],留在南京意味着要冒生命的危险,同时拉贝寄希望于希特勒的想法破灭,他面临着前所未有的压力。

从第84天南京城市沦陷到日记结束,此段为南京大屠杀时期,情感曲线整体持续下降,在第95-97天曲线下降平缓,正向情感语句偏多。此时为圣诞节时期,大家一起度过了短暂的温馨时光[7]278,安置在拉贝居所中朝不保夕的难民“争先恐后想让拉贝有更大的圣诞喜悦”[7]272,甚至布置了圣诞树和蜡烛,令拉贝非常感动。

情感曲线也是文学、电影作品中辨别情节类型的方法[39],起伏变化透露出作者隐含的叙事意图。参考文学作品的情感曲线分类研究[40],如《拉贝日记》叙事中有亲近中国或强化日军暴行的主观意图,其情感曲线通常会呈现出“盛转衰的跌落”或“落-起-落”的悲剧叙事特征。但由图1看出,《拉贝日记》的情感曲线持续下落,没有明显起伏,其情感叙事没有明显的情节编排。在日记伊始的南京相对和平时期,情感曲线便呈现出缓慢下落的特征,拉贝并未刻画出对中国的积极情绪,他对中国底层民众亦未流露出同情心,骂疲倦的人力车夫[7]6,鄙视邻居鞋匠[7]14;全文情感曲线下降最为迅速的时期是南京保卫战到南京城市沦陷前,拉贝并没有强化南京大屠杀给他带来的负面情绪。

3.2 分人物情感分析

参考相关研究[23],本文将提及相关人物的语句情感极性视为拉贝对此人物的情感倾向。因为以句子为单元识别的结果代表该语句的整体情感倾向,本文得出的人物情感值包括3种情况:拉贝对该人物的态度、拉贝与该人物共同经历事件后的情感波动、拉贝对人物和事件的整体态度,需要相关史料和研究辅以判断。

本文选取全文出现次数排名前20的高频人物进行情感倾向统计,正向、中性、负向语句数量见图2。除妻子多拉和朋友魏特琳,其他所有人物的中性情感语句占比都最高,拉贝对不同人物的情感倾向整体偏向理性,但对中国的国民党高层几乎没有积极情感语句,在日记原文中不乏对国民党和中国军队的批评。从语句数量上看,德国大使馆秘书罗森、拉贝秘书韩湘琳、委员会财务主管克勒格尔与妻子多拉是全文提及最多的4个人物。罗森和克勒格尔与拉贝同为德国同胞,既有工作关系,又在难民救助上积极互动。妻子多拉的积极情感占比最高,60句相关语句中有43句为正向情感。

图2 高频人物情感极性统计

在人员归属上,前20人中参与难民救助的中外人士占9人、日本大使馆成员4人、国民党政要4人、家庭成员2人、公司下属1人,可以看出《拉贝日记》中拉贝的主要社交圈集中在难民救助事务上。由于人物较多,本文针对拉贝在战争期间的主要社交圈层,分类探索拉贝对相关人物的情感倾向。

3.2.1 日本大使馆成员

对日本大使馆全体成员和出现频次前三成员的相关语句进行情感统计与可视化(图3),发现拉贝对日本大使馆成员总体呈现多元情感态度。拉贝对日本人并不持一刀切立场,虽然对日军暴行表现出厌恶的负面情绪,但并不讳言日本大使馆的礼貌形象,他的情感态度是日方行为的写照。

图3 日本大使馆成员情感曲线和不同情感极性语句的数量统计

从语句情感极性的数量统计看,日本大使馆全体成员的中性情感语句数量最多,占比0.57,3名大使馆成员的不同情感极性语句数量占比不同,但也是中性情感语句占比最多。尤其是福井的负面情感语句数量占比为0.16,小于其他人物和整体均值,他的态度较为温和有礼,拉贝在日记中称他为“日本大使馆全体成员中我唯一寄赠西门子日历记事簿的人”[7]277。他认可大使馆成员为安全区的维持付出了努力[7]297,也发现“他们中有人长时间以来对日军的做法深感羞耻”[7]506。

从情感曲线的时序变化看,第84天南京城市沦陷起始,日本大使馆成员的情感波动开始出现,此时拉贝通过外交方式和日本大使馆频繁交涉,希望以此阻止日军暴行,守护安全区秩序。而日本大使馆全体人物的情感曲线整体呈现出波折下降的趋势,反映出交涉结果的不如意。但是也出现了两次明显的短暂上升,这些积极情感是日方行为引发的结果:在第96-97天,全体成员的情感曲线有小幅度的上升,拉贝对态度温和的大使馆成员有正面描写[7]281。而在第116-118天,拉贝等人为难民募集到600吨食品,需要日本大使馆签发入城许可证[7]414,日本大使馆为委员会成员举行便宴[7]416,肯定他们的工作,使拉贝对日本大使馆的情感曲线有小幅度上升。

3名日本大使馆成员的情感曲线时序变化是多元化的。福井和田中是日本大使馆秘书,情感曲线波动较为平稳,趋于中性情感倾向。参赞福田的情感曲线从南京沦陷后整体呈现显著下降趋势,回归文本,发现拉贝并不是厌恶福田本人。由于拉贝经常向福田提交日军暴行的事态报告,通过地图可视化,可以看出多次交涉后,仅仅让日本大使馆周边小范围区域(图4蓝色椭圆范围)没有被搜集到暴行,收效甚微令他失望。这与早于《拉贝日记》面世的1985年版《侵华日军南京大屠杀史料》记录的“经拉贝与国际安全区委员会的竭力交涉,敌兵明目张胆的兽行略见减少,但其灭绝人性的残暴程度,并未降低”史实相互印证[41]。福田和日本大使馆整体在南京城沦陷初期迅速下落情感曲线,也从侧面印证此时日本军队已在安全区内犯下暴行[15]。

图4 事态报告地空间分布

3.2.2 委员会成员及其他难民救助者

由于参与难民救助的中外人士较多,本文对参与难民救助的中立国全体成员和这其中出现频次前三的成员进行情感分析(图5)。拉贝对全体成员的情感曲线随时序经历了从平缓波动到短期缓慢上升再到迅速持续下落的变化。情感曲线上升发生于第63-72天,彼时为安全区筹备时期,拉贝起初期待通过希特勒来迫使日本同意设立安全区,直到第72天(1937年12月1日),拉贝仍然在日记中记录:“谢天谢地,现在我敢肯定,我们有救了,元首不会丢下我不管的!”[7]123但第73天(1937年12月2日)开始,全体成员的情感曲线开始持续下降至日记结束。当日日本政府否决安全区的存在,但表示尊重这片区域,拉贝也获知不能再指望希特勒的帮助[7]125。南京沦陷后,拉贝和委员们努力通过外交途径制止暴行,但日本大使馆权力有限,他们只能在阻止暴行和救助难民上不断疲于奔波[16]。拉贝对这些难民救助者的情感曲线展现出他们无奈又缺乏支援的处境。

图5 难民救助者情感曲线及不同情感极性语句数量统计

乔治·罗森是德国大使馆秘书,是《拉贝日记》中提及最多的人物。拉贝得到罗森竭力帮助[7]111,他的相关语句达95句。罗森的情感曲线自第21天开始出现并长期波动平缓,但从1938年1月初开始大幅下降。此时日本组织成立自治委员会,剥削了国际安全区委员会权力[42],罗森返回南京,为维护委员会利益与日方针锋相对。罗森在与日方相处时不掩饰对日本人的厌恶[43-44],给拉贝与日方的周旋带来了麻烦,令拉贝感到无奈。“不可否认,日本大使馆的官员们是对我们有过一些帮助的唯一的人们。”[7]418拉贝对罗森情感曲线的变化也反映出拉贝理智克制、顾全大局的性格特点。

委员会中克勒格尔的情感曲线波动先于斯迈思出现,在南京沦陷后开始持续降低,在第116天后变得平缓。克勒格尔是拉贝的德国同胞和同事,始终冲锋在阻拦日军暴行的第一线,给拉贝带来令人心情沉重的暴行信息,后期他前往上海结婚[7]416,情感曲线便趋于平缓。斯迈思是委员会秘书,情感波动在大屠杀开始后出现,整体持续向下。南京沦陷后他负责与拉贝一起与日本大使馆周旋,但并不能解决日本军队的作风问题,情感曲线不断下降也体现了拉贝与斯迈思的焦急和对交涉结果的不断失望。

3.2.3 妻子

在所有人物中,拉贝对妻子的正面情感语句数量远远多于负面和中性情感语句(图6),情感曲线随时序整体持续爬升,波动较低,最高值32分出现在日记结束。妻儿是拉贝留在南京保护人民的情感支柱,正面影响贯彻日记各时段。由图6可知妻子情感曲线的上升主要来自在南京保卫战前,截至第72天,妻子的情感累计得分为20分。彼时南京局势逐渐恶化,拉贝早已将家人送离南京,而自己坚守此地。期间,他经常通过电报与书信与妻子互道想念。在南京保卫战开始至沦陷期间,妻子的情感波动较和缓,此时南京局势也进一步恶化,通讯设施被破坏,拉贝忙于与各方人士寻求庇护南京人民的方法。南京城市沦陷后,拉贝更加难以与家人取得联系[7]302,但妻子的情感曲线呈现出缓慢上升趋势,可见在残酷的大屠杀时期,妻子是拉贝的重要情感寄托。对妻子的牵挂展现出拉贝对家人的脉脉温情,其情感叙事是自然的、人性化的表达。

图6 妻子情感曲线及不同情感极性语句数量统计

4 结论

本文通过人工标注与BERT模型,对南京大屠杀的重要史料《拉贝日记》进行分句情感极性识别,结合史料对照、时序分析和地图映射,分析拉贝的情感分布特征、变化趋势和对不同人物的情感倾向,从数字人文的远读与近读视角为研究拉贝及南京大屠杀史提供了参考思路。

(1)补充和完善了拉贝在南京时期生活的侧面,有助于对拉贝形成多层次、多角度的认识。全文情感曲线的变化拐点早于重大历史节点,表明拉贝具有敏锐的洞察力。拉贝对日本大使馆不同成员的情感曲线展现出他客观、理性的处事态度。拉贝对罗森逐渐下落的情感曲线,体现出拉贝谨慎、克制的处事特点。拉贝对妻子在全时期持续上升的情感曲线,折射出拉贝关爱家人和极具责任感的一面。

(2)与既有的南京大屠杀研究相互验证。实验结果表明,日记中性情感语句数量最多,占比达44%,为《拉贝日记》叙事的客观性提供佐证。日军暴行事态报告的地图映射印证了日军暴行只是在日本大使馆附近略显减少的事实。日本大使馆在南京城市沦陷初期迅速下落的情感曲线侧面印证此时日本军队已在安全区内犯下暴行。当越多信息匹配起来,有助于建立关于历史更为真实的图景,为南京沦陷前后提供相关的辅助资料。

(3)发现拉贝的情感书写主要因外部局势与人物行为而触发,并无明显的预设偏见。日记全文情感曲线呈现持续下落趋势,且未体现明显的悲剧型情节编排,表明他并未强化日军暴行的叙事意图;而下降速率与战争局势的变化相契合,反映出拉贝的情感表达受外界变化的紧密影响。拉贝因日本大使馆成员礼貌的工作方式对他们呈现出客观多元的情感倾向,因国民党高层对底层民众安危的不作为而对他们呈现相对负面的情感倾向,说明他的史料表述并没有明显的立场偏见。

本研究展现出数字人文技术应用于史学研究的优势,但存在可深化之处。因为有限的样本量容易引起模型过拟合,本文采用数据增强和降低模型学习率的方式避免这一问题,将来可考虑构建垂直领域的相应语料数据集,对样本进行补充,以实现在降低人工成本的同时提高模型的准确率和普适性。

注释

①开源项目地址:https://gitee.com/scroll_icon/rabe-diary.git

猜你喜欢
拉贝语句南京
“南京不会忘记”
阿司匹林、拉贝洛尔联合治疗妊娠期高血压
拉贝洛尔联合硫酸镁治疗妊高征的临床价值体会
重点:语句衔接
南京·九间堂
雪祭
又是磷复会 又在大南京
南京、南京
硫酸镁联合拉贝洛尔治疗妊娠期高血压的效果分析
如何搞定语句衔接题