刘运同 同济大学国际文化交流学院
提 要 在汉语口语中介语语料库建设中,口语语料的收集和加工(特别是转写)是一项重要的挑战。本文对口语转写的几个关键问题进行了讨论,并提供了可行的建议。这些问题包括:①转写的基本单位,②转写的主要内容,③标点符号的使用,④基本的转写策略。
无论从世界范围还是从中国范围来看,口语语料的建设都落后于书面语语料库的建设。这是因为相对于书面语语料来说,口语语料在收集和加工方面都存在更大的挑战。口语使用语音媒介作为交流手段,因此要对口语语料进行收集和加工,跟书面语相比就多了一道程序,即首先采用一种合适的方法来记录和保存口头交流内容。用书面形式来记录和保存口语语料是一种无奈的选择,对语言研究来说也是一种新的挑战(传统的语言研究由于倾向于使用书面语作为研究材料,总体来说此问题未显现)。
语料库是按照特定目标收集的语言数据。目前,语料库的规模越来越大,对语料库数据准确性的要求也越来越高。这个要求对中介语语料库建设提出了新的挑战,对口语中介语语料库建设尤其如此。因为口语中介语语料库多了转写的程序,转写的质量在很大程度上决定了中介语语料的质量,决定了语料库的质量。Weisser(2018)通过重新转写,发现BNC(British National Corpus)的语料转写存在一些错误。如一些转写者由于粗心,把 “you’re off the hook”转写成了“your off the hook”。如果依个例为代表进行推算,Weisser估计BNC的错误率将高达8.5%。并且这个转写错误还将导致其他的问题,如词频统计问题,语法分析问题(“your off the hook”成了一种错误的表达,或可能被标注为与上下文无关的碎片,即fragment)。
本文将主要讨论汉语口语中介语语料转写中的一些重要问题,包括:①转写的基本单位,②转写的主要内容,③标点符号的使用,④基本的转写策略。
语料的整理加工涉及语言分析的基本单位问题。对于书面语来说,语言描写和分析的基本单位就是句子。对于语料库语言学来说,甚至可以采用更具操作性的方法来解决句子的问题,那就是根据句号(或问号、感叹号)作为判断句子的标准(宋柔等,2017)。但是对于口语语料来说,情形有很大的不同。口语就其固有媒介来说,并不存在标点符号之类的辅助成分。不过研究者发现,口语表达也是可以分隔成较小的片段的。在处理口语语料时研究者面临的一个重要问题就是:对于口语来说,如何进行描写和分析?它的基本单位是什么?是跟书面语一样的句子还是其他的单位?
Foster等(2000)回顾了87项涉及口语的研究,发现过往的研究者对口语的基本切分单位提出了众多的方案,包括:命题(Proposition)、交流单位(C-unit)、表达单位(Idea Unit);音调单位(Tone Unit)、语调单位(Intonation Unit)、小句(Utterance);句子(Sentence)、可终结单位(T-unit);等等。之所以出现这么多的定义,是因为研究者对口语中基本单位的认知不同,采用的标准不同,如语义的、语法的、韵律的。有时甚至同时混用不同的标准,如语义标准无法解决问题时转向语法标准。虽然研究者提出的各种定义有其本身的合理性,但众多的定义显然造成了一个无法克服的后果,就是人们无法对采用不同定义的研究结果进行比较。
目前,越来越多的研究者认为,在对口语进行切分时,最好先单独利用韵律标准,找出口语表达的基本单位,然后再对韵律单位与语法、语义、功能的关系进行研究。研究者把利用韵律因素划分出来的口语基本单位称为语调单位(Intonation Unit),语调单位从本质上讲是一个听觉单位。根据美国功能语言学派的观点,原型性的语调单位具有一个连贯的语调拱形,并具有一些明显的分界特征,如开头部分的加速,结尾音节的延长,以及停顿等(Barth-Weingarten,2016)。
有些研究者怀疑语调单位具有范畴性特点,在处理真实的口语语料面临模糊的临界现象时便无能为力(Barth-Weingarten,2016)。但多数研究者认为,语调单位已成为一个公认的口语语篇分析单位,对口语研究非常重要,并具有很多优势,比如可进行跨语言比较等(Tao,1996)。对语调单位的探索也影响到语料库(特别是包括口语语料的语料库)的建设和标注,例如20世纪80年代前完成的London-Lund Corpus对其中的口语语料进行了韵律标注,在每一个音调单位(Tone Unit,英国学派的术语,与Intonation Unit同义)后面插入一个黑色实心方块来进行标注,见例(1)。虽然口语的基本分析单位与书面语不同,但是一些研究发现,由小句来实现的语调单位在整个口语表达中还是占有相当高的比例。Tao(1996)的数据显示,汉语口语语篇中,小句形式的语调单位占比达47.9%(完整小句占19%)。Matsumoto(2003)的数据显示,日语口语语篇中,小句形式的语调单位占比68%(完整小句占19%)。从书面语和口语对比的角度看,如果语料库中的语料标注了语调单位,研究者便可以利用大规模的数据来对比书面语的句子和口语的语调单位的共同点和不同点,来深入挖掘口语表达的特点。如果语料库未区分书面语和口语分析单位的不同,二者的对比研究便无法深入进行下去。因此我们认为,在对口语语料进行标注时优先确定口语转写的基本单位是十分重要的。虽然对语调单位的性质和判定方法还存在少许争议,但在目前情况下把它作为口语转写和分析的基本单位是一种值得尝试的选择。目前,大多数语料库在处理口语语料时采用了与书面语相同的方法,这固然带来一定的便利,但却也忽视了口语语料的特点,不利于对口语特征的描写,也不利于对口语与书面语的差异进行研究。
在对口语中介语语料进行转写时,需要尽可能地保留口语交际的特征。根据前人的研究,我们认为,有三类口语特征在转写时需要特别关注。
第一类是关于口语本身的一些特征,如停顿、语调、重音等。第一类特征的选取可以借鉴现有的口语转写系统,如会话分析(Conversation Analysis)所采用的转写系统。这一转写系统是会话分析学派的共同语言,还深深影响到其他研究口语交流现象的研究者及其设计的转写系统。会话分析的转写系统关注的是会话活动中的一些重要因素,如话轮之间的顺序等。Hutchby和Wooffitt(1998)认为会话分析学者所关注的内容可以归纳为两类:一是有关话轮转换的因素,如话轮的开端、结束,话轮交替;二是话语产出时的特点,如重音、语调、清晰或含糊等。
第二类口语特征是正常的非流利特征,指口语表达中的各种修改和补救努力。例(2)是一位官员在回答记者提问时的话语,每次产出的话语都很短(临时用#来代表产出单位的界限,即语调单位之间的分界),充满了“呃、啊”等填充词和停顿。但这其实正是口语表达的常态,而不应该把它看作是书面语的退化形式。研究口语的学者把人们进行口语补救的努力当作是进行交流的重要资源,而不是需要排除的消极因素。对于一种语言来说,口语修补还扩展了语法的可能性。谢格罗夫(Schegloff,1979)认为,会话补救在一定程度上具有超语法的能力(like a super-syntax)。例(3)选自曹禺著名的话剧《雷雨》(姑且当作是口语的模仿),鲁侍萍发现周家的大儿子周萍(其实也是她与周朴园的儿子)动手打了自己和鲁贵的儿子鲁大海,十分生气,想上前制止。当她走到周萍跟前,说出“你是萍”之后,却突然停了下来,因为她意识到在当前的语境下,让周萍认她这个妈妈是十分困难的事。但她并没有放弃已经发出的话语,而是改为“凭、凭什么打我的儿子”,利用同音词的关联,十分巧妙地转移了话题。同样地,当周萍询问鲁侍萍是谁时,她本能的反应是说“我是你的妈妈”,但当话语进行到“你的”之后(如果说出“妈妈”一词,整个句子也就结束,因而无法更改),也是突然停止,改成了“你打的这个人的妈”。从这个例子可以看出,人们在口语中充分利用了各种手段(包括打断原来的话语,改变原来的话语),来达成交际的目的。对口语的研究应该对交际者的这种语言能力进行描述和说明,而不仅仅贬斥为错误启动或不成熟的尝试(false start)。
在对口语中介语语料进行转写时,对各种会话修补现象首先要进行准确的转写记录,然后可以根据大类的不同进行细分。在尝试建立一个小型汉语学术口语语料库时,我们对口语中的正常非流利现象进行了大类及小类标注。例(4)中,“df”表示一种标注的大类:口语中的不流畅,“type=‘repeat’”中的‘repeat’表示“口语中的不流畅”这一上层类别中的子类别“重复”。正如例句所示,标注时将需要标注的文本放置于两个中括号中间,“”就表示该标注的完成,“/”是结束的主要标记,在分析时用于提取和定位标注内容(韩毅、刘运同,2020)。
(2)#那么今年#教育部啊就是国家#这个用这个每年两个亿的资金#建立了免费提供教科书的#这样一个制度的试点#
(3)鲁侍萍:(大哭起来)哦,这真是一群强盗!
(走至周萍面前,抽咽)你是萍……凭——凭什么打我的儿子?
周萍:你是谁?
鲁侍萍:我是你的——你打的这个人的妈。
(曹禺《雷雨》)
(4)连不起来有点杂糅 [P]
第三类口语特征是学习者的中介语特征,如影响说话人语言表达的语音特征,不同于母语者的停顿,外语学习者特有的语码转换等。对第三类内容的选择和确定必须建立在中介语学习理论和相应的研究基础之上,才能捕捉到学习者中介语的一些特殊表现,并在语料转写中给予充分的重视和系统的标注。例如,初级阶段汉语二语学习者由于汉语知识的缺乏,掌握不好汉语句子的节奏,使用一种几乎平均分割的方式来读或者说汉语句子,把“她-爱上-汉语-了”说成“她-爱-上-汉-语-了”。
为了忠实记录各种口语特征,转写时免不了利用一些符号。在设计各种符号时,除了表意的明确性,其实还有其他一些实际的因素需要考虑,如在计算机上实现的便利等。有时,一些转写系统由于某种原因利用了书面语常用的一些标点符号。书面语的标点符号是为了辅助阅读而设计的,而一些转写系统在借用这些标点符号时表达的意义是不同的。转写者在进行口语中介语语料库转写时或使用其他研究者的语料时,对标点符号表示的意义一定要特别注意。
以书面语常用的逗号和句号为例,它们在不同的转写系统中表达的意义是截然不同的。对会话分析的转写系统来说,来自书面语的几种标点符号是用来表示话轮或者话轮构成单位的音高形状的。Hepburn和Bolden(2017)特别说明:“为了表示发话人结束话轮的不同方式,我们通常使用标点符号,如逗号、句号、问号。这些标点符号并不是像在书面语里那样用来标示语法特性的,而是用来标示话轮的结尾部分的音高轮廓的。这些标点符号当然也可以出现在一个复杂话轮中间,用来标示话轮构成单位之间的界限。”具体而言,逗号标示略微上升的语调,句号表示下降语调。(顺便说一下,在会话分析的转写系统中,问号标示的是一种比较强烈的上升语调,不一定同疑问的语法形式对应。)
同样,在应用广泛的美国功能语言学派的转写系统(指Du Bois等设计的转写系统)中,也采用了书面语常用的标点符号。设计者(Du Bois等,1993)非常明确地指出:“在我们的话语转写系统中,标点符号如逗号、句号、问号一直是用来标示语调的类型的,从来不是用来标示语法或语义结构本身的。”同时,功能语言学的研究者又从语篇功能的角度来对语调类型进行分类,把语调大致分为终结(final)、延续(continuing)、吁求(appeal)语调,分别由句号、逗号、问号来表示。设计者特别提醒使用者:“尽管使用书面语中的标点符号可以方便记忆,但同时也带来一定的风险,转写者一定要避免用书面语的使用习惯来理解这些符号。”
基于上述讨论,我们认为,转写符号需要表意明确。为了避免书面语的影响,在进行口语转写和标注时最好不要使用书面语中常用的符号。如果为了便利而采用了书面语中的一些符号,就要在语料库的描述和相关文件(包括使用该语料库语料进行研究的文献)中明确说明这些符号的定义,从而避免造成不必要的误解。
由于口语语料转写费时费力,在具体操作时可以借鉴一些语料库转写系统的层级性设计,对转写语料进行不同“精细度”的转写。如德语学者设 计 的“HIAT”(Heuristic Interpretative Auditory Transcription)转写系统分为两种,一种是基本版本,另一种是扩展版本。扩展版本中补充了音调和非语言符号,以及更细致的音调变化符号。Du Bois等(1993)的转写系统区分宽式、中级、严式三种转写等级。宽式转写包括基本的内容,中级转写更进一步,严式转写包括的内容最多。宽式转写包含的信息主要是:交谈者、话轮和语调单位、话语重叠、停顿、笑声。中级转写增加了模糊音、转写人的评论、重音词和音节的长短、停顿的时长、语调方向。严式转写在二者的基础上再增加话语的紧密连接、特殊音如吸气和长出气、特殊的音质如快慢高低等(刘运同,2016)。Barth-Weingarten(2016)在提出自己对语调单位的研究思路时也提议,可以对口语进行三种颗粒度不同的转写:最少转写、基本转写、精细转写。在最少转写层面,转写者只需要区分出三种不同的休止(cesura)即可。在讨论口语转写的著作中,Jenks(2011)把口语交流的转写信息分为5种类型,见表1。
表1 口语交流转写信息的5种类型
(续表)
对口语研究和中介语语料库建设而言,只转写第一类型和第二类型的特征显然是不够的。但一个转写系统到底需要包括哪些信息,其实是要根据研究目的或语料库建设的目的来考虑的。中国的语料库建设与研究者在这方面也进行了宝贵的探索,提出了一些行之有效的建设策略。张宝林和崔希亮(2013,2022)提出全球语料库“搭积木式”的动态建设策略,提议采用多次标注/多版标注,每次只对一个层面的内容进行标注。上述两篇论文中提到的标注策略主要是针对后期的标注信息提出的,我们提出的转写策略是针对把口语语料变成文本这一阶段,二者的对象不完全相同。我们建议,在对口语语料进行转写时可以先确立不同类型的转写信息,每个版本只标注相应的信息。然后根据需要,从简单到复杂,逐渐完善口语语料或多模态语料的各种信息。在处理口语语料时,分层或分级转写可以使口语中介语语料转写更具操作性。这一转写策略可以纳入张宝林和崔希亮(2013,2022)提出的“搭积木式”语料库建设策略。
建设高质量、具有通用性的汉语中介语语料库,其中的一个重要的问题就是要做到书面语语料和口语语料的平衡。口语语料的收集和标注与书面语语料相比有显著的区别,其中,口语语料转写是十分关键的步骤。学术界对口语以及口语中介语的研究相对还处于探索阶段,无法为口语中介语的转写及口语语料库建设提供坚实的基础,这在一定程度上制约了口语语料库建设的发展以及口语中介语研究的深入。本文针对中介语口语转写的几个重要问题,根据已有的研究和实践,提出了一些建议,例如如何确立口语转写的基本单位,应优先转写哪些韵律要素,转写符号的选择等,希望对中介语语料库建设中口语语料转写及转写标准研究有所助益。