对比视角下汉语口语语料库的建立及应用:以主题结构研究为例*

2020-06-29 00:58李银美
北方工业大学学报 2020年3期
关键词:英汉语料语料库

李银美

(北方工业大学文法学院,100144,北京)

自然口语对话(Naturally Occurring Spoken Interaction)是最为常见的语言形式,基于口语的语法分析在语言学研究中具有重要意义。 以主题结构研究为例,该结构常被视为汉语主题突出型语言的常用句式[1],但同时也为其它类型的语言(如英语主语突出型语言)所共享。[2]近年来,英语主题结构研究多在自然口语中展开话语功能观察,阐释了不同主题结构的语篇功能及话语导向力异同。[3-4]然而,汉语自然口语语料库匮乏,相关研究要么基于电视访谈进行数据统计[5],限定了口语对话的主题走向,要么针对独白式口语进行话语功能分析[6],无法体现口语对话的互动性。 在语料不对等的基础上开展英汉对比研究,难以就语言间的类型差异得出令人信服的结论。 究其原因,很大程度上受制于口语语料的收集、转写及标注困难,构建汉语口语语料库就成为语法结构对比研究亟需解决的一个问题。

本文以加利福尼亚大学(圣巴巴拉校区)语言学系建立的圣巴巴拉美语口语语料库(Santa Barbara Corpus of Spoken American English,简称SBCSAE)为参照,在对比视角下探讨汉语口语语料库的建立问题,包括汉语口语语料的采集和转写等,并以我们以往的主题结构研究为例[7-10],谈及口语语料库的标注及统计分析等问题,希望可以为汉语口语语料库的建设及基于可比语料库的语法分析提供一点借鉴。

1 汉语口语语料库现状及研究挑战

1.1 汉语口语语料库现状

早在1968 年,赵元任先生就围绕汉语口语中的词类、句子、形态、句法类型等语法问题展开了一系列重要研究。 50 多年后的今天,语言学研究却“从来都是以书面语为核心”[11],能真正基于自然口语对话这一最常用、最自然的语言形式所从事的研究少之又少。 这与汉语自然口语语料库的匮乏有关。

目前汉语较为大型的自然口语语料库有两个,一个是中科院建设的时长约500 小时的汉语情景口语语料库(The Spoken Chinese Corpus of Situated Discourse, 简称SCCSD),另一个是兰卡斯特-洛杉矶汉语口语语料库(The Lancaster Los Angeles Spoken Chinese Corpus, 简称LLSCC),约有100 万汉字,但这两个语料库均未开放使用,使得口语语法研究面临语料缺失的困难。

汉语口语语料库的匮乏很大程度上归于口语语料库的建设困难。 口语的使用广度虽远远高于书面语,但是口语语料库的建立过程却非常复杂,有一系列问题需要考虑。 比如,在语料库建设中,应该如何获取最自然的语料;获取之后,如何将之转写为语言文字形式保存;口语语料中的各种非语言要素要不要转写;如若需要,以什么符号转写;转写完成后,如何对语料进行标注?如何统计分析标注后的数据等?

1.2 主题结构研究挑战

主题结构是由主题和述题小句构成的语法结构。 其研究是一个经典话题,涉及形式、功能和认知等多个视角,大都围绕主题结构的典型性、差异性以及受制机制等问题展开,提出主题具有已知性、有定性、可及性、凸显性以及在话语中唤起听者注意等很多有价值的观点,但由于汉语口语语料库的匮乏,导致基于语料库的实证研究较为困难,许多问题未能得到有效解决。

首先,研究(尤其汉语)并未就主题结构的典型性达成一致认识。 一种观点认为,主题偏置、前置等是汉语的典型主题结构类型[12-13],另一种观点则认为这些结构并不是汉语主题突出的主要表现。[14-15]其次,研究(尤其汉语)对主题结构的差异并未形成一致认识。 以往研究并未就不同主题结构的差异达成一致[16-18],而且这些研究主要关注主题在语篇层面的表现,易忽略述题特征。 再次,研究对主题结构的受制因素认识不足。 关涉关系、篇章视角、信息结构等研究多停留在对主题结构内部或主题本身的认识上,未真正触及包括言听双方在内的认知情境因素在主题结构使用中所发挥的作用。 最后,主题结构的比较研究匮乏。 主题结构在英汉语中同时存在,但在两种口语中主题结构会有何种类型差异,目前相关研究罕见。 仅有思考也存有结论相左、以及语料不对等的问题[19-21],有必要借助对比语料库系统考察和论证。

可见,汉语口语语料库的匮乏,制约了语法结构的实证研究,建设汉语口语语料库就成为对比研究亟需解决的问题。 而汉语口语语料库的建设完全可以现有的英语口语语料库建设规范为参照。 英语口语语料库众多,尤其是SBCSAE,已广泛用于多语言对比研究中,其建设规范可以给汉语口语语料库的建立提供诸多借鉴。

2 对比视角下的汉语口语语料库

自1980 年代第一个英语口语语料库London-Lund Corpus of Spoken English 问世以来,英语口语语料库的数量及规模突飞猛进,如,Lancaster/IBM Spoken English Corpus、Bank of English(Spoken Section)、British National Corpus (Spoken Section)、Corpus of Spoken Professional American English、Wellington Corpus of Spoken New Zealand English 等。 其中,较有影响力的口语语料库是由以John W. Du Bois 为首的加利福尼亚大学(圣巴巴拉校区)语言学系建立的SBCSAE 语料库,其建设过程、转写方法等对汉语口语语料库的建立具有重要参考价值。

2.1 SBCSAE 语料库

SBCSAE 语料库于1988—1996 年间录制完成,先后发行4 个部分,共包括60 段语音材料,每个对话时长约15 ~30 分钟,大约由249 000 单词组成。 SBCSAE 也是International Corpus of English (ICE)美语自然口语语料的主要来源。SBCSAE 语料库既有录音音频(WAV 和MP3 格式),又有转写文本(TRN 和CHAT 格式),在加利福尼亚大学(圣巴巴拉校区)语言学系官网可免费下载获取,也可通过Linguistic Data Consortium 购买获得CD 和DVD。

SBCSAE 录音材料来自美国全国各地,保证了会话参与者在区域方言、年龄、性别、种族及社会背景等方面的多样性。 其谈话大多为面对面的随意性口语对话,多发生在家人或朋友之间,包括朋友聚会、夫妻聊天、生日派对等场景。 有些对话在一些特定的生活场景中录制完成,如纸牌游戏、备餐聊天、电话聊天等。 另有话题较为正式的任务型活动,如课堂讲座、商务会谈、市政会议等,但比重不大。

在转写体例上,SBCSAE 主要采用Du Bois等提出的转写系统[22],最左侧一列记录录音开始和结束时间,中间一列为谈话者,最右一列为谈话内容的转写文本。 转写文本以语调单位为基本单位,每个语调单位占一行,自上而下依次记录谈话内容。 语调单位后面可以有“,”“.”“?”和“ -”等符号,分别表示语调单位的延续、完成、征询和切断。 另有一些特殊符号代表文本中的非语言成分,部分举例如下:

SBCSAE 是未加附码的生语料库,研究人员可用合适的软件提取索引,如WordSmith 等,也可按研究所需手动检索或标注。 SBCSAE 所有语料都是以语篇为中心的连贯话语,又含有录音材料,既适合语法结构特征分析,又适合韵律特征分析。 英语口语语料库虽然众多,SBCSAE 却因其独特性及开放性备受青睐。 目前广泛应用于语篇分析、会话分析、语法结构分析等研究领域,使得基于口语语料库的“语言表现”(language performance)研究成为可能。

2.2 汉语口语语料库的建立

为展开基于口语语料库的英汉实证对比研究,我们比照SBCSAE 建立了一个汉语口语语料库,在语体、语域、话题等方面与SBCSAE 匹配。下面简要说明语料收集和转写规则等问题。

语料收集时,我们尽量保证研究人员不对谈话材料产生影响,在完全自然的环境中完成音频录制(如餐厅、宿舍、校园、家中等),并尽可能收集来自全国各地的自然语料。 有时研究人员并不在现场,而是让谈话者自行录音,这样参与者可在完全自然的状态中完成语料收集,从而将研究人员对谈话的影响减少到最低程度。

我们尝试选取了部分SBCSAE 语料,建立与之可比的汉语口语语料库。 具体方法为,剔除SBCSAE 前两部分较为正式的布道、讲座等材料,选取时长约606 分钟的27 段录音为英语口语语料,汉语对照英语语料构建,尽量保证所录材料在长度、话题等方面与英语相当,内容包括较为随意的面对面聊天,如朋友来访、室友杂谈、家庭聊天、妈妈聚会等,还包括一些主题略微正式的录音,如师生谈话等,另有一些任务型对话,如论文研讨、商务电话会议等。 最终所建汉语口语语料库由27 段录音组成,时长共计605 分钟(10.1小时)、209 731 字符(包括标点符号等),见表2。

在汉语口语语料的转写体例上,我们主要参考Du Bois 等和陶红印提出的转写体例[23-24],考虑到汉语口语语料库主要用来开展语法结构的话语使用研究,我们对转写规则做出适当调整,基本转写原则如下:

第一,忠实原文的原则。 保证忠实于会话原文,词、句、话语修正、停顿词、甚至非完整句、病句等都保持原样。 看似无关紧要的一些零碎成分,对于语言交际来说,都有可能发挥重要作用。例如,主语后如果添加“啊、呢、么、吧、嘛”等主题标记词即成为主题,可引起听者对主题所指的关注,是区分主题结构和主谓结构的一个重要判别方式,转写过程中我们尤其关注提顿词类非实义词,以免误判语法结构类型。

第二,非语言因素问题。 口语语料在转写过程中还可能有一些非语言现象,如肢体语言、深呼吸、长出气、笑声、哈欠、咳嗽等等。 考虑到这些因素与主题结构的研究并无太大相关性,我们暂未在语料库中标注这些非语言现象。

第三,转写单位问题。 比照SBCSAE,汉语语料转写以语调单位为基本转写单位。 语调是话语信息单位的语言表现形式,具有一定功能性切分作用。 语调单位可以由很多方式划分,如停顿、音高变化、语速变化等。 SBCSAE 以语调单位为基本划分单位,每个语调单位占据一行,逗号、句号、问号等表示语调单位的延续、完成、征询功能。 建立汉语语料库时,亦应以此为操作方法。

表2 可比的英汉口语语料库

3 主题结构应用研究

3.1 主题结构的语料库标注

语料库建立后,我们提取了英汉四类主题结构,即主语主题结构(Subject Marking, 简称SM)、宾语主题结构(Object Fronting, 简称OF)、左偏置结构(Left-Dislocation,简称LD)和悬置结构(Hanging Topic,简称HT),基于英汉口语语料库进行了一系列主题结构的对比考察[25-28],对以下三个问题做了解答:第一,主题结构在自然话语中如何分布,英汉表现有何异同? 第二,不同主题结构的主题和述题是如何标记的? 各个结构之间以及英汉语言之间有何异同? 第三,英汉主题结构在主题-述题语义关联方式上有何异同? 其背后的认知理据是什么?

语料库的标注与检索方式采用了行为特征标注法[29],对语法结构进行细微标注,为结构间异同观察提供一个可靠的、系统的观察方式,最终解释结构在语言特征和使用模式上的差异。

语料库标注过程包括语料库检索、语料人工分析和标注、生成共现频率表和统计分析等四个步骤。 首先在语料中手动检索、提取主题结构,并区分主题结构类型,接下来按照事先确定的不同层面的行为特征对语料进行细粒度标注,之后将标注结果形成频率表,最后使用SPSS 软件统计标注结果,观察不同主题结构的句式特征,解释英汉主题结构在内部结构及话语功能特征等方面的异同,帮助看到主题结构在英汉不同语言中的类型差异。

具体来说,所提取主题结构的行为特征主要包括:主题和述题的表征方式,用来考察结构的复杂程度;主题和述题调配的认知情境因素,用来考察结构的认知复杂程度;主题结构的话语功能,用来考察结构的话语导向力。 每个行为特征包括多个细类,具体如表3 所示。

表3 中,每个具体行为特征包括多个细类,以主题的结构复杂度为例,这一行为特征包括“代词”“专指”“指示描写”“短有定描写”“长有定描写”和“无定描写”等编码形式,标注时分别使用数字代码1 ~6 表示。 其余各个行为特征亦采用这样的数字代码编号。 行为特征的确定是语料库标注的前提,具体标注过程如下:

表3 主题结构的行为特征

第一,在语料库中使用数字代码对所有主题结构的主题、述题及话语功能等行为特征进行手动标注。 经过“二次核查”,找出存有异议的标注结果,标注双方商讨并达成一致,以确保标注结果的准确率和可信度。

第二,将每个主题结构的标注代码拷贝并统一放置在Excel 表格中以备数据分析。

第三,使用SPSS17.2 处理数据,用卡方检验法等分析英汉语言及不同主题结构的异同之处。

3.2 主题结构的语料库研究发现

基于可比语料库的英汉对比研究,可较好地回答主题结构尚需解决的问题。 研究发现包括:

第一,主题结构在英汉语言中的典型程度得到一定解答。 语料中主题结构的使用频率如表4所示。 从整体上看,汉语主题结构使用频率约为英语的6 倍(1 789∶309);从结构类型分布看,汉语四类结构都较为常见,LD 是使用频率最低的主题结构,其余大致相当;而英语里主题结构分布悬殊,使用最多的SM 占57.5%,最少的OF 和HT 只有十几例。 可见,主题结构在英汉中的典型性并不相同,基本符合汉语是“主题突出”而英语是“主语突出”语言的论断。[30]

表4 英汉主题结构使用频率

第二,英汉主题结构在主题和述题表现上具有差异性。 英语主题复杂性较高,多使用短有定及长有定描写形式,表现为在下文中持续的前瞻式主题和重新引入的回顾式主题,而汉语主题复杂性相对简单,主要为零代词、代词和定指短语,主题所触发的认知情境可及性偏高,主要表现为延续前期话语的回指式主题。 英汉述题表现恰恰相反,英语述题常使用简单的时态标记,主要表达感知现实事件,但汉语述题则无此倾向,否定标记和情态标记偏多,除现实事件外,非现实和潜在现实事件也比较常见。 两者在主题和述题上的差异在一定程度上可反观英汉类型差异。

第三,英汉主题结构的话语功能具有差异性。 英语主题结构主要表现为提升主题的话语功能,其次为旁枝主题,而汉语主题结构以延续主题的功能为主,话语凸显度高。 英汉主题的篇章地位不同,英语的SM 使用偏好与其篇章主题的偏离倾向有关,而汉语的OF 使用偏好正是主题突出型语言的重要特征。

第四,从不同主题结构的对比来看,主题结构类型不同,其结构复杂性和认知复杂性也不同,句式功能在不同时句式之间不可替代;英语句式可替代性结论或汉语主题结构间的中和现象可见于特征共享的句式之间,但并不普遍。

第五,从主题-述题关联方式看,英语主题结构偏于时间情境限定,时间类标记较多,而汉语主题结构偏于态度限定,多使用认识类和评价类认识情态,以及推理类言据标记。 言听双方的认知互动上,英汉主题结构分别表现出交互主观性和主观性的表达倾向:英语受主题的低可及性限制,其述题的客观描写功能更为凸显;而汉语主题的篇章地位高,所调配的认知情境对于听者的心理空间可及性高,更容易接续主观评价类述题。

4 结语

SBCSAE 口语语料库为汉语口语语料库建设提供了录制方式、转写原则等方面的参照,据此可建立一个与之可比的汉语口语语料库。 在英汉可比口语语料库中对主题结构的行为特征进行标注和统计,揭示了英汉主题结构的异同及语言类型差异。 口语语料库有助于扩大语言研究的范围,更好呈现出不同语言中同一句法结构的差异性,对语言类型分析有较大助益。 基于语料库的口语语法研究可以在连贯语段里观察语法结构使用的规律性,分析句法、语义、语用等语法层面与话语篇章层面的互动关系。 通过语料对比审视以往的矛盾性观点,有助于揭示语法使用的本质特征,提高研究的可证伪性和说服力。

不可否认,目前我们所建立的汉语语料库只保留了会话中的文字部分,未能在语料库中体现出韵律特征、手势特征、眼神特征等,而韵律与非语言动作是会话交际的微观语境,是意义构建的重要基石,多模态语料库建设也许会成为更系统解决语法研究的一个出路。

猜你喜欢
英汉语料语料库
基于语料库的清末民初日源外来词汉化研究
从构词词源看英汉时空性差异
面向低资源神经机器翻译的回译方法
可比语料库构建与可比度计算研究综述
核心句理论在英汉视译断句技巧中的应用
国内外语用学实证研究比较:语料类型与收集方法
英汉汉英商务口译学习词典编纂原则
语篇元功能的语料库支撑范式介入
英语教学中真实语料的运用
英汉校园小幽默