小型中医英语口语语料库构建研究❋

2018-10-23 11:37杜雪琴窦川川
中国中医基础医学杂志 2018年9期
关键词:赋码语料语料库

杜雪琴,窦川川,晏 丽,龚 妍

(江西中医药大学, 南昌 330004)

过去二三十年,伴随着现代计算机技术的发展与普及,语料库语言学得到飞速发展。当前, 语料库的建设与应用研究已深入至各专业、各学科领域。如何建立各种有地域、语体乃至学科特色的专用(专门学科或行业)语料库是今后语料库语言学研究的发展趋势之一。同时,为了更好地满足不同领域内的各种实际需求,国内外语言工作者已经建成或正在致力于开发各种专门用途语料库。

随着经济全球化、文化多元化的发展,中医对外交流日趋活跃,对中医民族文化的传承传播已经上升为国家战略工程。在此背景下,中医英语外向型口语人才需求的进一步加大,对中医英语口语教学的要求更为迫切。然而,中医语言的复杂性与特殊性以及中医术语英译标准相对模糊、至今未开发出的中医英语口语语料库,更不必说基于语料的相关教学实证研究。鉴于语料库建立和研究的专业化、特色化与学科化发展趋势以及传播中医民族文化的迫切要求,建立中医英语口语语料库势在必行。

1 语料库语言学

自20世纪90年代,随着计算机技术的发展与普及,语言研究开始了一场“让数据库说话”的语言革命。各种语料库应运而生,并在语言学研究中发挥着不可比拟的作用。正如Teubert (2005)所说:“语料库已经被几乎所有语言学研究者看作默认的数据源。任何内省在未得到语料库验证的情况下,都不可能获的人们的信任。语料库已经成为几乎所有语言研究的关键要素。[1]”

语料库(corpus, 复数corpora)一词来源于拉丁语,往往指的是“电子文本集”(a collection of texts stored in an electronic database)。语料库研究者John Sinclair指出,任何语料库研究均开始于语料库的建立,语料库的设计及选材几乎控制以后所要做的一切基于语料库的研究工作,研究结果的好坏只与语料库的建设质量有关[2]。口语语料库建立的框架大致包括语料库整体设计、语料的收集与整理、语料的转写与标注、语料的检索与查询。语料库构建与开发完成后,其优势显而易见,其作用可谓无法替代。正如John Sinclair指出,语料库在外语教学中的作用即“只能提供真实例子”[3],而口语语料库既为外语学习者提供了大量真实的语言素材,构建了立足于可靠的语言数据的教学平台,又为外语教学研究者提供了一种基于语料数据的实证研究方法,使其研究更具有科学性。

2 中医英语语料库研究现状

中医英语作为一门正在形成与发展的新兴学科,是一门英语语言在中医药对外翻译与交流过程中逐渐形成的一种独特的表达体系[4]。近二三十年,国内外对其研究主要集中在中医术语英译标准化研究、中医翻译理论与实践研究以及中医英语教学研究等方面。同时,中医英语的研究也呈现出“让语料说话”的趋势,涉及中医翻译的语料库研究已经开展,并取得了一定的成果。如闻永毅自2003年一直致力于《黄帝内经》语料库的开发与应用研究,以及兰凤利主持创建中医经典文献平行语料库。这种发展趋势已然表明了数据强大的说服力以及可靠性,促使对中医英语研究方法从理论的归纳法转向为基于语料技术的实证研究。

然而中医英语语料库研究仍处于起步阶段,大多为语料库的理论探讨阶段。国内近10年的研究主要从宏观层面探讨中医英语语料库建设的意义、理论原则以及总体方案。如薛学彦的“中医英语语料库建立的设想”[5]、闻永毅的“浅谈建设中医英语语料库的意义”[6]、倪传斌的“中医英语语料库建设原则”[7]等。此外,至今已开发或正在建的语料库语料大多为中医文献与术语等书面语料,规模不大,且多应用于中医英译与术语标准化研究,缺乏一定的教学实践研究。中医英语口语语料的收集与开发相对滞后,且停留于设想阶段,至今只有1篇相关论文,即陈滟、施蕴中的“语料库语言学与中医汉英口语语料库”[8]。因此,中医英语口语语料库的开发、构建以及实际应用具有很大的研究空间与研究意义。

3 中医英语口语语料库的构建

中医英语口语语料库,按应用取向分类属于专用语料库。中医英语口语语料库可以定义为通过收集中医英语领域的口语语料样本(如视频、CD等),并对语音、语调、停顿词频率与搭配等口语特征进行标注而建成的,用于分析中医英语口语的特点与规律或应用于中医英语口语教学与研究的语料库,其构建的基本步骤分为以下几个方面。

3.1 语料库的整体设计

语料库整体设计是指从整体对语料库进行规划与设想,主要包括语料库的规模、适用范围以及文本类型等。按其适用目的与适用范围,该语料库属于微型教学型语料库,目的用于开展中医英语口语教学活动以及学生实施基于数据驱动的自主学习。之所以选择建立微型语料库,主要基于以下考虑:首先,现有中医英语口语语料书面语文本资源相对缺乏,收集范围较小,且口语语料库需要处理大量而复杂的语音转写与标注,因此建立微型语料库是既考虑到实际情况,又避免了建库过程中人力物力的要求。其次,小型语料库符合中医英语口语教学的个性化需求,既突出中医语言的代表性与典型性原则,又避免了教学过程中出现因语料数据冗余而引起学习者无法快速、准确检索的尴尬现象,从而有利于教师语言课堂的展示、教学讲解以及学生课后自主学习。

3.2 语料的采集与整理

表1显示,语料采集是构建语料库的基础工作。中医英语口语语料范围为专门的中医英语范畴内的口语素材,主要从中医英语教材以及网络资源等获取相关中医视频与音频。为使采集到的文本便于开展教学,确定每一篇语料字数限制在 300 至 500 字之间,采集200篇语篇,初步设定语料库的总容量为10万词。按话语类型分为讨论、访谈和会话3种体裁形式。按主题分为中医历史与文化、中医问诊与处方、中医诊断与治疗以及中医养生与保健。

表1 语料分类与文本数量

表2显示,通过在中国知网输入主题词“中医英语教材”进行文献检索以及网络查找的方式,整理出2000年以来国内已出版的90余本中医英语教材,并从中挑选出附有DVD光盘以及Mp3音频的6本教材。

表2 中医英语教材

表3显示,从以上方式获取语料后,首先采用一款名为“文本整理器”的免费软件对文本的格式进行整理与统一。然后,按照上述分类,对不同类别的的语料文本进行命名,并采用ANSI或UTF-8编码保存文本,最终形成语料库的基本语料文件。以一篇网络下载的中医对话音频材料为例,其主题为中医诊断与治疗,为会话类型文本,因此将其文件名命名为Diagnosis & Treatment_Conversation_01)。

表3 文本主要数据

3.3 语料的转写与标注

建设口语语料库的关键环节是对大量语音进行转写与标注,这是一项极为耗时耗力的工作。本语料库采用语音文件转写软件为Sitman PC复读机。该软件十分方便,可以让语音反复播放,并同时进行听写练习。标注是指利用各种标签对语料库中文本的各种属性加以标记。最常见的包括元信息标注、词性赋码、句法标注、语义标注、语用标注、语音标注、语误标志等。

上海交通大学语言文学工程所开发的国内第一个学习者英语口语语料库——中国大学学习者英语口语语料库COLSEC (College Learners’Spoken Eng-lish Corpus),为本研究语料的转写与标注提供了必要的借鉴。遵循其真实性、完整性以及准确性原则,中医英语口语语料库采用不作任何主观干预的自然描写方式真实转写有声语料中的原始语句(非完整句、语法病句、口误、重复等话语现象),并参照COLSEC制定的具体标注方案,用统一符号完整、准确地标注会话中的话轮转换、语音语调、停顿、犹豫、打断、非言语交际等口语特征[9]。目前常见的通用标注语言是XML(Extensive Markup Language),使用标准的XML标注格式。本口语语料库信息标注主要为三类,即元信息标注、话语信息标注和词性赋码标注。

3.3.1 元标注信息 元标注信息是关于文本的非语言信息,主要包括引用源、出版商、出版年代、作者以及相关的文本信息等。元标注信息一般在文本的头部,也称为头文件信息标注。根据文本来源(data source)、检索日期(retrieval data)、话语类型(data type)以及领域分类(data domine),同样以命名为Diagosis &Treatment_Conversation_01为例,具体的标注结构如下。

Conversation

3.3.2 话语信息标注 话语信息揭示话语的重要特征是,研究话语结构、交际策略、语用能力等问题的基本数据。话语信息主要包括话轮、打断与重复、语音语调以及非语言信息等。参照COLSEC制定的具体标注方案,本语料库采用的具体标注结构如下:话轮采用,的标注方式;打断采用;不完整的句子或词语采用“-”表示,停顿采用“…”表示,语调采用“、”表示升降调。以Diagosis&Treatment_Conversation_01部分文本为为例,具体标注如下。

The results are too slow. On top of that, just the thought of smoking needles poking into my flesh frightens me. (/sp2)

3.3.3 词性赋码标注 词性赋码指根据文本中的上下文信息,自动标注文本中所有词的词性过程,以方便检索与语言处理。由于基于概率的词性赋码器 (probability-based POS taggers) 更适用于为学习者口语语料进行自动赋码,赋码准确率较高且性能稳定,其赋码准确率受学习者口语语言水平影响不大[10]。所以,本语料库选择 Tree Tagger作为词性赋码工具,赋码格式为使用一个符号如“_”,然后连同词类码标记到单词后面。按照Tree Tagger赋码集,以Diagosis&Treatment_Conversation_01为例,词性标注如下。

Conversation

3.4 语料检索与应用

当按照以上设计方案完成了整理、转写与标注等工作之后,中医英语口语语料库中的数据就可以通过使用目前较为成熟的AntConc检索软件导出索引行,从词语、句法、意义等层面分析语言内部结构规律,如词语搭配、句法联结以及语境意义,或从语音、语调以及停顿等方面分析口语特征,并将之在课堂上展示。图1、2显示,如在中医英语口语教学过程中,在Ant Conc主界面打开两篇涉及中医主题的文本,然后在Search Item栏输入需要检索的词或短语,如Chinese Medicine, 点击Start键,10个检索结果快速地展示在Concordance页面。通过主题词检索,学生可以清楚地看到中医词语搭配的规律。

图1 利用Antconc检索主题词

图2 Concordance页面主题词检索结果

图3、4显示,同样在检索中利用好各种正则表达式,可以达到在赋码后的文本中检索各种句式结构。在Search Item栏中输入正则表达式“V+”,语料中所有动词结构的检索结果可以一次性在Concordance页面显示出来,有利于学生掌握动词词组的搭配关系。

图3 利用Antconc检索动词结构

图4 Concordance页面动词结构检索结果

基于以上的具体步骤,借助成熟的计算机软件,中医英语口语语料库构建具有可行性,并可以将其辅助性地应用于中医英语口语教学。如利用检索索引中医主题词,了解中医术语的词频搭配,或输入中医四字结构,分析其实际应用情况,或根据不同语境,以小组互动形式开展基于语料的中医情境模拟,促进学生的口语训练。此外,学生可以利用语料库作为一种学习工具,进行主动探索与分析,实现基于数据驱动的自主学习。

4 结语

中医英语口语语料库是依托中医学科而建立的小型专门用途语料库,话语体裁与主题更为专一化。虽然该语料库规模较小,但正如Bowker and Pearson所认为的,只要该语料库精心设计,低至几千词、高至几十万词的语料库,都有助于专门用途语言的研究,其中的关键是要保证语料库的开放性(即可持续扩充或升级)、数量足够多的语料数据、语料的作者多元化以及语料的(出版)时间跨度明晰化,即与语料库项目的研究目的紧密关联[11]。因此,中医英语口语语料库的建设属于一个动态、长期的系统过程。本研究仅属于中医英语口语语料库建库阶段的可行性探讨,在此基础上的后续开发、数据研究以及教学应用阶段,还需要研究人员的不断探索与尝试。

猜你喜欢
赋码语料语料库
基于归一化点向互信息的低资源平行语料过滤方法*
平行语料库在翻译教学中的应用研究
《语料库翻译文体学》评介
濒危语言与汉语平行语料库动态构建技术研究
英语视频新闻语料库的构建
迎接食品安全新法麒锐与您共谋发展
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入
加强科学化管理 全面提高代码工作质量
整合型学习者语料库平台的规划与实现