少数民族濒危语言有声语档建设四论——关于语料采录和加工、技术培训等问题

2015-02-20 15:53范俊军
关键词:语料录音语料库

范俊军

(暨南大学 汉语方言研究中心,广东 广州510632)

近几年濒危语言有声语档建设得到了学界的积极关注。从国际上语言文化学界应对濒危语言问题的实践情况来看,建立有声语档是保存和保护濒危语言的首选可行之策。国家哲学社会科学基金将濒危语言有声语档建设列入课题指南,对此起到了有力的推动作用。濒危语言有声语档建设的中心任务,就是要充分采录现存的活态自然口语以及传统环境知识表达,对语料进行充分转写标注和科学立档保管,以适应未来对语言资源可能的多用途需求。濒危语言口语资源的采录和加工,既需要语言记录方法的创新,也需要利用当代多媒体、移动通讯和数据库技术手段。国内濒危语言调查研究从肇始至今已历时20年,但就濒危语言资源的数字化记录和立档而言,还没有走向科学化和规范化的轨道,出现了不少重复劳动和资源浪费现象。鉴于此,本文继续就濒危语言语档建设问题进行讨论。

一、濒危语言活态口语的采录

(一)濒危语言活态口语采录的伦理问题

惯常的语言调查主要集中在单词和语法例句,目的单一,语料形式和内容有限,即使记录话语,也多半是几则故事。这类语料很少涉及个人利益和隐私,发音人也乐于提供。但是,濒危语言有声语料主要是活态口语即自然话语,内容涉及个人和族群的生活领域;记录方法主要是录音和摄像,不再是单纯的语言本体记录,而是对个人、家庭和社群语言生活实践的记录。因此必须思考如下问题:如何协调采录工作和语言族群的正常生产生活,如何与语言族群相处;如何尊重族群的文化禁忌、家庭和个人隐私;如何处理语言记录中参加者的利益关系,避免田野调查引起的潜在文化冲突、身心伤害和权利侵犯;如何征得话语交际当事人的许可;语料转写标注中如何处理触及个人敏感或文化禁忌的音像材料;如何判断和划分内容禁忌和敏感级别;如何对话语交际事件当事人匿名保护;调研资料的发布、传播、访问应如何保护发音人和说话人的权利,等等。总之,濒危语言口语采录、语料转写、存储、发布和访问等一系列环节都涉及伦理问题,对此应予以高度重视。关于这个问题,此前已有专文阐述①详见《西北民族大学学报》2014年第4期拙文《我国少数民族田野调查记录的伦理问题》。,不再赘述。

(二)濒危语言话语事件的发现

濒危语言活态口语存在于现实生活言语交际之中。话语事件是有明确目的和主题的言语交际活动。如,说话人讲述一段经历,工匠一边做工一边介绍手艺,几个人凑在一块谈论某件事,等等。濒危语言的言语交际功能已经减弱,使用人口和场合越来越少,有的濒危语言只有少数老人日常还在使用,或只在家庭内部和某些个别特定场合使用。尽管现实生活中话语事件时时可见,但对濒危语言来说,获得自然话语语料的机会并不多,因而发现话语事件尤为重要。

如何在有限时间和人力条件下采录更多濒危语言自然口语呢?我曾介绍了采录汉语方言自然那话语的若干方法[1],这些方法大多可用于发现濒危语言话语事件,其中情景介入法、群众自录法、定场地定户跟踪法、志愿者跟踪法、电话录音法、话题引导言谈法等等都是可行之法。当然,具体实施时还要根据不同濒危语言的状况和调查人员条件,选择合适的方法。例如,语言社区只有几位老人能说濒危语言,而且该社区没有上过小学的人,这时最好是由附近村庄的志愿者来观察老人的言谈活动。有的濒危语言社区,容易找到说话人,濒危语言还有一定的公开使用场合,这时就应考虑更多的题材和体裁。总之,采录的话语材料尽量覆盖濒危语言现存使用领域,涵盖社区生活的典型事件,以及使用濒危语言的代表人群。

除了自然话语事件之外,还应注意发现“传统环境知识”[1],即语言族群的本土自然环境知识、生产知识、工艺知识和生活知识等等,这是人类知识体系的组成部分。传统环境知识的话语可充实语料的内涵价值。濒危语言的固有词汇和表达,往往承载了传统的环境知识。

(三)录音环境和设备的使用

濒危语言口语语料的采样和录制,应达到两点要求:一是有足够的录音时长,二是录音质量优良。前者与上面说的发现程序和方法有关,后者取决于录音技能。

录制技能包括环境选择和设备操作。录音环境有室内环境和户外环境。室内环境又分三种:一是室内和周边没有噪声和电磁波干扰的安静环境,如当地广播台的播音室,条件好的宾馆房间。濒危语言社区一般都是乡村,没有这个条件,而且这类环境只适合录制个人讲述和基本词句发音。二是多数时间较安静,但有时不可避免有噪声或持续弱噪声。如乡村民宅,外面有间歇的鸡鸣狗叫或敲门打扰等等。这种环境可录制个人讲述,但更适合录制室内聊天和对话。三是嘈杂的室内环境。这种环境不适合录音。

户外环境通常有持续低噪声或偶尔的强噪声,如细微风声,远处公路的车流,附近小溪的流水,突然鸡鸣狗叫等等。口语语料主要来自户外情景话语,背景噪声虽然不可避免,但调适操作录音设备,可以降低和减少噪声,获得优良的话语样本。录音设备最重要的是话筒,应根据声源位置和环境噪声选择不同的话筒。户外个人采访可用枪式话筒。二三人说话,且少走动,可用单声道或双声道指向话筒。说话人一边做事一边说话,且不停走动,可随身携带录音机并外接头戴式话筒,或用无线话筒系统。大场地群众活动,主要的说话人可配戴独立录音机和头戴式或领夹式话筒、无线话筒、悬吊话筒。总之,要看话语事件特点和话语发生的场所环境状况而定。户外录音,尤其是采录劳作和活动中的说话人的自然话语,应使用专业便携式数码录音机配头戴或领夹话筒。Zoom-H4n(H6n)、Sony-PCM-D50等都是专业录音机,有内置XY制式话筒,支持平衡输入,性价比高,携带方便,操作简单。

总的来说,应考虑以采录的语料类别、口语发生的环境来匹配录音设备。

(四)濒危语言语料录音时长

一种濒危语言的话语录音,多长时间比较合适?录音材料当然越多越好,但这需要大量的时间、人力和物力,应考虑可行性。我曾提出,汉语方言自然口语语料库的生语料应不低于50 000字,录音时长不低于13个小时,随机采录毛语料应达700个小时[2]。少数民族濒危语言与汉语方言有所不同。汉语方言大都有口传文学,而濒危语言则很少,它主要是日常生活口语,能录到这类话语已经难得,挑选余地不多。根据国外的案例,结合我们的经验,将可用于转写的音频语料定为不低于20 000词次较为合适,按每分钟50词次的语速计算,录音材料时长应不低于6小时。这可作为濒危语言口语语料的基本数量要求。

(五)录音质量的评估

如何评估录音的音质效果?国标GB/T9375—1988《收音机、录音机听音试验》定义了五级主观评价标准:(1)优:不察觉失真;(2)良:刚察觉失真,但不讨厌;(3)中:察觉失真,稍微讨厌;(4)差:讨厌,但不令人反感;(5)劣:极其讨厌,令人反感。

质量优,表示录制的语音(即重建语音)和原始语音之间只有很小的细节差异,若不对照听比就觉察不出这种差异。质量良,表示重建语音的畸变或失真不明显,不注意听就感觉不到。质量一般,表示重建语音有比较明显可感知的畸变或失真,但语音自然度和清晰度仍好,听起来没有疲劳感。质量差,表示重建语音有较强的畸变或失真,听起来已有疲劳感。质量极差,表示重建语音的质量极差,听觉无法忍受。作为经验法则,室内话语录音质量应不低于二级,室外不低于三级。录音过程应实时监听。

为确保濒危语言有声语料的采录效率和质量,目前我们已经着手制定《濒危语言语料种类、采录环境和设备匹配规范》。

二、濒危语言口语的转写和标注

(一)口语语料的转写和标注

音频视频语料须经过编辑、转写和标注才能立档保存,或研发语料库做其他用途。转写是对录音言语用文字或书面符号同步记录,成为可阅读文本。标注不同于转写,包括两个方面,一是用一套符号代码,把话语的语言学特征(如语音、词汇、语法等)在转写文本中做出标记;二是对话语的语意、言语行为特征、情景意义以及相关的知识文化等等,进行描述。转写和标注的质量直接关系到语料的利用价值。

从目前技术来看,音频视频语料的文字转写和音标注音、话语单位的时段切割、语音单位的切分、语言特征的标注,通常由人工完成。一段话语录音,一般先要对每个句子或意群语调单位的结束点做标记。软件虽然可以侦测语音流的静音段,但准确率不高,因为日常言语交际中,说话人不是非得说完一句话才停顿,句中或词中停顿很普遍。几个人言谈不一定一人一句轮流说话,同时插话和答话也常见。转写这类交叠话语必须先按说话人进行断句。语音识别技术虽然可以根据说话人的语音特征跟踪说话人,但对于有一些噪声的情景话语,自动判断说话人话轮变换的准确率会大打折扣,它需要人工做大量的修正。此外,录音机和软件都有自动降噪功能,但也不能随意启用降噪,因为静音和噪声有时是情景话语不可缺少的组成部分。在处理这类语料时,哪些噪声和静音与话语情景有关而须保留,哪些与情境无关而应删除,还得靠人工判断。

我国少数民族濒危语言语档至少需要三类转写标注文本:语音转写或标音文本,中文翻译文本,以及中文解释和描写文本。语音转写或标音文本是用国际音标或拼音方案同步记录话语,中文翻译文本是用普通话逐词对译和逐句意译,中文解释和描写文本是用中文对话语事件相关知识和口语现象进行描述和标注。这是语档录音的最简转写要求。

标注有基本标注和富标注。基本标注一般包括词类、时间戳、话轮。富标注则无限制,语音、词汇、语法、语义、语用等特征都可标注。标注的精度取决于话语分析的深度和广度,以及语料的用途。词类、时态、语态、句法、话轮、静音、背景声、停顿、韵律、语气、情感等等都可标注,语音可细到音节、音素、韵律、音步、语调特征,此外还可以进行多模态特征标注。关于标注精度层次,可参阅美国英语口语语料库的相关文件[3]。

濒危语言口语标注应高于基本标注。标注项越多,越有利于数据挖掘,但需要大量的人力和财力,因而要考虑可行性。作为经验法则,1小时口语录音,初步剪辑处理要5倍~6倍时间。用软件对1分钟录音进行分句、分词、音标注音,普通话逐词对译和逐句意译,标记语流中每个词的词类,标记非言语声音,需要6小时~7小时,这还不包括检查标注一致性所用的时间。

(二)转写规则和软件工具

为便于语料数据共享,口语转写和标注必须遵循相关技术规范。早期的话语分析研究,主要采用美国学者Jefferson提出的标注系统。后来,国外一些著名的口语语料库,如英语国家语料库(BNC)①其官网网址为http://www.natcorp.ox.ac.uk/,加州大学圣巴巴拉分校的美国英语口语语料库(SBCSAE)[4],宾夕法尼亚大学语言数据联盟(LDC)的口语语音数据库,德语口语语料库,维也纳——牛津国际英语语料库(VOICE)②其官网网址为http://www.univie.ac.at/voice/等等,都制定了自己的转写规则系统。我国台湾中研院的新世纪语料库、北京语言大学的北京话口语语料库,也有自己的标注符号。我们认为,应尽快建立适合我国少数民族濒危语言和汉语濒危方言的口语转写标注系统。

转写和标注需要专门的工具。国外的软件有 Transcriber[5],Xtrans,Elan,Anvil[6],Transana[7],EMU[8],CLAN③可在此网址下载:http://childes.psy.cmu.edu/clan/,Audamus[9],Praat,EXMARa LDA④可在此网址下载:http://www.exmaralda.org/等等。Transcriber支持多种音视频格式,改进版Transcriber AG功能有所提升,是入门级软件。Xtrans主要用于转写广播新闻和会议录音。Transana有多种版本可以使用,只是数据格式比较单一。Praat也可做标注,尤其适合切分和标注音节、音素,但处理长时音频文件显得不便。ELAN采用曲谱式分层标注模式,支持视频和音频,有快速切割和转写模式,以及多种检索功能。Anvil跨平台且开源,能与ELAN/PRAAT交换数据,可实现多模态标注。EXMARaLDA Partiutr-editor采用曲谱式数据结构模式,整合了几种转写规则并能根据规则纠错,还可调用praat查看语图,导出和输出多种转写文件格式,也能将话剧脚本式的三层文本导入转换为标注文件。这些软件虽然各有优势⑤夏威夷大学的在线期刊Language Documentation &Conservation有“技术评论”评介软件。,但根据我们的使用和测试,ELAN、Partitur、Anvil三种软件的综合性能更强。由于这些软件都是由国外研发的,用于处理我国汉语方言和少数民族语言还存在一些缺陷,用户可以将使用中发现的问题反馈给软件研发者,以求不断改进和升级。

三、开展濒危语言语档建设的技术培训

《新发现语言丛书》已出版30多部,对国内所有少数民族濒危语言的代表方言已经有了系统描写,当前和今后的任务是重点解决濒危语言语音流失问题⑥这个观点是北京师范大学王宁先生2009年10月首先提出。。濒危语言语档建设是跨学科领域,需要田野语言学、话语分析、语料库、档案学理论和现代新媒体技术,同时它要求濒危语言调查研究者实现以下转变:从个人自留地式的语言调查和材料收集向团队主导的语言资源建设转变,从传统耳听手写的记录方式向传统方法和现代多媒体手段结合转变,从为个人学术研究服务向为群众语言生活需求转变。

以本世纪初美国夏威夷大学第一届濒危语言记录和保存研讨会以及伦敦大学始立“汉斯罗辛濒危语言项目(HRELP)”⑦详见SOAS基金网站:http://www.hrelp.org基金为标志,濒危语言的记录和保存走过了十多年历程⑧伦敦大学亚非学院的Language Description and Documentation白皮书和夏威夷大学国立语言资源中心的期刊Language Documentation &Consertion(LD&C)是濒危语言记录领域的重要出版物。。目前国内首要问题是濒危语言研究队伍普遍缺乏数字化记录和保存的专业技能。伦敦大学亚非学院曾对获得汉斯罗辛基金项目的主持人进行专业技术培训,客观上为全球濒危语言记录和保存培养了一批应急人才,我国有几位语言学者承担了该基金资助项目并接受了技术培训,在他们的带动下,国内对濒危语言记录技术的关注近年升温,迫切需要推广这方面的技术培训。

开展濒危语言有声语档建设的技术培训,有助于培养和提升我国语言田野工作者的语料采录和加工处理能力,倡导和推动语言调查工作者学习和掌握跨学科知识和技能。对于濒危语言有声语档建设工作而言,当前的培训应着重于以下内容:语言田野伦理规范,口语语料库基础理论,口语记录实践,语料转写和标注,语言技术软件的使用,录音设想设备的操作,音频视频的编辑处理,语音实验基础,语料管理和数字化档案基础,等等。

值得欣慰的是,自2013年起,中国民族语言学会和暨南大学汉语方言研究中心联合举办了三期“中国濒危语言有声资源采录和立档技术高级研习班”,并计划用3年时间举办6期,以期在我国少数民族语言学界和汉语方言学界,倡导和推动现代语言记录和立档知识和技能的学习和普及,这将有力促进我国濒危语言有声资源建设的科学发展。

[1]范俊军.汉语方言自然口语语料库建设的几个基本问题[J].学术研究,2013,(2):153-159.

[2]Stanford Zent,Luisa Maffi.Final Report on Indicator No.2:Methodology for Developing a Vitality Index of Traditional Environmental Knowledge(VITEK)for the Project“Global Indicators of the Status and Trends of Linguistic Diversity and Traditional Knowledge.”[EB/OL].Terralingua,2010:1-112.http://www.terralingua.org/vitek/.

[3]Peter K Austin.Communities,ethics and rights in language documentation[EB/OL].Language Documentation and Description.Volume 7,p35.

[4]John W.Du Bois.Transcription Delicacy Hierarchy[EB/OL].http://www.linguistics.ucsb.edu/projects/transcription/.

[5]Linda Barwick.Transcribe:Created by Seventh String Software[EB/OL].Language Documentation & Conservation,2009,3(2):236-240.http://nflrc.hawaii.edu/ldc/.

[6]Kipp,Michael.Anvil:The video annotation research tool[EB/OL].2011.http://www.anvil-software.de/#.

[7]Oksana Afitska.Transana 2.30 from Wisconsin Center for Education Research[EB/OL].Language Documentation &Conservation.2009,3(2):226-235.http://nflrc.hawaii.edu/ldc/.

[8]Briony Williams.EMU Speech Database System from The EMU Project[EB/OL].Language Documentation & Conservation.2008,2(1):166-175.http://nflrc.hawaii.edu/ldc/.

[9]Amanda Brotchie.Audiamus 2.3:Created by Nicholas Thieberger[EB/OL].Language Documentation & Conservation.2007,1(2):290-292.http://nflrc.hawaii.edu/ldc/Further discussion of building audio archives of minority endangered languages.

猜你喜欢
语料录音语料库
基于归一化点向互信息的低资源平行语料过滤方法*
Funny Phonics
funny phonics
Listen and Choose
《语料库翻译文体学》评介
Listen and Color
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入