中国语言资源保护工程语料资源的质量、价值和效用
——以少数民族语言材料为例

2018-11-06 09:23丁石庆
暨南学报(哲学社会科学版) 2018年10期
关键词:语料方言少数民族

丁石庆

一、语保工程民族语言调查立项情况

20世纪50年代汉语方言和少数民族语言大调查的重要任务之一是,对中国境内少数民族进行语言识别,并对其语言分布及其结构特征进行调查和描写研究。调查成果之一就是国家民委主编的五套丛书之一,即50年代至80年代初陆续出版的《中国少数民族语言简志》(57卷)。60多年来,大量的少数民族语言调查研究成果陆续出版,尤其是80年代后期以来的《中国新发现语言丛书》(47卷)、少数民族语言方言研究丛书、语言国情调查和跨境语言调查丛书等系列成果更具创新特征,同时积累了丰富的民族语言语料资源。

2015年5月,教育部、国家语委印发了《关于启动中国语言资源保护工程的通知》,并组织了全国范围的语言资源调查,标志着继60年前中国政府进行境内汉语方言与少数民族语言普查之后又一次大规模语言调查工作的全面展开。该工程是由国家财政立项,教育部、国家语委领导实施的一项大型语言文化工程,是迄今为止世界上规模最大的语言资源保护项目。工程内容包括汉语方言与少数民族语言调查、文化典藏、采录展示平台建设等,工程具体由设于北京语言大学的中国语言资源保护研究中心负责实施。

2016年底,根据少数民族语言资源保护的复杂性及其在整个工程中的特殊地位,国家语委、教育部语信司、中国语言资源保护研究中心(以下简称“语保中心”)委托中央民族大学专设“中国少数民族语言资源保护研究中心”(以下简称“民语中心”),全面负责协调和调动全国少数民族语言文字方面的力量来推进少数语言资源保护工作。2016年5月,国家语委与国家民委共同发布了《关于推进中国语言资源保护工程少数民族语言调查的通知》,并以该通知的附件形式公布了《中国语言资源保护工程少数民族语言调查点总体规划(2015—2019)》。通知规定2015年至2019年五年内中国语言资源保护工程少数民族语言要完成310个一般点,110个濒危点共计420个调查点的调查任务,同时颁布了2015年已完成与2016年预立项的中国境内各语系、语族少数民族语言的调查点数及2017—2019年需完成的调查点数。

目前,中国少数民族语言资源保护专项任务过半,工作开展顺利,已取得丰硕成果。2015年至2017年底已完成少数民族语言一般点188个,濒危点62个,共计250个点的调查任务。本文将结合少数民族语言语料资源的验收情况,对其质量、价值及其效用等问题进行探讨,以请教于同行与学者。

二、语料资源的质量保障机制

质量是语保资源的生命线,质量保障工作是语保工程实施的核心。语保工程配备有一套专门的组织结构,明确了部门和人员的职权以及各项实施程序和活动方式,建立了工程质量管理体系和质量保证体系,为实现工程质量目标奠定了基础。

(一)质量管理体系

语保工程由政府主导实施,实行统一规范标准,有严格的管理机制,其管理机制构架如图1所示。为保证工程的质量,教育部语信司、北京语言大学中国语言资源保护研究中心制定了一系列管理文件与管理办法。为实施民语调研专项任务,民语中心也实行了相应的管理机制和模式。与汉语方言不同的是,民语调研实行语族项目负责制。一般以语族为单位设项目组,根据各语系、语族等语种总数量及规划点数进行适当调整。如南亚语系和南岛语系点数较少,两个语系合并为一个项目组;满通古语族语言点数较少,与蒙古语族合并为一个项目组;藏缅语族语种多,设点数多,则以语支为单位设项目组,其中藏羌语支为一个项目组,彝缅语支和景颇语支为一个项目组;突厥语族语言除了西部裕固语和撒拉语两个方言点,大多数分布在新疆境内,而新疆境内还有印欧语系的塔吉克语和俄罗斯语,原则上也都合并到突厥语族。此外,未定语系的朝鲜语点数较少,归入到蒙古语族和满通古语族项目组统一管理,混合语等类型语言视其语言结构特征归入某一语族统一管理,保证了所有语保工程民语调研课题全覆盖。每个项目组负责人还配备一名或多名研究生联系人,负责与项目组内各课题负责人的各种事宜的联系工作。

图1 语保工程管理机制

(二)质量保证体系

语保工程的质量保证体系涉及工作规范的包括立项、培训、试点、中检、预验收、验收、结项等内容,涉及技术规范的包括手册规范和技术规范等内容。语保工程的工作程序严谨,且有固定的时间节点:每年年初申报进行预立项,立项名单经过语保工程和教育部审核通过后立即进行培训工作。培训主要分两类,一般培训以调查手册的解读为重点,培训内容涉及调查表、调查规范。一般培训活动结束之后,进入试点调查等工作。每年6、7、8、9月是调研高峰期,之后接着就是中期检查整改阶段,同时,进行语料整理的专项培训。专项培训涉及语料整理规范、音像加工规范、属性标注规范、资源编码等内容。每年11月开始预验收和整改工作,至年底完成验收和结项工作。上述每个环节都有严格的质量监控和监督。如承担项目负责人的资质需正教授职称,一般应有主持国家社科基金重点以上项目或省部级重大项目的经历,或有较好的大型集体攻关项目的经验,具备一定的组织能力、协调能力和执行能力等,项目负责人名单需经过民大中心专家咨询委员会讨论集体通过。课题负责人的资质和必备的条件是从事少数民族语言研究的母语人或长期从事某种民族语研究的非母语人专家,须有副教授以上职称。有博士学历的学者也可承担课题,但必须有所调查语言的相关研究成果。在读博士生承担课题的条件是须有相关语言研究资质的导师指导把关,并有两名教授推荐,已经或将以调研点语言研究作为毕业论文选题的在读博士生优先。在预验收和验收阶段,审核专家需对相关语言材料予以严格审核,认真把关,尤其对记录的语音、归纳的音系等要进行重点审核。民语中心每年验收时专家审核工作是重头戏,因绝大多数项目负责人都很认真地组织实施了之前的中检和预验收的整改阶段的工作,课题组的材料提交到民语中心一般都比较过硬,但为了保证质量,中心还要根据不同语言的情况予以把关,如对某些特殊类型的语言或无法确定音系的语言要再度进行多次审核,甚至有些需要邀请多名专家予以审核、讨论等。

为了保证工作的质量,中国语言资源保护研究中心还制作了一批专门的技术软件,涉及专业摄录软件、校验软件、标注软件等。

(三)语保工程民语语料的质量

经过上述各环节程序的严格把关,语料资源的质量可得到保障。从民语中心成立以来验收的2016年与2017年两个年度的材料总体情况来说,2016年的88个课题组提交的材料整体质量全部达标,其中,17%~20%的课题组达到优秀。2017年的整体质量好于往年,81个课题组全部达标,按照规定,评出20%即17个优秀课题组,其余64个课题组提交的材料也全部达标。总体上,少数民族语料资源的质量具有以下几个特征。

1.规范性

在验收环节,语保工程有一套严格和细致的验收程序、内容和标准,除了纸笔记录有单独规范要求外,对需交的电子版有明确规定的全部指标、参数和相关要求。在验收过程中,除了人工检查外,还有计算机校验软件辅助进行技术规范检查,并对各类检查都有相关验收计分表,最后还要提交各类检查的验收报告。如有不符合规定的内容需进行整改,整改后还需审核通过后才能提交入库。

2.真实性

语保工程一个大的特点是需要通过实地田野调研,并经过纸笔记录和前期多次核对,在此基础上才能进入到音视频同步摄录过程,保证了所摄录语料的科学性和规范性。尤其是影像的摄录工作,虽然提高了调研的工作难度,但在很大程度上确保了语料的真实性。

3.完整性

语保工程语料调查内容系统完整,涉及语音、词汇、语法、话语及口头文化语料等。其中,音系表和音系说明具有很强的专业技术含量;词汇部分要求对一词多说或一词多用的词例也需注明;语法部分要求精准提供语法点;话语和口头文化部分的语料要求达到20分钟以上,尤其是口头文化部分要求样式和类型多多益善。为了兼顾少数民族语言资源保护的多样性特征,在语保工程汉语方言调查手册的基础之上,制定了八种少数民族语言调查手册,并增加了部分相关调查内容,以适应少数民族语言的实际情况。其中,除了与汉语方言调查手册一致的1 200条通用词外,以语族为单位增加了1 800条扩展词,使需调查词汇总数达到了3 000条。另外,以语系为单位增加了50个句子,使需调查句子总数达到100句。

4.恒久性

语保工程的规划具有前沿性,在顶层设计中已计划将语保工程采集的所有语料纳入到国家语言资源保护数据库中,后期还有建设中国国家语言文字博物馆的计划,向社会和公众展示这些难能可贵的语料。由清华大学建设的中国语言资源保护数据库平台也已形成规模,并通过“语宝”网将内容同步逐步向社会部分开放。

另外,少数民族语言濒危志的出版,也使语保工程语料资源的质量层次得到了提升。

三、语保工程语料资源的价值

语保工程语料资源兼具多学科综合研究价值,以下仅就少数民族语言语料的特殊价值予以简述。

(一)又一次成功实施了对中国境内少数民族语言的全面摸底与排查

语保工程的实施又一次实现了对中国境内少数民族语言及方言与土语情况较为全面的摸底与排查。目前,语保工程任务过半,就少数民族语言资源调研专项任务而言,相关统计数据显示,2015—2017已完成总任务的59.52%,共计完成250个点,其中,一般点为188个,濒危点为62个。2018—2019两年还需完成170个点,占总任务比例约为40.48%,其中,一般点122个,濒危点48个。目前,已经完成分布于中国大陆和台湾岛的汉藏、阿尔泰、印欧、南亚、南岛五大语系及包括部分未定语系语言、混合语等类型语言的调研,涵盖了55个民族使用的100余种语言。在完成的语言点中,藏缅语族84个点,约占已完成任务的33.6%,其中一般点54个,濒危点30个;侗台语族52个点,约占20.8%,其中一般点45个,濒危点7个;苗瑶语族23个点,约占9.2%,其中一般点22个,濒危点1个;突厥语族26个点,约占10.4%,其中一般点21个,濒危点5个;蒙古语族27个,约占10.8%,其中一般点24个,濒危点3个;满通古斯语族9个点,约占1.8%,其中一般点5个,濒危点4个;孟高棉语族16个点,约占6.4%,其中,一般点和濒危点各8个;其他(包括台湾语群、回辉话、印欧语系、朝鲜语、混合语等)13个点,约占5.2%,其中一般点8个,濒危点5个。上述语言分布情况一方面体现了我国少数民族语言复杂多样的特点,另一方面,也体现了语料资源的类型和层次上错综交叉的差异。

(二)为语言识别、方言与土语的进一步科学分类提供了重要依据

20世纪50年代的少数民族语言大调查虽然在语言识别、语言及方言与土语划分上有首创之功,但因为人力、财力和调查手段及方法等方面所限,留下了一些遗留问题,如个别语言的识别与语系或语族、语支归属、某些语言的方言与土语的划分等,尤其是当时主要采用口耳听辨记录,采集方法较为原始,也使相关语料仅以纸质形式保存和展示,出现了同一个点不同学者所归纳的音系、方言土语属性方面的诸多分歧。语保工程是我国语言学界首次采用统一的规范标准进行的汉语方言与少数民族语言调查,也是民语界首次采用统一的规范标准对国内少数民语言进行的大规模语言调查,兼具史无前例的开创性和重大的现实意义。统一规范及先进的调查手段和方法,在很大程度上保证了所采集语料的真实性、可靠性和科学性,经得起时间考验和学术研判。尤其是某些使用人口较多,方言甚至土语分歧较大的诸如藏、彝、壮、苗、瑶等南方少数民族语言,这次在规划和调研方面作为重点倾斜,北方维吾尔语、蒙古语也作为重点进行了布点,基本达到了所有重要方言或土语全覆盖。这些语料资源对后期进行方言及土语的科学划分提供了可靠的依据。

(三)为实施通用语及“推普”策略提供了理论和应用依据

语保工程语料资源调查中“地方普通话”属于汉语和民语通用的调查内容,包括话语与朗读材料。从民语中心验收语料时可看出,还有很多与通用语相关的材料集中于词汇和句子中,如每个语言中或多或少都有一部分汉语借词,有些语言的句子结构显然是受到汉语的影响后而导致其出现了一些变异形式或和汉语同构形式等。就此专题来说,少数民族语料资源数据显示,南北的情况有别,不同地区的不同语言情况也有别,同一种语言的不同方言甚至不同土语的情况也有别。这些材料为我国语文政策的制定以及“推普”计划的实施都将提供科学的依据。

四、语保工程民语语料的效用

(一)多元可比性

从民语中心验收和结项材料来看,人口数量多少、有无文字、聚居程度等因素的不同,其语料丰富程度也有差异,甚至有很大的差异。再综合其他相关文献及材料,可以看出,中国境内少数民族语言资源的类型有很大的差异,从语料资源获得难易程度、数量多少、表述深度、样式丰富程度等多种因素经过对比均可看出内部差异来。如以词汇为例,在词汇缺失数量、一词多说的数量、抽象词的表达方式上,有传统文字的蒙、藏、维、哈、朝、彝、壮、傣等民族语言在实地调研过程中可以海选发音合作人,语料资源数量大而丰富,表述有深度,词汇缺失较少,尤其是抽象词缺失少,一词多说或一词多义现象较多。

在口头文化语料资源上也体现出较显著的差异,如有传统文字的民族语言的语料资源在数量、层次、丰富度、样式等诸多方面要好于无文字的民族语言,尤其好于处于濒危状态的民族语言。有些濒危点的语言调研工作难度较大,难觅合适的发音合作人,甚至放宽条件勉强找到可以配合完成任务的,也无法单人完成规定的任务。还有若干濒危点没有可以吟唱歌谣、讲故事的口头文化发音合作人。另外,语保工程语料资源也提供了一些特殊样本,如跨境语言语料资源显示,有些跨境民族的语言发生了很大变化,甚至出现了濒危或极度濒危的迹象。以乌兹别克语为例,该语言借用了大量的维吾尔语词汇,口头文化资源部分没有内容。经询问得知,目前可以地道使用这种语言的人极少,且年龄偏大,能够唱乌兹别克语歌谣和讲故事的人找不到。塔塔尔语、俄罗斯语等北方跨境民族语言的情况也和乌兹别克语类似。

从各调研点发音合作人的类型也可对语言资源类型的差异有所了解。从有无文字的民族语言到极度濒危语言的主要发音合作人可分为以下几类:

A.有充分选择余地,甚至可海选;

B.有部分符合条件的人群,但需要严格挑选;

C.符合条件的人有限,且需要适当放宽某些条件;

D.符合条件的人极其有限,且单人无法承担全部任务,需要群体合作才能完成任务;

E.符合条件的人只有一个人或数个人,只能完成部分任务。

A类一般涵盖蒙、藏、维、哈、朝等有传统文字的民族语言;B类是一部分有区域性文字的民族,如:柯尔克孜语,新疆境内的锡伯语,甘肃境内的土族等民族语言;C类一般无文字的人口较少民族的语言;D类大多是有一定濒危迹象的语言;E类则是极度濒危的语言。

还有一个具有可比性的是词汇的缺失数量,我们以基本完成调研任务的阿尔泰语系满通古斯语族语言为例,排列出各语言3 000条词汇中缺失的词汇(见表1)。

表1 阿尔泰语系满通古斯语族语言缺失词汇统计表

上表数据显示,在所调查的 3 000条词汇中,赫哲语缺失词最多,为1 610条,其次为鄂温克语敖鲁古雅方言,缺失1 157条,鄂伦春语缺失912条,位于第三,而满语缺失375条,锡伯语两个点缺失词汇最少。除了满语的情况较为特殊外,上述数据结合语言国情调查相关数据和材料,基本上可以提供上述语言的当下的保持和发展态势方面的相关信息。也就是说,锡伯语目前保持状态良好,这和新疆察布查尔锡伯族自治县内锡伯族聚居程度较高,有在满文字母基础之上补充的锡伯文字,并有学校双语教育等制度有关。鄂温克语的三个方言中,敖鲁古雅处于濒危状态,陈方言也有濒危的迹象,而目前使用人数最多聚居程度较高的辉方言则保持状态好于其他两个方言。鄂伦春语的词汇缺失接近1 000条,也基本上处于濒危状态,也应作为一种濒危语言进行保护,后续应纳入濒危语言志撰写计划中。

(二)应用开发性

语保工程语料资源的深度加工与后续补充完善并进行应用开发的空间巨大,尤其是对无文字语言和濒危语言来说,这些语料资源更显弥足珍贵。如可利用这些语料资源编写民语教材、词典,在线开设母语课程、民汉翻译,还可以为民语传媒单位、地方政府和民族事务工作部门、国家安全部门的语言甄别等工作提供咨询与服务。另外,如何让这些语料资源为少数民族旅游资源的开发利用发挥作用也是需要关注的问题。作为大数据时代,语保工程语料资源的科学性也将在学术研究领域凸显,语言地图集、语言志、文字志、语音技术、文献典藏资源汇聚等一系列语保工程后续开发应用工作也将提到议事日程上来,必将有力地推动我国少数民族语言文字事业的发展。

(三)可持续性

语保工程的一般课题在正式验收达标后就予以结项,濒危点则要在一定的限期内完成后续的语料补充调查和濒危志的撰写任务,并在提交濒危志稿后予以结项。实际上,无论一般点,还是濒危点,每个课题组在完成语保工程的规定任务外,后期的收集还可以按照规定的方法进行,也可以逐步扩大到1万条或数万条词汇,1 000或数千句子,数十小时的话语、口头文化等,总之多多益善。后续补充完善的工作也可在语保工程提供的规范要求和模板基础上进一步补充完善,继续扩大语保工程数据库的规模,为今后的大数据研究和应用开发研究提供更多的基础材料。

五、结 语

语保工程的实施,使国家民族语文政策得到了广泛宣传,“科学保护各民族语言文字”的国策更加深入全社会,在一定程度上为国家稳定大局、增强民族团结、营造和谐的社会语言文字环境做出了应有贡献。语保工程也给边疆民族地区长期从事少数民族工作尤其是民族语文工作部门和工作人员增添了工作干劲和信心,推动了地方政府少数民族语言文化事业和民族语文工作的发展。尤其是在一定程度上树立了少数民族珍爱母语、保护母语、传承文化的语言资源观念和语言保护意识,从而使少数民族语言保护工作的内生力和自我造血功能得到了提升。语保工程的一些规定也显现了人文关怀的理念:除了语料音视频同步摄录外,同时还需提供发音合作人影像资料并将其作为重要资料同其他材料一并永久保存,此举提升了发音合作人的民族自豪感,使其产生使命感和历史责任感,同时也潜移默化地起到了提升母语群体传承和保护母语的文化自信和文化自觉性的作用。

语保工程语料资源显示,我国少数民族语言资源大体上可表现为丰厚型、局部丰厚型、萎缩型、濒危型、极度濒危型等几种类型。这些不同语言资源类型的语料资源及其特征,为“科学保护各民族语言文字”提供了最为实际的参考依据,或可以说,语保工程民语语料资源为我国少数民族语言资源类型与层次分类并进行科学与精准保护提供了可靠依据。我们需根据不同的语言资源类型进行精准保护,语保工程也需要根据不同的类型实施精准的语言资源保护策略,千万不可一刀切。我们可以从语言资源保护角度来进行设计或规划,当下还是应以抢救无文字以及已处于濒危或极度濒危的语言为重点。

面对如此复杂多样且语言资源类型迥异的少数民族语言,给我们的语言资源保护工作提出了新的挑战和新的任务,语保工程任重道远。目前,语保工程进入到“语保攻坚战”的重要收关阶段,“语保后”时期则有更多的工作亟待各方共同努力推进。

猜你喜欢
语料方言少数民族
少数民族的传统节日
少数民族的传统节日
可比语料库构建与可比度计算研究综述
少数民族的服装
方言文化在初中生物学教学中的渗透
试析陕西方言中的[]与大同方言中的
中古汉语分期研究所涉及的语料问题
有一个讲方言很重的老师是种什么体验?
如何使用第二外语学习者语料
偃师方言里的合音词