论河北语言资源有声数据库的构建

2017-04-19 22:13侯建华
文教资料 2016年33期

侯建华

摘 要: 中国语言资源有声数据库,旨在用现代信息技术对中国各县域的语言实态进行调查记录、保存建库、研发利用,是科学保护各民族语言文字,传承弘扬中华优秀传统文化的一项重大工程。唐山库的建设能够带动河北其他地区语言资源有声数据库建设工作的顺利实施,有利于了解河北的语言实情,有利于提高我省的综合经济实力,有利于河北优秀传统文化的传承,为京津冀一体化的和谐发展和2016年唐山世界园艺博览会的召开营造良好语言文化氛围。

关键词: 语言资源 有声数据库 方言调查

用现代信息技术将我国语言的现实状况采录下来, 建成可满足社会多方需求、可不断维护更新的有声数据库, 是利在当代、惠及后人的事业,对我国语言规划和语言科学研究将产生重要影响。2013年7月,中国语言资源有声数据库河北库试点工作会议在唐山召开,标志着河北库建设以唐山(4个方言调查片区)和承德滦平(1个普通话调查点)为试点正式启动,教育部语信司领导和北京语言大学专家组参会。2015年7月,河北库建设试点预验收工作会议在唐山师范学院召开,教育部领导和专家对河北库建设给予了高度评价,中新社、央视网等38家媒体进行了相关报道和专访。

一、唐山方言资源有声数据库建设的重要性

教育部、国家语委主持的“中国语言资源有声数据库”工程于2007年开始前期论证,2008年在江苏省苏州、常熟、昆山等市区开展试点工作,2010年试点工作结束。2011年上海、北京、辽宁的语言资源有声数据库建设工作相继开展,我省于2013年7月启动试点工作。

教育部副部长,国家语委主任李卫红同志讲道,建设中国语言资源有声数据库,具有重大而深远的意义。第一,通过中国语言资源有声数据库的建设,可以全面掌握语言国情,有利于科学制订国家的语言规划和语言政策;第二,可以促进普通话的推广,提高普通话的学习质量;第三,可以保存语言实态,保护中华语言文化遗产;第四,可以推进我国语言科学的发展;第五,数据库的建设成果能提高语言文字信息化水平,从而推动我国信息产品的发展,保护国家信息安全。

将唐山作为河北库建设的试点城市,具有积极而深远的意义。“冀东三支花”是河北省唐山地区三种主要的文艺形式,即评剧、皮影、乐亭大鼓,作为中国非物质文化遗产,蜚声海内外。影视作品如《唐山大地震》、《鬼子来了》,侯宝林、赵丽蓉等表演艺术家的曲艺作品,惟妙惟肖的唐山方言也多有体现且深入人心,具有广泛的群众基础。另外,唐山市多年来对语言文字事业的高度重视也是促成唐山作为河北库试点的重要原因。唐山库的建设,对发掘我省语言资源有较大参考价值,能够为河北库的建设提供翔实的数据支持,为我省方言地图的构建提供支撑,为京津冀一体化的和谐发展和2016年唐山世界园艺博览会营造良好语言文化氛围,拓宽语言社会服务的渠道和领域,从而推动我省语言文化产业的良性发展。

二、唐山库的设计与实施

(一)工作模式

“中国语言资源有声数据库”建设是一项系统工程。唐山库的建设工作发挥教育行政部门、语委的行政职能作用,专家的专业引领作用,调动各方面力量,提高其社会知晓度,形成“政府主导,语委牵头,专家引领,部门协调,社会参与”五位一体的工作模式,并制定一系列行之有效的专家团队运作及管理办法。这种模式是在唐山市二类城市语言文字评估、三类城市语言文字评估、语言文字工作达标县评估等顺利实施的基础之上形成的,得到了上级主管部门的高度认可。另外,在语言资源有声数据库建设的调研、论证阶段,应该制订切实可行的工作实施方案,以便统筹整体工作安排和进度。

(二)调查点的设置

唐山方言属于北方方言区内冀鲁次方言区的一个方言分支。唐山地区虽然毗邻北京,千百年来一直居于官话区的要冲之地,但唐山方言一直保持着自己的特色。现在唐山方言作为一种语言现象,与普通话有着系统的差别。

根据唐山市各县(市)区的语言面貌及方言区域划分相对统一的原则,结合《中国语言资源有声数据库调查手册-汉语方言》(以下简称《调查手册》)上对调查地点的要求,划分出四个方言调查片区:滦县、滦南、乐亭、曹妃甸片区以滦南为组长单位,其他县区为成员单位;丰润、玉田、遵化片区以玉田为组长单位,其他县区为成员单位;迁西、迁安片区以迁西为组长单位,迁安为成员单位,市区片区(路南、路北、古冶、开平、丰南、芦台、汉沽)以古冶为组长单位,其他区为成员单位。以上是河北库建设唐山试点工作开展阶段确定的四个方言调查片区,随着前期工作经验的积累和调查工作的深入开展,其他未开展的县(区)按照《调查手册》的要求也应该陆续开展相关调查工作。

(三)调查对象

調查对象(方言发音人)的遴选和培训是“中国语言资源有声数据库”建设工作的重要一环,也是完成方言调查的前提与基础。按照国家语委《调查手册》的要求和方言调查的基本规律,每个方言调查片区均需要调查4名方言发音人和3名地方普通话发音人,具体遴选条件见表1。

表1 方言发音人遴选条件及说明

选择发音人应该坚持广泛宣传、重点遴选、抓好培训的原则,目的是争取让尽可能多的符合条件的发音人主动报名参与遴选,以便能好中选优,留有余地。唐山库的方言发音人遴选环节,调查团队考虑时间、人手、交通便利、经费预算等各项因素,采取由市语委统筹布置、调查片区语委配合的方式,先由调查片区语委通过新闻媒体、报纸橱窗、公共场所发放宣传单等多种形式进行广泛宣传发动,进行初次选拔,再由市调查团队进行现场面试、遴选,最终确定符合要求的方言发音人,并进行角色分工和培训、辅导。

(四)调查内容

调查内容分语言结构调查和话语调查两大部分。语言结构调查是基础, 用1000字调查语音系统, 用1200词调查基本词汇系统, 用50句调查主要的语法现象。话语调查是重点,分为讲述和对话两部分。讲述包括“规定故事”和“自选话题”。规定故事为《牛郎和织女》, 它具有中国文化的特点, 分布地域也比较广泛。自选话题要能反映当地文化特色,例如: 当地口耳相传的民间故事;当地的童谣、谚语、歇后语、顺口溜;当地的地方文艺、风俗习惯和传统节日;个人和家庭的情况; 当地的旅游景点和土特产;时事热点评论等。方言发音人分角色调查内容见表2。

表2 方言发音人分角色调查内容说明

(五)调查方式

“中国语言资源有声数据库”河北库唐山试点的调查涉及田野调查(前期遴选、培训和确定音系阶段)、音像摄录(正式采集录制阶段)、资料整理(后期加工整理阶段)、存档管理(最终上报阶段)、成果编写和开发利用(延展开发阶段)等环节,方言发音人分角色调查方式见表3。

表3 方言发音人分角色调查方式说明

(六)建库与开发

“中国语言资源有声数据库”河北库唐山试点将收录唐山方言四个调查片区的所有资料。数据库建设完毕后,将唐山库的所有调查材料统一建档上报,由国家语委审核后统一归入“中国语言资源有声数据库”国家总库。我们应该充分重视数据库的开发运用,数据库的建设可与唐山文化建设的“十二五”规划,与唐山重点文化建设的项目,如博物馆、文化馆、展览馆、公共文化设施的建设结合起来,在地方文化建设中,发挥语言文字资源的独特作用,使这个资源能够共享。

三、唐山库建设的准备工作

“中国语言资源有声数据库”建设是语言文字工作的一项基础建设的民心工程,建设周期长,科学性强,工作要求高,特别是语言资源的采集质量,直接关系到国家数据库的质量和价值。“万事开头难”,尤其唐山作为河北库建设的试点城市,一切都要摸索着前进,为此,唐山调查团队本着认真负责、精益求精的工作态度,做了大量的前期准备工作,不带有疑问操作,保证建设的科学性和规范性。

(一)组建调查团队

按照《调查手册》的要求,在调查团队成员的选择上,具备以下三个条件:1.热爱语言文字工作,责任心强,富有团队精神;2.有较高的业务素养,熟悉唐山方言,有丰富的语言文字工作经验;3.有一定的文字功底和计算机应用能力,善于沟通、交流。基于以上原则,遴选出符合标准的调查团队核心成员6名,每个调查片区再配备工作人员2-3名辅助调查团队的工作。另外,根据工作需要,配备录音、摄像、照相的专业人员4名;配备调查后期加工、整理阶段的工作人员3-4名。

(二)调查团队的培训

“打铁需要自身硬”,调查团队成员业务水平的高低决定着调查工作的成败。为此,我们对调查团队成员进行了严格的培训,一是通过聘请专家讲座、调研,使调查团队熟悉《调查手册》整体工作流程和技术指标。二是调查团队进行方言语音听辨、音系整理、国际音标记音、汉字转写等业务的强化训练。三是对摄录人员进行设备使用和操作方法的专门培训。

(三)方言发音人的培训

一是针对每个发音人的任务不同,制定培训手册。二是在每一位发音人熟悉自己承担的任务的前提下,对《调查手册》中的内容进行方言转注。三是对发音人进行分角色培训,同时分角色进行模拟演练。通过培训,有效保证正式录制阶段的工作顺利进行。

(四)制定各调查片区工作安排

唐山库的建设工作,在每个方言调查片区开展工作之前都要制定详细的工作日程安排,这项工作是河北库唐山试点的创新点,得到了“中国语言资源有声数据库”首席专家、北京语言大学曹志耘教授的高度认可。方言调查片区工作安排从工作阶段、时间安排、工作内容、负责部门、负责人等几个方面,对调查的各个阶段(前期准备、采集录制、后期加工整理、终审上报)的工作进行详尽的布置,力求做到分工明确、责任明晰,有效推动工作的开展。

(五)搭建信息化調查平台

根据《调查手册》对“中国语言资源有声数据库”建设技术指标的要求,唐山库的建设搭建了信息化的调查平台。一是保证调查环境达标,我们选择唐山师范学院多媒体演播厅和录音棚作为调查地点。二是保证调查核心技术指标(音像质量)达标, 摄录硬件使用SAMSON C03U话筒录音,使用索尼D70摄像机摄像,照相使用尼康D7000,录音软件使用录音软件使用Byly(北语录音),使用Auducity进行录音效果的监测和编辑录音文件。三是保证调查资料的标准化、规范化,配备专业的工作软件,国际音标的转写使用IpaPanNew配合Unicode进行,音高分析和语音标注使用Praat编辑,配备专业字库软件进行方言字、词、句、话语的汉字转写,使用大洋线性编辑系统进行音像资料的编辑、合成。通过搭建高标准的信息化调查平台,唐山库的建设质量迈上了新台阶。教育部副部长、国家语委主任李卫红同志认为河北库唐山试点的工作为全国其他省份开展“中国语言资源有声数据库”建设树立了典型。

目前开展的“中国语言资源有声数据库”建设应该说迫在眉睫,是抢救性保护,国家语委主持开展此项工程应该说是高瞻远瞩,这一工作开展得越早越好,越早越全面。科学保护方言资源不是为了推广,而是为了更好地传承,形成一个历史时期的印记。唐山方言资源有声数据库应该作为唐山的文化瑰宝世代相传,成为唐山靓丽的文化名片,下一步,我们希望通过后续的深入开发和有效利用,在即将召开的2016年世界园艺博览会上,让此项工程成为世界了解唐山、认识唐山的一个窗口,为京津冀一体化的和谐发展营造和谐的语言氛围。

参考文献:

[1]李宇明.论中国语言资源有声数据库的建设[J].中国语文,2010(04):356-363.

[2]中国语言资源有声数据库建设领导小组办公室.中国语言资源有声数据库调查手册[M].北京:商务印书馆,2010.

[3]王世凯,张亮.论“中国语言资源有声数据库辽宁库”的建设[J].渤海大学学报(哲学社会科学版),2011(06):86-89.

基金项目:

1.唐山师范学院教育教学改革研究项目《计算机辅助评测背景下高校普通话教学改革研究》(2015001008)。

2.河北省高等学校人文社会科学研究重点资助项目(语言文字专项)《唐山方言音变规律研究》(YWZX201502)。