语言博物馆建设的若干方面

2019-02-20 14:07欧阳国亮
关键词:语料馆藏博物馆

欧阳国亮

(中国刑事警察学院,辽宁 沈阳 110035)

一、背景概述

保护人类文化多样性是人类可持续发展的重要方面,作为文化多样性重要组成部分的语言的保护近十多年来引起了社会各界的特别关注。早在2002年,全国政协委员朱新均就提出建立中国语言文字博物馆的建议[1]。2008年,人大代表王建华在全国两会上提交了语言普查和建立语言博物馆的建议[2]。同年,国家语言文字工作委员会(以下简称《国家语委》)实施“中国语言资源有声数据库建设计划”,江苏、上海、广西、云南、辽宁、山东、北京等省区市开始试点。2014年,濒危语言数字博物馆建设理论与实践研究的重大课题批准立项[3]。2015年,湖南卫视知名主持人汪涵捐资数百万支持保护湖南方言文化并发起“乡音”计划,湖南省博物馆积极响应[4]。2015年,教育部、国家语委启动了中国语言资源保护工程(以下简称《语保工程》)。在语保工程传播效应的感召下,建设语言博物馆成了语言文化领域的热门议题。近三四年来,一些省区的民间团体、公共机构或高等院校已建立或筹划建立本地语言博物馆①。

二、语言博物馆的属性和功能

(一)语言博物馆的涵义

博物馆是指以教育、研究和欣赏为目的,收藏、保护并向公众展示人类活动和自然环境的见证物,经登记管理机关依法登记的非营利组织。其目的在于满足公民精神文化需求,提高公民思想道德和科学文化素质[5]。

“语言是重要的资源,这就要求我们对语言的开发利用进行战略思考和顶层设计,使丰富的语言资源能够充分发挥其应有的作用。”[6]建设语言博物馆是基于促进文化多样性长远发展战略,实现从语言资源记录保存到社会利用的重要途径。语言博物馆采集和接收语言资源并进行加工处理,为社会提供文化传播、学习交流和科学研究服务,促进人们对语言的了解、认知与研究,进而促进优秀文化的传承和发展。

因此,语言博物馆可以定义为以物质实体或数字媒体形式存在的,专门典藏、制作和陈列具有社会历史文化意义和知识价值的活态言语样本及文字资料的科学研究和文化教育机构。它既向社会提供语言学习和研究服务,同时也为语言研究者和社会公众提供采集语言资源的通道和平台。语言博物馆有三个基本属性:开放性、动态性、探索性。开放性即面向社会大众开展资源共享服务;动态性即语言研究者及公众可自主操作地向语言博物馆提供语言材料,使其动态扩容;探索性即语言博物馆的浏览者可以就语言及其相关问题进行自助学习和探索。这三个属性也是语言博物馆社会价值和功能属性的体现。

(二)语言博物馆的类别

博物馆从其存在形态可分为实体和虚拟两类。实体博物馆的外观及展品都以实物呈现,虚拟博物馆则借助数字网络技术搭建一个拟真展示平台,业内也将其叫做数字博物馆[7]。20世纪90年代,美国借助其强大的互联网技术和数字处理技术,将图书、图片、声像和手稿等资料进行集成化处理,于1995年建成了博物馆互联网系统,如史蒂文森博物馆协会,标志着数字博物馆正式走入人类视野[8]。

语言博物馆可分为实体与数字两类。语言实体博物馆有美国联邦语言博物馆(National Museum of Language)、加拿大语言博物馆(Canadian Language Museum)、立陶宛语言博物馆(Lithuania Language Museum)等,此类博物馆陈列与语言有关的实物,如文字、图书、书写工具等,功能有一定局限性。语言数字博物馆目前有葡萄牙语言博物馆(Museu da Língua Portuguesa)、法国语言博物馆(Musée des langues,du langage et de la linguistique)等,此外美国2014年正式停止了实体的联邦语言博物馆,改为数字运行。语言数字博物馆是基于实体博物馆的一般规则而设计并引入了数字技术。如新西兰、德国、澳大利亚、乌克兰等国家都有语言主题博物馆,根据挪威语言与文学中心2015年统计,世界上此类博物馆有59所,以德国最多,达到了10所[9]。语言实体博物馆主要馆藏和展示本地特有语言资源,如湖南江永女书生态博物馆(2004年),河南安阳中国文字博物馆(2009年)。

(三)语言博物馆适合建成数字博物馆

语言博物馆不仅仅对语言进行记录,而且还对记录的资料进行深加工,这需要时间累积,也需要实践历练。语言资源的形态属性以及语言博物馆的功能和优势决定了它更适合建成数字博物馆而非实体博物馆。

语言资源的形态属性决定了它更适合数字博物馆。语言是除了听感之外无其他形迹的东西,它缺乏直观性和形象性,进入实体博物馆具有客观困难[10]。建立语言数字博物馆,一方面可以对无形的语言资源进行分类管理及集成化处理,将它们以文字、图片、音频、视频相结合的形式予以呈现,给公众带来视听觉体验;另一方面语言资源在特定的时空内是源源不断的,语料采集也是一个长期的过程,数字博物馆在既定内容模块的基础上更加方便快捷地进行内容扩充和增容。

语言数字博物馆利于功能的整合。数字博物馆可内置基于网络的语言资源采集系统(包括摄录软件和表格),让语言研究者、语言社群和社会公众自行操作采集语料,并实现数据打包上传,使其直接参与到语言资源的记录、保护中来;数字博物馆通过架构一个基于多媒体语料的自学资源库,编撰语言教材,使学习者可以在线学习语言,促进语言传承;数字博物馆还能够将与语言相关的词典、论著、杂志、文学作品、歌曲、曲艺进行数字处理和集成,供参观者学习、娱乐和下载,进而促进知识的传播。由此可见,数字博物馆能更加有效地整合资源采集与保护、语言学习和知识传播功能,这是实体博物馆不能比拟的。

数字博物馆突破时空限制扩大了受众面。实体类博物馆有固定的场所和开放时间,这种时空局限性决定了它受众面较窄。从国内高校已有的几个语言主题博物馆情况来看,除了学术活动期间或上级检查视察来人开门参观外,平时大门紧锁、无人问津,几乎没有社会服务。数字博物馆则可以打破时空壁垒,随时随地浏览,迎合“移动学习”“掌上学习”时代公众的需求,而且建设成本比实体场馆廉价,日常维护也经济。

总之,语言数字博物馆在功能上并不亚于语言实体博物馆,且更具科技优势。这也是美国在2014年将语言实体博物馆关闭改为在线运行的原因之所在。

三、语言博物馆建设的几个方面

语言数字博物馆建设具有长期性,必须区分先后关系:第一阶段将濒危语言纳入其中,建立濒危语言数字博物馆。第二阶段再有计划地纳入其他语言,最终覆盖中国境内全部语言和方言。在这个过程中要解决好4个基本问题。

(一)馆藏资源采集和存储

语言资源采集的主要对象是口语语料样本。语料样本必须全面反映某种语言或方言共时语言事实和言语实践,系统反映语言社群的独特知识和文化内容[11]。这就对语料有“质”和“量”要求。

1.馆藏资源的内容及形式

语言数字博物馆的语料,内容上应涵盖单字、词汇、句子、口述、情景会话、民间文艺等6个方面,前5项内容主要采集音频,个别字词特殊发音可同时采集音视频以备后用。有些情景对话以及民间文艺应同时采集音频和视频。语保工程要求全部语料同时采集音视频,其中对视频质量要求严,这固然促进了语保工作者采集语料的规范意识,但同时也带来了一些问题,如花大量时间和精力用在视频摄录、补录、剪辑和制作,减缓了语料采集进度和音频样本的拓展采录。那些用于不必要的视频摄录编辑时间和人力本可用于扩充音频样本、充实本土知识内容、提升音频和转写质量上。

馆藏语料的采集应注意拍摄与采集蕴含传统环境知识(也称传统生态知识)和文化历史价值的言语样本和图片以及民间传统文艺,如动植物、生态环境、传统农具、器具和制作工艺、生活用具、本土食品、传统医药、说唱文本和戏曲等[12]。采集时应以WAV格式录制音频,AVI/MPEG格式摄录视频,tif/png/JPEG格式拍摄图片,文本数据要兼顾txt/doc/PDF/xls格式,以利于长期保存,确保数字处理技术更新后都能实现多媒体语料和文本语料的无损转换和利用,同时要十分重视原始语料的保存。

2.馆藏资源的基本规模

语言博物馆旨在全方位展示各种语言的基本面貌,同时也为未来恢复语言做准备,这就要求馆藏语料资源必须有数量规模。少数民族语言词汇量应在3 000条以上(涵盖基本词汇),日常用句应在600条以上(涵盖主要交际领域和系统句法特点),情景会话应在30段以上(涵盖语言族群的传统和现代生活领域),口述独白和民间文艺应在达到20段(篇),汉语方言单字应该不低于3 000个,词汇、句子、会话、语篇也应和民族语言持平。对于濒危语言和方言,数量应不受限。数字音像语料(熟语料)总时长应不低于5小时。馆藏基础资源必须以语音资源为核心,适当纳入视频资源。这是语言数字博物馆资源鉴定和馆藏的基本取向。

(二)馆藏资源的加工和服务

语言资源加工主要是指对语料进行转写、描述和翻译。语言博物馆是面向社会的,只有对语言资源进行大众化加工方能真正满足他们的需求。但国内现行的资源加工方案显然过于专业化,如语料转写方式主要是采用国际音标转写,语料描写基本上是基于语言学研究的语法描述,语料翻译多在字面对译而缺失语境和知识阐释。这些只能满足部分语言研究者的需要,不能适应大众的需求。解决此类问题应注意以下几点:一是建立通俗易懂的口语语料转写方法和转写规则,二是建立简单并具有普遍性的语法体系描写方法,三是确立规范的翻译和描写体系,使对语言的描写应和知识的传播结合起来,最大程度地保留语言的知识系统。

需要强调的是,有一类特殊资源应纳入馆藏和加工对象之中,即语言数字遗产语料:早前那些用数字记录工具采集记录的语料,包括口语音像、口述文学和口述历史资料等[13]。这些语料是语言文化工作者记录的原始材料,它们有可能是某一种已经消失或濒临消失语言的最后音像资料。此类资料受管理不及时以及媒体播放设备更新换代等因素的影响长期被搁置,语言博物馆建设者们要及时对它们进行发掘和整理。

在资源服务方面,语言博物馆要面向语言社群和公众的自由获取、便捷访问、广泛传播和有效利用[14],一方面打造自己的语言产品,包括电子图书、民谣音像、电子词典、文艺作品等,促进资源的开放共享。另一方面开发能兼容于PC机、手机及平板电脑的“语言博物馆”APP,发挥其服务语言族群、社会大众的作用,实现其社会价值。

(三)馆藏资源的安全维护

不少人重视语言资源的采集过程而轻视或忽视后期资源管理。例如20世纪90年代的有声语料多用磁带存储,在使用后没有及时进行防潮处理和转录备份,导致资源损坏或者音效失真。进入21世纪后,许多人用录音笔采集语料,但经常是语料用完后就搁置,殊不知录音笔及存储介质都有使用寿命,一旦出现损坏,其中的语料也就报废。原始语料是语言数字博物馆的基础,其安全问题事关重大。

1.高品质存储介质和多介质、多系统隔离存储

目前常用的存储介质主要有光盘、闪存、硬盘等,其使用寿命从几年到几十年不等。基于闪存技术的U盘、SD卡、CF卡、固态硬盘使用寿命相对较短,容易造成物体损坏,DVD光盘和传统硬盘的存储寿命较长。馆藏基础数据必须使用高质量、长寿命的介质存储。这是馆藏基础数据存储的基本要求。此外,还必须隔离存储,存储在不同的计算机系统中,并设置内外网隔离措施,同时定期对存储介质进行杀毒管理,以此将风险隐患阻隔在外,提升资源存储的安全系数。

2.定期备份并规范存储程序

存储介质均有使用寿命,一些外界因素也会增加存储介质损坏的风险。对此,语言博物馆中的所有数据要进行定期备份,一般来说每2~3年就必须备份一次。对语言资源数据的保管上也要规范化:存储介质要避免高温、低温、潮湿场所;存储介质在流转时应建立流转档案,管控遗失风险。

(四)语言数字博物馆的持续

建设地方语言博物馆是繁荣地方文化具有重要意义,但带有政绩色彩的语言博物馆存在潜在的可持续危机:要么只有堂皇光亮的房间和设备而无实质内容和效用;要么只是个申报经费的噱头,或开馆典礼后不再使用和维护,而对是否有持续的资源、持续的服务、持续的效用,缺乏科学的调研、规划和实践。语言数字博物馆建设应坚持公益导向,实现资源、管理及服务的持续发展。

1.资源及服务的可持续

有人将博物馆比喻成历史的“收纳盒”,因为它可以源源不断捡拾历史遗物,有持续的资源来源。语言数字博物馆也应如此。没有持续的资源来源就如同无本之源,最终走向“干涸”。语言数字博物馆的资源及其服务都不应是凭某时某地某所高校来实施,而需要学术团体、语言文化研究者、高校、基金会、博物馆、档案馆、职能部门的合作,以服务社会为导向,持续采集语言资源、创新服务。现阶段,面向语料库建设的语言资源采集常常有一种理论和实践的偏误,即采集者在规定时间完成某种语言或方言的采集,完成研究任务或者课题结项以后,一切便会终止,也不知他人或后来者是否可用、能用。这种任务式语料采集带来的后果是有采集经验的人不再持续进行采集工作,人力资源没有得到充分发挥,而且可能前功尽弃,后来者不得不重复劳动。语言博物馆的资源采集和服务是一个持续的进程。

2.管理的可持续

管理服务是语言博物馆是否可持续的关键。解决了管理问题,其他问题诸如资源来源、资源整合、资源安全和社会服务就迎刃而解。选择能提供可持续管理服务的责任主体,对语言博物馆的发展至关重要。目前国内高校建的小型语言博物馆都由高校自己管理(确切地说是由语言文学院系或研究所管理)。我们认为,高校适合作为科研力量参与语言博物馆建设,但不适合作为语言博物馆管理和运行的责任主体,因为高校不具备持续运营博物馆所需的基本条件。

专业博物馆有国家《博物馆条例》做法律保证。该条例明确了博物馆的实施原则、法人治理结构、组织管理制度、财政扶持政策。现时高校语言博物馆虽然名义上冠名为“博物馆”,实际上很多并未履行向政府部门申报及备案的法律程序,缺乏法律与政策保障。博物馆的馆藏资源(包括文物实物和非物质遗产)经过严格的认定、登记、定级,有严密的保护程序和措施,受《中华人民共和国文物保护法》和《中华人民共和国非物质文化遗产保护法》保护。高校语言博物馆的资源由于没有经过博物馆的审查、登记等法律程序,基本上都是学校自留自管,往往会因人员更替或当事人兴趣转移而遭到闲置和废弃,耗资几百万甚至上千万的馆藏设备和资源被丢失、损坏、失效,却无法追究刑事责任主体,可见高校语言博物馆的资源安全是很成问题的。

从人员条件来说,《博物馆条例》规定博物馆的管理运行应由“管理人员”和“专业技术人员”具体负责,而高校筹办的语言博物馆缺乏具备专业操作技能的专职人员,其“管理人员”多由下属院系或研究机构行政人员兼任,“专业技术人员”多由语言学者兼任,他们没有足够的时间精力投入到语言博物馆的管理运行上来。

从资源管理条件来说,语言数字博物馆依赖于数字网络技术乃至人工智能技术而存在,馆藏资源数据庞大,硬件和软件设施多,高校不具备对博物馆资源和设备进行有效维护和风险防范的技术条件和专业水准。

从社会服务能力看,高校的功能定位是教育与科研,其社会服务网络狭窄、服务类型单一。而且高校往往只在语言博物馆建设的初始阶段投入一定的资金,缺乏后续的财政保障。正如有人所言“语言保护事业……如果没有资金的资助,不管是从下而上还是由上至下都显得不够”[15]。高校的功能定位及资金困局,注定它很难将语言博物馆作为一种持续的社会服务推向公众。

总之,高校在法律制度、专业队伍、管理能力、社会服务方面先天不足,不适合也不应画地为牢自建语言博物馆。三四年前有些高校和地方政府部门建的语言博物馆或语言资源库平台由于缺乏可持续管理,宣传热闹一阵之后便告冷落,如今要么闲置一隅,要么成僵尸网站,或者数字资源受损,造成严重资源浪费。要根本上解决语言博物馆管理的可持续问题,就必须走专业管理之路——让专业的部门、专业的人员做专业的事情:各地高校的语言博物馆应切实移交到各省级博物馆或档案馆管理和运营。在我们看来,国家语言工程的资源(如语保工程的原始语料和纸质记录)应交由国家博物馆、国家图书馆或国家档案馆登记、保存、保护和提供服务,而不是由某些高校院系或研究机构来据为己有。这样才能科学有效地配置和利用资源配置,做到从法律和机制上保障语言博物馆持续运行。近年个别高校建设的其他类型博物馆这方面已有成功例子[注]如辽宁古生物博物馆是按专业博物馆的建制和机制管理的,沈阳师范大学相关院系只参与科研工作,并不是运营责任主体。湖南卫视汪涵出资采集的湖南方言文化资源也将交由湖南省博物馆管理。暨南大学研究团队的濒危语言资源在完成采集加工后也将整体移交广东省博物馆。。

四、结语

语言数字博物馆建设为新时期语言资源的保护、开发及利用提供了全新的视角,当然在建设的过程中也会存在各种各样的难题,其中第一位就是资源的采集整合问题。中国语言博物馆需要馆藏数百种少数民族语言及多种汉语方言资源,范围之广、数据之大超乎想象。然而国内在语言资源采集方面依然存在技术开放不够、信息沟通不畅、资源整合不全、研究环境封闭、重复性劳动等问题[16]。在理想与现实面前,社会各界尤其是语言研究界要秉持公益心理,摆脱学术旨趣和学术功利导向,加强学术交流和技术资源的开放与整合,统一语言资源采集标准,走上回报语言族群和社会发展之路。同时要积极争取语言使用者对语言博物馆建设的理解与支持,并力促他们发挥母语优势主动参与了语料采集中来,拓展语料来源途径,积累民间资源。进入21世纪以来,政府和社会对非物质文化遗产的保护力度正在逐步加大,对数字文化建设也愈加重视,例如2017年国家文化部发布了《文化部“十三五”时期公共数字文化建设规划》,该文件将数字博物馆建设纳入到了国家规划当中,这为将来语言数字博物馆的建设注入了希望也带来了契机。

猜你喜欢
语料馆藏博物馆
基于归一化点向互信息的低资源平行语料过滤方法*
馆藏几件残损《佚目》书画琐记
博物馆
博物馆的生存之道:馆藏能否变卖?
知还印馆藏印选——古印篇
露天博物馆
介绍两件馆藏青铜器
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
Reliability assessment consideringdependent competing failure process and shifting-threshold