范俊军
(暨南大学 文学院,广州 广东 510632)
2015年5月14日,教育部、国家语委发布文件《教育部国家语委关于启动中国语言资源保护工程的通知》,决定自2015年起启动中国语言资源保护工程(简称语保工程),用5年时间在全国开展以语言资源调查、保存、展示和开发利用等为核心的各项工作*文件原文见教育部语言文字信息管理司网站:http://www.moe.gov.cn/srcsite/A19/s7067/201506/t20150610_189880.html。。此前2014年国家科技支撑计划对“三方工程中国语言资源有声数据库技术规范与平台研发”进行了立项,目标是搭建语言资源技术平台;而语保工程的主要目标则是“利用现代化技术手段,收集记录汉语方言、少数民族语言和口头语言文化的实态语料,通过科学整理和加工,建成大规模、可持续增长的多媒体语言资源库”*见教育部、国家语言文字工作委员会文件《教育部国家语委关于启动中国语言资源保护工程的通知》(教语信〔2015〕2号]附件《中国语言资源保护工程管理办法(试行)》。。这是迄今世界上由国家政府主持、工作规模最大的国家语言资源保护工程,核心任务是采用数字化媒体手段记录我国汉语方言和民族语言,将数字语料作为文化遗产永久保存。
实际上,早在本世纪之初,国际社会就已关注数字技术广泛应用所产生的大量数字资源的管理和保护问题。联合国教科文组织2003年第十八次全体会议通过的《保护数字遗产宪章》*联合国教科文组织《保护数字遗产宪章》(Charter on the Preservation of Digital Heritage)第一条。来源:http://portal.unesco.org/en/ev.php-URL_ID=17721&URL_DO=DO_TOPIC&URL_SECTION=201.html。指出:“数字遗产由人类的知识和表达方式的独特资源组成,它包括以数字方式生成的或从现有模拟资源转换成数字形式的有关文化、教育、科学和行政管理的资源及有关技术、法律、医学和其他领域的信息。那些‘原生数字’资源除了数字形式,别无其他形式……数字资源的形式多种多样,且日益增多,包括文字、数据库、静态和动态的图像、声音和图表、软件和网页等。它们存在的时间一般不长,需要有意地制作、维护和管理才能保存下来……这类资源大多具有长久的价值和意义,因而是一种应为当代人和后代人而加以保护和保存的遗产。各种语言、世界各地和人类的各种知识或表达方式都可能有这种呈增长趋势的遗产。”
本文提出“少数民族语言数字遗产”概念。它指早期和现时操作系统及应用软件生成的、现在和将来都有研究和利用价值的民族语言数字语料,包括具有社会历史文化意义和传统知识价值的语音、词汇、会话、叙述、解说、演唱等形式的音视频、文本、数据库和语料库。这些数字语料有的是从音像磁带转换而来,有的是纸质记录的电子文档,有的是数字设备和软件录制的原生语料。根据《中华人民共和国非物质文化遗产保护法》有关遗产的定义精神,结合我国少数民族社会、文化、传统知识的口头表达和叙述特性,我们将少数民族语言数字遗产划分为以下五种:
(1)少数民族濒危语言口语词汇、日常用语和各种情景话语。
(2)少数民族语言的口传文学和口述重要历史。
(3)少数民族语言讲解和叙述的本土传统技术和工艺。
(4)少数民族语言表达、叙述和演唱的传统风俗、礼仪、艺术。
(5)少数民族语言关于传统环境知识的词汇和表达。
应予以强调的是,少数民族语言数字遗产是指那些具有社会历史文化意义和传统知识价值的数字语料,而不是有关少数民族语言的所有数字资料。最明显的是排除了少数民族语言文字的研究资料。这是因为,少数民族语言文字研究资料,如学术论文和著作,是基于语料的描写分析,是第二性的数据;对语料的描述和分析常常是主观的、变化的、多样的,有的甚至是不科学或错误的,它们不具备长久的利用价值和传承价值。语料则不一样,它是活态言语的记录(文字记录或音像记录),属于原生语言资源。语言遗产在口头上表现为世代相传的言语,在书面则表现为文字(符号)记录的言语,即词语、语句、话语;其物理形态为发音说话的声音、图像和影像。作为活态言语样本的数字语料是客观的、不变的,无论现在或将来,无论任何人或任何目的,都可用作研究或其他用途,如语言教学或语言工程。正因如此少数民族语言的数字语料才具备现在和将来都有研究和利用价值。排除少数民族语言文字研究资料,体现了《保护数字遗产宪章》定义的精神。
我国大约由2000年开始普及台式电脑,语言学界开始用Office、WPS、北大方正等软件录入语言调查资料。大约2005年国内市场开始大量出现数字录音笔,语言学界从那时起开始用数字录音设备采集有声语料。十多年来,语言学教师和学生、语文工作者、地方文化和文艺工作者耗费了大量人力、财力和物力,采集和留存了大量的少数民族语言和口传文学艺术等数字语料,有的语言现已濒危或濒临灭绝,十年前记录的音像和文本语料可能是唯一的记录,这类数字语料现在和今后都有较大的研究和利用价值,属于语言数字遗产,应予以保存和保护,但实际情况并不乐观,主要有以下表现:
(1)数量巨大、保管分散
我国每年有超过100篇的学位论文以少数民族语言为题*这是不完全统计数据,有的高等院校的论文没有授权加入中国知网数据库。,超过30项少数民族语言的教育部人文社科项目、国家民委研究项目、国家语委研究项目、国家社科基金项目*数据来源:国家社科规划办官方网站的“国家社科基金项目数据库”,网址:http://www.npopss-cn.gov.cn/。中国高校人文社会科学信息网“全国高校人文社科研究项目”数据库查询结果统计,网址:http://pub.sinoss.net/portal/webgate/CmdNormalList)。,各省区每年还资助本省区的语言研究项目,将高校民族语言专业的教师、研究生、课题成员的语言调查工作全部统计在内,全国每年至少有100人次进行少数民族语言调查和记录。以每人记录2000词、100句、2~3段话语或口传文学,摄录50分钟时长的视频来计算,最近11年(2006—2017)采录的少数民族语言数字语料,保守估计数据总量也超过200T。这仅仅是从事民族语言教学研究的教师和研究生采录语料的估算,还不包括各地方少数民族文化领域和其他领域志愿者或爱好者采集的音像数据。
除了已经出版的少数民族语言的著作里常常附有词表、句子、长篇语料外,绝大多数数字音像和文本语料由教师、研究生、语文工作者、民间志愿者持有,小部分则放在一些研究机构的资料室。有不少个人持有的数字语料因持有者不再从事语言工作而被遗弃,即使保留在一些研究机构的资料也因人员变动和疏于管理而处于闲置和浪费状态。
(2)介质庞杂、格式老化
文本数字语料有doc、txt、xls、PDF、docx、xlsx等文件格式和某些专用软件格式。音频视频有早期录音笔和录像机的格式,不同媒体播放器的特有格式,旧操作系统或旧媒体解码软件的媒体格式。有的语料是数据库文件,包括不同数据库软件生成的数据库文件。除了文件格式多样,还存在语料内容、数据形式、数据结构细节等缺乏记录的问题。存储介质有早期的3寸磁盘、CD、DVD、U盘、移动硬盘、早期PC机硬盘、笔记本硬盘等等。林林总总各种各样介质和数据模式的语料,完整保留下来的有多少?存储介质完好的有多少?能有效读取和浏览的有多少?进行数据转换升级的又有多少?笔者认为,情况不容乐观。
(3)数据参差、无法互用
个人和某些机构保留的少数民族语言数字语料,有的音像数据有规范的转写和注释,有的则残缺不齐。注释文本有的使用通用字库,有的使用自定义字体,或两者混杂。转写多用office软件录入,文本和音像分离,且大多数语料数字文件缺乏有序命名和聚类编目。由于语料数据都是个人按自己的爱好或研究兴趣录制和处理,数据内容和质量参差不齐,没有遵循相关语言文字规范和技术标准,致使许多资料无法互用和共享。
数字技术不断革新,客观上会生成源源不断的数字资料。如前所述,我国每年有大量少数民族语言和汉语方言数字语料被闲置和遗弃,其中不乏珍贵的语言数字遗产。造成这种状况,除了设备和软件、操作系统升级换代等客观因素之外,主要原因是少数民族语言文化界在语言数字遗产保护方面的观念落后、行动迟缓、技能欠缺。
首先是认识不到位。研究生写完了学位论文,拿到了学位;教师出版了论文和著作,课题结项,晋升职称,以前的语料不再有“功利”用途,闲置就闲置,废弃就废弃,没有必要再保存或保护。其次是疏于行动。研究生三年苦读,耗费许多时间、金钱和精力;教师耗时几年完成项目和著作,大量第一手语料弃之可惜,但要长久保存,还得投入时间和精力,显得有心无力,难以顾及或懒于行动。三是技能欠缺。许多教师和研究生开展民族语言田野调查,上高山、入峡谷、过沙漠、睡草原、跑江湖,辛辛苦苦记笔记、录音录像,当然明白资料的价值,也想好好保存,而且不吝时间和精力整理这些语料,但苦于缺乏这方面的技能。
如何解决上述问题?虽然我国走过了十余年数字化历程,但形成一种普遍的学术观念和治学习惯,仍需要一二代甚至几代人的努力。我国在保护少数民族语言数字遗产方面比较滞后,主要有以下两方面原因:一方面,语言数字资源主要是民族语言和地域方言,语言数字遗产的产生和保护主要在民族地区和乡村方言区,而恰恰这些地区数字化进程滞后,数字资源创建、保存、利用的观念和技术的普及传播迟缓。因此,在民族地区和乡村方言区文化界,宣传保护语言文化数字遗产的理念,提高认识,显得极为必要和迫切。另一方面,国内语言学教学课程中尚未将语言资源知识纳入学科内容,学界未形成语言资源加工利用的治学习惯和工作惯性。因此,要在语言学界宣传和倡导保护语言数字资源的思想,促进学术意识的形成。
除了倡导保护语言数字遗产的理念,还应建立科学保护语言数字遗产的学术规范,以指导语言数字遗产保护的实践。少数民族语言专业的教师和研究生、地方民族语文工作者应积极行动起来,与相关学科展开合作,调查了解少数民族语言数字遗产现状,建立可行的语言数字遗产鉴别评估准则,使语言数字遗产调研和收集有章可循、有矩可依。
此外,要大力促进语言数字遗产技术工具的运用。虽然民族语言学领域在吸收前沿理论、先进田野经验、数字技术手段方面进展较快,但总体发展仍不平衡。例如,用数字设备采集语料,用软件工具加工语料,这方面技能还普及得不够。再如,采集和处理数字语料大多限于通用文字处理软件,对语料管理工具、转写工具、传播发布工具还普遍陌生。保护和利用语言数字遗产的基础工作是集成、加工、建档。个人或机构产生的数字语料都应进行集成,研发语言数字资源库,生成适合PC和手机端的网络资源。有志于保护民族语言数字遗产的人士,学习掌握二三种数字语料技术工具是十分必要的。尤其民族语言界的青年教师和研究生,应把语言数字技能作为专业能力的组成部分,养成运用语言技术工具的治学习惯。
保护和利用是一个事情的两个方面,保护是为了利用,有利用价值才需加以保护。保护少数民族语言数字遗产,最好的方法就是利用。单纯保存语言数字资料没有意义,只有语言数字遗产才纳入保护范围。语言数字遗产的核心是它的内容和数据实体,必须确保内容实体的数据永久有效、完整读取和浏览。将语言数字遗产的范围定义为数字语料而不是基于语料的研究资料,正是考虑到数字语料是原态语言资源,具有永久研究和利用价值的也是这种原态语料。同样,语言数字遗产是以多媒体数字档案库的形式存储的,语档本身也需要保护。保护语言数字遗产涉及以下几方面问题。
就数字遗产而言,哪些必须保护,哪些不必保护,首先面临数字遗产的鉴别和价值确定。如果对前面定义的五项语言数字语料属于数字遗产加以承认,那么根据《保护数字遗产宪章》精神,就应予以保护。但是,宪章只是国际共识,不具有法律约束力。作为数字遗产的少数民族语言数字语料(包括数字遗产档案),只有纳入法律框架才能实现真正的保护。目前我国还没有专门的“文化数字遗产”法律。作为数字遗产的民族语言数字语料*中华人民共和国第十二届全国人民代表大会常务委员会第二十四次会议2016年11月7日通过的《中华人民共和国网络安全法》自2017年6月1日起施行。该法定义的“关键信息基础设施”主要是指国家对公共通信和信息服务、能源、交通、水利、金融、公共服务、电子政务等重要行业和领域,以及其他一旦遭到破坏、丧失功能或者数据泄露,可能严重危害国家安全、国计民生、公共利益的关键信息基础设施,但未涉及其他数字化数据的安全保护问题。,究竟属于哪类遗产,适用哪种法律?如果属于文化遗产,它适用哪部法律?*2011年通过的《中华人民共和国非物质文化遗产法》第二条中所列六种非物质文化遗产中未明确涉及数字遗产,但第(六)“其他非物质文化遗产”是否也包括数字遗产?目前没有见到相关法律解释。如果属于其他数字遗产,又适用哪部法律?从实践上看,保护少数民族语言数字遗产,需要明确的政策和相关法律支持。
保护少数民族语言数字遗产的实施主体是个人还是机构,或两者均可?如果民族语言学界普遍具有语言数字资源的保护意识和行为习惯,这个问题就迎刃而解。个人保存语言数字遗产很难持续三代,而且常常限于个人利用,不能做到社会互用和永久有效。少数民族语言数字遗产的保护归根到底应由公共服务机构承担。那么,哪些机构有这种义务和责任,博物馆、档案馆还是图书馆,或者三家机构都有责任?如果图书馆、档案馆、博物馆愿意保存语言数字遗产,但要确保语言数字遗产永久可用,则需要持续的人力、物力、财力支持,这又回到了前面的政策法律依据问题,因为只要有法律依据,有关机构才能获得持久的人力物力财力保证。当然,我们不能等到法律或政策出台才去实施民族语言数字遗产保护。在现实情况下,民族地区图书馆、博物馆、档案馆等公共服务机构,作为民族语言数字遗产保护的实施主体,应主动承当相应社会义务。可以利用民族语言数字遗产,开展社会化和市场化的语言资源数据服务,吸收社会资金,解决遗产保护所需的人力物力和财力支持问题。民族语言教师、研究生、语文工作者应无私地与这些公共服务机构携手合作,在语言数字资源产学研转化方面做出努力和行动。
现时而言,将国内少数民族语言数字语料集成化、数据库化和网络化,是最有效的保护和利用。数字遗产持有人即使保留了齐全的数据文件,编制了目录,建立了完整的文件包,充其量是自己使用或复制给个别人使用,但无法保证数字文件的长期安全,更无法做到将数据便捷地呈现给社会。可见,语言数字遗产的保护,除了数字语料集成,还要制成数据库,实现网络化。
集成加工、制作数据库和网络传播,需要个人和服务机构普遍掌握相关技术工具。技术工具可从现有工具中优选,也可开发。选用什么工具取决于现存语言数字遗产的数据模式和文件格式。现时的语言数字遗产数据模式和文件格式主要有以下几类:
(1)媒体文件。wav、MP3、mp4、mpg、avi、wmv、qt或某些软件专用文件格式的语言词汇、句子、话语音频和视频文件,其中大多数是录音文件。词汇和句子的录音文件既有碎片式,即每个词、每个句子单独一个音频(含视频文件);也有长时文件,即多个单词或多个句子录在一个录音文件里。话语录音则主要是长时音频(含视频)文件。
(2)文本数据。doc、PDF、xls等格式的词汇、句子、话语文本,包括单语的语料和多语的对照语料。其中词汇资料大多是二维表word文档,句子是注音、汉语词对译、句意译三行标注的word文档。话语文本(一般是口传文学和少量对话)分三种:一是注音、汉语词对译两行,另加整个话语的汉语意译文段;二是整个话语的注音、汉语意译两个文段;三是注音、汉语词对译、汉语句意译的三行对齐文本。
(3)特定词汇、句子、语篇文本和/或多媒体数据。有的是自行开发的数据库软件,如中国社会科学院民族学与人类学研究所的“汉藏语言同源词数据库”是单机版词汇数据库;暨南大学发布的Sonicfield可生成单字、词汇、句子多媒体数据库;国家语保工程的录音录像软件和标注软件生成的字词句电子表格、话语xml文本、音频视频文件。此外,还有使用Toolbox、Flex、ELAN、EXMARALDA等国外软件创建的词汇、句子、话语语料库,这些软件有自己的数据模式,但多数可转换为通用数据模式。
语言数字遗产集成化和数据库化是过程和方法,网络化才是目标和结果。单纯将语言数字遗产集成,即使有文件目录分类,也不便互用。数据库虽然可以互用,但它依赖特定的硬件和软件环境,仍然存在过时而无法读取的风险;而网络化的云服务,既方便数据资源的互用,又大大降低了数据风险。
从语言数字遗产加工技能的普及来看,目前应选用规模集成上述三种数据的工具,这种工具要能便捷生成适合PC和手机端的数字语料网页文件,如词表(含音系表、词汇对照、音节词汇等)网页文件、句表网页文件、话语网页文件,从而快速实现语言数字遗产的网络传送和使用,以满足语言族群、社会大众的学习和利用的需要。
各行各业近十年来都在实施数字化网络化。自PC机和网络尤其是移动网络和社交平台普及以来,人类的所有行为都不知不觉打上了数字烙印或进入了数字世界,现实世界和数字世界已融为一体。数字化既蕴含着无尽潜能,也潜藏着巨大危机。当人类生活和数字产品、数字空间不可分、紧相依的时候,对数字危机更应当有清醒的警觉。譬如,一叠珍贵的手稿掉落水中,可以及时捞出、晒干、擦净,恢复全部或大部分内容。数字化数据可能十分脆弱,数字天空布满了云朵,五彩缤纷、美艳夺目;当我们在数字云端游移飞渡、自由翱翔的时候,是否想到云朵聚集之多,天空不能承受之重,惊雷霹雳骤然而至,云朵瞬间会被击得粉碎?数字网络的数据障碍、数据损坏、数据瞬时消失所带来的巨大数据灾难,与天上的云朵气象何尝不是如出一辙。