人工智能助力濒危语言保护

2020-12-26 06:21罗蓉澳大利亚国立大学
科技中国 2020年12期
关键词:民族语言语音人工智能

■文/罗蓉(澳大利亚国立大学)

当前,随着经济、文化的全球化,主流或通用语言更加强势,弱势语言正濒临消亡。目前世界上大约有7000 种语言,而据语言学家预测,大部分将于21 世纪末消失。如果一种语言消失了,与之对应的整个文明也将随之灭亡;如不及时对弱势语言采取措施, 我们将失去对人类文化遗产完整记录的机会。众所周知,语言是人类进行沟通交流的主要表达方式,也是文化的载体和重要表现形式,还是一个民族的血脉和精神家园。因此,濒危语言的保护已经成为一项重要而迫切的工作。

中国著名学者周海中先生曾经指出:当今处于弱势的民族语言正面临着强势语言、全球化、互联网等的冲击,其社会使用功能正处于逐渐弱化或消失的危险境地;保护民族语言,有利于人类文明的传承和发展,也有利于民族团结、社会安定。保护语言多样性就是保护文化多样性,而保护文化多样性也是保护人类命运共同体的多样性。可以说,民族语言不仅是民族存在的最重要的特征之一,也是民族文化传承、发展、繁荣的重要载体,更是人类文明进步和社会和谐稳定的重要标志。

如今,人工智能(Artificial Intelligence,简称AI)在人们看来已经不再陌生了,大家都已亲身感受到它对我们日常生活的影响:人脸识别、语音控制、无人驾驶、智能家居、智能机器服务等;但是其实,人工智能的使命远远不只是方便人类,更是守护地球文明。在濒危语言方面,语言记录很大程度依赖人工,然而其结构复杂多变,想要归纳完整的语音变化、语义分析、语法分析等,单靠人力是不现实的。另外,被研究语言的采集、文本转写缺乏规范也存在许多具体困难。

目前,人们正在利用人工智能技术系统地研究濒危语言,实现对其完整的记录。人工智能技术可建立完善的语料库,记录内容包括:确定该语言的语音结构,分析该语言的句法结构以及基本意义单位和主流语言的对应关系等。运用语音识别、语音转写、语音合成等人工智能技术,口音与文字可以更好地结合,实现濒危语言的的语音输入。如此一来,即使没有文字的濒危语言,也有条件转换成主流语言文本,得以记录与传承。

前不久,美国著名未来学家托马斯·弗雷先生提出了“全球语言档案馆”的设想;在那里,他利用人工智能技术把不同的民族语言以视频、音频和书面文件的方式存档。弗雷先生目前已经联合世界各地的学者收集了近4000 种语言的数据,其中许多是濒危语种。他将收集到的语言资料输入到人工智能语言重建引擎,其能够生成一个功能性的三维立体化身,将语言传授给想要学习它的人。他表示,人工智能引擎将更进一步填补任何语言空白,在需要时创建一种语言的书面形式,并提供语言之间的翻译。

在中国,科大讯飞利用人工智能技术寻找濒危语言中不同尺度的音节语义之间的关联和模式,在超强算力的服务器的协同配合下,最终形成语音库,实现了濒危语言的留存。凭借先进的智能语音技术,该公司覆盖多个少数民族语言及方言的语音系统已经在语音输入法、翻译机、自动评测以及播报中得到实际应用,进一步推进民族语言、地方方言的保护和传承,为维护语言生态多样性做出了贡献。另外,阿里巴巴AI Labs 最近宣布,正式成立方言保护专项小组,投入1 亿元对汉语方言进行保护和开发。

加拿大非营利慈善机构——第一民族文化委员会(FPCC)最近为了支持不列颠哥伦比亚省的土著语言、艺术、文化和遗产的复兴,与当地社区合作,通过其First Voice 平台保存语言数据,制作教学程序和应用程序。First Voice 的最新创新是一款键盘应用程序,可让用户在移动设备上的任何应用程序上输入超过100 种当地语言,包括社交媒体、电子邮件和文字处理。First Voices 将其语言数据存储在Nuxeo 中,Nuxeo 是一个开源的云本地内容服务引擎,集成了人工智能和机器学习。

澳大利亚ARC 语言动态卓越中心(CoEDL)与美国谷歌合作,最近开发出濒危语言人工智能平台;该平台通过人工智能模型转录原住民语言,已存储超过4 万小时的录音。这不仅节省了大量的时间,而且还提高了记录的准确率。目前,他们已经为20 多种澳大利亚土著语言建立了人工智能模型。另外,CoEDL 为了向生活在偏远社区的儿童教授澳大利亚的土著语言,还开发了一种低成本、易于运输的智能机器人Opie;该机器人能记录孩子们的语言技能,供老师跟踪他们的语言学习情况。

由于人工智能技术在语言存储和学习方面的优势,现在它在拯救濒危语言的过程中变得空前重要。不过,想通过这一技术使这些语言得以保护还面临很大的挑战,例如许多土著语言一般是通过口述的方式进行传承,如果将其转化为文字,可能会改变或者无法完整地表达其原本含义;但是我们可以相信,在现代科技,尤其是人工智能技术的助力下,濒危语言的保护问题一定能够得以解决。最后,笔者希望有越来越多的人和机构参与濒危语言的保护工作,为建设语言生态文明和保护世界文化多样性贡献智慧和力量。

猜你喜欢
民族语言语音人工智能
三元互动下的德宏民族语言舆情探究
魔力语音
基于MATLAB的语音信号处理
中国民族语言的标准与数字化
基于MQ3与MP3的价廉物美的酒驾语音提醒器
2019:人工智能
对方正在输入……
人工智能与就业
数读人工智能
浅谈如何有效地实施农牧区藏语文双语教学