《中国语音学报》近期刊登了科大讯飞公司祖漪清研究员等的论文《用语言复制方法记录濒危语言一一锡伯语案例》。该文提出了用人工智能技术记录濒危语言的一种新方法。我们从这一研究成果看到:语言学家跟人工智能工程师协作,可以在下面两个方面先行动起来:一是研究表情语;二是研究焦点与篇章之间关系。这项研究既可以取得有国际话语权的语言学成果,也会对AI技术发展产生重要推动作用。
赵元任先生在《国语语调》(1935)中指出:一国的语言除掉达意之外,还有表情的功能,特别是在艺术上所用的语言,例如在戏剧的对话里,那就全靠表情语调用得得当了;又在《北平语调的研究》(1929)中提出:口气语调有40种,其中以音高跟时间的变化为主要成素的27种,以强度跟嗓子的性质为主要成素的13种。“文革”结束后,1977年夏秋之交,语言研究所讨论如何恢复科研工作。吕叔湘所长找孙国华先生和我商讨开展汉语语调研究问题,希望我们用话剧语料研究语调。我俩带着吕先生的亲笔信给夏青先生,夏青先生把他保存的《茶馆》广播剧录音磁带给了我们。语言所陈建民先生和孟琮先生转录了这个录音语料,用于他们的口语语法研究。由于主客觀原因,我只能用实验句和文本句研究功能语调(《汉语语调实验研究》,林茂灿,中国社会科学出版社,2012;《汉语语调与对外教学研究》,林茂灿、李爱军、李智强,中国社会科学出版社,2019),对此我十分愧疚!因而,我衷心盼望有志于研究表情语调的专家,用话剧语料跟AI相结合的方法,来研究表情语调,一定会取得关于表情语调的有国际话语权的成果。这个成果是吕先生生前十分希望看到的!根据这个成果,还可以写一部图文并茂的《艺术语言》专著,填补这方面的空白,因为市场上尚无这类著作。
焦点与篇章之间关系的研究是目前语言学界的热门课题,我们如能把自然口语与AI相结合开展这方面研究,也一定能得到鲜为人知的结果。
语音学家及其他语言学家利用已有知识对自然口语语料进行精细标注(标注内容包括语音结构、句法结构、篇章信息结构以及超音段等),利用讯飞智能语音合成系统作为研究平台,通过合成验证的方式来细致考察对这些语料输入的语言学知识是否足够,发现什么新内容,看到什么新问题,等等。语言学专家使用这种把大规模自然语料与人工智能AI相结合的研究方法,运用自己的智慧对结果做思考和推断,这样既可全面观察到语篇各层级的语音结构,也可更深入全面地认识和发现语篇中的焦点、表情语调等韵律方面问题,以及语法等问题。当然,这些结果也可用于合成,使合成语音的自然度提高一步。
在智能语言技术已经到来之际,语音学家及其他语言学家应该积极行动起来,做好语音和语言数据资源建设方面的工作,为我国AI产业的发展提供坚实的数据支撑。我们期待汉语和少数民族语言的这种研究成果能够对中国科学技术发展发挥出更加重要的作用,使得所谓“得语言者,得天下”的论断为大家所共识,推动语言学发展。
这项工作需要大规模的语料,要对它做精细标注加工,还要跟人工智能工程师协作,使用有关设备,需要投入必要的物力和人力。我建议有关主管部门大力支持,给予立项,使这项研究多、快、好、省地开展起来,取得预期成果,以掌握这方面的国际话语权,为语言学发展做出更大贡献!