宋金淼,王楠楠,窦浩鹏,周 未(大连民族大学 .大连市民族文化数字技术重点实验室;b.文科综合实验教学中心,辽宁 大连116605)
中国是一个多民族大杂居小聚居的国家,各族人民在长期生产生活中创造了各具特色的民族文化,畲族口传文化是中国民族文化最具代表性的内容之一,畲族民间口传文化相当丰富,如畲族神话、故事、民歌、民谣等。作为有语言无文字的民族,语言的保护尤为重要。畲族语音交互平台包括畲族文化研究、畲语采集方案设计与语音处理研究、媒体播放技术、移动应用设计与开发,网络服务接口与数据交换等技术,实现畲族语言教学、文化保护与传承功能。
畲族是中国东南地区古老民族之一,主要聚居在福建、浙江、江西、广东、安徽等省份。畲族内部交流使用本民族语言,与其它民族交流使用聚居地方言或普通话。由于社会的发展,会使用本民族语言的人越来越少,畲族使用本族语的人数比例为0.15%,而转用其他语言的人数比例占99.74%[1]。文献[2]以移动终端作为民族语言学习的工具,利用HTML5网页在移动终端上显示,解决了大多数民族语言在移动终端上的显示问题,但受网络因素制约会出现数据加载迟缓问题。文献[3]实现了多界面的连接和界面多内容的滑动显示藏汉双语,并且成功输出对应藏文的音频,但软件平台属于单机应用灵活性和扩展性不足。目前拥有民族语言文字信息化处理平台较少,能把畲语与信息化平台相融合的更少。此外,在互联网方面淘宝网上畲族商品只有10余种不重复的商品,关于畲语语音方面则是更少;在互联网娱乐媒体中,优酷上畲族视频仅有2 000个,其中高清和超清视频总共仅有1 330个;在手机软件方面,苹果APP与畲语语音相关的数量为0,Android应用商店里与畲语语音相关的APP数量为0。从目前来看,畲族文化遗产保护工作进展缓慢,针对畲族语言文化研究工作严重滞后,把畲族语言研究与日益发展的技术融合的工作亟待推进。
建立畲语口语语料库是濒危语言畲语数字化保护基础性工程。建立畲语口语语料库,一方面能够实现对畲语的抢救与永久性保存,另一方面它能够为后续研究语音识别技术提供有力可靠的数据基础。经过对抚州畲族聚居地实地走访调研畲族语言语音文化,研究多媒体数据库设计与管理的相关资料,选调本族群人和语言专家进行汉语的转译,最终收集整理畲族语音资料包括采集的初选畲语口语语料、对畲语语料进行的口语发音的国际音标标注、汉语对译标注和汉语翻译标注资料。原始畲语口语语料预处理是整个工作内容的基础,包括三个方面的内容:语料的标注与转写、语料校验以及语料的更新与存储,畲语口语语料的处理总体流程如图1。
图1 畲语口语语料处理总体流程图
首先,原始口语语料的标注与转写这个过程是由畲族人与语言专家共同完成的,将原始口语语音语料的音频文件导入到软件中,对语音进行切分。建立转写标注层,包括音标、畲语标注语料对译、畲语标注语料翻译、畲语-语法标注、畲语-语法备注,此部分工作由人工转写与标注。然后利用软件对音频格式的语料进行转码,转换为国际通用编码格式,设定奇数行为畲语-国际音标,偶数行为畲语标注语料对译,利用计算机编程实现句子之间的分离,人工按照顺序进行一一对应地学习与校验。最后,将语料的更新与存储存在的问题进行反馈,由母语人和语言专家将标注转写的语料内容中的任何漏标、误标、多标、标注不统一等情况进行修正更新,形成了一套完整无误的畲语口语语料,将畲语口语语音音频文件以及畲语口语标注转写语料文件进行存储到数据库中。
由于采集到的原始语音信号带有噪声,直接使用不利于平台用户学习体验,需要进一步降噪处理,语音信号降噪前需要对原始语音信号频谱分析和滤波。本文选择快速傅里叶变换方法进行频谱分析和用双线性变换法设计的低通滤波器,具体实现通过MATLAB工具箱提供的函数完成。
本文选择基于语音激活性检测的噪声估计算法作为噪声估计方法,主要关注语音背景噪声特性和无音语音段检测。语音活性检测一般基于语音帧处理,具体可以概括为:从输入信号中提取一个或一系列的对比特征参数,然后将其和一个或一系列的门限阈值进行比较。如果大于门限阈值则表示当前为有音段,否则就表示当前为无音段。基于信号的短时能量检测具体算法如下:
Step1:定义短时平均幅度函数来表征一帧语音信号的能量大小为
(1)
式中:N为帧长;n为帧的编号;m为每一帧中的各点;median为每一帧帧向量的中位数;1≤n≤L,L为帧数。
Step2:L帧平均噪声能量Em。
Step3:求能量最大值和能量最小值。
Emax=maxE(n),n=1,2,…,L,
(2)
Emin=mixE(n),n=1,2,…,L。
(3)
Step4:根据式(4)确定门限,
T=min[0.25(Emax—Emin),3Em]。
(4)
最后使用谱减法处理语音噪声。谱减法就是从输入信号的幅度谱中减去估计得来的噪声平均的幅度谱,其效果相当于在变换域对带噪信号进行了某种均衡化处理。
畲族语言文化数字化系统是一套转译畲语设备和软件的集合,它具有畲语数字化传输和存储,资源共享,操作人性化等特点和优势。本论文对畲族语言数字化系统的整体方案进行了分析和研究,解决了语言学习终端存在的数据传输,流媒体等方面的技术难题。
本平台主要采用C/S模式,服务器端利用Visual Studio 2017搭建的Web Services为其他接入终端提供远程访问数据接口;终端设备则利用Wifi或移动信息号网络访问服务器端提供的数据接口来获取有效数据信息,系统业务模型如图2。畲族语音交互平台在数据的传输过程中对数据进行AES对称加密,保证数据的安全。系统在数据交换过程采用消息异步通信方式,提高数据响应速率与用户体验。Web Services提供统一格式数据交互接口,其他系统通过接口协议与平台进行数据交换,在人机交互过程中消息流不会被复杂的内部网络操作流所拦截,保证了系统整体的设计与架构的稳定性。接口程序编写采用XML协议封装数据用以在因特网上传输,使用SOAP协议来实现访问服务,使得服务接口具有良好的封装性和松散耦合。对于使用者而言,只能看到服务的描述,对与调用者来说,服务接口实现的任何操作都是透明的[4]。平台整体架构采用分层设计,数据的交互不会对原有业务系统的功能和业务操作产生任何影响,逻辑层定义系统访问接口、数据交换方式和业务需求逻辑,各个功能模块封装成服务接口发布供表示层和其他需要数据交换的业务系统或平台调用,采用分层设计和接口交互方式使得系统具有良好的可扩展性和可维护性。
图2 服务程序设计与数据交换流程图
畲族语音交互平台分为移动APP、web servers应用服务接口系统、语音文件处理系统三部分。利用录音采集平台收集原始畲族语言语音文件,通过语音文件处理系统完成语音词语和短句分割、语音语料库构建、降噪等处理,再使用网络通信与服务器进行数据交互,移动APP对数据进行封装和组织呈现。畲族语音交互平台界面如图3。平台提供畲语学习、畲族习俗、畲音唱响三部分功能,其中畲语学习模块包括八个类别词语和一个类短句,畲族习俗模块分为畲族历史介绍、畲族服饰、畲族风情3个子模块,畲音唱响模块提供畲族代表民歌、儿歌等口传艺术欣赏,另外,为了方便用户学畲族语言设计了语速、音量调节和播放与停止功能。
图3 畲族语音交互平台部分界面展示图
本文介绍了语音处理技术、网络通信技术和移动开发技术在民族语言文化方面的应用研究。由于语音技术在少数民族文化研究工作中的应用刚刚起步,具体研究技术和方法有限,本文相关成果对今后民族语言语音数字处理、语言知识网络的语料库构建具有参考作用,对畲族语言文化数字化保护与传承有促进作用。由于当前采集词语和句子的语音数量有限,在以后工作中增加语料库内容逐渐扩展成为多民族语言语音学习系统,从而进一步提高应用系统受众性。
参考文献:
[1] 赵峰. 闽东畲语濒危现状考察[J]. 长春工程学院学报(社会科学版), 2009, 10(1):75-78.
[2] 刘锦,周喜,张岩.基于 Android平台的维-汉双语显示和播放方法[J]. 计算机应用与软件,2014,31(7):241-244.
[3] 荣再辉, 许宁, 漆婉春. 基于Android平台的藏汉双语学习软件的研究与实现[J]. 西藏科技, 2015(12):75-77.
[4] 范华峰. 基于Web Services的数据交换平台的设计与实现[D]. 南京:南京大学, 2010.