一种网络多模态语料库构建方法

2018-11-19 11:05张晓

软件导刊 2018年11期

张晓

(伊犁师范学院电子与信息工程学院，新疆伊宁 835000)

0 引言

语料库作为大数据的一部分，目前已广泛应用于社会各个领域[1-6]。由于语料数据的特殊性，语料库建设周期往往较长。虽然目前一些语料库建设中能够通过爬虫等技术自动获取所需语料信息[7-11]，但对于一些濒危语言或网络信息量本来就很少的语言或方言，能爬取的内容则相对较少，所以此类语料库建设仍然需要语言工作者通过人工完成。此外，对爬虫算法性能的检测也需要标准库的支持。

目前语料库根据语料类型可分为两类，一类是单模态语料库，另一类是多模态语料库。单模态语料即为纯文本语料，此类语料库相对简单，利用传统的语料库工具即可实现。因其语料为纯文本形式，所以利用XML类的文本标记语言很容易实现网络化[12-14]；另一类为多模态语料库。多模态语料库将音频、视频及文字语料等多种信息加以集成，研究者可通过多模态方式对其进行加工、检索与统计[15]。由于多模态语料库较为复杂，在建的语料库大多为单模态语料库[16-18]。目前与语料库建设相关的工具软件也比较多，如Transcriber、ELAN、Praat等，但语料库作为大数据非常重要的一部分，对其进行网络化已是必然趋势[19-20]。目前多模态语料库的网络化仍需要基于数据库技术实现[21-23]，这对于从事语料库建设的语言工作者而言是十分困难的，因而导致网络语料库建设进展缓慢。本文将介绍一种网络多模态语料库建设方法，其不需要非常专业的计算机技术支持即可完成，从而使后期语料库资源扩充及维护工作量大幅下降。本文采用的基本功能软件有：音频编辑软件、语料转写标注软件、语档创建工具软件，分别推荐使用Audacity、Excel与Sonicfield。

1 功能软件简介

1.1 Sonicfield

Sonicfield也称为声飞，是暨南大学汉语方言研究中心研发的一款免费语言调查与建档工具，其支持录音、注音、多媒体网页语档创建等功能，是一款小巧实用的功能软件。与其它软件相比，其优势在于对字、词、句语料的采录与处理，且操作简单，易于掌握。软件主要功能有：新建或导入调查表、条目录音与转写、提取词表及句表、输出网页、创建语料库等。

1.2 Audacity

Audacity是一款跨平台的免费、开源声音编辑软件，可从其官方网站下载https://www.audacityteam.org/download/。Audacity具有录音、音频编辑、电子音乐制作等功能，可在Windows、Mac、GNU / Linux及其它操作系统上运行，支持多种文件格式，如：WAV、AIFF、AU、IRCAM、MP3及Ogg Vorbis等。软件功能较为强大，包括：环境噪声与人声音量测定、降噪、剪辑、碎片音频导出、格式转换等。在应用这些软件之前需准备好语料的文本部分，包括少数民族语言/方言文本，若因语言的书写方向或其它原因无法直接使用，还应准备对应的转写文本。另外还可根据需要准备国际音标、汉语拼音等素材。

2 实现流程

语料库建设基本流程通常包括以下几个阶段：脚本征集编写阶段、音视频采集阶段、转写标注阶段、语料库生成阶段。语料库的有声语料包括单字录音、词汇录音、句子录音、话语录音4大类[24]。

第一阶段最终需给出符合一定规范要求的脚本，并根据需要给出转写及标注文本；第二阶段需对这些脚本进行音视频采集。在语料采集前应填写相应的记录资料存档表及发音合作人基本情况表[25]。为了使语料库将来能作为语音标准数据库用于语音识别、检测等，对于字、词、句的发音人，若有条件应选择以本民族方言为母语的播音员。对于发音人性别的选择，从应用效果看，女声比男声更加清晰，且更具有亲和力[26]；第三阶段的语料转写是指呈现能够通过感官直接观察到的语料信息，而标注则是根据研究者从事何项研究、采用何种理论而对语料信息进行选择性地加工与呈现，是将信息转化为数据的过程[15]。选取合适的工具软件，实现对媒体文件的转写标注，并给出标注文件；第四阶段将得到的所有标注文件及文档组织成语料库。

本文将重点介绍利用Audacity、Sonicfield与Excel创建网络多模态语料库的详细过程。因第一与第二阶段不是本文主要内容，在此不作过多阐述。

2.1 转写标注

语料库建设过程中的一个重要阶段就是转写标注。在得到转写标注文本后，发音人需要对其进行录音或录像，生成媒体文件，下一步即对媒体文件进行转写标注。目前已有ELAN、Praat、EXMARalDA等转写标注工具，因后期Sonicfield可支持的导入文件类型很多，如EXMARalDA、ELAN、Audacity标记、Sonicfield XML及Excel文件等，这里使用最熟悉的Excel文件进行导入。以下以锡伯语语料库为例进行说明。

对锡伯语进行三层标注，分别是锡伯语的拉丁转写、国际音标与普通话翻译。对于以下词汇内容，只需按列导入到Excel中即可，列标题分别为编码、民族文字、国际音标和条目。

编码民族文字国际音标条目1dededd阿姨2heerremxεrm爱3pakaphakha矮

需要说明的是，因Excel中的数据将作为后期Sonicfield的数据源，因此其列标题定义要与Sonicfield中的定义相符，而且其中必须有编码与条目，且编码不能重复。

2.2 音视频文件切分

本文使用Audacity进行录音文件切分，具体步骤如下：

(1)用Audacity打开录音文件，执行“轨道”菜单中“增加新轨道”下的“标记轨”命令，将会在声波下方增加一个新轨道——“标记轨”。用鼠标选择需要切分的音段，执行“编辑”菜单中“标记”命令下的“为选区添加标记”操作(快捷键Ctrl+B)，在编辑区写入标记，按“回车”确定，如图1所示(注：这里的标记应与Excel中的编码相同，并与之一一对应)。

图1 添加标记

(2)执行“文件”菜单中“导出”命令下的“导出多个文件”选项，选择输出路径、输出格式等，“命名文件”选择默认选项。对每个导出都作出提示，完成后提示总共导出的文件数。

2.3 网络语料库建设

网络语料库建设需要经过以下两个步骤：网页文件生成与语料库组织发布。

2.3.1 网页文件生成

网页文件的生成方法很多，如使用EXMARaLDA生成网页文件等[27]，本文采用Sonicfield进行文件生成。

在前期使用Excel生成转写文件，利用声飞Sonicfield“文件”菜单下的“导入”命令导入Excel文件；导入成功后，录音状态显示为“未录”，此时执行“选项”菜单下的“录音模式”命令，选择“导入录音”下拉列表框里的“按编号批量导入”，找到Audacity导出的文件路径，选择所有要导入的文件(Ctrl+A)，点击“打开”，出现导入进程条；当导入结束时，“录音状态”变为“已录”，如图2所示。

图2 声飞导入转写文件后页面

另外，如果录音过程尚未完成，可在导入转写文件后，请发音人在录音模式下再进行一条条录制。

在绑定切分完成后，执行“文件”菜单下的“导出”命令，在“保存类型”列表中选择“带音视频网页”，即完成网页文件导出。

打开网页文件，可看到在每个条目旁有一个小喇叭，点击即可播放该录音文件，如图3所示。

图3 导出音视频网页

若是视频文件，旁边则出现摄像机符号，点击可打开小窗口播放视频，如图4所示。

图4 视频媒体播放效果

2.3.2 语料库组织发布

语料库中含有大量信息，根据其所属类别分别组织为不同的转写文件或文本。由于文件之间相互独立，本文利用Sonicfield的语档管理功能完成对文件的组织。在组织语档之前，应准备好网页文件及说明性文本文件，然后执行“语档”菜单下的“创建语档网页”命令。

整个创建过程分为4步：①填写语档元数据；②输出调查表网页，如果前期已生成网页，可跳过该步骤；③组织网页文件，主要完成概况填写并添加网页文件；④生成语档网页，将所有添加的文件组织在一起并放在各自的文件夹下，生成一个主页文件index.html。语料库运行界面如图5所示。

图5 语料库运行界面

“点击浏览”栏里列出了所有添加的文件，单击可打开相应页面。如点击“词表”，即打开如图3所示页面。

后期可与相关部门协商将该语料库文件上传到相应网站，即可通过互联网进行浏览。

3 结语

基于网络多模态语料库的语言研究对于拓展语言学研究视野、推动语言学理论发展具有一定促进作用，对其它人文社科的研究也具有参考价值。本文介绍的方法仅利用简单的技术即实现了网络多模态语料库建设，与传统的程序设计开发方法相比，大大降低了成本，使网络多模态语料库建设从此步入快车道，进而使得语料库成果受益人从先前的少数专业人员扩大到广大语言爱好者。该技术的推广对于少数民族语言/方言资源的保护与研究具有重要意义。