“混合现实”技术在建设布依语词汇数据库中的应用

2020-11-23 10:03代少若黄承慧
贵州工程应用技术学院学报 2020年5期
关键词:音频现实词语

代少若,黄承慧

(1.兴义民族师范学院文学与传媒学院,贵州 兴义 562400;2.广东金融学院数据科学与大数据技术系,广东 广州 510521)

语言是一种社会资源,拥有与其他资源共同的属性,但比较起来,语言具有文化传承性等独特性。在资源的保护方面,由于语言的存在是与人类社会族群相依存的,语言的发展受其社会功用性影响而呈现出不同的活力,语言一旦消失,就不可再生,具有矿产物质资源的有限性特点;而活的语言,如果不能扩大其社会应用范围,激发其自身系统的创造力,也会逐渐被淘汰直至消亡,这又有生态资源的特点。语言的本体特点显示,对语言进行保护,必须考虑其作为一种特殊社会资源具有的多样性,相应地在实际操作中,就要在保护方法、策略上采取一些特殊的措施。李宇明提出,把语言资源分为口头资源、书面资源和衍生资源(语言知识、语言技术、语言艺术、语言人才等),认为语言资源具有语言保护、语言信息处理和语言学习等三大功能域,并把语言看作是贮存人类语言知识体系及文化体系的知识库,即“语言知识观”。在人类文明社会即将进入智能新时代的背景下,按照“语言知识观”建设语言资源,才能满足语言保护和机器语言学习、人类语言学习的资源需要。[1]

一、语言资源保护及方法概述

作为一种边际性效用未得到凸现的社会资源,语言资源的重要性是伴着学界的认识而逐渐加深,并在语言资源保护实践中逐步得到彰显的。国内语言学界对语言资源的保护行为,早期主要以大型语言调查为主。上世纪30年代,赵元任、杨时逢等先生领衔进行了全国汉语方言调查;新中国成立后,1956年,根据国务院指示,教育部及中国科学院语言研究所等单位展开了汉语和少数民族语言调查;1999年,教育部等11部委联合开展了中国语言文字使用情况调查。

李宇明评价后两次调查,认为对了解语言国情有一定的作用,但并没有达到“语言普查”的水平,没有采录语料,人们籍此无从了解所调查语言的实际情况。[1]这种偏于书面记录的语言调查模式,在中国语言学界长期以来占主流地位。同时,这种调查模式是以专业人士为主并主要为学术研究服务的,研究的成果很难让普通群众认知,也很难在社会应用层面进行成果转换。

21世纪初期,以“中国语言资源有声数据库”、“中国语言资源保护工程”为代表的两个语言保护建设项目,标志着中国语言资源的保护工作进入了书面记录与语料音视频保存同步并行的阶段。这两个建设项目涉及面广,群众参与度及接受度高,社会影响大。除此之外,还有许多语言类微信公众号定期推出中国语言类的推文,并配以与图文相应的语言音频或视频,以自媒体的形式进行语言资源保护与推广。目前,语言资源数据库主要以网络数据资源库形式呈现,随着网络科技的发展应用而不断深入到社会生活的各个角落,可预期语言资源数据库的应用开发潜力将不可限量。

中国语言资源保护的每一步发展,都是伴随自然科学技术特别是计算机科学的发展而实现的。调查中的录音工具及储存方式从早期的盒式录音带,到后期的电子录音笔、计算机语言调查录音软件、大容量数据储存器等设备及调查辅助手段。计算机信息科学的每一次发展,都促使着语言调查向着更简捷、更科学,可进行更大规模调查的方向发展。

二、语言资源“混合现实”全景式开发应用模式

“混合现实”(Mixed Reality,简称“MR”),是一种基于现代摄像技术与计算机技术发展成果的技术。即一种利用摄像的记录功能将真实的场景记录下来,然后通过计算机“混合现实”技术软件进行后期处理,在浏览终端实现三维的空间展示新兴技术。目前,互联网媒体上类似的应用基本上是“混合现实”技术,但社会大众一般称为“虚拟现实”(即Virtual Reality,简称“VR”)。“虚拟现实”是完全由计算机虚拟的空间,与以摄录的实景为基础的混合现实而形成的三维空间是有区别的。

现在又有成熟的航拍技术加持,使得“混合现实”的三维空间展示具有俯瞰的视角。相对于一般3D建模、“虚拟现实”所实现的虚拟三维空间,“混合现实”的观感体验更恢宏廓大,效果更客观真实,让观者真正获得身临其境的体验。同时,还可以在“混合现实”的混合场景中,链接音频、图片及视频,使“混合现实”获得除全方位、多维度的展示外,还能达到“声光景”多种感官的互动体验。

语言是一种具有符号性的声音,这种声音通过其无穷的组合形式来表达变化万千的客观世界。也就是说,语言是对客观现实及内部间各种关系的一种抽象表达。这种最经济的抽象表达,理论上具有表达范围的无限性。但事实上,语言在表达客观现实的时候,存在功能有限性。例如,不能跨时空交流,所以产生了文字;对复杂、严谨的抽象推理过程描述,需要借助专业科学符号,等等。科学的发展不断拓宽人类可到达的领域,使个体可以接触到的信息也呈几何级别增长。现在人们的学习也需借助多种辅助手段,以达到正确而迅捷地获得知识的目的。当然,这些技术上的进步与发展,也要借由语言的社会功能、思维功能才能达成。但是也要看到,在社会发展新形势下,语言表达能力也有捉襟见肘的时候,有时需借助其他辅助手段才能实现准确有效地传递信息的功能。

把语言当作一种社会资源来进行保存,其主要目的是记录语言实况,进而展示语言面貌;我国历史上数次语言调查,概莫能外。在语言资源保护中最大程度地记录语言真实面貌,除了对调查人员的专业素养提出要求外,不断发展创新科技手段,也是促进语言资源日益向高“保真”方向发展的保证。

(一)“混合现实”技术对语言资源保护的高“保真”效果

将“混合现实”技术引入语言资源保护工程,建立语言资源数据库,可达到以下“保真”效果:

1.还原语言生活真实场景

“混合现实”的技术优势,就是混合现实与虚拟的场景,让体验者得到身临其境的感受。这种场景的三维体验效果在“混合现实”中,是通过三维空间在视觉上不断延伸而实现的。体验者通过点击、拖动终端显示屏,随着显示屏的变化不断延展视域,得到“立于锥地而畅行千里”的全方位体验。

任何一种语言都有自己的生存环境,语言的表达方式所反映的思维模式,与语言所存在的社会生活环境息息相关。“混合现实”技术通过实景拍摄再经后期处理而成的三维空间,能高度将所拍摄的场景还原到终端显示屏。语言资源保护工程可以利用这种技术,将语言所处的社会生活环境以三维立体空间形式原景重现,作为语言展示最有说服力的背景。

2.实物诠释语言所指

“混合现实”在实景拍摄的基础上生成三维空间,极大程度地还原了语言生活环境。这种环境不再是一维平面静态的展示,场景中的每个部分、每个小物件,都能达到三维动态展示的逼真效果。语言所指是指语音与客观现实之间发生的意义指称。很多时候,语言的所指如果没有一定的语境作基础,便不好理解,甚至产生歧义与误解。

作为一种保存、展示的语言材料,语言资源在向外界开放的时候,面对的观众除了母语者及了解这种语言的专业人士外,还有对这种语言一无所知的一般观众。“混合现实”技术可以将真实场景中的事物和与之相对应的语音音频、视频融为一体,观众点击屏幕上的事物时,就能听到关于这个事物的相应的语言发音,部分事件性的场景如劳动、民俗节日等还配有完整的表现事件过程的视频。这种方式极其有助于观众快速理解语言的所指,也能提高语言解释的说服力。

(二)应用“混合现实”实现语言资源在线归档、查询等功能

目前语言资源调查所得的材料,是通用的音视频数据。语言资源的音视频数据除了在硬盘进行静态储存、备份外,还应该用于展示、宣传,进而激活语言资源内在潜能,发挥其应有的社会作用。

互联网的发展让语言资源有了新的、更方便可靠的存储型态,云端服务器可以为语言资源数据的储存、展示提供更加便捷、先进的技术支持。储存于网络空间的语言资源数据,相当于处于互联网中的信息中心,这些信息由用户通过互联网以特定的认证模式及控制命令进行访问。用户无需下载这些信息,仅通过相应的控制命令、集成“混合现实”等先进的信息技术,就能调取相应的语言资源,并且这些语言资源会以全新形式的呈现在浏览终端。

将语言资源的路径形成网络链接、集成在“混合现实”程序上,除了前述“保真”效果外,还可以开发出归档及按类查询功能。

1.利用“混合现实”的分区功能进行语言资源归类

“混合现实”程序本身有一个浏览的分区,每个分区对应一个内容丰富、地位重要的场景,方便浏览者迅捷进入观看。

“混合现实”自带的浏览分区,可以作为语言资源按类别展示所用。根据语言资源的内容按照一定的标准,可分成几个大类。这些大类所辖的内容,储存在网络服务器里,可应用分类程序,将其按照一定的分类逻辑,建成层级分明的枝状多层储存结构。这样,语言资源的整理就可以利用“混合现实”的浏览分区功能进行归类,这种归类方便观众在浏览区查询、选择。

2.利用“混合现实”链接功能查询相关语言材料

“混合现实”的三维实景在浏览终端上可以给人以无限扩展的体验,但事实上实景是有边际的。如果应用在语言资源展示上,它的有限范围与语言所能表达领域的“无远弗届”是相冲突的,有限的生活场景是不可能将语言能表达的所有内容附于其上的。这时就可以利用链接功能及词汇的类别联想标准,在场景中某一个词汇类别的典型词语位置,设置一个与典型词语相应的“词汇类别”链接,引导观众进入相应的词类数据库。典型词语“以一执类”,方便观者查询,也便于语言的扩展学习。

三、“混合现实”技术在语言资源保护工作中的实践——望谟布依语词汇3D全景数据档案馆建设

贵州省双语服务基地项目——《望谟布依语词汇3D全景数据档案馆建设》,是基于“混合现实”技术应用而实现的语言资源数字化保护项目。贵州省民汉双语服务基地,是贵州省民宗委下辖的少数民族语言文字办公室与贵州省各高校科研单位在各地联合建立的。服务基地以构建双语和谐、增强民族团结为宗旨,每年资助各科研单位进行民汉双语服务的科研项目。

贵州省望谟县是布依族聚居区,其中,复兴镇是布依族较为集中的地方。按中国科学院少数民族语言研究所1959年进行的布依语分区,复兴镇布依语属于第一土语区[2],因为语音特色突出,较有代表性,上世纪80年代初被选定为制定布依文的标准语。本项目以望谟县复兴镇布依语的词汇为对象,应用“混合现实”技术进行语言资源数字化保护,是基于以下理由:

首先,望谟县复兴镇布依语因语音特色突出,保留较早期的布依语特征,因而被赋予了制定布依文字的语音标准地位,将其作为数字化语言保护项目的调研对象,对保护布依语语言资源具有不言而喻的重要意义。

其次,词语是用来指称客观世界及其内在关系,具有相对独立性的语言单位。词义即词的内容,是反映客观对象直观含义的分析解说;同时,词义也包含着对客观对象的内在属性的概括。一种语言的词语总和就是词汇。如果从词汇角度来静态地观察客观世界,那么客观世界就可表述为一个个独立的概念个体,词汇系统里每一个单位即词语,与客观世界里的概念个体具有一一对应的关系。这种一一对应关系,适合在“混合现实”系统里将之处理成语音音频与图像的相对应。

再次,语言的词汇系统以事物的自然类属为基础进行分门别类,是最简洁也最符合认知心理的系统组织方法。正如前文所述,在“混合现实”的终端浏览界面展示语言资源材料,是需要结合语言材料的类别来进行的。所以,以词汇作为应用MR技术进行语言资源保护的切入点,是基于词汇本身的系统性、层级性与MR技术应用的归类建档功能,具有内容与形式的契合性。这种契合,在建设数据库具体操作的各个步骤表现得尤为充分。

基于上述理由,作为将“混合现实”技术引入语言资源保护工程的首次尝试,我们把布依语词汇作为“混合现实”语言资源数据库的建设对象。下面以“望谟布依语词汇3D全景数据档案馆建设”项目为例,详细介绍“混合现实”技术在语言资源保护工程中的应用。

按照工作内容及性质,该项目分为语言文化调查、资料整理及“混合现实”程序设计3部分。

(一)语言文化调查

此部分调查严格按照我国少数民族语言常规的语言调查方法进行,目的是调查语言现状,收集到一手的、客观的、完备的语言材料,以便对所调研的语言有一个系统性的把握。这里我们主要介绍词汇的调查。

除了词汇语料收集外,还根据词汇调查的内容,在当地拍摄布依族日常社会生活及传统民俗活动等民族文化方面的照片。这部分照片的拍摄是为下一步建设语料数据库做视觉素材。

1.语料收集

我们在中央民族学院少数民族语言研究所第五研究室1985年出版的《壮侗语族语言词汇集》的基础上,制定了望谟县复兴镇布依语调查的词汇调查表[3];又根据刘丹青编著的《语法调查研究手册》制定了语法调查大纲[4]。在这两个调查表、大纲的指导下,2017年暑假,项目组在望谟县县城所在地原复兴镇进行了为期一个月的田野调查。这次调查收录了布依语词语2498条,语法例句220句;2018年3月再赴望谟县复兴镇复核,补充调查到布依语词语109条。

与一般语保工程工作流程稍有不同的是,我们的语料录音是与纸笔调查同时进行的。为了避免发音人工作枯燥、减轻其工作强度,我们每次讨论10个词语,确定每个词语的意义及发音后,再进行录音。录音软件沿用语保工程指定的“北语录音”软件,在保证发音人正常状态自然发音前提下,录音技术参数也尽量参照语保工程规定的标准。通过“北语录音”软件的自动化操作,每个词条、每个语法例句的录音都形成一个单独的音频文件,并对应词汇调查表、语法调查大纲自动生成文件名且排序,非常便于后期语料整理及查询。

2.民族文化图片收集

为最大程度符合布依语的语言环境,用以辅助词汇理解的图片,尽量以布依族实际生活场景为主。

在一个来月的田野调查中,项目组负责摄影记录的成员根据词汇调查手册的条目,在望谟县复兴镇布依族聚居区走村入寨,拍摄各种相关照片;在征得主人同意后,进入普通布依族同胞家里,拍摄布依族同胞日常起居的生活照片。发音人介绍的一些布依族曾经存在过的事物,我们也尽量请当地布依族同胞帮忙搜罗,甚至重新演绎原景重现。

在文化图片的拍摄过程中,发现的一些极具布依族特色的事物,项目组成员也会拍下相关的照片。这部分新发现的事物在词汇调查表上是没有的,我们以这些照片为据,请发音人介绍、发音,这样就获得了更多的民族特色词汇。

(二)语料数据整理

进入语料数据整理阶段,工作也分两部分。第一部分工作是语言音频资料的整理,第二部分是将词条音频与图片组合成有音有图的视频类词汇文件。

1.语言音频资料整理

首先,通过对收集到的2000多条词汇音频资料进行语音归纳,确定望谟县复兴镇布依语的语音系统,包括声、韵、调。

确定布依语音系之后,再将所有的词汇音频材料,转写成以国际音标为书写符号的文档。并将文档按照社会生活、认知模式及语法性质等标准分成天文地理、时间数字、劳动活动动作、节日风俗、动植物、建筑、日用、人品称呼、身体、医疗卫生、服饰、饮食、商业交通、文体活动、方位、抽象名词、代词、形容词、量词、虚词等共20类,每类下面根据情况可再分成不同小类,形成一个枝状结构的词汇分类系统,便于后期相应的视频文件按此系统进行文件夹层级分类。

2.制作音像词汇文件

将布依语词汇做成一个个有图有文有声音的音像文件,在展示的时候,可面向一般浏览者,也可以供专业人士参考。

在田野调查阶段,我们已经收录了布依语词汇每一个词语的音频,也拍摄了部分与布依语词汇相关的照片,这是词汇音像的图、音。词汇音像的文,即表示词汇相应意义的汉字及描述布依词语发音的国际音标,则标注在词语的配图上。这一步可以在专业的图片处理软件上通过输入文字完成。鉴于一些图片处理软件不兼容国际音标字体,可以直接用word文档来处理,处理步骤如下:

第一步:打开word文档,插入图片;

第二步:在图片下输入汉字及相应的布依语发音国际音标;

第三步:截图;

第四步:另存到相应的词汇类别文件夹里,得到类似于图1所示的文件。

比较抽象的词语如结构助词、副词,无法或不方便用图像表示的词,我们就在word或ppt程序里直接用文字符号的形式表现,然后截图。例如图2所示。

图片处理好后,再用较方便的“绘声绘影”软件与词语的音频合成为一个视频文件。“绘声绘影”界面较直观,操作也简单。打开软件后,有音频轨道、图像轨道等。将词语的音频插入相应的音频轨道,配合词语内容的图片插入图像轨道,设置合理时间,再合成一个文件,导出、储存为wmv或mp4格式的文件,即得到一个布依语词语的音像文件。

“绘声绘影”软件是收费软件。也可以用windows10操作系统自带的、浏览照片的“照片”程序,加上音频作为图片的背景音乐,再合成为视频文件。步骤为:

图1 word软件合并图、文与音标

图2 PPT制作词语加音标图

图3 合成图及音频

图4 设置音频时长

第一步:双击图片即打开了“照片”程序;

第二步:点击“编辑&创建”,再点击其下的“创建带有音乐的视频”,在跳出的如图3所示的命名界面中为即将制作的视频文件命名;

第三步:在“持续时间”里根据音频时间设置好时长,再如图4所示界面点击“自定义音频”;

第四步:点击“添加音频文件”,将相应词语的音频文件导入,完成后,点击“完成视频”,根据如图5所示界面的“导出”指引,选择wmv或mp4格式存入相应的文件夹位置。

(三)“混合现实”设计及词汇数据库建设

“混合现实”设计及数据库建设,是外包给专业数据信息公司制作的。在制作之前,项目组与数据信息公司进行了项目情况沟通,提出了我们的诉求及要实现的功能。项目组再根据我们的要求,提交了“混合现实”设计制作方案及制作预算,最终双方达成一致,确定了“混合现实”制作的推进方案。

1.拍摄“混合现实”基础素材

“混合现实”的展示,是以真实场景为视觉基础进行三维空间建设的,拍摄符合项目主题的真实场景是第一步。根据信息公司的建议,考虑真实场景画面在拼接时需要保持画面的连续性与自然性,我们选择了人、车流量少的一个布依族山寨作为拍摄场地。

拍摄内容包括航拍全景图、室内近景图以及浏览分区配图等。拍摄当天天气情况较好,阳光适中,很适合航拍取景。所以拍摄素材的工作进展十分顺利,仅用了一个上午时间就完成了。

2.“混合现实”视觉效果的制作

将拍摄到的原始素材进行拼接,制作成具有三维效果的展示、浏览界面,最终形成了如图6、图7所示的浏览界面视觉效果图:

图6 、图7所示主界面展示的是航拍的全景,通过划动界面可以延伸场景范围,扩大视觉空间。点击浏览界面下部的每个分区(图7底部的方块),就可以进入到不同的分场景;每一个分场景也是布依语词汇的分类储存区。

3.望谟布依语词汇档案馆浏览渠道

为方便推广及便捷查询,本项目最终成果通过目前我国应用范围最广的社交软件微信进行分享浏览。项目成果生成一个如图8所示的二维码,微信扫二维码就接入如图9所示布依语词汇档案馆的浏览界面。在浏览界面,可以利用微信的分享功能将此档案馆成果分享在朋友圈或发给指定好友。

4.望谟布依语词汇的查阅

词汇的查阅方式分两种,分别是如图10所示的浏览界面直接查阅和如图11所示的档案调取式查阅。

图5 导出视频文件

图6 视觉效果图1

图7 视觉效果图2

图8 成果二维码

图9 档案馆界面

图10 浏览界面直接查阅

图11 档案调取式查阅

档案调取式查阅:由词类联想,可以找到相应的词类链接;再通过链接进入词类档案馆,就可以调阅相关类别的布依语词汇。

例如要查阅“日常生活词汇”,则直接进入浏览界面下部的“布依建筑内部”分区,查看布依语日常生活的词语。在这个界面显著位置,就能看到“更多日常生活词汇请点击→”的提示,点击这个提示可以链接到如图11所示的“日常生活词汇”的数据库。

四、计算机信息技术在语言资源数据库中的应用前景

本项目仅就布依语词汇利用“混合现实”技术进行了语言资源档案建设,无论从规模、质量还是技术来说,都是较简单及粗疏的。但我们认为,这是一个符合时代科技发展趋势的极有意义的尝试。

在互联网科技发展不断更新换代、功能日趋强大的形势下,我们完全有可能将语言资源以数据资源库的形式,来打造线上语言博物馆。当然,那将是一项极其庞大的工程,在技术上需要用到自然语言处理、区块链、人工智能、网络信息安全等更专精的技术手段;而语言资源本身,也不仅限于词汇,还包括大规模的自然口语语料收录,口头文化的自动采集,甚至可以有人机语言互动、民族语言及方言直播等各种形式。这些关于语言数字化保护的技术与博物馆的形式内容,都需要语保人不断从语保实践中去发现问题,提出要求。目的是在人类文明高度发展的当下,将语言这一人类最根本的文明成果保存下来,传承下去,这需要全社会取得共识并共同努力。

猜你喜欢
音频现实词语
容易混淆的词语
我对诗与现实的见解
找词语
漫画:现实背后(下)
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
音频分析仪中低失真音频信号的发生方法
一种基于Unity3D+Vuforia的增强现实交互App的开发
Pro Tools音频剪辑及修正
一枚词语一门静