计算机专业手语语料库的建设研究

2015-05-30 13:59孙筱玥付南钧杨炼李凯韩梅
智能计算机与应用 2015年6期
关键词:手语语料库

孙筱玥 付南钧 杨炼 李凯 韩梅

摘 要:计算机专业手语语料库从聋人学生计算机专业教学的情景视频库中选取手语视频语料,采用多媒体转写标注软件ELAN进行手语语序转写、汉语翻译和文本标注,将其转换为文本语料,建成“计算机专业手语语料库”, 从手势动作、身体姿势、面部表情三方面特征对计算机专业手语词汇展开词义构成分析和描写,分析计算机专业手语词汇的手势特点及内在成因。

关键词:手语 ;语料库;转写;标注

中图分类号:TP317 文献标识码 A文章编号:2095-2163(2015)06-

Abstract:Computer professional sign language corpus selects sign language video corpusfrom the deaf students in computer specialty teaching scene corpus. The construction uses multimedia transcription annotation software Elan sign language to realize transliteration of the word order, Chinese translation and text marking, and converse the related resultsinto corpus, therefore

build computer professional sign language corpus ". Based on the aboved, from the three aspects of features of gestures, body posture, facial expressions,the paperanalyzes and describes computer professional sign language vocabulary expansion semantic structure, after that analyzes computer professional sign language gesture feature and internal causes.

Keywords: Sign Language; Corpus; Transliteration; Annotation

0 引言

根據中国残联提供的数字,我国现有聋人约2200万,18岁以下应受教育的聋哑人达400多万,7岁以下为80万。这是一个庞大的弱势群体。因其在学习、工作和生活上有许多常人难于想象的艰辛和障碍。[1]计算机专业手语语料库从聋人学生计算机专业教学的情景语料库中选取手语视频语料进行手语语序转写、汉语翻译和文本标注,将其转换为文本语料,建成“计算机专业手语语料库”, 从手势动作、身体姿势、面部表情三方面特征对计算机专业手语词汇展开词义构成分析和描写,分析计算机专业手语词汇的手势特点及内在成因,指导聋人高等工科教育中的手语教学。同时也能为聋人高等工科教育提供教学资源、教学设计、教材编写、课堂教学与学习评估等方面科学的决策与指导。如同其他语言建立语料库一样,计算机专业手语也可以充分利用计算机和网络资源,根据计算机专业手语的特点,建立手语语料库[2]。

手语语料库的建立在手语的语言学研究、手语的规范化研究及手语识别和机器翻译领域有着重要的应用意义。因此,国外学者对此做了大量的研究。美国的手语研究者于1995年对7个主要城市的聋人使用的手语的音系、词汇和句法开展了详细的调查,积累了大量的手语样本后建立了世界上第一个手语语料库即美国手语语料库(Lucas, 2005)。近年来,越来越多的国家和地区相继建立起手语语料库,其中包括英国手语语料库项目、北美手语语料库工作坊、澳大利亚手语语料库、荷兰手语基本词汇语料库、德国手语语料库,中国香港的亚太地区手语语料库等都对我国建立手语语料库有借鉴意义。李恒(2013)认为目前最为成熟的手语语料库是由Johnston等人创建的澳大利亚手语语料库。Johnston(2009)提出,手语语料库应当包括大量可以机读的标注文本,而非语篇和文本的随意堆砌。McEnery和Wilson(1996)也认为样本的代表性以及语料的机读形式化是语料库两个最重要的特征。以此标准建立的语料库,对于包括音系、词汇、句法、语篇等各种层次的手语研究,尤其是词典编纂都有积极的促进作用。王敏等则认为英国手语语料库项目和北美手语语料库工作坊两个手语语料项目在设计理念、技术手段、人员协作等方面值得研究与借鉴。目前国外较为通行的做法是,科研人员可根据研究需要建立私人语料库,在一定范围内实现共享和交流[4]。

1 设计实现的功能

系统采用ELAN建立计算机专业手语语料库,从一个小型专业手语语料库的建设入手,先建立各个子库,比如计算机网络手语、图形图像手语、动画设计手语等等,再集成完成数据库,探索专业手语语料库建立的方法和途径[3]。通过转写和标注,分析手语的特点,以便于计算机对特定语料进行识别和提取。实现语料库的机读化,提高语料的利用价值,增加语料的重复使用性以及增强语料库的多功能性。以此标准建立的语料库,对于包括音系、词汇、句法、语篇等各种层次的手语研究,尤其是词典编纂都有积极的促进作用。

1.1语料样本形式的选取

语料的选择和编制是建立语料库的环节之一, 调查通常包括如下部分。

(1)词汇:。以计算机专业手语视频数据库中的视频文件作为本课题的语料样本。该视频库中的计算机专业手语词汇由来自全国各地的聋生做手语来描述。选取使用频率高的课堂教学词汇。配合采用田野调查的“词汇记录”法, 确保忠实地记录手语中的特有词汇。

(2) 语法。以“诱导法”和“自然产出法”两种方法为主体, 具体采用访谈、自由交流以及让聋人进行自我介绍等方式获得语料信息。

(3)地域。由于我国地域辽阔,如同有声语言存在方言差别一样,手语也有不同的地域语言变体。因此语料库样本的地域的选取应尽可能广泛。如果不能覆盖全国各个省市,也应具备东北、华北、华东、华南等地区的代表性。语料样本的选取应当注意到不同地区聋人文化和听人文化的差异、聋人文化内部之间的差异对手语方言形成的作用。这样采集的样本才能为计算机专业手语的规范化研究提供理论依据。

1.2 操作方法

在建立计算机专业手语语料库时,根据计算机专业教学的实际需要决定标注来完成元数据的标准化和手语视频词汇的规范化,同时要兼顾实用性,避免因数据量过小而降低语料库的利用价值。目前较为常见的手语元数据描述格式是由荷兰马克思·普朗克心理语言学研究所开发应用的imdi元数据库。这主要用在多媒体和多模态语言集成。更好的实验语言数据和元数据之间的匹配,提供检索和计算之用。另一个ELAN软件,这主要有三种模式:分割模式,转写模式,标注模式。在过程中,为避免对手语不熟悉,保证数据分割的准确性,最好由手语语言学专业出身来完成。因此在建设手语语料库过程中,应当注意到以下几个问题:

(1) 作为语料库研究者来看,应该在标注系统的详略度和标注方案的可行性之间找到平衡点。

(2) 从用户的角度性来研究, 语料库的标注应该越详细越好,可以用户让容易理解;假如标注信息过于繁多,这将不利于标注者进行实际操作。

(3) 从建设整体来看,我国的手语视频库以及语料库大多数是为国家出资而建立,在此提倡应当由大学各个机构和高等学校自主建立专属的手语语料库。

2 Elan自建语料库的方法

2.1 基本概念

Elan的四个基本概念是:转写;标注;层;语言学类型。在此,对其阐释如下:

(1)转写。根据音频和视频内容录入文字或其它字符(国际音标、拼音等)的操作。

(2)标注。针对音频或视频内容所转写的文字、国际音标或者对内容进行的标记、注释等等,都可以称为“标注”。在Elan 中,“标注”包括“转写”。另外,“标注”也可以指某一层上没有转写任何内容的空段,即“空标注”。

(3)层。转写和标注以“层”为依托,不同的层里有不同的标注内容。如文本转写层、国际音标层、注释层等等。

(4)语言学类型。从语言学角度对“层”属性的一种定义,如某一层标注的内容是国际音标,就可以把该层的语言学类型定义为“ IPA”,某一层是方言转写,就可以把这一层的语言学类型定义为“ Dialect”,等等。

2.2操作模式

运行Elan ,导入音频或视频文件后, Elan 在“选项”菜单中设计有五种操作模式可供选择:分割、转写、标注、同步、线性交错。前三种模式在转写与标注的过程中使用频繁,常常需要在各种模式之间切换;后两种模式则使用较少。下面即对前三种模式展开具体论述。

(1)分割模式。这是转写模式的基础,主要用于在转写前对录音或视频进行时间段(按实际语流的停顿“分割段”可能是半句话、一句话或更多)的分割标记,使用时只需要在相应的时间点按“回车键”就可以逐段分割,进行标记。

(2)转写模式。该模式以分割模式为基础,在分割模式中完成对转写的内容逐段分割标记后切换到转写模式,在表格中逐句转写,转写完成一句以后,即按回车键进入到下一句。如需重复播放当前句,按 Tab 键即可,操作简单高效,省去了频繁回放的麻烦。

(3)标注模式。图1所示是对一个手语专业的人打手语拍摄的转写和标注 ,标注人是钟鹏,参与者是手语语言学专业的人,词汇是“安全”。

2.3 制作流程

(1)新建导入视频之后,在菜单上的选项单击,找到分割模式。

(2)按回车键设置第一个标记,设置到第二个标记连成一个标注段,即一个字一个标注段。

(3)设置标注段后,选项转写模式。

(4)设置几个表栏数目,第一个列数量选择default-it,最后点选“应用”。

(5)完成之后,在序号1输入安,序号2输入全。选项>标注模式。

(6)鼠標光标移动default,按鼠标右键,选择更改此层属性。

(7)更改层名、参与者、标注人、输入法,单击确定。

(8)在菜单栏选择“层>复制层” 然后在弹出的复制层窗口中选好正文,然后下一个。

(9)单击下一个,进入选转写(无父层)。

(10)单击下一个按钮,最后一步,结束。复制层之后更改此层属。

(11)在标注段双击就进行编辑状态,分别输入一手横伸,掌心向下,自胸部向下(时间段为0~2秒);伸出拇指顺时针平行转一圈(时间段为2~3.5秒),如图2所示。

2.4 Elan自建手语语料库的结论

计算机专业手语语料库对于聋人高等教育领域的教师、全国聋生发挥着集成地方手语、以及将涉猎手语互相对比、查询、学习的作用,使聋人能够精确地了解,并熟练使用一些专业性手语。研究中为了使聋人能够更趋便利地达成沟通,使用Elan软件处理拍摄视频,利用该专业手语词汇,肢体上的动作讲解来实现手语语料库的基本构建。Elan软件对于收集手语具有更好的专业优势。

3 结束语

计算机专业手语语料库建设的研究是研究所在聋人工学院重大的项目,对于计算机专业手语词汇,句子的手势进行采集、分割、转写、标注种种来完成计算机专业手语词汇语料库,计算机专业手语句子语料库的建设。尤需一提的是,计算机专业手语词汇的采集积累,在这一过程中需要通过各地方聋人打手势的长期积累、精细筛选,需要制作臻于完善的文案完成拍摄任务,还需要操作软件耗费时间完成标注,转写等等,才可以完成计算机专业手语语料库的最终圆满建设。

参考文献:

[1]李凯.韩梅.聋人手语动漫教学系统的设计[J].智能计算机与应用,2012,2(6):41-45.

[2]李凯.计算机专业词汇手语手势的表达设想[J]天津, 2004(1):1-3.

[3]李斌.用Elan建设单点方言多媒体语料库[J].方言, 2012(2):178-190.

[4]李恒. 手语语言学方法论研究综述[J].中国特殊教育,2012(6):22-26.

猜你喜欢
手语语料库
手语学习,只为更懂你
《语料库翻译文体学》评介
自然手语在聋人大学生手语中的使用调查研究——以南京特殊教育师范学院为例
基于语料库“隐秘”的词类标注初步探究
无声的世界里,怎样唱一首歌?
科学认识中国手语,努力提高应用水平
奇怪的手语图
基于JAVAEE的维吾尔中介语语料库开发与实现
基于网络语料库的“给力”研究
语料库语言学未来发展趋势