张晓梅
(长春大学特殊教育研究中心,长春 130022)
自然手语语料库建设与研究
张晓梅
(长春大学特殊教育研究中心,长春 130022)
手语是聋人交流思想的主要语言工具,自然手语是聋人日常交流广泛使用的语言形式,也是我国语言文字的重要组成部分。建设自然手语语料库是加快中国手语研究和推广手语使用的重要内容。本文概述了自然手语语料库建设的研究背景,分析了自然手语语料库建设中的问题,探讨了自然手语语料库建设的方法及程序。
自然手语;语料库;建设
手语是聋人的交际工具,作为一种语言形式,被越来越多的人所了解和应用。我国有2004万聋人,手语是聋人交流的主要语言工具,也是我国语言文字的重要组成部分。中国手语一般分为自然手语(natural sign 1anguage)和规约手语(conventional sign 1anguage)。[1]规约手语是在汉语这种有声语言的基础上形成的一套手语体系,多为聋校教师及健听人所使用。自然手语作为聋人群体的第一语言,在其群体内部进行日常社会交际使用的、经世世代代传承下来的人类语言形式,是聋人群体在长期相互交流中自然发展而来的一种复杂的视觉空间语言。[2]如同其他语言建立语料库一样,自然手语也可以充分利用计算机和网络资源,根据自然手语的特点,建立自然手语语料库。自然手语是聋人日常交流广泛使用的语言形式,建设自然手语语料库具有重要的意义和价值:第一,可以促进中国手语研究和推广。语料库提供大量真实手语视频语料,详细地反映出我国各地自然手语的异同,对于深入进行中国手语研究,推广中国手语的使用及针对聋人学生的教学都具有极其重要的意义。对自然手语符号与思维间关系的研究,可以为语言学、文字学理论研究提供重要的启示。第二,可以丰富手语语料库的研究。语料库是对真实语境下手语视频进行加工形成的“熟语料库”,网状交叉检索设计,达到语料的最大使用率。动态分布式存储,动态智能检索,自动增量更新,开放的上传下载接口,可以不断补充新的语料,提供上传和下载功能。第三,可以为手语学习者提供学习资源。语料库中的视频语料,便于人们学习和了解聋人自然手语,为人们学习聋人手语提供学习资源。现在越来越多的健听人有学习手语的愿望和需求,这是对聋人手语的认同也是对聋人的尊重,对构建和谐社会有积极的促进作用。第四,可以提高聋校的教学质量、促进聋儿康复教育的发展。目前聋校教师绝大多数都是采用规约手语作为教学语言,与聋生日常交流使用的自然手语相差甚远。使用规约手语进行教学势必影响到聋生对所学的科学文化知识的理解,也直接影响到老师对学生进行思想道德教育的效果。聋儿的康复训练中没有直接使用聋儿的第一语言——自然手语,也是造成了聋儿康复训练效果欠佳的一个重要因素。因此,开发建设自然手语的语料库,能够破解聋校语言教学中的困境,同时也能为聋儿语言康复与语言教学提供教学资源。
随着社会对残疾人事业的关注,世界各国都很重视语言信息无障碍的研究,利用现代信息技术为听觉障碍群体提供服务。国外手语语料库建设与研究已经取得了很多成果,借鉴国外手语语料库建设的前瞻性思想和前沿性研究,加快我国手语语料库建设与研究的进程。2011年,我国在《中国残疾人事业“十二五”发展纲要》中提出“加强残疾人事业领域的科技创新和成果应用及信息化建设工作,提高残疾人事业的信息化管理水平,为残疾人社会保障体系和服务体系提供技术支撑”[3]。在《国家中长期语言文字事业改革和发展规划纲要(2010-2020年)》中提出,建设“语言数据库和语料库”,加强手语“信息化”建设[4]。自然手语语料库建设与研究通过“信息化”的手段促进聋人语言和谐发展,体现社会公平与教育公平。
1.1 国内外研究概况
随着计算机技术在各个领域的广泛应用,从20世纪60年代的布朗语料库(Brown)[5]开始,这种利用计算机对存入的语料进行分析和研究的语料库建设逐步发展起来。也正是在20世纪60年代手语语言学在美国建立,[6]确立了手语在人类语言发展史上的重要地位。信息技术、手语语言学和语料库语言学发展,促进了各国手语语料库的发展。世界上第一个大型的手语语料库是美国手语语料库,[7]还有澳大利亚手语语料库、英国手语语料库、荷兰手语语料库、德国手语语料库、爱尔兰手语语料库、亚太地区手语语料库等,目前最为成熟的是由Johnston等人创建的澳大利亚手语语料库。我国的手语语料库研究是在近十年开始的,还处在刚刚起步阶段。中国手语语料库的研究可以分为两个阶段:第一个阶段是一些个人在搜集和整理资料的基础上形成的小规模的语料库,如:衣玉敏在博士论文《上海手语的语音调查报告》(2008年)中以上海聋人的自然手语为研究对象,通过调查形成4784个词的手语视频短片以及数小时的手语录像,从中选取了时长为75分钟的手语录像为研究样本,建立了为自己研究所使用的语料库。何宇茵、马赛在《基于语料库的中国手语象似性研究》(2010)中提到将中国手语里的207个斯瓦迪士核心词建成语料库。黄晓晓在撰写硕士论文《基于情景语料库的自然手语构词研究》(2012)时,选取了230分钟的手语视频语料,建成了多模态聋人日常交流手语语料库,共收录文本语料129953字。第二个阶段是从事科学研究的群体以项目研究的形式进行的大规模手语语料库建设研究。由复旦大学龚群虎教授担任首席专家的2012年国家社科基金重大项目“基于汉语和部分少数民族语言的手语语料库建设研究”已经完成了开题论证,进入了实质性的研究阶段。2012年度国家语委重大项目“国家手语词汇语料库建设”也已经完成了开题论证,进入了实质性的研究阶段。2014年度国家社会科学基金项目课题指南(语言学)中提出了“手语语料库建设和神经机制研究”的项目。
1.2 我国现有手语语料库存在的问题
我国的手语语料库在语言学与计算机科学领域都有所研究和应用,但由于起步比较晚,普遍存在语料取材范围窄,语料收集和应用的经济性及效率均难如人意。
(1)起步时间较晚。我国的手语语料库建设刚刚起步,近几年才有关于手语语料库的研究出现,近两年正在通过一些国家级的项目推进手语语料库的建设。我国目前还未建成较为系统完善的手语语料库。
(2)语料素材范围窄。由于我国幅员辽阔,各地聋人所使用的手语如同口语中方言一样各有特色,各有不同。同时受到研究人员的数量、研究经费等原因的限制,很难在全国范围内进行手语调查并获取语料素材,所以研究者一般会采取分地域的方式,选取有代表性的地区或者就近就地取材。
(3)语料库使用效率低。现有的语料库还只是小型、单一的语料库,存在语料数量少,检索方式单一,不能提供资源共享,缺乏动态管理等问题,在应用上还不广泛,使用率、推广率较低。
随着我国对特殊需要人群关注程度的提高和语料库技术的成熟,我国手语语料库建设研究正在向展现中国手语普遍性特点的纵深方向发展。作为聋人第一语言的自然手语研究是近年来的热点研究问题,自然手语语料库的建设与研究是手语研究领域中的一个重要发展趋势。自然手语语料库是手语语料库的重要组成部分,是对中国手语语料库建设研究的重要探索。自然手语语料库建设研究可以借鉴国外手语语料库建设的技术经验,结合中国自然手语的特点,针对目前我国手语语料库建设中存在的问题,建立有自身特色的自然手语语料库。
2.1 语料内容选择
自然手语语料库内容由词语、句子、段落表达三个部分组成。
词语部分是由207个斯瓦迪士核心词汇组成。斯瓦迪士核心词汇是由美国语言学家莫里斯·斯瓦迪士(Morris Swadesh)从统计学的角度分析不同的语言(以印欧语系语言为主)得出的核心词列表。他认为,基本上所有语言的词汇都应该包含这200多个词语;另一方面,只要认识这200多个词语,亦可以利用该种语言作最基本的沟通。[8]
句子部分是从《新汉语水平考试》HSK(三级)中精挑细选了30个有代表性的句子。《新汉语水平考试》是由国家汉办/孔子学院总部编译,代表汉语水平的考试标准。通过这30个句子,可以观察不同地域的聋人对代词、副词、指示词、介词、叹词及自然手语语序的运用和理解。
段落分为两个内容,第一个内容是用自然手语翻译一个汉语段落,这个段落选取自《新汉语水平考试》HSK(四级),是由151个字组成的一段话。主要描述了森林中的各种动物为晚会做得各种准备工作。可以根据聋人对段落的表述情况来了解聋人对汉语文字的理解,以及用自然手语翻译汉语时的自然手语与汉语的对应关系等。第二个内容是根据一幅连环画,让聋人用自然手语进行自主表达。连环画《图钉的妙用》选自德国幽默大师诶·卜劳恩的作品《父与子》。描绘了儿子巧妙运用图钉和父亲一起制伏进屋行窃小偷的故事。通过自主表达可以考察聋人在没有中文参照的状态下用自然手语表述事件情节的能力,以及聋人日常习惯的自然手语表达状态。
2.2 语料采集和整理
表1 聋人志愿者籍贯表
为了获得带有独特地域性特点的手语,控制来自不同省份间学生的交流引起的手语习惯改变,研究中挑选了34位来自17个省份的大学一年级刚刚入学的新生志愿者进行语料采集。语料采集过程如下:
(1)充分做好前期准备工作。将已经选好的语料制作成幻灯片;协调合理的拍摄时间和地点;准备笔记本电脑、DV机、移动硬盘、灯光等拍摄设备。
(2)与聋人充分沟通。在拍摄前,给聋人志愿者充分的时间熟悉语料内容,并告知聋人用自然手语和最自然的状态打出手语。通过访谈采集聋人的个人信息资料,包括姓名、性别、年龄、籍贯、原毕业学校、手语习惯(主要是自然手语和规约手语的使用比例)。
(3)拍摄工作。选取适当的角度和距离,使用DV机进行语料拍摄,为了确保整体效果,选择统一的背景,及时做好语料储存。
(4)同步配音。聋人所打的每个手语都做出相应的中文配音,方便进一步复查、切割和标注。
(5)语料检查。对所拍摄语料视频进行二次检查,对有瑕疵和遗漏的语料及时进行补拍。
完成了语料采集后,进入到语料整理阶段。采用“会声会影”软件以斯瓦迪士的207个词汇为基础,以聋人打手语过程中的起手和落手为左右界限进行切割。经过整理和归纳,共采集了词汇视频7038个,句子视频1020个,段落和连环画的视频68个。这8126个视频构成了整个语料库的核心部分。
2.3 语料采集中发现的情况
2.3.1 词语采集中发现的情况
聋人志愿者在打“我”“你”“他”等有具体指向的代词时手语差别不大。在处理一些比较抽象的词时出现了明显的地域差异。如“绿”在34位聋人志愿者中出现了9种不同的打法。
2.3.2 句子采集中发现的情况
通过语料信息发现聋人打句子时的一些习惯。首先,聋人会用表情和手势幅度的改变代替部分词汇内容,将句子以最简略的形式呈现出来。例如“雨越下越大”,聋人不会直接按照汉语逐字逐句地进行翻译,而是只打出“下雨”这个手语,并逐渐加强“下雨”这个手语的幅度来表示雨越下越大。其次,聋人自然手语的语序也与汉语的语序不尽相同。如“你要喝茶还是和咖啡?”聋人用手语表述的结果往往是“茶,咖啡,你选哪个?”的结构。
2.3.3 段落表达中发现的情况
将有文字参照的段落和没有文字参照完全靠主观理解的连环画表达做对比,发现聋人用手语表述连环画时显得更为流畅、自然。其主要原因是聋人在表述汉语段落时,存在一种将中文翻译为手语的思考过程。这种将一种语言翻译为另一种语言的过程会影响聋人打手语的速度和表现力。
2.3.4 关于志愿者的一些情况
(1)志愿者的籍贯分布情况。受到志愿者来源的限制,在收录语料信息时,缺少部分省份的语料信息,特别是西部地区的语料信息。在将来的语料库完善工作中要着重寻找来自缺失省份的语料,不断丰富语料库。各省自然手语与规约手语都有所差异,南部沿海各省自然手语与规约手语的差别尤为明显。
(2)志愿者的年龄阶段和学历水平有局限性。聋人志愿者的年龄都在18-25岁之间;学历均为高中毕业的在校大学生。缺少来自儿童、中年人和老年人以及不同学历层次的语料信息。由于志愿者都是高中毕业,所以对汉语段落理解比较好,用自然手语的表述上也较为流畅。
(3)志愿者的手语表达存在性别差异。志愿者男、女各17人,男女比例为1:1。总体来看,男生打的手语比女生更为活泼,男生的表现欲更强烈。尤其在打连环画的环节表现突出,男生不仅仅打出手语,还加入丰富的表情和其他肢体动作等表演成份,将连环画内容表现得惟妙惟肖。女生的手语比较拘谨、动作幅度不大,动作比较清晰、准确。
(4)志愿者对个别汉语词汇有歧义理解。由于将斯瓦迪士核心词翻译成中文时多为用单个字表示的词汇,这样的词汇呈现给聋人时,他们往往会产生歧义。如第168个斯瓦迪士核心词“灰”(ashes),本意是“灰尘”的意思,而部分志愿者将其理解为“灰色”的意思。这样类型的词还有“角(horn)”“斗(fight)”“游(swim)”。
(5)志愿者的衣着对拍摄效果的影响。在整理归纳全部语料信息后,发现不同颜色和款式的衣服对手语录制的效果有影响。即使是同一个人打同一个手语,穿深色的服装有衬托手势动作的作用,使手势更清晰。
自然手语语料库建设涉及了语言学与计算机学科的交叉,语料的搜集和整理是语料库建设的基础,语料库程序设计是语料库的技术实现。目前自然手语语料采集范围大,技术开发及语料库的后期建设和维护都需要很大的花销,直接构建成大型语料库成本较高。所以,在这种情况下借鉴一般语料建设中常用的三种开发方法:原型法、积木法、逐步求解法,先构建小型自然手语语料库,在整体的设计与规划下,不断增加新语料,逐步修改、完善语料库,由小型语料库逐渐向大型语料库过渡发展。
3.1 对手语视频语料进行分类存储
准确、清晰的手语视频是手语语料库建立的保障,当进行语料检索操作时,充分保证语料词汇检索的命中效率,同时在对语料视频索引化时,可以从本地相对快速地获得语料视频对其进行处理,也方便今后增加和减少语料视频。例如将7038个手语词汇视频以“省份/斯瓦迪士核心词数序+斯瓦迪士核心词”的格式保存。那么,来自吉林省的志愿者所打的“我”的手语视频,被命名为“吉林/1我”。
3.2 使用VB.NET对手语视频语料进行智能搜索
采用VB.NET来帮助建立语料库。VB.NET是Visual Basic.Net的简称。Visual Basic是Windows环境下的一种简单、易学的编程语言,由于其开发程序的快速、高效,深受程序员的喜爱。在Visual Basic 6.0之后,微软公司推出了全新的“.NEt构架”,在其第一个版本-Visual Studio.NET 7.0中,集成了Visual Basic 7.0、Visual C++7.0及C#,其中的Visual Basic 7.0(vb 7.0),即是VB.NET的第一个版本。
在词汇搜索方面,采取的方案是在输入栏中任意输入斯瓦迪士的207个核心词都可获得相应的视频语料。即可以直接对所需的词汇进行搜索,语料结果会伴随着语料信息(籍贯和词汇名)一同显示。
在句子搜索方面,考虑到句子字数较词汇多,在软件左侧标有1-30的序号链接分别代表30个句子,单击序号可获取句子的搜索结果。
在段落方面,分别有一个段落和连环画的链接来帮助获得相应的语料信息。
3.3 语料库的后期完善
自然手语语料库设计为动态语料库,即可以不断向语料库中补充新的语料。将来不断补充来自更多地域和来自儿童、中年人和老年人以及不同学历层次的语料信息,以滚雪球的方式不断增加新语料。将视频根目录下的文件储存位置做成索引,能更快捷地找到指定文件。在今后对语料信息进行更新时,只需将新添内容放入索引,即可保证搜索成功。还可以定位各个文件的具体路经,双击其名进行播放。
[1]王东.自然手语与规约手语之研究[J].中国特殊教育,2003 (3):33.
[2]国华.自然手语习得与有声语言习得之比较及其启示[J].中国特殊教育,2007(3):21.
[3]中国残疾人联合会.中国残疾人事业“十二五”发展纲要[EB/ OL].(2011-06-09)[2014-04-01].http://www.cdpf.org. cn/index/2011-06/09/content-30340867-9.htm.
[4]中国新闻网.国家中长期语言文字事业改革和发展规划纲要(2012—2020年)[EB/OL].(2013-01-06)[2014-04-01].http://www.chinanews.com/cul/2013/01-06/4462831. shtm.
[5]何常丽.语料库语言学研究综述[J].渤海大学学报,2009(3): 149.
[6]钟卫.手语的视觉语言性[J].重庆科技学院学报:社会科学版,2012(1):131.
[7]Stokoe W,Casterline D,Croneberg C.A Dictionary of American Sign Language on Linguistic Principles[M].Silver Spring,MD: Linstok,1965:1-5.
[8]维基百科.斯瓦迪士核心词列表[EB/OL].(2014-02-24)[2014-04-01].http://zh.wikipedia.org/wiki/斯瓦迪士核心詞列表.
责任编辑:李凤英
Construction and Research on Corpus of Natural Sign Language
ZHANG Xiaomei
(Center for Special Education Research,Changchun University,Changchun 130022,China)
Sign language is an essential tool for communication among hearing impaired people,and natural sign language is a language form widely used by the deaf in daily communication and it is an important part of language and characters in our country aswell.The construction of natural sign language corpus is an important content for accelerating sign language research and popularizing the use of sign language.This thesis explains the research background of natural sign language corpus,analyzes the existed problems and discusses themethods and programs for the construction of natural sign language corpus.
natural sign language;corpus;construction
G762.2
A
1009-3907(2014)09-1279-04
2014-04-18
吉林省教育科学规划课题(GH13052)
张晓梅(1974-),女,吉林长春人,助理研究员,硕士,主要从事特殊教育研究。