吴蕊珠,李晗静,吕会华,姚登峰
(1. 北京联合大学 北京市信息服务工程重点实验室,北京 100101; 2. 北京联合大学特殊教育学院,北京 100075)
手语是一种视觉语言,它是通过手的动作、面部表情的变化和身体的运动进行交流的语言。美国学者威廉姆·斯多基于20世纪60年代初发表了世界上第一本谈手语的著作《手语结构》,明确提出美国手语是一种自然语言。时至今日,手语语言学成为语言学研究中不可或缺的组成部分,语言学家开始从不同层面研究手语,而研究范围也从美国手语扩展到其他国家手语[1]。
需要指出的是,我们这里所说的手语均为自然手语,与手势汉语或手势英语等人造语言是不同的。手势汉语是根据汉语的语法规律、人为造出来与聋人交流的工具,其利用了汉语的语序,与自然手语的语法规律存在很大差别,聋人理解起来存在一定困难[1]。所以未来手语的机器翻译并不是简单地将汉语一个词对应一个手势翻译出来[2]。本文面向自然手语进行收集和整理。
本文的工作主要是建立手语汉语平行语料库。平行语料库是指“由原文文本及其平行对应的译语文本构成的双语语料库,其双语对应程度可有词级、句级和段级几种”[3]。所以手语汉语平行语料库一方面是要有严格的手语语料的采集过程,采集设备及场景设置、采集内容、被采集者的选取和采集用到的诱导材料都需要建立标准;另一方面是用多媒体标注软件ELAN对收集到的手语语料进行手控和非手控信息等的标注,其标注者的选取和标注的标准也需要科学指导。本文建立手语汉语平行语料库是为了给日后建立其他通用手语语料库提供有效的参考,为保证语料库标注质量,提供相应技术支持,它也能够为后续的手语机器翻译提供有力的数据基础。
为了有助于语料的去重和手语语料的分类,以及保证其标注质量,本文提出对标注语料使用基于向量空间模型的余弦相似性算法来实现手语语料相似度的计算。
1.1.1 国内汉英双语平行语料库
北京大学计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。在此基础上做汉英对照短语库,预计规模将达数十万条;哈尔滨工业大学的英汉双语语料库1998年有3万句子对,已经进行了词性标注,目前正在扩充为40万~50万句子对,在句子、短语、词汇三级层面实现双语对齐;东北大学的英汉双语语段库:在双语语料库基础上,建造双语语段库,1999年构造了10万双语语段库,进行了基于语段的英汉机器翻译实验;中国科学院软件研究所的英汉双语语料库基于双语对齐算法研究,现有15万对英汉双语对齐句子库,已经切分和标注[4]。
1.1.2 澳大利亚手语语料库
目前最为成熟的手语语料库当属由Johnston等人创建的澳大利亚手语语料库[5]。该库的建设目的从早期的社会语言学描写研究,逐渐转移到手语的传承保护和词典编纂。该语料库的标注包括49层,其中用来对双手手形的意义、运动、位置等手控信息的标注层就有37层之多;9层是对眼睛、眉毛、身体、头部等非手控信息的标注;2层是对于手语意义的标注,分别是句子翻译和词语转写翻译;最后一层是注释。澳大利亚手语语料库虽然是最为成熟的手语语料库,但其大部分标注层主要集中在双手空间信息的描述上,标注层过多,耗时耗力。因此,该语料库很难复制或者推广。
1.1.3 德国天气预报手语平行语料库
该语料库的建立是为了手语的翻译和识别,将德语翻译成德国手语是该系统的目标[6]。基于统计的机器翻译要依赖海量的数据,该语料库收集了自1999年以来6年内德国天气预报的手语视频数据,包括2 190个手语视频,德语手语句子对有72 724对,词语数量872 117个,词汇(去掉重复词)有12 320个,而且其收集的是国家级天气预报,手语视频质量比较高,包括很多相同的句子句式,比如天气预报中的德语句子“Und nun die Wettervorhersage für morgen, Donnerstag, den zwölften Mai.”,德国手语句子标注为“JETZT WETTER+VORAUS+SAGEN MORGEN DONNERSTAG ZWÖ LF MAI.”,表达的意思是“And now the weather forecast for tomorrow, the 12th of May.”,语料库中很多手语视频中都会有这样的句式,有利于基于统计的机器翻译。该语料库由三部分组层:一部分是手语视频数据的标注语料(The Video Corpus),其中标注层有6层,分别是转写、词语类型、手语句子边界、相应的德语句子边界、德语使用者标注的德语句子翻译。另一部分是德语手语的文本语料(The Bilingual Text-based Corpus),是将ELAN软件中的标注信息导出。还有一部分是天气预报的德语文本语料(The Monolingual Text-based Corpus),其中标注信息中没有主手、辅手、非手控信息的描述。对于手语这种空间性的语言,其记录的手语信息不够完整,且该语料库采集的是规约手语,不是自然手语。
1.1.4 中国手语语料库
中国的手语语料库建设目前还处于初始阶段,且手语研究逐渐丰富,北京师范大学邓猛教授领头的国家语委、中国残联“十二五”科研规划2013年重大课题“国家通用手语等级标准研制”;复旦大学龚群虎的通用手语语料库研究项目“基于汉语和部分少数民族语言的手语语料库建设研究”;由南京特殊教育师范学院承担的国家语委重点科研项目“国家手语词汇语料库建设”是中国第一个手语词汇语料库,采集了9个地区共6万多个手语词视频,语料具有较强的代表性[7],但是只限于词语级别;黄晓晓建立的基于情景的手语语料库[8],包含个人在家庭、学校等场合的日常交流,其手语视频转写采用Word文档作为转写文档,转写的格式没有统一的标准,这使文本语料很难成为格式化的可机读文件。除了政府或残联组织投资建设的语料库外,一些研究者为了研究的需要,也建立了或大或小的手语语料库。
目前手语汉语平行语料库建设的缺点是: 规范性差,缺少系统的理论指导,缺乏具体的评测标准,使得手语语料库建设的质量不一,应用性欠佳,难以满足语料库语言学发展的需要。很难为语言学研究提供及时、全面、权威性高的语料素材,为语言学建设提供强有力的数据支持。
为了采集到高质量的手语语料,本节整理了国内外手语语料库的采集内容(表1)、被采集者的选取规则以及采集场景的设置材料,以便为落实本文的采集内容、被采集者的选取和采集场景设置提供参考。
表1 手语语料库的手语类型、题材、形式
对于被采集者的选取来说,不同语言群体的成员,其语言能力存在差异,手语使用者群体也不例外。根据Johnston的调查,只有极少数人可以被称作手语的母语使用者。因此最理想的受试者来自第二代聋人家庭的手语使用者。在实际生活中,尤其是在较小的聋人群体中,研究者往往难以召集到足够数量的理想受试者。鉴于此,Johnston提出了另外一套针对非母语使用者的选取标准,以保证研究的科学性。当中包括: ①手语的学习年龄不应晚于八岁,以三岁前为最佳; ②接受聋校教育,以住校生为最佳; ③每天使用手语; ④身份上认同聋文化[5]。
图1是荷兰NGT手语视频采集的场景布置,被采集者和引导者相对而坐,每人面前各有一台摄像机负责采集拍摄其手语信息。被采集者和引导者正上方也各自有一台摄像机,负责采集拍摄对象的另一个平面的手语信息。这种场景设置考虑到了手语的空间性。但是,被采集者和引导者的手语采集过程是一个手语对话的过程,如果将其分开,对后面的标注过程是不利的,因为很难理解他们要表达的内容。
图1 荷兰NGT手语语料库的场景布置[9]
新西兰手语语料库(The Corpus NGT(Nederlands))数据采集的场景布置如图2所示,需要录制对话人的正面、脸部、由上向下的6个同步视频数据。新西兰手语语料库的场景设置比荷兰NGT手语语料库的场景设置多了脸部信息的摄取,是手语非手控信息的采集;还合成了被采集者和引导者两人手语对话内容,此类场景布置更适合采集对话形式的手语。其场景布置复杂,要用到6台不同的高清摄像机同时录制,实验室配置花费大。
图2 新西兰手语采集场景设置[10]
ELAN (EUDICO Linguistic Annotator)[11]是荷兰马克斯普朗克研究所为研究心理语言学而开发,其目的是为注释和开发多媒体提供良好的技术支持。ELAN是一个用于对视频或音频文件进行复杂标注的专业工具。使用ELAN可以为视频、音频添加无限层的标注。标注内容可以是句子、单词、内容、翻译或者是对视频细节的描述等。使用ELAN对手语视频进行标注可达到事半功倍的效果[12]。
① 层(Tier)是转写和标注的依托,不同的层可以被赋予不同的标注内容。如注释层、词类层、翻译层等。ELAN中的层可以根据使用者的需求添加。
② 转写(transcription)指根据音频和视频录入文字或其他符号的操作。以手语为例,是借用汉字和其他字符按照手语顺序记录手语表达的内容和方式,没有翻译加工,记录的是手语表达的信息,并非翻译的汉语句子[13]。
③ 标注(annotation)是针对音频或视频内容转写的文字、注释、翻译、国际音标等,标注包括转写。在ELAN中,标注也指时间段上的时间线,时间段内可以没有转写任何内容。
手语是一种视觉语言,没有书面形式,更多的是通过视频录制的方式进行记录。视频的相似度研究为手语语料相似度研究提供了参考。
国内外学者在研究视频相似度问题时,一种方法是提取视频的文本信息,Crawler系统[14]可以从视频的URL和主页HTML文件中提取视频的文本信息,比如字幕、视频的题目、摘要、类别、主题,以及相关的人物信息等。还有视频经过文字检测、文字分割、字符识别,使用OCR软件识别[15],完成由数字图像到字符编码的转化,最终可以将视频相似度转化为文本相似度的计算。另一种方法,是将视频作为图像进行处理,即关键帧之间的相似度计算, 转化成图像的相似度计算。以两个视频间对应帧的平均距离作为相似度,条件是视频帧序列遵守时间顺序[16]。采用常见的颜色直方图进行计算比较, 但不是直接将两幅图像的直方图进行比较, 而是先将视频的关键帧进行区域划分[17]。
本文手语汉语平行语料库采集内容为聋人日常生活、学习、工作中自然产生的语料,还有通过实验诱导的方式获取的语料。语料库中已标注语料约5.12GB,约80min,约2 400个平行句对。
被采集人群为根据Berent提出的手语双语者分类方案筛选被试,将被采集者分为五类。第一类:出生于聋人家庭的聋人,父母从小使用自然手语与其沟通,在获得第一语言手语后,口语成为第二语言;第二类:出生于健听家庭的聋人,早期接触手语,之后接触口语;第三类:出生于健听家庭的聋人,晚期接触手语;第四类:出生于聋人家庭的健听人,早期从聋人父母处自然习得手语;第五类:健听家庭的健听人,如聋校教师、手语翻译等,他们大多因工作需要,成年后学习手语。以上语料提供者还需满足经常使用手语这一条件[18]。
图3 本文手语视频采集场景设置
本文的手语视频采集的场景布置如图3所示。摄像机1的视角是负责拍摄被采集者和引导者的对话,而摄像机2的视角是负责拍摄被采集者的手语信息。这样做的好处是,既记录了对话内容,也记录了被采集者的信息,在后续对采集的语料进行标注的时候,可以参考对话内容,以保证标注的正确性与可靠性,降低标注者的难度。
在本文建立的手语汉语平行语料库中,我们的标注层分为14层,包含手语的手控和非手控信息。分别是主手、辅手、词语转写、词语翻译、句子翻译1、句子翻译2、句子翻译3、句子翻译4、眉毛、眼睛、嘴巴、身体、头部、眨眼。其中主手和辅手层是对主手和辅手的位置、手形、运动信息进行标注,标准参考文献[19]中的内容(如图4所示);词语转写是时间段与手势所要表达的意思,以国家通用手语为准;词语翻译是词语转写层融合非手控信息后的翻译,比如词语转写是“雨”,融合非手控信息就可能翻译成“大雨”或者“暴雨”;句子翻译1和句子翻译2是由手语使用进来标注,分成两个句子翻译是为了处理句子有歧义的情况;句子翻译3和句子翻译4是语言学专家标注,分别对句子翻译1和句子翻译2进行汉语翻译和校验;眉毛、眼睛、嘴巴、身体、头部、眨眼这六层的标注标准参考文献[18]中的内容。如图5所示是使用ELAN软件进行标注的示例。
图4 位置、手形和运动的标注标准[19]
图5 手语标注示例
手语语料预处理是整个工作内容的基础,有以下四个方面的内容:手语语料采集、语料的标注、语料专家校验及语料库的更新和存储,手语语料的预处理总体流程如图6所示。
手语语料的预处理的具体内容如下。
① “手语语料采集”首先需要确定被采集人和采集内容,接下来按照场景布置要求将拍摄现场搭建好,最后就是对视频的采集与存储。
图6 手语语料的预处理总体流程
② “语料的标注”这个过程是由自然手语使用者与汉语专家共同完成的,第一步是将MP4文件导入ELAN标注软件;第二步是按照话题或者固定时间将手语视频进行切分;第三步是建立转写标注层,本文在建立手语汉语平行语料库时,综合了相关研究章节中语料库的优缺点,以及手语汉语平行语料库的用途,增加了翻译部分词级和句子级的平行标注层,减少了空间信息的过多描述,保留了非手控信息的标注,最终确定了14层的标注层级,接着以手语标注的标准及《国家通用手语》作为参考对手语进行标注。
③ “语料专家校验”时,首先要对被采集者、采集内容和手语标注者信息等进行确认,然后根据汉语标注标准和手语标注标准对语料库标注内容进行校验。专家校验就是为了提高语料库的质量,以便使语料库能够建得更好。
④ “语料库的更新与存储”将存在的问题进行反馈,由手语使用者和汉语专家将标注转写的语料内容中的任何漏标、误标、多标、标注不统一等情况进行修正更新,形成一套符合标注标准的手语汉语平行语料库。最终,将手语视频的MP4文件及手语语料标注转写语料EAF文件进行存储。
手语语料相似度的计算有助于语料的去重和手语视频的分类,以及保证标注质量问题等。本文建立的手语汉语平行语料库中词语转写层(词语级别,不涉及语法信息)是对手语视频内容的转写,可以将手语视频转化为文本来处理。我们与1.6节中提到的视频的文本信息是不同的,一般视频的文本信息是非常有限的,而且视频语义方面的文本信息很少,所以在视频相似度处理方面是不利的。而本文用到的语料库的词语转写层,是对整段手语视频中的语义进行描述,对其进行手语相似度的计算,为准确性提供了保障。我们使用基于向量空间[20]的余弦相似性来进行手语相似度的计算,还可以用此算法确定标注者的标注质量是否合格。
向量空间模型的概念最早在20世纪60年代被Salton等人提出,并很快在文本分类、信息检索等领域得到广泛应用。其定义为: 对于待检查手语B中的每一个词语,使用Bi代表此段手语中第i个词语的权重,同样使用Ai表示已有手语A中的第i个词语的权重,从而可以使用Ai=(a1,a2,…,an)和Bi=(b1,b2,…,bn)表示待检查手语B和已有手语A的词语权重向量。在得到手语的词语权重向量之后,通过余弦相似性算法计算Ai和Bi两个向量的余弦相似度,从而判断待检查手语B和已有手语A之间的相似度。余弦相似度的计算如式(1)所示。
(1)
其中, ‖A‖和‖B‖表示向量的模。由于Ai和Bi均大于等于0,所以式(1)的值是一个0到1的值,0表示两段手语语料的相似度为零,1表示两段手语语料完全相同。
算法流程如图7所示。首先是语料预处理过程,将转写层语料导出成文本,并去除相应的停用词。然后按照余弦相似性算法的步骤,对手语视频A的转写层和手语视频B的转写层的所有词进行列举;然后计算各自的词频、确定各自的词频向量、计算两个词频向量对应的夹角。最后就是确定手语视频A和手语视频B的相似度。
图7 基于余弦相似性算法的手语相似度计算流程图
本文选取了语料库中的手语语料进行了实验,结果如图8所示,其中手语视频①和手语视频1是同一内容、被不同采集者进行手语讲述、经同一转写者处理(手语视频对2和②,3和③,4和④,5和⑤处理条件相同,表2中的实验结果为图8中的结果。通过本文提出的相似度计算方法得到的结果为0.506 6。而手语视频①和其他手语视频进行计算得到的相似度为0.237 6、0.061 4、0.281 8和0.143 6,相比较而言,相似度降低。说明同一内容的手语视频比不同内容的相似度高,证明了算法的有效性。实验也将相似度高于0.5的手语视频进行专家校验,得到了同样的结果。
图8 手语视频相似度计算对比实验
另外,图8中,标注者A和标注者B对手语视频1进行了转写。我们用上述方法进行计算相似度。
表2 手语视频相似度实验结果
结果1为0.895 8,也就是说同一手语视频在不同标注者进行转写的情况下,其相似度计算结果有一定的可信度;为了保证语料库的标注质量,此算法可以用作专家相似度测试。标注者A为专家,标注者B是一般标注者,如果通过标注培训,标注者与专家的标注语料相似度达到相似度阈值,经过专家讨论研究,此阈值设为0.85,如果计算结果小于阈值,则不能通过专家相似度测试,重新进行标注培训;如果计算结果大于阈值,则表明此标注者可以进行语料库的标注工作,保证了语料库的标注质量。
实验结果表明,本文用到的基于向量空间的余弦相似度的计算方法是可以用于手语视频中的相似度计算的,也有非常明显的效果。
本文总结了国内外手语平行语料库建立、采集内容、被采集者选取和采集场景设置的优缺点,最终确定了本文建设的手语汉语平行语料库的方案;并对ELAN软件进行了详细介绍,确定了基于ELAN的语料库的标注方法和标准,并对手语语料的预处理过程进行了分析和研究;最后进行了基于向量空间的余弦相似性算法的实验并获得明显效果,为手语语料去重提供有力支持,也提高了研究人员管理和检索手语语料的效率,同时保证了手语语料库的质量。未来我们会基于手语汉语平行语料库对手语的机器翻译和各种自然语言知识进行挖掘研究。