国外言语行为自动标注研究进展

2017-12-02 12:10孙亚刘思瑶陈帅
关键词:言语行为

孙亚+刘思瑶+陈帅

〔摘要〕文章采用统计方法考察了近十年在国外期刊上与言语行为自动标注相关的论文,进而呈现国外言语行为自动标注研究的进展。近十年言语行为自动标注以言语行为理论为基础,对文本、音频等言语行为进行标注,热点话题主要为情感识别、文本挖掘、人机对话、机器翻译等,研究体裁也多集中于医疗对话、商务会议、信函、网络语言等。文章对国内未来言语行为自动标注研究有一定的启示意义。

〔关键词〕言语行为;自动标注;标注体系

〔中图分类号〕H0〔文献标识码〕A〔文章编号〕1008-2689(2017)05-0012-07

引 言

英国哲学家Austin在20世纪50年代提出的言语行为理论(speech act theory)认为人们在以言行事,人们说话的同时是在实施某种行为[1]。Austin 指出言语行为可以分为叙事行为、施事行为和取效行为三种。言语行为自动标注是指“使用计算机等技术使言语行为分类的工作自动化,有时也被称为言语行为自动识别或自动分类等”[2]。言语行为自动标注对于对话系统、机器翻译和自动问答系统中问题理解和意图判断具有重要的意义,已成为信息检索和自然语言处理领域的一个研究热点。言语行为标注体系及其自动识别的应用主要集中在对话系统、机器翻译和自动问答系统等方面[3]。虽然已有学者提及相关术语“言语行为自动标注”[4],或对言语行为自动标注进行综述研究,但至今还未见考察国外言语行为自动标注研究最新进展的相关文章。文章拟考察近十年(2007-2016)发表在国际期刊上的论文,以期呈現国外言语行为自动标注研究进展。

一、 研究问题与方法

本研究将回答以下问题:(1)近十年国外言语行为自动标注研究的主要标注体系是什么?(2)近十年国外言语行为自动标注的热点研究体裁、研究话题是什么?首先,本研究以“speech act automatic annotation”为检索词,选取 SSCI 来源期刊中的语言学期刊和计算机科学期刊,时间设置为 2007-2016年,共获得100篇相关英文文献。为保证结果的可靠性,筛选过程由两位研究者分别进行并汇总核对。其次,对文献的关键词频数进行人工统计,并得出关键词统计表。最后,本研究基于关键词词频统计数据,挖掘近十年国外言语行为自动标注的研究热点,包括标注体系、研究体裁和研究话题。

二、 言语行为标注体系

在进行言语行为自动标注时,研究者最常用到的标注体系是DAMSL标注体系,其他常见的有DIMEDAMSL、INTSINT、VERBMOBIL标注体系。

(一) DAMSL标注体系

计算机自动标注系统建立在Austin和Searle的言语行为理论之上,同时推动了言语行为理论的发展[1]。对话行为多层置标语言体系(Dialogue Act Markup in Several Layers,简称DAMSL)。主要针对对话行为的信息标注,标注分为四个层次:(1)交流状况(Communicative Status)记录对话是否可以理解并且完整,包括不可译(Uninterpretable)、中断(Abandoned)和自言自语(Selftalking);(2)信息层次(Information Level)指对话内容中包含的语义类别,包括任务(Task)、任务管理(Taskmanagement)、交流管理(Communicationmanagement)及其他层次(Otherlevel)四个标签;(3)前向功能(Forwardlooking Function)指当前对话对说话者未来的信念和行动带来的限制,包括声明(Statement)、对听话者未来行动有影响的(Influencingaddreseefutureaction)、信息询问(Inforequest)、承诺(Committingspeakerfutureaction)等标签;(4)后向功能(Backwardlooking Function)指当前对话与之前对话的联系,包括同意(Agreement)、理解(Understanding)、回答(Answer)三类标签[5]。每段对话都可被标记为四种层次中的0个、1个或多个标签。

在针对不同体裁中的不同言语行为进行标记时,研究者会对标签进行更细致的归类和筛选,如在网络即时通讯对话中,SelfTalk(自言自语)和Uninterpretable(不可译的)两个标签因不符合对话形式而被排除,No Answers (没有回应)、Rejects(拒绝)和Negative Nonno Answers都显示为No Answer。 DAMSL体系应用最为广泛,多用于会话分析,如在Rosset、Tribout和Lamel[6]的研究中标注人与人的对话,以及在Sridhar et al[7]的研究中标注音频来辅助机器翻译。

(二) DIMEDAMSL标注体系

EspaolDialogue Act Markup in Several Layers)延用了DAMSL标注体系的标注集合,并添加了3个新概念:(1)两种新的表达层面:表达责任与共同点,责任的表达层面会让说话者或听话者进行言语或非言语的行为,属于这一层面的言语行为包括承诺、主动提出、指令行为和信息索取。共同点是指一系列可以增加、加强对话双方共同知识、观点的会话行为。这一表达层面还有两个分支层面:认同与理解。(2)对话中发话与回应的作用,发话与回应是两个表达层面的基础,回应满足发话的需求,从而达到平衡。(3)交互结构[7],指为达成一定目的而进行的一系列连续的发话-回应组合。DIMEDAMSL的标注方法与DAMSL相同,但比DAMSL更加精确,同时更适合对话轮的标注。DIMEDAMSL标注体系同样应用于话语分析,Coria和Pineda[8]对这一标注体系进行简要的介绍,同时将其应用于语音对话中的言语行为标注并推测出说话者的情绪。endprint

(三) Verbmobil标注体系

Verbmobil标注系统最初是针对旅游计划安排等的对话分析[9]。它包含欢迎、告别、介绍、致谢等30多个言语行为标签。这一体系的特色之处在于运用了决策树的形式,将会话行为进行分类(如图1)。在运用Verbmobil标注体系时,研究者分析子句中的音调、抑扬顿挫,来完善对句子的理解和分析,这一体系也多用于机器翻译。在Dines et al[10]的研究中,Verbmobil标注体系就被用于标注口头对话来辅助翻译。

清晰的言语行为分类体系是言语行为自动化标注的基础,分类系统越明晰则自动标注越有效率。国外的分类体系日趋完善,诸如DAMSL, Verbmobil等的分类系统也不断细化,促进了自动化标注的精确化。

三、 基于关键词统计的研究热点挖掘

通过对100篇文献的223个关键词出现频率进行统计,我们发现关键词较为分散,重复的极少,有189个关键词出现频率仅为一次,可以看出言语行为自动标注所涉及的话题较为广泛。为对关键词进行进一步分析,可按照研究体裁、研究话题进行分类。

(一) 研究体裁

如表1中对关键词的统计可以看出,言语行为自动标注选取的体裁多为医疗对话(assistive technology)、商务会议(spoken language understanding)、商务信函(email annotation scheme)、日常对话(humanhuman dialogue)及网络语言(instant messaging)。图2是对体裁出现频次的统计。

在需要的場合正确地传达、处理信息对于临床工作来说非常重要。尽管医院的信息系统日渐完善,但在医疗文件处理方面仍有发展空间,言语行为自动标注可以在保证患者隐私的同时增加有效信息的提取以及检测医患对话的效果[11]。在医疗文件中涉及的言语行为主要包括断言类言语行为,如陈述病情、告知情况;指令类言语行为,如医生给出治疗方法;疑问性言语行为,如医生询问病人情况。例如,Mayfield et al[11]使用信息给予的标注体系标注HIV患者和医生的对话,“I finally got my weights figured out and everything”被标注为信息提供(Give Info),“Now has that got cardio in it also”被标注为信息索取(Request Info),“Okay”则被标注为其他。

标注商务会议中的言语行为让记录、存储会议数据更加便捷,也可增加员工的工作效率[12]。言语行为自动标注研究的会议领域包括法律诉讼、董事会议、研讨会以及一些非正式的小组会议。在这些会议中所涉及的言语行为主要包括断言类言语行为(assertives),如陈述、确认、告知;指令类言语行为(directives),如命令、要求;承诺类言语行为(commissives),如承诺、保证等。此外,疑问性言语行为(interrogatives)也占重要地位。Tur et al[12]等为使记录会议内容更加方便,对会议中的对话按照言语行为的类别进行标注,如将“yes”标注为确认(affirmation),将“We want him to be close to you”标注为声明言语行为(Statement)等。

Email作为商务信函中的重要部分,常被用于分配任务、日程等。自动标注可以更精确、更有效率地对邮件进行分类,对Email的言语行为标注多以意图和任务为分类标准[13]。标注的言语行为也多集中为断言类言语行为如告知工作情况,和指令类言语行为,如工作分配等。Sappeli et al[13]在对Email语料进行标注时,集中于Email分配任务的层面,标注出Email中包含的言语行为、希望得到的回答、发送者的权威程度、发送的原因及包含的任务数量5个方面。如“I would like you to get directly involved in selling the assets we have targeted for next year while overseeing the operations of Mariella, Pete and Orlando.”被标注为指令类行为,包含任务数量为2。

对日常对话进行自动标注可以准确识别和利用说话者所处的语境,从而加强机器翻译的准确性。日常对话体裁包括游客等之间的对话,研究材料也不再局限于文本,而更多地集中于对音频和语境的研究。通过对语料库中每个话轮各个阶段的分析,可将这一题材的各种言语行为进行分类。在日常对话中涉及的言语行为也比较广泛,在Lee、Seo和Kim[14]的研究中,日常对话的标注体系包含接受(Accept)、是否类问题(Askif)、信息类问题(Askref)、确认(Confirm)、纠正(Correct)、表达(Expressive)、问好(Greeting)、提供信(Inform)、承诺(Promise)、拒绝(Reject)、行为指令(Requestaction)、确认指令(Requestconfirm)、回答(Response)、建议(Suggest)这几类言语行为。如“The fourth of May, right?”属于确认指令行为,“My name is Hong GilDong”属于回答行为。

对网络语言的自动标注研究则集中在网上即时通讯方面,如网络客服与顾客之间的对话[15]。这一体裁中自动标注的言语行为主要包括断言类言语行为和疑问类言语行为。Ivanovic[15]在对网络即时通讯语言研究时,采用的标签包括声明(Statement)、感谢(Thanking)、是否问题(Yesnoquestion)、回答(Responseack)、要求(Request)、开放式问题(Openquestion)、肯定回答(Yesanswer)、传统结束语(Conventionalclosing)、传统开场白(Conventional opening)、否定回答(Noanswer)、表达类行为(Expressive)、谦辞(Downplayer)。其中,网络语言中的表情类语言如:)被标注为表达类行为。endprint

通过上述分析笔者发现,对不同体裁的言语行为进行标注有不同的目的,如加强机器翻译、更准确地对文件分类、整理等。标注的言语行为也各有不同,但出现频率最高的是断言类言语行为、指令类言语行为和疑问类言语行为。

(二) 研究话题

为进一步了解国外言语行为自动标注研究的热点问题,在统计过程中,剔除了语义模糊的无效词丛,归并了语义相似或相同的词丛,获得前10条高频词(详见表2)。按从高到低的顺序排列,100篇论文中高频词依次为:情感识别、文本挖掘、辅助科技、人机对话系统、自然语言处理、语义网、多模态话语分析、会话行为识别、机器翻译、人机交互。

表2表明,国外言语行为自动标注研究的热点话题之一是情感识别技术。随着人机交互逐渐发展,情感识别技术需要通过程序做到处理、提取、分析一系列对话[16],因此利用情感识别技术进行言语行为自动标注研究已成为重要趋势。具体而言,社交网络言语中的情感识别是主要的研究对象。近十年来,国外学者尤其着重对社交媒体言语情感识别的研究,在我们的统计中Twitter出现了9次。由于近年来社交媒体繁荣发展,涉及政治、经济、文化等多个领域,社交网络言语由此成为语用学的重点研究对象,也成为言语行为自动识别的重点研究话题。例如在人机交互中,对用户的言语进行自动情感识别对于判断用户的情绪状态具有很大重要性[17]。

热点话题之二是文本挖掘。文本挖掘是一个处理文本资源构建模型和模式的研究领域,旨在解决文本分类、分类法构建和情绪分析等任务,也称为文本数据挖掘或文本分析,通常被认为是“数据挖掘(DM)研究的子领域,但也可以被视为一个包括数据挖掘、机器学习、自然语言处理(NLP)、信息检索(IR)、信息提取(IE)和知识管理等技术的多学科领域”[18],目前利用文本挖掘技术进行言语行为自动标注研究已成为主流。例如开发TextFlows,一个基于网络的文本挖掘和自然语言处理平台,对于支持工作流构建、共享和处理具有很大的用处,这使得TextFlows成为用于构建和共享文本处理工作流的基础设施,其可以在自动标注研究中重复使用[18]。

热点话题之三是辅助科技。随着医疗条件和居住环境的改善,人类平均年龄逐渐增加,对老年人的护理需求显著增多[19],因此辅助科技成为了言语行为自动标注的研究重点之一。例如机器学习方法可以将包括患者-医护人员交互的话语分类成具有合理准确性的临床相关主题[20]。

热点话题之四是人机对话系统、自然语言处理、机器翻译和人机交互。言语行为自动标注对于对话系统、机器翻译和人机交互中问题理解和意图判断具有重要的意义,已成为信息检索和自然语言处理领域的一个研究热点。言语行为自动标注在计算机领域尤其是人机对话系统、机器翻译和人机交互研究中得到广泛应用,这将计算机科学同语用学相结合,促进了信息检索和自然语言处理领域研究的发展[21]。

热点话题之五是语义网。语义网是对未来网络的一个设想,现在与Web 3.0这一概念结合在一起,作为3.0网络时代的特征之一。简单地说,语义网是一种智能网络,它不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以使交流变得更有效率和价值。语义网的核心是通过给万维网上的文档(如:HTML文档、XML文档)添加能够被计算机所理解的语义“元数据”(Meta data),从而使整个互联网成为一个通用的信息交换媒介。语义网就是能够根据语义进行判断的智能网络,实现人与电脑之间的无障碍沟通。语义网的设想是将万物网延伸,而不是简单地使用机器处理文档。这个设想可以使用基于公共本体的语义注释来在现有的网上实现[22]。由于网络资源的快速增长,需要具有快速和自动的网络文档的语义注释服务,因此,语义网也是言语行为自动标注的研究重点之一。

热点话题之六是多模态话语分析。多模态话语分析突破了话语分析研究只注重语言系统和语义结构本身及其与社会文化和心理认知之间关系的局限性,使人们在分析时关注图像、声音、颜色等其他意义表现形式。模态(Modality)指“交流的渠道和媒介,包括语言、图像、颜色、音乐等符号系统”[23]。多模态话语就其性质而言是人类感知通道在交际过程中综合使用的结果。多模态分析已经超越了语言学的藩篱,扩展到符号学、哲学、社会学、人类学、政治学、新闻学、心理學、法学、美学和医学等领域,研究对象也从语言文字扩展到音乐、图片、影像等多种社会符号系统[22]。

对多模态中韵律的自动标注包括对音高和声音强度的标注。Rangarajan et al[24]提出了一种将韵律和为言语行为建立模型结合的体系:(1)基于语义,运用韵律自动标注的标记对韵律表达的含义进行预测;(2)运用量化方法为声音、韵律建立观测序列模型。对韵律中的言语行为进行自动标注多被用于言语翻译,以便于对言语进行分类并消除歧义。VERBMOBIL语音翻译(S2S)系统[25]利用韵律来通过分辨子句,辨别语调和句子中的情绪,来加强对句子中言语的理解和分析。这一系统使用子句边界来改进编码翻译过程中的速度与歧义。言语行为标注和韵律信息也被用于文本-语音合成来增强合成语音的逼真度。研究者也使用各种技术来辅助对语音中言语行为的筛选和标记。这些技术对于语音-语音和文本-语音翻译尤为重要。

通过综合分析检索出的国外言语行为自动标注研究的相关文献,我们发现近十年来,国外学者在该方面的研究越来越倾向于具体化和专业化,研究主要涉及自然语言处理、文本挖掘、情感识别等更细化更具体的话题,并且目前的研究话题比较局限于社交媒体方面,因此,今后可以在继续深化完善当前话题研究的同时,转向包括政治、教学等话题的研究。

四、 结 语

文章采用统计方法考察了近十年国外言语行为自动标注研究现状和发展趋势,解析出国外言语行为自动标注研究的标注体系、热点研究话题和研究体裁。首先,言语行为理论为言语行为自动标注研究的首要理论基础;其次,言语行为的标注体系多种多样,其中DAMSL和Verbmobil为较常用的分类体系;再次,研究话题丰富多样,揭示出言语行为自动标注研究的多样性,其中热点话题以情感识别和文本挖掘为主;最后,研究体裁也多集中于医疗对话、商务会议、信函、网络语言等,自动标注研究对不同体裁的言语行为进行标注有不同的目的,且标注的言语行为也各有不同。而国内的相关研究相对较少,仍处于起步阶段,这也意味着该领域在国内的前景广阔,学者应根据汉语的语言特点进行相关研究,选择性地参考英语的言语行为分类手段。今后的研究方向可以向利用言语行为自动标注体系进行礼貌与不礼貌、会话分析、体裁分析研究等方面进行拓展,例如可以研究不同阶层背景下人们的道歉、致谢、批评等言语行为,或用它来研究不同年龄段学习者语用能力的发展等,也可以利用情感识别和文本挖掘技术对礼貌、会话分析、体裁分析等语用学重点方面进行研究,以促进计算机技术与语用学研究进一步融合,构建计算语用学理论。endprint

〔參考文献〕

[1]Austin, J.L.How to Do Things with Words [M]. Cambridge: Harvard University Press, 1962.

[2]李嘉,张朋柱,李欣苗等. 言语行为自动分类研究综述[J]. 系统管理学报, 2013, 22(4): 526-537.

[3]Prasad, R. & Walker, M. Training a Dialogue Act Tagger for Humanhuman and Humancomputer Travel Dialogues [C]. Sigdial Workshop on Discourse and Dialogue. Association for Computational Linguistics, University of Pennsylvania, Philadelphia, 2002:162-173.

[4]Ptaszynski, M., Masui, F., Rzepka, R., et al. Detecting emotive sentences with patternbased language modelling [J]. Procedia Computer Science, 2014, 35:484-493.

[5]Allen, J. & Core, M. Draft of DAMSL: dialog act markup in several layers [D]. Unpublished Manuscript, 1997.

[6]Rosset, S., Tribout, D. & Lamel, L. Multilevel information and automatic dialog act detection in humanhuman spoken dialogs [J]. Speech Communication, 2008, 50(1): 1-13.

[7]Sridhar, R., Kumar, V., Srinivas, B., et al. Enriching machinemediated speechtospeech translation using contextual information[J]. Computer Speech & Language, 2013, 27(2): 492-508.

[8]Coria, S. R. & Pineda, L. A. An analysis of prosodic information for the recognition of dialogue acts in a multimodal corpus in Mexican Spanish [J].Computer Speech & Language, 2009, 23(3): 277-310.

[9]Alexandersson, J., BuschbeckWolf, B., Fujinami, T., et al. Dialogue Acts in VERBMOBIL2[M]. Saarbruecken: DFKI, 1998.

[10]Dines, J., Liang, H., Saheer, L., et al. Personalising speechtospeech translation: unsupervised crosslingual speaker adaptation for HMMbased speech synthesis [J]. Computer Speech & Language, 2011, 27(2): 420-437.

[11]Mayfield, E., Laws, M., Wilson, I., et al. Automating annotation of informationgiving for analysis of clinical conversation [J]. Journal of the American Medical Informatics Association, 2014, 21(e1): 122-128.

[12]Tur, G., Stolke, A., Voss, L., et al. The CALO meeting assistant system [J]. IEEE Transactions on Audio Speech & Language Processing, 2010, 18(6): 1601-1611.

[13]Sappelli, M., Pasi, G., Verberne, S., et al. Assessing email intent and tasks in email messages [J].Information Sciences, 2016, 358(C): 1-17.

[14]Lee, J. W., Seo, J. & Kim, G. C. A statistical dialogue analysis model based on speech acts for dialogue machine translation [J]. Machine Translation, 1998, 13(4): 269-286.

[15]Ivanovic, E. Dialogue Act Tagging for Instant Messaging Chat Sessions [C]. ACL 2005, Meeting of the Association for Computational Linguistics, Proceedings of the Conference, 25-30 June 2005, University of Michigan, Usa. DBLP, 2005: 79-84.endprint

[16]Huang, X., Kortelainen, J., Zhao, G., et al. Multimodal emotion analysis from facial expressions and electroencephalogram [J].Computer Vision & Image Understanding, 2015, 147(C): 114-124.

[17]Vlasenko, B., Prylipko, D., Ck, R., et al. Modeling phonetic pattern variability in favor of the creation of robust emotion classifiers for reallife applications [J].Computer Speech & Language, 2014, 28(2): 483-500.

[18]Perovek, M., Kranjc, J.,Erjavec, T., et al. TextFlows: a visual programming platform for text mining and natural language processing[J]. Science of Computer Programming, 2016, 121: 128-152.

[19]Mollaret, C., Mekonnen, A. A., Lerasle, F., et al. A multimodal perception based assistive robotic system for the elderly [J].Computer Vision and Image Understanding, 2015, 149: 78-97

[20]Wallace, B. C., Laws, M. B., Small, K., et al. Automatically annotating topics in transcripts of patientprovider interactions via machine learning [J]. Medical Decision Making, 2014, 34(4): 503-512.

[21]Fernández, R., Ginzburg, J., Lappin, S. Using machine learning for nonsentential utterance classification [J].Proceedings of the Sixth Sigdial Workshop on Discourse & Dialogue, 2008: 77-86.

[22]Vicient, C. and Moreno, A. Unsupervised topic discovery in microblogging networks[J].Expert Systems with Applications, 2015, 15(17-18): 6472-6485.

[23]朱永生.多模態话语分析的理论基础与研究方法[J].外语学刊,2007,(5):82-86.

[24]Mundargi, R. C., Srirangarajan, S., Agnihotri, S. A., et al. Development and evaluation of novel biodegradable microspheres based on poly( d, l lactide co glycolide) and poly(εcaprolactone) for controlled delivery of doxycycline in the treatment of human periodontal pocket: in vitro, and in vivo, studies [J]. Journal of Controlled Release, 2007, 119(1): 59-68.

[25]Noth, E., Batliner, A., Kiessling, A., et al. VERBMOBIL: the use of prosody in the linguistic components of a speech understanding system [J].Speech & Audio Processing IEEE Transactions on, 2000, 8(5): 519-532.

(责任编辑:高生文)endprint

猜你喜欢
言语行为
中日跨文化交际中言语行为语用对比研究
解读夸张性广告言语行为的“真实性”内涵
浅谈文化对言语行为的影响
道歉言语行为的功能
分析敬语的言语行为
试论新闻言语行为的构成性规则
浅议乔姆斯基评斯金纳的《言语行为》
对《红楼梦》中王熙凤的拒绝言语行为的语用分析
浅谈中英语言中的间接性请求言语行为
小学语文教师课堂言语行为的个案研究