话语标记的信息处理研究：现状与设想

2015-10-19 08:32:13姚双云

武陵学刊 2015年1期

关键词：语料语料库话语

姚双云

（华中师范大学语言与语言教育研究中心，湖北武汉 430079）

◇汉语信息化研究◇

话语标记的信息处理研究：现状与设想

姚双云

（华中师范大学语言与语言教育研究中心，湖北武汉 430079）

话语标记对会话结构的分析、话语行为的识别、会话含义的理解等具有重要作用，在口语的信息处理中扮演着关键的角色，开展话语标记的信息处理研究具有重要的理论意义与应用价值。在汉语话语标记的信息化本体研究整体较为薄弱、应用研究尚未起步的情况下，建设包含多种次级类型语料的口语语料库和包含多层信息的话语标记词库是亟待开展的两个重要的基础性工作，其能有效推进汉语话语标记信息处理研究的进程。

话语标记；信息处理；口语语料库；话语标记词库

前言

话语标记（discoursemarker）是一种用来标示话语连贯、传递话语互动信息和人际功能信息的语言范畴。这类范畴能够直接反映话语内部之间的序列关系，是理解话语结构及其人际功能的关键线索，因此它们对计算机自动分析会话结构、识别对话行为、理解会话含义具有重要作用。话语标记的信息处理可广泛运用于语音识别、语言理解、信息提取、语言合成、智能问答、机器翻译、自动文摘等领域，尤其是在自然语言合成中，话语标记扮演着关键的角色。正如Ramsay所言：“较之于语言分析系统，一个令人满意的话语各部分关系的处理方式对语言生成系统来说更为重要”[1]129，Ramsay所说的话语关系很大一部分是通过话语标记显示出来的。值得注意的是，尽管话语标记在自然语言处理中地位重要，但是目前这方面的研究却相当薄弱。Heeman&Allen指出：“许多研究者注意到话语标记在决定话语结构中的重要性，但是真正识别话语标记的研究并不多。”[2]据笔者的调查，面向信息处理的话语标记研究在英语、德语等语言中已开展了一些实质性并富有成效的工作，但汉语中此类研究严重滞后。有鉴于此，本文拟对该领域的研究做一个简要的回顾，并结合笔者主持课题的前期研究谈两点认识。

一、话语标记的内涵、分类与功能

1.话语标记的内涵。学界对话语标记的内涵尚未达成一致观点。Shiffrin认为，话语标记是通过其句法属性、语义属性以及在始发或终结位置切分话语单位的序列关系来标记话语单位关系的语言成分、副语言成分或非言语成分[3]。Fraser认为，话语标记指用以标示当前话语和前述话语之间的序列关系，以及用作建构语篇的词或短语[4]。Jucker&Smith指出话语标记是在话语中不影响句子的真值条件意义，只表达说话人态度或程序性意义的语言成分[5]。何自然、冉永平主张，话语标记指书面交际和口语交际中表示话语结构以及连贯关系、语用关系等的所有表达式[6]。许家金认为，话语标记主要是指出现在现场即席话语中，用以标记话语连贯、传递话语互动信息的语言及非语言手段[7]。

正是由于学术背景与研究出发点的不同，研究者对话语标记的认识也存在分歧，以致所用术语也不尽相同。一般文献中，与话语标记内涵相同或大体一致的术语有：语用标记、话语小品词、语用词、语用小品词、话语联系词、话语标记装置、话语操作语、语用操作语、连贯指示词、句子联系词等。众多的术语中，话语标记的使用最广泛。

话语标记在术语上的混乱，看似是关乎名称的问题，实则反映了对话语标记内涵与定义上认识的模糊性。因此，有必要厘清它们之间的差异。比如，话语标记与话语联系词（discourseconnectives）是有区别的两类范畴，不应同等对待。话语联系词的主要特征之一是它们经常关联话语中诸如事件、状态或者命题的两个不同的抽象客体[8]，而话语标记管辖的范围仅为一个抽象的客体。例如“因为、但是、所以”在关联两个不同的事件、状态或者命题，连接分句或者句子时，它们表达的是真值意义，属于连词。但在口语互动中，部分成员语义虚化了，不表真值概念意义，不用于连接不同的事件、状态或者命题，只用来表程序性意义，这种情形当属话语标记。

2.话语标记的分类。Fraser将话语标记分为“关联信息”和“关联主题”两大类型。前者联结S2与S1语段，其中S2语段是S1语段中相关部分的外显性解释；后者将S2的主题与S1的主题联系起来[9]。按照Fraser的分类标准，连接词属于关联话语信息类话语标记，其内部又可进一步细分。冉永平认为，话语标记包括连词、副词、感叹词以及某些短语或小句，它们不传递命题意义或语义意义，不构成话语的语义内容，但是为会话提供信息标记，从而产生对话语理解起引导作用的程序性意义[10]。刘丽艳认为，话语标记可从多个角度进行分类。从形式上可分为“非词汇形式话语标记”与“词汇形式话语标记”两类。从对语境的依存关系可分为“依存性话语标记”“弱依存性话语标记”和“非依存性话语标记”三类。此外，她还提出了功能上的分类[11]。以上分类，不管哪种类型，本质上都可以归纳为形式、语义或功能的标准。

3.话语标记的功能。话语标记的功能一直是研究者特别关注的议题。stman认为话语标记有三种功能：话语标记和组织；相互应对性标记；态度标记[12]。Hlker指出话语标记的功能主要体现在以下四个方面：不影响话语的真值条件；不增加话语的命题内容；与说话当时的情景有关，但与被论及的情景无关；具有一定的情感功能或表达功能，不具备指称、外延或认知功能[13]。

Schiffri强调的主要是话语标记的“增加话语连贯性”的功能[3]。Fraser也认为话语标记主要表示当前话语与前一话语之间的某种联系，程序性意义是其核心意义，即引导听话者对前后话语关系的识别与理解，为话语理解提供方向，而不是为了表达语义内容或命题意义[9]。Risselada&Spooren认为话语标记的主要作用就是促进听话者对语句之间、交际情景中各种因素之间连贯关系的理解过程[14]。Lenk主张话语标记是一种连贯指示语，话语标记不仅具有局部的连贯功能，而且还具有宏观的连贯功能[15]。Blakemore从关联理论出发，认为话语标记的使用是为了实现“最佳关联”，说话者通过话语标记引导或制约听话者对话语的理解，帮助听话人以最小的代价获取话语与认知语境之间的最佳关联[16]。Rouchota则认为话语标记连接话语与语境，制约听话者的推理过程[17]。另外，VanDijk认为话语标记的作用是将单个的言语行为组合成更大的话语单位，乃至于话语，从而实施其交际功能[18]。Holmes则认为话语标记语的作用是限制和调节话语层面上言语行为的施事语力，以完成话语的交际意图[19]。刘丽艳指出，话语标记具有三种元语用功能，即语篇组织功能、语境顺应功能和人际互动功能[11]。笔者对话语标记的功能进行了细化，归纳为话语连贯、话轮构建、话题组织、立场表达四种功能[20]。

Fischer&Brandt-Pook从自然语言处理的角度概括了话语标记的功能，认为话语标记可以标志主题的中断，进而使会话宏观结构的组织对听话人来说清晰可辨；它们暗示当前话语与前述话语的关联性，它们表明信息转移是否成功以及信息通道是否通畅。当出现言语管理问题时，它们可以为形式化的处理提供支持[21]。

二、话语标记信息处理的研究现状

关于话语标记的信息处理，国内的研究较为滞后。查检CNKI期刊网，该领域以话语标记为篇名公开发表的论文只有阚明刚的1篇①。若算上关联词（复句关系词）的信息处理也只有数十篇。

国外话语标记的信息处理颇受计算语言学界的重视。除了知名国际刊物发表了系列有影响的论文之外，该议题也受到了国际学术会议的亲睐。1998年8月8日-14日，在加拿大蒙特利尔召开了Coling-ACL'98国际学术会议，8月15日-16日举办的“话语联系语与话语标记”研讨会作为此次国际会议后续研讨会的十二项主题之一。内容涉及话语标记的确认、自然语言生成、科技语体中的元话语标记、机器学习中的话语标记选择、话语标记与话语的联系等[22]。从现有的成果来看，国外对话语标记的信息处理研究成果有三大类型：

1.基于修辞结构理论（RST）的话语分析。修辞结构理论是美国学者Mann&Thompson（1988）在系统功能理论框架下创立的关于篇章生成和分析的理论②。其创立的最初目的是为设计具有一定语篇“创作”能力的计算机程序提供理论依据。目前，基于该理论建成的篇章结构标注语料库由美国南加州大学信息科学学院课题组完成，包含300多篇文章，是一个带多层语言学标注信息的篇章语料库。

其他代表性的成果有：Marcu的专著《话语分析与文摘的理论与实践》以修辞结构理论为基础，对话语标记在语篇分析与文摘中的作用作了深入研究③。此前，Marcu利用决策树模型训练90篇标注文本语料，设计了基于修辞结构理论的话语分析器④。Soricut&Marcut对基本话语单元和话语树结构进行了改进，从随机概率模型的词汇化句法树中抽取可以利用的特征，该模型对话语标记等语篇结构信息进行了人工标注，提高了分析的准确率⑤。Marcu& Echihabi选择了四种修辞关系并利用带有模糊的话语标记标示语义关系的大量例句建立了一个语料库，把话语标记和小句结构作为自动抽取的线索⑥。Carlsonetal.借助标注语料库来分析话语的修辞关系⑦。Sporleder&Lascarides利用对比、因果、解释、总结和连贯五种语义关系，借助新闻语料来研究话语的自动抽取⑧。类似的研究还有Reitter、Hutchinson等⑨。

2.话语标记的歧义消解与自动识别研究。话语标记的歧义消解与自动识别是互为联系的两个方面，该方向也颇受重视。Hirschberg&Litman利用话语标记的拼写环境来对话语标记进行歧义消解⑩。Litman采用机器学习的方法来改善对话语标记的识别(12)。Alistair用数据驱动的方法来分析话语关系(12)。Fischer&Brandt-Pook依据话语标记的句法位置及其在会话中的作用探讨了它们的歧义消解问题(13)。Heeman&Allen利用结合词性知识的语言模型来识别话语标记(14)。Bursteinetal.利用基于决策的密度算法，借助话语标记来识别学生论文的话语结构(15)。Samy etal.利用多语言平行语料库对话语标记进行了语用上的自动标注(16)。Popescu-Belisetal.利用词汇、韵律/位置与社会语言学特征人工标注话语标记，取得了很好的效果(17)。类似的研究还有Heeman etal.等(18)。当然，上述文献对话语标记的研究大多不是孤立的，而是置于话语行为的识别、对话片段的分析、言语交际的识解等更大范围的会话分析中进行的。

3.次级语言中的话语标记研究。鉴于计算机自动理解话语的难度很大，有些学者尝试在次级语体中寻求解决瓶颈问题的可行方案。实践证明，这一策略是行之有效的。不少自然语言处理系统在句法与语义的自动分析中有意将研究对象限制于自然发生的次级语言中，取得了意想不到的效果。基于次级语言中的话语标记研究就是在这种背景下应运而生的。

最早将话语标记运用于次语言处理的是纽约大学（NYU）的医疗和制药文本研究。NYU研究组提出了“信息格式”的概念，认为潜隐于每个文本句子之中的基本句子的结构，都由次语言中话语标记与其他词的线性安排来显示。这些话语标记在它们的次级语言处理中扮演了重要角色[23]。Contant运用足量的法语次语言语法、话语标记和其他词汇生成法语文本(19)。D'Melloetal.在一个智能教学系统上考证了话语标记在预测学习者无聊、困惑、流畅、失意等状态中占据重要的地位[24]。

三、面向中文信息处理的话语标记研究的设想

与国外英语等语言的话语标记的研究相比，汉语话语标记的研究总体上比较滞后，这一点无论是在成果质量上还是数量上均有所体现。笔者以“discoursemarker”为篇名在CALIS外文期刊网中进行搜索（截至2014年12月6日），能够查找到的文献多达161 402篇。当然该期刊网的检索结果中有不少文献重复出现，因此成果的实际数量要低于这一数据，但是总数量肯定是以数万计的。而以“话语标记”为篇名在CNKI期刊网上进行搜索，能够查找到的文献仅有670篇（截至2014年12月6日），这其中还有部分是综述性和引介性文献。至于公开出版的直接研究话语标记的著作，截至目前为止中国大陆仅有5部。话语标记信息处理方面的论文，期刊上公开发表的仅仅1篇，专著尚无。这表明，我国话语标记研究尚处于起步阶段，还有很大的研究空间。有鉴于此，笔者以所在的单位为依托，申报了2013年度教育部人文社会科学重点研究基地重大项目，课题已顺利立项。笔者与团队成员希望以此为契机，在汉语话语标记的信息化研究方面作一些有益的探索。经过一段时间的调查与研究，我们对课题有不少思考与认识。我们认为，在本体研究整体较为薄弱，而应用研究尚未起步的情况下，开展话语标记的信息处理研究确实面临诸多困难。因此要想完成课题的预期目标，有许多基础性的研究工作亟待开展。限于篇幅，这里仅就其中的两个方面，谈谈我们的研究设想，以求教于方家。

（一）建设一个包含多种次级类型语料的口语语料库

根据研究计划，我们的课题拟利用词容大、次级语料丰富的口语转写语料样本，采用语料库统计方法处理和分析互动中的话语标记及其自动识别问题。“基于语料库的量化分析为主的方法可减少研究者的主观偏见和发现大量话语中呈现出的累积效应（incremental effectofdiscourse）”[25]。语料库的广泛使用使语言学的研究在质与量两个方面得到了巨大的改变和显著的突破，“成为几乎整个语言研究中的一个关键因素”[26]。

话语标记研究属于会话分析的一个分支，而开展会话分析的一个重要的基础性工作是获取规模大、质量高、真实自然的口语语料。但自然口语语料的采集和加工难度较大，因此，国内不少学者采用小说作品的对话语料，或使用半自然的电视交谈节目或电视剧的台词，有的甚至使用内省式的自编例句。诸如此类的研究因为语料上的局限性难以真正揭示话语标记的实质面貌。国内也有少数学者自建了自然、真实的会话语料，但总体来看，语料规模较小，语料性质单一，难以真实反映与全面揭示汉语的会话规律，也无法满足话语标记的研究之需。特别是面向自然语言处理的话语标记研究，客观上需要建立一个用于调查统计的海量数据库与用于测试评估的实验平台。

鉴于此，我们计划建设一个大规模的、高质量的口语语料库。建成这样一个口语语料库首要的问题是考虑语料的遴选。我们认为所选语料要有代表性，要能够收集不同性质、不同类型的语料样本。就口语语料来说，至少有以下常见的类型：

我们根据话题与事件类型的不同，选择了自然聊天、电话交谈、电视访谈、医疗会话、课堂会话、庭审会话等作为采集语料的主要话语情景。计划建成一个包含各种类型口语语料、总规模达500万字的语料库。其中，自然聊天语料规模为200万字，其他类型语料300万字。目前，语料收集工作已完成一半的任务。为了保证语料的质量，我们在采集自然聊天口语语料过程中，编写印制了《口语语料采集信息表》，准确记录包含交谈时间、交谈地点、话语参与人信息（含姓名、性别、年龄、职业、学历等）、交谈者关系等话语交谈的情景特征，这些信息对今后的研究有重要意义。

为了更好地发挥语料库的价值，口语语料库应该尽量同时储存语音与文本，实现音文语料同现[28]。我们在存储语料时，严格遵守这一原则，同时保留了语音与文本语料，便于今后对照原始的录音（录像）进行更为深入的分析。在语料转写规范上，借鉴DuDoisetal.语音材料转写规范。该转写规范为严式转写，可以最大限度地保留有价值的信息(20)。

（二）建成包含多层信息的话语标记词库

本课题的另一项基础性资源是为话语标记设计一个科学合理的词库。词库之所以能够在自然语言处理中发挥巨大作用是因为它本身可以包含功能强大的多层次信息。已有研究表明，有的词库包含句法模式和各词条互补分布的信息，有些包含针对词语基本形态而产生的屈折形式，有些包含了词的定义，有些则在各种词条中提供了关于本体论和层级体系的语义链接[29]。我们将充分借鉴以往研究成果，基于大规模口语语料库，从人工标注中获得量化数据，用于话语标记的信息编码，最终建成信息丰富、功能强大的词库，以便应用于计算程序的算法中，为话语标记歧义的消除提供知识支持。

1.制定话语标记词汇表。开发出一个性能卓越、功能完善的词库，需要做大量的工作。其中首要的任务是为话语标记制定一个词汇表，凡是能够充当话语标记的形式（词或短语甚至句子）都要收入。这要求我们对话语标记的全部成员做穷尽调查。尽管国内外对汉语话语标记的本体研究已有一定数量的成果，也取得了一些进展。但是现有的研究成果不能为中文信息处理提供足够的知识支持。突出表现在汉语的话语标记是一个成员繁多的大家族，现有的研究仅仅涉及一小部分。汉语中话语标记数量究竟有多少，目前还是一个未知数。孟晓亮、侯敏的研究涉及话语标记109个，但正如作者自己所言，这109个话语标记只是常用的一部分[30]。根据Hovy的统计，英语中的话语标记有1000余个[31]。汉语话语标记也应该不少，但其数量究竟是数百还是上千，目前尚无确切答案，只有通过大规模语料库的调查才能做出准确的回答。

本课题在调查话语标记时采取两步走的策略。第一步，调查现有的关于话语标记的研究文献，在前人的研究基础上直接搜集已被学界认可的成员；第二步，根据我们对话语标记的定义，借助大规模口语语料库开展全面调查，力求穷尽性地发掘各式各样的成员，进而得到一个面向自然语言处理的现代汉语话语标记成员列表。

2.对话语标记进行分类。话语标记成员列表完成之后，需要依据一定的标准进行分类。学界对话语标记的分类标准通常有三种类型：形式标准、语义标准与功能标准。从信息处理的角度来看，这三种分类标准都有其价值。我们的策略是将三个标准结合起来。比方，首先从语法性质上将话语标记分为词汇型话语标记、短语型话语标记、小句型话语标记三种基本类型。然后每种类型下面又细分为一字串型、二字串型、三字串型、四字串型、五字串型、六字串型、超长字串型等七种类型。不同的字串数的话语标记的使用频率不同，这些信息对话语标记的自动分析价值较大。

3.对话语标记句法、语义、语用信息进行编码。这些信息对话语标记的模糊消歧至为重要。据Popescu-Belis&Zufferey的研究，充当话语标记的词的模糊性主要表现在三个层面：其一，这些词的形式在某些语境中发挥语用的或话语标记的功能，有时则发挥语义或句子功能；其二，即使某一词充当话语标记，它也可以发挥不同的语用功能；其三，话语标记的范围，即其所应用的言语或文本的范围也是有差异的[32]。因此，要准确地识别话语标记，必须充分利用其句法、语义与语用信息。这些信息的编码是直接影响词库功能强弱与质量高低的一项关键工作。我们拟对词库中的每个话语标记进行逐一描述。具体的句法、语义和语用信息则是在对大规模语料样本调查之后，经过分析、归纳和整理得出。信息编码力求突出“合理”“细致”和“实用”的特点。主要信息包括：

第一，语法特征与频率信息。其一，语法性质与频率信息。如“不过”“但是”属于连词型话语标记，“幸亏”为副词型话语标记，“总的来看”属于偏正短语型话语标记，而“你看你”属于主谓句小句型话语标记；有些表达形式既可以当话语标记使用，也可当非话语标记使用，如：“完了”有话语标记与非话语标记（动补结构）两种用法，要分别注明两种用法的频率信息。其二，话语位置与频率信息。话语位置包括所在序列中的位置（如呼唤——应答，问候——问候，询问——回答），以及话轮中的位置（如话轮首、话轮中、话轮尾）。分别注明各个位置上的概率。其三，话语标记的共现信息。一些话语标记在使用中倾向于与其他话语标记（或其他词语）一起出现，形成组合使用的线性共现。比如同意标记“是/是的”常常与“对”等同意标记共现，而话语标记“你知道”常跟语气词“吧、吗”结合。拟在限定的跨距内区分为左共现成分和右共现成分，并分别注明共现标记的概率。

第二，韵律特征。词汇表达的韵律特征对判定它是否为话语标记非常有价值。话语标记常见的韵律特征有：重读、弱读、拖音、延长音、与后续词语间的停顿长短等。

第三，语义特征。其一，逻辑意义。逻辑意义主要反映前言后语内在的逻辑联系，如话语标记“虽然”一般表示逻辑意义；其二，程序意义。程序意义反映话语标记在语言片段之间或是语言片段和语境之间所起的纽带作用，能引领听话人去注意语境假设之间存在的特殊关系，如推论关系、强化关系和否定关系[9]。如“然后”“可是”既能表示逻辑意义，又能表示程序意义，“嗯”“那个”一般只表示程序意义；其三，真值意义。真值意义就是概念意义。有些学者认为话语标记的真值意义非常弱或者没有真值意义。但实际上有些话语标记是有真值意义的，如信息来源标记、说话方式标记，因为这些标记所编码的信息可以受到真假质疑[33]。可见，话语标记的真值意义是一个连续统，位于连续统最左端的话语标记没有真值意义，而位于最右端的话语标记保留了真值意义。对于演化中的话语标记来说，真值意义的强弱能够反映出其虚化程度的高低；其四，其他相关的语义特征。为了充分描述不同话语标记的分布与功能差异，需要挖掘与话语标记密切相关的其他语义特征。如：话语标记的语义分类，话语标记邻近论元的题元关系，话语标记的多义性及其联系等。

第四，话语功能。其一，连贯功能。连贯功能也即传统意义上的关联功能。由连词充当的话语标记大多具有此功能。从辖域的大小来看，话语标记的连贯功能实际上可以分为微观层面和宏观层面两种情况。它们分别充当篇章中跨句和跨话轮的连接成分。其二，话轮构建功能。话轮构建功能指某些话语标记具有构建话轮的作用。具体包括：构成相邻对第二部分、标记非合意第二部分、开启话轮、延续话轮、实现话轮等功能。其三，实现话题功能。实现话题功能指话语标记在话题层面上发挥的组织话题的作用。具体包括开启话题、转换话题、消除离题、结束话题等功能。其四，情感表达功能。有些话,语标记虽然本身包含的语义概念不多，但是能够传递说话者主观情感，协助对话顺利进行，进而达到最佳的言谈效果。这里所谓的主观情感涉及说话人的感觉、态度、评价、立场以及对礼貌的顺应等。其五，社会功能。某些话语标记的使用存在性别、年龄、教育程度、母语者与非母语使用者的差异，将分别注明这些功能上的差异。

结语

话语标记在会话分析研究中占据了核心地位，这与它们的高频使用密切相关。话语标记的高频使用表现于人与人之间的会话中，也表现于人与机器之间的对话中。据Fischer&Johanntokrax的研究，在非正式的德语的人对人交际中，其使用频率高达8.8%-9.8%，在人机交互中其重要性略有减弱，但在前150个高频词中也达到了6.6%[34]。话语标记在会话中的地位与作用可见一斑。因此，以话语标记为突破口开展相关研究，对面向自然语言处理的会话分析具有极为重要的意义。

本文结合在研课题，就汉语话语标记的信息处理谈了两个方面的研究设想，并围绕两点设想简要介绍了研究思路与具体策略。当然，有些想法还不够成熟，其可行性尚需实践来检验。需要指出的是，我们的某些设计是从长远考虑的，短期内或许无法完成。比如，话语标记的语用信息中，涉及性别、年龄、教育程度、母语与非母语等多方面社会因素的考量，这些信息对计算机最终理解人类的会话含义具有重要价值。但此类信息并非每个话语标记都具有，即使有些标记拥有部分或全部的特征，要准确细致地描写这些信息也是颇有难度的。为此，我们期待语言学界与计算机学界有更多的研究者加入这一极具挑战性但富有前景的研究领域。我们坚信，在众多学者的通力合作下，一定能够达成预期的目标。一旦获得全面细致的话语标记的信息编码，就可以应用于编写与注释对话语料。而借助这些形式、语义与功能上的信息，可望较为准确地分析对话的实体与功能性内容的联系，从而获得重要的数据，为计算机提取与模化人类的对话行为提供直接的知识支持。

注释：

①参见阚明刚《话语标记的计量与自动过滤提取》，载《计算机工程与应用》2012年第12期第19-23页。

②Mann,W.and Thompson,S.,Rhetorical structure theory：toward a functional theory of text organisation，in Text,1988，3，p.243-281.

③Marcu,D.,The Theory and Practice of Discourse Parsing and Summarization，The MIT Press,Cambridge,MA,2000.

④Marcu,D.,A decision-based approach to rhetorical parsing,in The 37th Annual Meeting of the Association for Computational Linguistics（ACL-99).Maryland,USA 1999,P.365–372.

⑤Soricut,R.and Marcu,D.,Sentence Level Discourse Parsing using Syntactic and Lexical Information,in Proceedings of the Human Language Technology and North American Association for Computational Linguistics Conference.Edmonton,Canada，2003.

⑥Marcu,D.and Echihabi,A.,An unsupervised approach to recognizing discourse relations,in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics Philadelphia,2002.

⑦Carlson,L.,Marcu,D.and Okurowski,M.E.,Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory,in Current and New Directions in Discourse and Dialogue，written by J. van Kuppevelt&R.Smith,Berlin:Springer,2003,P.85-112.

⑧Sporleder,C.and Lascarides,A.,Exploiting linguistic cues to classify rhetorical relations,in Proceedings of Recent Advances in Natural Language Processing,2005.

⑨Reitter,D.,Rhetorical Analysis with Rich-Feature Support Vector Models,Unpublished Master's thesis,University of Potsdam,2003；Hutchinson,B.Acquiring the meaning of discourse markers,in Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics,2004,P.685–692.

⑩Hirschberg,J.and Litman,D.,Empirical studies on the disambiguation of cue phrases,in Computational Linguistics，1993,3,P.501-530.

（11）Litman,Diane J.,Cue phrase classification using machine learning,in Journal of Artificial Intelligence Research,1996,5,P.53–94.

(12)Alistair K.,A data-driven methodology for motivating a set of coherence relations,Ph.D.thesis,University of Edinburgh,1996.

(13)Fischer,K.and Brandt-Pook,H.,Automatic Disambiguation of Discourse Particles,in Proceedings Of Colin ACL'98 Workshop on Discourse Relations and Discourse Markers,Montreal,1998,P.107-113.

(14)Heemanl,P.A.and Allen,J F.,Speech repairs，international phrases and discourse markers：modeling speakers'utterances in spoken dialogue,in Computational Linguistics,1999,4,P.1-45.

(15)Burstein J.,Marcu D.,and Knight,K.,Finding the WRITE Stuff：Automatic Identification of Discourse Structure in Student Essays,in Special Issue on Advances in Natural Language Processing，IEEE Intelligent Systems,written by Harabagiu S.and Ciravegna F.,2003,1,P. 32-39.

(16)Samy,D.and González-Ledesma,A.,Pragmatic Annotation of Discourse Markers in a Multilingual Parallel Corpus（Arabic-Spanish-English）,in Proceedings of International Conference on Language Resources and Evaluation LREC-08.Marrakech,Morocco，2008.

(17)Popescu-BelisA.&Zufferey,S.,Automatic Identification of Discourse Markers in Multiparty Dialogues：An In-Depth Study of Like and Well,inComputer Speech and Language，2011,3,P.499-518.

(18)Heeman,P.A.,Byron,D.K.and.Allen,J.F.,Identifying discourse markers in spoken dialog，in Proceedings of AAAI Spring Symposium on Applying Machine Learning to Discourse Processing,Stanford,CA,1998.

(19)Contant,C.,Génération automatique de texte：application au souslan-gage boursier francais,MA thesis,Dept.of Linguistics,University ofMontreal,1985.

(20)DuBois,etal.,Outline of discourse transcription，in Talking data：Transcription and coding in discourse research,written by Jane A.Edwards&Martin D.Lampert,（ed.）,Hillsdale,NJ:Lawrence Erlbaum，1993，45-89.

[1]Ramsay,A.Discourse[M]//The Oxford Handbook of Computational Linguistics.北京：外语教学与研究出版社，牛津：牛津大学出版社，2009.

[2]Heemanl,P.A.and Allen,J.F..Speech repairs,international phrases and discourse markers：modeling speakers'utterances in spoken dialogue[J].Computational Linguistics,1999（4）:1-45.

[3]Schiffrin,D..Discourse markers[M].Cambridge:Cambridge University Press,1987.

[4]Fraser,B..An approach to discourse markers[J].Journal of Pragmatics,1990（14）：383-395.

[5]Jucker,A.H.and Smith,S.W..And people just you know like “wow”，Discourse markers as negotiating strategies[M]//Jucker,A.H. and Ziv,Y.（ed.）.Discourse Markers：Theory and Descriptions.Amsterdam:Benjamins,1998:171-201.

[6]冉永平，莫爱屏，王寅.认知语用学[M].上海：上海外语教育出版社，2006：147.

[7]许家金.汉语自然会话中“然后”的话语功能分析[J].外语研究，2009（2）：9-15.

[8]Asher,N..Reference to Abstract Objects in Discourse[M].Dordrecht：Kluwer Academic Publishers,1993:260.

[9]Fraser,B..What are discourse markers？[J].Journal of Pragmatics, 1999（31）：931-952.

[10]冉永平.话语标记的语用学研究综述 [J].外语研究，2000（4）：8-14.

[11]刘丽艳.汉语话语标记研究[M].北京：北京语言大学出版社，2011: 32-37.

[14]Risselada,R.and Spooren,W..Introduction：Discourse markers and coherence relations[J].Journal of Pragmatics,1998（2）:131-133.

[15]Lenk,U..Discourse markers and global coherence in conversation [J].Journal of Pragmatics，1998（2）：245-257.

[16]Blakemore,D..Constraints on Interpretations[C]//Berkeley Linguistic Society.（eds.）Proceedings of the Sixteenth Annual Meetings of the Berkeley Linguistics,1990（32）：325-347.

[17]Rouchota,V..Discourse markers：what do they link[J].UCL Working Papers in Linguistics,1996（8）:199-214.

[18]VanDijk..Semantic macro-structures and knowledge frames in discourse comprehension[M]//Marcel.Adam.J.and Patricia A..Carpenter（ed.）.Cognitive Processes in Comprehension.Hillsdale,NJ:Erlbaum,1977：3-32.

[19]Holmes,J..Hedging your Bets and Sitting on the Fence：Some Evidence for Hedges as Support Structures[J].Te Reo,1984(1):47-62.

[20]姚双云.自然口语中的关联标记研究[M].北京：中国社会科学出版社，2012：48-68.

[21]Fischer,K.and Brandt-Pook,H..Automatic Disambiguation of Discourse Particles[M]//Proceedings Of ColinACL'98 Workshop on Discourse Relations and Discourse Markers.Montreal,1998: 107-113.

[22]黄大网.话语标记研究综述[J].福建外语，2001（1）：5-12.

[23]Sager,N..Natural language information formatting：the automatic conversion of texts to a structured data base[J].Advances in Computers,1978（17）:89-162.

[24]D'mello,S.K.,Craig,S.D.,Witherspoon,A.,Mcdaniel,B.and Graesser,A..Automatic detection of learner's affect from conversational cues[J].User Modeling and User-Adapted Interaction，2008 （1-2）：45-80.

[25]Baker,P..Using Corpora in Discourse Analysis[M].London:Continuum,2006：13.

[26]Teubert,W..Corpus Linguistic and Lexicography：The Beginning of a Beautiful Friendship[J].Lexicographica,2004（20）:1-19.

[27]姚双云.面向中文信息处理的汉语语法研究[M].武汉：华中师范大学出版社，2012：44.

[28]何安平.口语语料库、平行语料库、学习者语料库——第23届国际语料库语言学年会ICAME2002综述 [J].国外外语教学，2003 （1）：15-19.

[29]Hanks,P..Lexicography，The Oxford Handbook of Computational Linguistics[M].北京：外语教学与研究出版社，2009.

[30]孟晓亮，侯敏.话语标记的语体特征研究及其应用[J].中文信息学报，2009（4）：34-39.

[31]Hovy,Eduard,H..The multifunctionality of discourse markers[M]//Workshop on DiscourseMarkers.Egmond-aan-Zee,The Netherlands, 1995：1-12.

[32]Popescu-Belis A.and Zufferey,S..Automatic Identification of Discourse Markers in Multiparty Dialogues Working Paper 65[R].ISSCO，2006.

[33]冯光武.汉语语用标记语的语义、语用分析[J].现代外语，2004 （1）：24-31.

[34]Fischer,K.&Michaela，J..Ein linguistisches Merkmalsmodell für die Lexikalisierung von diskurssteuernden Partikeln.SFB 360“Situierte künstliche Kommunikatoren”，Report 18[R].University of Bie lefeld,1995.

（责任编辑：刘英玲）

H14

1674-9014（2015）01-0073-07

2014-12-18

教育部人文社会科学重点研究基地重大项目“基于小句中枢理论的自然口语话语标记的自动识别研究”（13JJD740013）。

姚双云，男，湖南邵阳人，华中师范大学语言与语言教育研究中心教授，博士生导师，研究方向为现代汉语语法、会话分析和中文信息处理。