卢达威
话头话身关系是话题说明关系的扩展。汉语是话题显著型语言。在单句层面表现为“主语即话题”;①赵元任:《汉语口语语法》,北京:商务印书馆,1979 年,第45 页;朱德熙:《语法答问》,北京:商务印书馆,1985 年,第38 页;沈家煊:《“零句”和“流水句”》,《中国语文》2012 年第5 期。在篇章层面,话题可以通过平行推进或层级推进等零形回指方式②陈平:《汉语零形回指的话语分析》,《中国语文》1987 年第5 期。以及其他方式被后续的小句谈论,从而构成超越单句的“主题链”③曹逢甫:《汉语的句子与子句结构》,北京:北京语言大学出版社,2005 年,第53-54 页。或“汉语句”④[美]屈承熹:《汉语篇章语法》,潘文国等译,北京:北京语言大学出版社,2006 年,第282 页。。宋柔⑤宋柔:《汉语叙述文中的小句前部省略现象初析》,《中文信息学报》1992 年第3 期;宋柔:《现代汉语跨标点句句法关系的性质研究》,《世界汉语教学》2008 年第2 期;宋柔:《汉语篇章广义话题结构的流水模型》,《中国语文》2013 年第6 期;宋柔:《小句复合体的语法结构》,北京:商务印书馆,2022 年,第18 页。对单句层面和篇章层面中的“话题/主题”概念进行了统一和扩展,认为被谈论的成分既可以是单句层面的,也可以是篇章层面的,而且不仅可以是体词性成分,还可以是谓词性成分、环境成分、状语性成分,甚至介词、连词等,⑥宋柔:《小句复合体的语法结构》,第26 页。故使用了“话头(naming)”的说法,以免与传统话题混淆。话头所对应的说明成分则称为“话身(telling)”。一个话头可对应多个话身,话头及其所有话身组成的结构叫“话头话身结构(Naming-telling Structure)”。
在实际语料中,话头话身结构的概念更有利于语篇结构描写。语篇是由一个个标点句⑦标点句指以逗号、分号、句号、叹号、问号、直接引语的冒号、部分波折号和删节号(关于波折号和删节号的细节将另文说明)分隔的语段(宋柔:《小句复合体的语法结构》,第15 页)。构成的,但超过50%的标点句句法或语义不完整。①卢达威、宋柔、尚英:《从广义话题结构考察汉语篇章话题的认知复杂度》,《中文信息学报》2014 年第5 期。这些句法语义不完整的标点句大多能够在上文(少数情况是下文)找到所缺失(或称共享)的“话头”,这些标点句本身就是“话身”,从而形成话头话身结构。与话题说明不同的是,话头话身结构允许层层嵌套,一个话头话身结构允许话身是一个话头话身结构。在话头话身结构理论中,标点句通过话头话身关系组成话头话身结构,进而组成篇章,形成了“标点句—话头话身结构—篇章”的语篇组织方式。本文研究话头与话身的关系,是要探究标点句如何通过话头共享组织成话头话身结构;以及通过研究话头补全过程,探究语言认知和理解的过程。为清晰展现话头话身结构,我们将整个篇章按照每个标点句占一行的方式来排列,并将话身标点句缩进到话头的右边,这样就可以把话头和话身的关系直观展现(如表1),这种篇章表示方法称为“换行缩进图式”。②宋柔:《现代汉语跨标点句句法关系的性质研究》,《世界汉语教学》2008 年第2 期;宋柔:《汉语篇章广义话题结构的流水模型》,《中国语文》2013 年第6 期;宋柔:《小句复合体的语法结构》,第19-20 页。
表1 以换行缩进图式展示话头话身结构
表1 是宾州中文树库(Chinese Tree Bank,CTB)的一段新闻语料,我们用换行缩进图式对这段新闻进行排列后,得到了如表1 所示的呈现形式。从话头话身结构的角度看,整体段落7 个标点句(c1~c7)构成以“西藏银行部门”为最外层话头的话头话身结构(例中话头用“ □ ”表示)。“西藏银行部门”的话身有三个,分别是“积极调整信贷结构”(c1)、目的连词“以”为话头的话头话身结构(c2~c3)和以“去年”为话头的话头话身结构(c4~c7)。其中“去年”的话身也有3 个,分别是以“新增贷款”为话头的话头话身结构(c4~c5),“农牧业……亿元”(c6)和“乡镇……点八三”(c7)。从标点句的角度看,除c1 不缺话头外,c2~c7 都缺少部分话头,有的缺少一层话头(如c2 和c4),有的缺少两层话头(如c3、c6、c7),有的缺少三层话头(如c5)。以c5 为例,“比上年增加八亿多元”不完整,缺少话头。检索上下文发现c5 说的是“新增贷款”(在c4),属于实体话头;③话头话身结构理论中包含四种类型话头:实体话头、环境话头(包括时间和处所)、谓词话头和状性话头(宋柔:《汉语篇章广义话题结构的流水模型》,《中国语文》2013 年第6 期)。补全后看似完整,再往前还发现环境话头“去年”(在c4),这是“新增贷款比上年增加八亿多元”发生的时间;再往前发现c5还有另一实体话头“西藏银行部门”(在c1),这是“新增贷款”的领有者。再往前已没有其他能够进一步补充说明c5 的部分了,至此,c5 补全话头后完整的信息应该是“西藏银行部门去年新增贷款比上年增加八亿多元”,补全后的句子叫作“话头话身自足句”(Naming-telling Clause)。其中,“新增贷款”是直接话头,“西藏银行部门”和“去年”都是间接话头。
以上对表1 的分析发现,识别各标点句的话头需要对标点句进行话头话身关系分析。话头识别的研究可以帮助我们了解人在阅读理解时对标点句的认知过程,进而帮助计算机进行话头话身结构自动识别。但这是一项复杂的任务。对人来说,凭语感进行话头识别很容易,这个过程甚至是无意识的。但我们更想知道,所谓的“语感”究竟包含了哪些内容?也就是说,人在话头话身关系的识别过程中,究竟调用了哪些语言特征和语言知识?以及这些特征和知识如何协调和互动?哪些因素起了关键作用?调用顺序如何?对这些问题的研究,一方面从语言认知的角度,能够对人类语言理解有更深刻的认识;另一方面,从语言计算的角度,话头话身结构识别可以检验语言学知识和规律的正确性,也有助于计算机信息抽取、信息摘要、机器翻译等工程应用。
本文正是在已有话头话身结构理论的基础上,从语言认知和语言计算的角度出发,分析话头话身关系,挖掘话头识别过程中所涉及的影响因素和因素间的互动关系。为此,我们构造了一个“话头话身结构语料库”,对30963 个标点句、约37.8 万字的语料进行了人工的话头话身结构标注,内容涉及百科释文、小说和政府工作报告等语体类型。其中,百科释文包括生物、地理、历史事件和人物4 种题材;小说包括当代小说、现代章回小说和古代白话小说。考察语料发现,话头话身关系涉及语义、句法、语境、常识、百科知识等影响因素。以下我们将对这些影响因素逐一考察。
考察语料发现,话头话身分析中最主要的影响因素是语义知识,这是标点句话头识别分析的基础。语义知识对人来说显而易见,但从语言理解过程看,我们不知道自己调用了哪些知识以及这些知识的调用过程。从语言计算角度,理解语义则是比较困难的。虽然人工智能大语言模型(如ChatGPT 等)已具有一定的语义知识,但这些模型是一个黑箱,无法知道其识别过程,且对语义的理解不稳定。因此,我们仍需要对影响话头话身关系的语义因素进行挖掘。目前发现的语义特征有以下类型。
这主要是指话头和话身谓词的语义搭配关系(如表2)。表2 展现了语料中最普通的话头话身结构,其中c1 不缺话头,c2 缺少话头。从语言认知过程看,c2 的话头补全过程如下。首先,判断c2 缺话头的原因。本句缺少话头的原因是核心谓语“倒酒”的论元数量不足,“倒酒”缺少语义上的主体论元。第二,判断缺失话头的类型。根据语义常识,“倒酒”的主体应该是人。第三,查找c1 的所有成分(“小姐”“启开”“酒瓶”),并逐一识别其语义类型(“小姐”是人,“启开”是动作,“酒瓶”是物品)。第四,匹配c2 对话头的语义要求和c1 的候选话头语义类型,得到c2 的话头是“小姐”。从语言计算的角度,以上认知过程可以形式化为话头识别的基础算法,其中语义搭配知识和语义类型知识可以从语义词典①如由北京大学袁毓林教授开发的《汉语实词信息词典》。该词典包含名词的物性结构知识,形容词、动词的论元结构知识等,特别是物性结构知识包含了丰富的与名词所指事物有关的常识(详见袁毓林、曹宏:《“汉语形容词句法语义功能信息词典暨检索系统”知识内容说明书》,《辞书研究》2019 年第2 期;袁毓林、曹宏:《〈动词句法语义信息词典〉知识体系及其检索界面》,《中文信息学报》2022 年第8 期。或者语料统计中获得。
表2 话头和话身主要谓词之间的语义关系示例
话头和话身谓词的语义搭配关系是其他语义特征的基础,话头和话身谓词的语义关系是最基本的语义关系。语料调查中发现,大部分标点句的话头靠话头和话身的谓词的语义搭配就可以识别。
有的标点句缺少话头的原因不是核心谓词的论元不足,而是当句首为一阶名词或者一些意义不自足词语时,缺少其依附成分。这类词语相当于一个小话头,需要在上文找到所依附的成分作为大话头。小话头与其依附的大话头的语义关系主要有:局部和整体、部分与全体、属性与主体、事物与领有者,以及空间(或时间)参照关系、人际参照关系等(如表3)。②张瑞朋:《现代汉语书面语中跨标点句句法关系约束条件的研究》,北京:中国社会科学出版社,2013 年,第37-40 页。
表3 大话头与小话头之间的语义关系示例
表3(a)句首“年均温度”是一种属性,其属性主体是“澳门”。表3(b)c1 的“安徽省”和c2 句首“铜陵”构成大小处所的关系,“安徽省”成为c2的话头。表 3(c)c1 的“1912 年10 月”与“9日”以及c2 句首“17、18 日”构成大小时间的关系。大小话头的语义关系也可以归纳为词汇知识,在话头识别时,这类知识可以作为语义搭配知识的补充。
单靠上文话头和话身谓词的搭配以及大小话头语义关系有时还不足以确定话头。例如,在判断句中,前句主语和宾语在语义搭配上能与话身搭配,但主宾语的语义关系不同,会影响是否作为话头。若前句的主语和宾语分别是类和子类或类和元素的语义关系时,倾向于以子类或元素作为本句话头(如表4)。表4(a)c2 和c3 句首“眼”“背鳍”都是身体部件名称,c1 的“条纹虾鱼”和“中国玻甲鱼科”语义上都能成为部件的主体。在没有其他标记的情况下,倾向于以子类为话头,即“条纹虾鱼”。而且这与句法无关,即使我们把上例稍作变动,以“条纹虾鱼”作主语,语感上仍然认为c2~c3 在描述“条纹虾鱼”(如表4(a1))。在语料库中真实的例子如表4(b)。表4(b)c2 句首是器官名词“体”,需要依附于生物全体构成整体与器官关系。仅看词汇语义,c1 中“电鳗目”“硬骨鱼纲”都能与之搭配。“电鳗目”是子类,“硬骨鱼纲”是父类,“电鳗目”更倾向于成为话头。
表4 前句主语和宾语之间的语义关系示例
可见主宾语的语义关系也能影响话头识别。判断句中倾向以概念更具体、外延更小的成分为话头。
标点句本身谓语动词的语义类型对话头话身关系也有较大影响。若缺话头的标点句的谓语是表达属性、状态等静态描写的语义时,倾向于以前句动词宾语为话头;若标点句的谓语动词是表达动作、事件等动态描写的语义时,倾向于以前句主语为话头(如表5)。表5(a)和(b)的c1 相似,c2 不同。表5(a)的c2 的句首是“脸上”,核心谓语是“有些红点”,无论从搭配角度还是大小话头关系看,c1 的“两人”或“孙小姐”在句法和语义上都能成为c2 的话头。但从语感可知,c2 是对“孙小姐”的进一步说明,其话头应该是c1 的宾语“孙小姐”。表5(b)不同在于,虽然c1 的“鸿渐”和“孙小姐”在句法语义等方面也都能作为c2 的话头,但从语感可知c2 的话头是主语“鸿渐”而不是“孙小姐”。造成以上差别的原因是:表5(a)的c2 是静态描写,这种情况往往是对前句宾语(通常在句子的信息结构中是新事物)的进一步解释说明。而表5(b)c2 的核心谓词“说”是动作性较强的语义类型,往往是前句主语的时间上连续的动作。可见,标点句本身的语义类型也有重要影响。
表5 话身谓语语义类型差异示例
在上文的讨论中,我们默认话头成分是一个能够直接充当句子成分的短语结构。实际上,在一定的语义因素影响下,句子成分的局部也可能成为话头,如定中结构的定语或主谓结构的主语等(如表6)。表6(a)(b)(c)中,c2 都以c1 中定中结构的定语为话头,而这个定中结构在c1 中分别是主语、宾语、介词宾语。虽然句法各异,但语义上这几个定语都是中心语是领有者,故成为c2 的话头。这不是特例,定中结构中表环境、领属、类型等的定语,都有可能成为后句话头(如表7)。表7(a)是语料库原文,c2 的话头“1995 年末居民储蓄存款余额”呈现为定中结构,只要有需要,定语的各个部分几乎都能成为话头。比如我们可以自拟出表7(b)(c)(d)的例子。表7(b)(c)(d)中c2 的话头分别是“存款”“居民”“1995 年末”,在语义上分别与中心语“余额”构成环境、领属、类型等关系。c2 句与其构成话头话身关系的原因既包括句式的对齐,也包括大小话头的语义关系。可见,虽然从传统的句法分析角度看,定语与中心语是修饰关系,定语是名词短语的一个成分,不是句子的直接成分,不影响句子格局,但从话头话身结构看,定语和中心语在语用上可能是一系列潜在的嵌套的话头话身关系。
表6 定中结构的领属定语充当话头的示例
表7 定中结构的各类型定语充当话头的示例
除了定中结构外,当句子主语是主谓结构时,其主语也可能充当话头(如表8)。表8(a)c2 的话头是主谓宾结构“建设规模超过国家财力、物力的可能”,其主语部分“建设规模”还可以独立做话头。例如,我们可以根据句法平行结构的原则追补出以c1“建设规模”为话头(如表8(b)的c3)。
表8 主谓结构的主语充当话头的示例
当然,以上的例子只说明存在这样的现象,并非所有定中结构的定语都能成为话头。例如描写性的定语(如“漂亮的女孩”中的“漂亮”)就不能与中心语形成话头话身关系,不能被后续话身说明。
从上述语义特征可知,在认知话头话身关系时,首先确认造成话头缺失的原因,如果是核心谓语的主体论元缺失,则要考虑话身与候选话头的语义搭配;如果标点句句首有小话头,则要考虑候选话头与句首小话头的语义关系;判断句中,倾向于概念更具体、外延更小的成分为话头;如果话身标点句表达静态描写,一般是一种解释说明,倾向于以非句首的成分为话头;另外,表环境、领属、类型的定语和主谓结构的主语也可能成为话头。
这里说的句法因素,主要是指在进行标点句的话头话身关系分析时,能够从字面识别的,或者经过简单句法分析能够识别的特征。已发现的句法特征有关联词语、平行结构和语篇停顿。这些句法特征一般与语义因素不冲突,主要起到标记提示的作用。
关联词语对话头话身关系分析有明显的提示作用,特别是标点句句首有“就”“便”“所以”“但是”等后连词时,该句倾向于共享前句的主语作话头(如表9)。表9(a)的c1 主语“王脚”和宾语“儿子王肝和女儿王胆”,在语义上都能与c2“大声喝斥”搭配,但在于c2 句首存在后连词“便”,表示c2和c1 是动作的顺承,即c2 是动态描写。因此,c2 语义指向“王脚”。如果前句有与之搭配的前关联词,那么这一对关联词语倾向于对应起来。例如表 9(b)的c3 缺话头,c3 与“你”和“他”在语义上都能够搭配,不过“虽然”和“但是”组成关联词对,所以c3 共享“虽然”的话头“他”。
表9 关联词语影响话头话身关系分析的示例
平行结构最早由Frazier①Frazier, Lyn; Taft, Lori; Roeper, Tom; Clifton, Charles, “Parallel Structure: A Source of Facilitation in Sentence Comprehension”, Mem Cognit, 12(5), 1984, pp.421-430.提出,指由两个或两个以上相关联的语言单位组成,这些语言单位由连接词或其他手段连接,具有相同的组成成分,在句子中担当相同的句法角色。平行结构一般被用于修辞方面的研究,如篇章衔接等。Chambers 等①C. Chambers; R. Smyth, “Structural Parallelism and Discourse Coherence: A Test of Centering Theory”, Journal of Memory Language, vol.39(4) , 1998, pp.593-608(16).把平行结构引入描述篇章回指现象,研究了代词回指问题,认为代词倾向于回指与其结构平行的先行词,李榕②李榕:《影响代词回指的因素分析》,《当代语言学》2012 年第2 期。认为平行结构指相接的两句话宏观结构一致,而且包含有语义联系的谓语。她关注的也是代词回指的问题,认为如果含代词的句子和前一句的格式平行,平行结构可以打破主语的优先权,影响代词回指。总体来说,学者们对平行结构的定义主要关注篇章衔接等方面。话头话身结构的标注过程中发现,平行结构对共享话头的确认非常有效(如表10)。表10 都是平行结构组成的话头话身结构。表10(a)的c1 尾部和c2、c3 对应成分都是“互相+行为”;表10(b)的c1~c3 的结构都是“时间副词+担任+隶属者+职务”;表10(c)的c2~c4 与c1 尾部都是“向+方向+到达+处所”结构。当然,平行结构也能够造出反例(如表11(a))。表11(a)c1~c3 虽然句式上构成了平行结构,但常识上,“小赵”的可能方位只有左右前后上下,如果后面被占据了,再有“后面”只能是“小钱”的后面。若换成“前、后、左、右”则不一样,如表11(b)的c2、c3,由于“前、后、左、右”语义不冲突,于是都倾向于共享主语“小赵”。可见话头识别的影响因素是众多的。
表10 平行结构影响话头话身关系分析的示例
表11 平行结构影响话头话身关系分析的正反例对比
语言中停顿的长短代表了人对话头转换的预期,停顿长更倾向转换话头,停顿短更倾向接着原有话头继续说。不同停顿时长落实到文本中,就是不同的标点符号。因此,标点符号作为话头话身关系的标记是有一定认知理据的,语料中对话头话身关系分析也有一定影响(如表12)。表12 的c3 缺少话头。从上文看,c1 的“乡镇企业”无论句法上还是语义上都适合充当c3 的话头,但是语感上c3 与c1~c2 并不属于同一个话头话身结构,c2 的句号起到了一定的提示作用。实际上,c3 是一个主语省略句,在政府工作报告中比较常见。当然,标点符号仅为一种倾向性提示,句号切分话头话身结构的平均正确率只有80.77%,③何晓文、罗智勇、胡紫娟、王瑞琦:《基于小句复合体的句子边界自动识别研究》,《中文信息学报》2021 年第5 期。例如,表1 的c5 句就是反例。c5 是句号,但是后句没有转换话头,仍以“西藏银行部门”为话头。
表12 语篇停顿(标点符号)影响话头话身关系分析的示例
本节提到的句法特征,虽然对话头话身关系的判别有较高的准确率,但目前只是局部的特征,尚未形成体系。由于汉语句法形式特征比较缺乏,能够明确影响话头话身关系的句法因素并不多见,所以句法特征对语料覆盖度不高,多数情况下需要其他知识辅助判断。
值得注意的是,基于句法特征进行话头识别后,还需要进行语义、语境、常识等多方面知识的核查,才能真正确认话头。人在理解语言时也如此,当一句话符合句法、语义、常识等各方面的认知,我们才认为自己“理解”了这句话。若某个具有特定句法特征的话头语义不合格,应该根据语义特征重新识别话头。这是话头识别过程中的一种“语义核查”机制。
大部分标点句单看前句可以确定话头,但仍有极少数标点句,需要看更远的上下文才能确认(如表13)。表13(a)的c2 句首“下面”是方位词,意义不自足,需要含有方位特征的名词作话头构成空间参照关系。例中可与“下面”形成参照的候选成分有“那张片子”和“‘杜甫’两字”。这两个成分无论谁作为c2 的话头句法语义都是通顺的。由于“天头上”又和“下面”对应形成方位的平行结构,似乎倾向于以“天头上”前的“那张片子”作为话头,即理解为表13(b)。但我们看更远的上下文就会发现(见表13(c)),表 13(a)理解不正确。仔细揣摩表13(c)的后文发现,“片子”从上到下应该是“‘杜甫’两字”,接着是“标题”,接着是正文。所以“下面”并不是指“那张片子”的下面,而是“‘杜甫’两字”的下面。因此,c2“下面紫墨水写的标题”,其话头应该是“‘杜甫’两字”。
表13 语境因素影响话头话身关系分析的示例
这个例子反映出,句法特征有时候会起反作用,甚至引起误导,下文语境对其进行了纠正。语境因素通常以一种“语境核查”的形式起作用。就是说,如果一个话头符合句法语义,但与语境相冲突,则应该重新选择符合句法语义的其他候选话头,再进行语境核查。
有时仅靠句法语义知识仍然难以确认标点句的话头是其上下文的哪一成分,还需要用到常识(如表14)。表14(a)“香蕉”比“桃子”容易剥皮是常识,若c2 改成“剥皮真麻烦!”将会理解为对“桃子”的描述,以“桃子”为话头。表14(b)单从句法语义上看,c2“抢去钱袋”的话头可以是“他们”也可以是“溃兵”。但“溃兵”更容易让人与“抢”的施动者联系起来,因此以“溃兵”为话头更合理。即使表14(c)将主语和宾语位置调换,把“溃兵”作为主语,“抢去方老先生的钱袋”的人仍理解为溃兵。可见,当若干候选话头句法语义都合格而难以选择时,往往需要常识辅助。同时,常识也会对符合句法语义的话头进行核查,核查不通过可能需要重新选择其他候选话头(如表11(a))。但将常识形式化难度很大,人们甚至不清楚自己有多少常识,对语言处理而言是一大挑战。
表14 常识因素影响话头话身关系分析的示例
有的情况不仅需要句法语义语用知识和常识,还要调用百科知识帮助话头的判断(如表15)。表15 的c4 的句首是“下叶”,是鱼的部件名,意义不自足,需要主体。此时,如果没有足够的百科知识,很难判断“下叶”是“鰺”的部件,还是“尾鳍”的部件。只有我们形成了一个鱼类的本体知识集,才知道,“下叶”实际上是鱼尾的一部分,所以话头不是“鰺”,而是先共享c3 的“尾鳍”作直接话头,再共享“鰺”作间接话头。在语言计算中,百科知识可以利用知识图谱等资源进行识别。
表15 百科知识影响话头话身关系分析的示例
上文分析可知,话头话身关系分析涉及句法、语义、语境、常识以及百科等知识,是一个复杂的过程。基于上文分析和语料库研究,我们对这些影响因素的调用顺序、协调和互动过程,进行了归纳。总的来说,话头话身关系的分析过程中各类知识调用顺序是:句法知识→语义知识→常识/百科知识→语境知识。这些知识的用途主要包括话头判定和话头合格性核查。话头判定指从众多可能词语中选择最合适的话头,这个操作要反复比较和筛选,要调用较多的认知资源;话头合格性核查只要检查当前选中的话头是否合格,没有比较和筛选等操作,需要的认知资源较少。话头话身分析所涉及的知识中,句法知识主要用于话头判定,语境知识主要用于话头核查,语义、常识/百科知识既用于话头判定,也用于话头核查。他们的互动过程如图1 所示。
图1 话头话身分析中各因素的调用与协调
对各知识的调用与互动过程说明如下:(1)句法知识。话头识别过程中,首先尝试根据句法特征确定话头。句法特征是语言理解的表层特征,最容易被识别,调用的认知资源最少。如果能够判定话头,则再进行语义、常识、百科知识、语境的核查。若均核查通过,则表示句法判定的话头正确;若任何一个环节的核查不通过,都将利用语义知识进行话头的重新判定。(2)语义知识。在没有明显可用于判定话头的句法特征下,则根据语义特征进行话头判定。若语义特征可以判定话头,则进行常识、百科知识和语境的核查;若语义特征无法最终判定话头,则通过常识、百科知识进一步判定。(3)常识、百科知识。若经句法特征和语义特征分析后,仍有若干个候选话头不能唯一确定,则根据常识和百科知识对若干个符合句法语义的候选话头进行选择。判定后,再进行语境核查。若仍无法判定话头,则表示上文找不到同时符合句法、语义、常识和百科知识的话头,此时,该句可能是无主句、省略句或其他等不存在话头的情况,甚至可能是有误的句子,这些暂不在本文讨论范围内。(4)语境知识。语境知识主要用于对已选话头进行核查,在句法语义常识等特征对话头判断失误的情况下进行纠正。
话头话身结构是组成汉语篇章的基本组织结构。话头话身结构是由多个标点句通过话头共享而组成的。本文研究话头话身关系,补全标点句缺失的话头,正是为了发现标点句间的话头共享关系。从语篇研究的角度,这项工作使我们对语篇组织结构有更深刻的认识。从语言认知的角度,话头补全的过程涉及的句法、语义、常识、百科知识等影响因素以及它们的互动关系,是人们理解语言的过程之一,话头话身关系研究有利于我们更好探索语言理解过程的奥秘。从语言计算角度,话头话身关系研究和话头补全是语篇自动分析的基础任务。只有将话头补全涉及的影响因素和交互过程形式化,才能构建自动计算;也只有清楚每个标点句的话头话身关系,才能在此基础上进行句间逻辑关系分析、篇章主旨分析等工作,这是各种基于篇章的语言处理任务不可逾越的基本步骤。