面向文本信息处理的汉语句子和小句

2017-06-01 11:29葛诗利卢达威
中文信息学报 2017年2期
关键词:嵌套句号标点

宋 柔,葛诗利,尚 英,卢达威

(1. 广东外语外贸大学 外语研究与服务协同创新中心,广东 广州 510420;2. 北京语言大学 信息科学学院,北京 100086)

面向文本信息处理的汉语句子和小句

宋 柔1,2,葛诗利1,尚 英2,卢达威2

(1. 广东外语外贸大学 外语研究与服务协同创新中心,广东 广州 510420;2. 北京语言大学 信息科学学院,北京 100086)

小句和句子分别是篇章信息处理的基本单位和复合单位。但是汉语中,这两个概念至今未有公认的适用于语言信息处理的界定,这种状况阻碍了汉语信息处理的发展。该文将汉语的句子大致界定为自足的广义话题结构,把小句界定为基于广义话题结构的话题自足句,并提出了这样界定的语言学依据和认知依据。

汉语篇章处理;句子;小句;广义话题结构;话题自足句

1 汉语句子和小句界定中的问题

通常认为,篇章处理的单位是句子。关于句子的界定,布龙菲尔德[1]提出: “任何一个句子都是个独立的语言形式,不用任何语法结构包括到任何较大的语言形式里去,单凭这个事实就可以把言语里的句子划分出来了。”这里强调的是独立和最大。对于怎样界定汉语的句子,至今还缺少深入的研究。语言学家对于汉语句子的定义并不一致,比较典型的是赵元任和朱德熙的定义: “句子是最大的语法分析上重要的语言单位。一个句子是两头被停顿限定的一截话语。这种停顿应理解为说话的人有意作出的。”[2]“句子是前后都有停顿并且带有一定的句调表示相对完整的意义的语言形式。”[3]其中,关于停顿和句调的条件在文本中是部分地可检验的,但“最大的语法分析上重要的语言单位”和“表示相对完整的意义”则缺少可操作的检验标准。

邢福义研究复句,在建立复句语料库时采用了一种可操作的句子界定方法: “本章对‘句’的认定,遵从‘点号标句’的从众性原则。标句的点号,最具代表性的是句号,其次是问号和感叹号。”[4]这种句子,这里简称“句号句”,在语言信息处理界也是实际被采用的。从信息处理的视角看,句号句比较严重的问题在于两方面:

一是随意性较大。汉语的句号和逗号的句法和功能的划分并不清楚,不同人的使用习惯差异较大。以句号作为句子界定标准,缺少理论依据,进而缺乏应用的指导意义。邢福义虽遵从“点号标句”,但强调只是在小学语文课本的范围内,因为这个范围的语料比较规范。

二是有时意义不完整。一般人的印象中,句号句应当是意义完整的,事实并非如此。

例1 (宾州中文树库CTB)

西藏银行部门积极调整信贷结构,以确保农牧业生产等重点产业的投入,加大对工业、能源、交通、通信等建设的正常资金供应量。去年新增贷款十四点四一亿元,比上年增加八亿多元。农牧业生产贷款(包括扶贫贷款)比上年新增四点三八亿元;乡镇企业贷款增幅为百分之六十一点八三。

这段话按照句号切句的原则,分成三个句子,分别对西藏银行部门的工作进行抽象表述、给出总体贷款数据、给出具体行业部门贷款数据。这三个句号的使用是无可挑剔的。这三个句子在CTB中标注的简化形式可以表示为:

[西藏银行部门积极调整信贷结构, 以确保农牧业生产等重点产业的投入, 加大对工业、能源、交通、通信等建设的正常资金供应量。]

[*pro* 去年新增贷款十四点四一亿元,

*pro* 比上年增加八亿多元。]

[农牧业生产贷款(包括扶贫贷款)比上年新增四点三八亿元; 乡镇企业贷款增幅为百分之六十一点八三。]

由于采用点号标句原则,这一标注丢失了以下信息:

(1) 第3句的主体“西藏银行部门”和时间“去年”。

(2) 第2句的第1小句和第2小句的主体“西藏银行部门”。

我们考察了BLGTB(北京语言大学广义话题结构语料库)的百科全书分库,该库共4 645个句号句,其中1 910个有话题在前面句号句中,占41.1%,比例很高。小说中这类情况没那么严重。《鹿鼎记》第一回共632个句号句,其中42个有话题在前面句号句中,占6.7%,比例虽不很高但也不能无视。这些数据说明句号句作为汉语篇章单位并不合适。

对比汉语句子的界定研究,汉语小句界定在语言学界涉及比较多。一般来说,凡研究篇章现象的都会涉及小句的界定,因为小句是篇章的最基本的单位。关于小句的定义,有几种观点。一种是参照英语的方式,把包含谓语的成分都看成小句[5];另一种强调小句的独立性而排斥担任句子成分的主谓短语[6];还有一种强调小句的动态性,小句一定要带有语调[7]。

我们不建议在信息处理中采用这些定义。原因是:

(1) 缺乏可操作性。比如以谓语界定小句,因汉语缺乏形式标记,谓语的判断很成问题。“他说话很快”,既可看成(他(说话 很快)),其中“说话”是谓语中的主语;也可看成((他 说话)很快),“说话”是主语中的谓语。又比如语调的判断。一段文本是否带语调,在没有语气词的情况下要靠研究者试验看能不能加语气词[7],这是很不可靠的,也无法自动实现。

(2) 缺乏可应用性。缺乏可操作性直接导致无法应用,而研究者缺乏应用导向性更使得这些定义缺乏应用价值。比如各种定义都没提出一个主语带几个谓语、中间有逗号分割的情形怎么办,但这种情形在真实文本中很常见。

有些语言信息处理的实践出于可操作性的需要,用标点句作为小句。但是,标点句往往意义不完整。BLGTB的考察表明,一半以上的这种小句缺话题[8],还有一些标点句缺说明。

本文认为,作为汉语文本的信息处理单位,句子和小句的定义应当满足如下条件:

(1) 对于各种汉语文本,可操作,全覆盖;

(2) 符合语言学的基本原理;

(3) 具有认知意义;

(4) 支持篇章处理的各种应用;

本文将说明,按照上述条件,汉语篇章中自足的广义话题结构大致可以看作汉语的句子,话题自足句可以看作小句。

2 一些概念

本节内容多已发表过,但因为广义话题结构和话题自足句是本文的最重要的基本概念,而许多人并不了解,故这里仍占用一些篇幅进行概要介绍,细节请参看[9]。

2.1 标点句和广义话题结构

我们把逗号、分号、句号、叹号、问号、直接引语的引号以及这种引号前的冒号所分隔出的词语串称为标点句。

篇章的上下文中,如果标点句中的一个成分(包括整个标点句)被另一些标点句谈论,则称前者为后者的话题,后者为前者的说明。话题和它的所有说明组成一个话题结构。话题所在标点句中话题后面的部分如果也是谈论它的,那么也是它的一个说明。

这样的话题包括篇章中被上下文共享的各种成分,主要是主语,也包括状语性、谓语性的成分,甚至某些连词、介词等,所以称为广义话题,相应的话题结构称为广义话题结构。有时为了方便,也将广义话题,称作话题。

汉语的广义话题结构可以用换行缩进图式表示: 每个标点句自成一行,并且当一个标点句的话题在另一个标点句中时,前者缩进到话题的右侧。采用这种方法,例1可以表示为图1。

图1 广义话题结构的嵌套性

这个例子展示出广义话题结构的嵌套性。

2.2 自足的广义话题结构(自足话题结构)

如果一个广义话题结构既没有话题在上下文中,也没有说明在上下文中,它就称为自足的广义话题结构,简称自足话题结构。例1是一个自足话题结构。例2有14个标点句,组成4个自足话题结构,在图中用带圈的数字标示。第3、4标点句组成广义话题结构,但需要共享第1标点句中的“查继佐”做外层话题,故不是自足话题结构(图2)。

例2 (金庸《鹿鼎记》)

图2 自足话题结构(其中第5标点句中的双竖线隔出新 支话题“雪”。新支话题的概念见文献[9]

2.3 话题自足句及其生成方法

自足话题结构中的标点句,从该结构内的上下文中补足了话题和说明,所得到的结果称为该标点句的话题自足句。如果某标点句没有话题和说明在上下文中,只要不是省略,它自身就是话题自足句。这里的“自足”是针对上下文而言的,即从上下文的字面上看,话题和说明已经补足了,无法再补更多成分进去。例1的7个标点句可以补足话题成为7个话题自足句(图3)。

图3 话题自足句

我们把话题自足句的生成过程看成是与篇章中标点句的输入同步发生的。例1中的话题自足句的生成过程可以用堆栈操作来描述(图4)。

图4 用堆栈操作生成话题自足句,图中每个等号表示生成一个话题自足句

话题自足句的生成方法主要是上面描述的堆栈模式,此外还有新支模式、话题后置模式、汇流模式、封闭语段模式,各模式合起来构成广义话题结构的流水模型。详见文献[9]。

3 汉语的句子

本文把汉语的句子大致地界定为自足话题结构。

之所以说“大致地”,是因为有时一个自足话题结构因带有某些连词而逻辑上不能独立,需要与和它相邻的作为逻辑关联方的自足话题结构合在一起,才能构成汉语的句子。这种情况不是很多。限于篇幅,本文不予详细讨论。

3.1 自足话题结构作为句子的语言学依据

赵元任和朱德熙关于句子定义都要求句子两头有停顿,朱德熙还特别提出要有句调。这两个要求,自足话题结构可以说是大致满足的。因为自足话题结构是标点句的序列,标点句以标点分隔,标点的功能之一就是表示停顿和语调。

本文第1节指出,句子被要求是“最大的语法分析上重要的语言单位”和“表示相对完整的意义”,缺少可操作的检验标准。现在,我们从话题—说明关系的视角来看这两个条件。所谓意义相对完整,就是话题和说明都齐全,不需要从上下文中补充;所谓最大,就是从话题—说明关系来看,没有更大的结构可以包容自足话题结构。可以看出,话题—说明关系为句子的检验提供了可操作的标准,而自足话题结构满足检验标准,因此可以看成汉语的句子。

3.2 自足话题结构与标点符号的关系

话题—说明关系反映的是事件要素之间或事物属性之间的关系,自足话题结构是这种关系的组合。另一方面,逗号和句号的区别主要反映的是逻辑语义的层次关系,层次间隔小的用逗号,间隔大的用句号。因此,自足话题结构的结束与标点符号是逗号还是句号没有必然的联系。例2中第2标点句后面是句号,但并没有终结它所在的自足话题结构;第4和第9标点句后面是逗号,却终结了它们所在的自足话题结构。

当然,通常情况下,终结自足话题结构的标点,多数还是句号,这是因为一组事件或事物关系表达完成,在逻辑语义关系中往往也是较大层次的结束。

判断逻辑语义关系层次间隔的大小,有较强的主观性。因而,逗号句号的选择也就有比较强的主观性。这个结论的直接推论就是,逗号和句号的区别不能作为划分句子的依据。

3.3 自足话题结构与逻辑语义结构的关系

逻辑语义分析必须建立在自足话题结构分析的基础之上,或者说,自足话题结构分析是逻辑语义分析的前提。原因有二。

首先,逻辑语义关系是基本命题之间的关系,话题—说明关系正是这种基本命题。所以,要分析逻辑语义关系,先得找出话题—说明关系。但后者隐藏在自足话题结构中。把自足话题结构整体分析清楚了,得到了其内部的话题—说明关系,才谈得上分析逻辑语义关系。

第二,前面已经说过逻辑语义关系的层次分析是带有主观性的。其实不仅是层次间隔的大小,就连逻辑语义关系的类型判断也有很强的主观性。例2中第3、4标点句同第5、6标点句的关系,既可以看作时序关系,也可以看作人与环境的对比关系,还可以看作人与环境的并列关系。因此,如果把逻辑语义关系分析作为基础,则这个基础会很不牢靠,建筑于其上的工作就会有坍塌的危险。

4 汉语的小句

本文把汉语的小句界定为自足话题结构的组分—话题自足句。

4.1 话题自足句的结构

比起自足话题结构,话题自足句的结构简单,一个话题只带一个说明。虽然其说明可能又递归地构成话题-说明关系,但嵌套在里面的说明仍然只有一个。因此,话题自足句具有线性结构,即(话题1 话题2 话题n 说明),而不是自足话题结构的多分支流水结构。

话题自足句的结构简单,还表现在话题嵌套的层次十分有限。BLGTB中话题嵌套路径的深度分布如表1所示[10]。

表1 话题嵌套深度分布

BLGTB中,话题嵌套的最大深度是5。下面是具有最大嵌套深度的实例:

例3 (李鹏《为我国政治经济和社会的进一步稳定发展而奋斗》)

图5 话题嵌套深度为5的广义话题结构

例中嵌套的五层广义话题是:

各级领导干部和所有政府工作人员—都—要—努力—去

话题自足句长度短,结构简单,所以作为篇章处理的基本单位—小句,其尺度是合适的。

4.2 话题自足句是文本的认知单位

在文本中,相当一部分话题自足句的话题和说明分属不同的标点句,在空间上是被分隔的;在口语的语流中,它们在时间上也是被分隔的。这就带来一个疑问: 话题自足句在大脑的认知活动中,是否有可能作为认知单位而存在并被加工呢?下面的分析从不同的角度为这个问题的正面回答提供了支持。

4.2.1 话题自足句作为文本认知单位的存在性

(1) 自足话题结构的规模无上界

例4(见下页)是一个自足话题结构,描述白冠长尾雉的形态和习性,带有45个标点句。容易看出,只要还有内容要说,就还可以加进更多的标点句,并且无需重复话题“白冠长尾雉”。

广义话题结构所包含的标点句的个数称为广义话题结构的规模。该例说明,汉语篇章中的广义话题结构的规模可以是无限的,它仅仅受到表述需求的限制,并不受认知能力的限制。

话题结构规模无上界,故话题和靠后的说明之间可能隔着许多标点句。但是,在实际的认知活动中,当听者或读者接收到某一个标点句(例如“尾羽常用作中国京剧武生的头冠”)时,他会即刻明白这个标点句说明的是许多标点句前的话题(“白冠长尾雉”)。这一现象表明,在大脑中,话题与其每一个用作说明的标点句都可以直接联系,从而可以不计文本和语流中的时空距离。这恰好是堆栈模式生成话题自足句的效果,因此也就为话题自足句在认知过程中的客观存在提供了正面支持。

例4 (《中国大百科全书》生物卷)

图6 含有45个标点句的广义话题结构

(2) 话题嵌套路径可以自由折返

堆栈模式中话题结构可以自由折返。在例4中,讲完

白冠长尾雉—雄雉—尾羽—其中央两对—并具一系列黑栗相间的横斑。

立刻回退2层话题“尾羽”和“其中央两对”,捡起13个标点句前的话题“雄雉”讲

白冠长尾雉—雄雉—喉和胸间横贯以黑带;

讲完

白冠长尾雉—雄雉—胸与两胁—并具栗色宽阔羽缘,—使下体大部呈为此色。

立刻回退3层话题“栗色宽阔羽缘”“胸与两胁”“雄雉”,捡起25个标点句前的话题“白冠长尾雉”,讲“白冠长尾雉—雌雉”如何如何。

这种即时自由折返的前提,显然是折返的起点与到达的目的地需要处于同一个认知结构中,即嵌套的各层话题需要处于同一个认知结构中。话题自足句正是这样的结构。因此,这一现象也为话题自足句作为认知单位的存在性提供了支持。

4.2.2 话题自足句的认知加工可能性

(1) 话题嵌套路径的认知意义

心理学曾以多种实验证明大脑短时记忆可容纳7±2个组块。BLGTB中话题嵌套最大深度是5,在大脑短时记忆可处理的范围之内,这个数据支持话题自足句可以作为大脑认知处理的工作单位。

此外,话题嵌套路径的语义是有认知基础的。例3中最大的话题嵌套路径连同最后的说明是:

各级领导干部和所有政府工作人员—都—要—努力—去—解决实际工作中的问题

从语义上看,这是事件要素路径的一种:

主体—范围—相态—方式—目标导引—行为

例4中最大的话题嵌套路径有两条,连同他们各自最后的说明是:

白冠长尾雉—雄雉—尾羽—其中央两对—呈银白色,

白冠长尾雉—雄雉—尾羽—其中央两对—并具一系列黑栗相间的横斑。

这是生物学的本体结构的路径,是事物要素路径的一种:

生物体—子类—部件—部位部件—性状

这种路径模式在人的语言习得过程中因无数次重复而烂熟于心,所以人不但能理解这样的话题自足句,而且能采用堆栈方式切掉尾部再续。这是话题自足句可以作为认知单位进行加工的正面证据。

(2) 话题—说明关系的不可穿越性

语料库的考察说明,话题—说明关系相互嵌套,不能交叉穿越。

例5 (自编)

我们可以说“他衣服笔挺,面料很讲究,鼻梁上架着一副金丝眼镜。”,不能说“他衣服笔挺,鼻梁上架着一副金丝眼镜,面料很讲究。”

因为它们的话题结构不同(图7):

图7 话题—说明关系的不可穿越性

后面的说法造成了话题—说明关系“衣服—面料很讲究,”穿越了另一个话题—说明关系“鼻梁上—架着一副金丝眼镜。”。

话题-说明关系的不可穿越性使得退掉的话题不能被再次共享,进而使得话题自足句的动态生成只需要一个话题自足句大小的存储空间,并且只需采用堆栈操作(新支模式、话题后置模式、汇流模式、封闭语段模式还需要附加的存储区和相关操作,但数量很少),这是十分高效的。因此,这一性质保障了话题自足句作为认知单位即时进行加工的可行性。

(3) 话题自足句的成句性

对于自然语言中句子的成句性,无法给出严密的形式化定义,但可以大致地理解为句法通顺、语义完整正确清楚。赵元任、朱德熙、沈家煊等人指出,汉语的主谓关系就是话题—说明关系[2-3,11]。因此可以说汉语中结构完整的“成句”的单位,具有话题-说明关系。但是反过来,一对具有话题-说明关系的词语串中间不加标点而能连起来成句,还需要验证。

首先,话题自足句的话题和说明是相对于上下文补全了的,因此语义是相对完整的,这是成句性的基本保证。

话题自足句的话题和说明可能分布在不同的标点句中,二者在原文中可能隔着一些词语和标点。这些中隔的成分被去除,少数情况下有可能造成句法不通或语义不清、语义错乱,从而不成句。据BLGTB上的考察[8],有6.3%的话题自足句不成句,绝大部分话题自足句是成句的。例如,例5中的话题自足句“他衣服面料很讲究,”和“他鼻梁上架着一副金丝眼镜。”等都成句。少数不成句的话题自足句,只需增删一些结构性成分便能成句,无须增删实义成分。比如,例1的第2标点句:

西藏银行部门以确保农牧业生产等重点产业的投入,

该句并不成句,原因是有一个表示目的的篇章连词“以”插在中间。原文中有上下文,需要这个连词,现在上文没有了,这个连词就成了多余成分了。但只要暂时删除“以”,话题自足句就是成句的:

西藏银行部门确保农牧业生产等重点产业的投入,

连词“以”并不是被彻底丢弃。当进行逻辑关系分析时,参照原有的连词“以”,便可判断“确保农牧业生产等重点产业的投入”是一个目的从句。

话题自足句的成句性是一个很重要的性质,对于广义话题结构分析和应用都很有用。单从认知加工的角度看,它保证了话题自足句可以以自然方式被直接认知。这从消极的视角说明话题自足句作为认知加工单位是可能的。

如此定义的小句和句子,适合于多个应用领域。限于篇幅本文不再讨论其可应用性。

5 讨论

我们收集了数十万字多种语体的汉语篇章语料,按照不同的模式进行了广义话题结构的标注,其中3万多标点句、30多万字的标注语料已经发布。标注实践证明,这样的定义对于汉语文本是可操作、全覆盖的。

我们必须加强语言信息处理的基础科学研究。对于篇章处理,首先就要解决句子和小句的界定问题,这是本文工作的驱动力。本文的工作还是很初步的,需要进一步做的课题至少包括:

(1) 大规模语料标注(已经标注了数十万字的多种语体的语料);

(2) 广义话题结构流水模型的完善和精确化;

(3) 话题—说明关系判断方法及广义话题结构的计算模型;

(4) 话题自足句与认知的关系;

(5) 汉语广义话题结构与逻辑语义结构的关系;

(6) 广义话题结构的应用。

[1] 布龙菲尔德.语言论[M].袁家骅等译.北京: 商务印书馆,1979.

[2] 赵元任.汉语口语语法 [M].吕叔湘译.北京: 商务印书馆,1979.

[3] 朱德熙.语法讲义[M].北京: 商务印书馆,1982

[4] 邢福义.汉语复句研究[M].北京: 商务印书馆,2001.

[5] 屈承熹.汉语篇章语法[M].潘文国等译.北京: 北京语言大学出版社,2006.

[6] 邢福义.汉语语法学[M].长春: 东北师范大学出版社,1996.

[7] 储泽祥,王文格.现代汉语小句的判断标准[J].宁夏大学学报(人文社会科学版),2009(4): 28-35.

[8] 尚英.汉语篇章广义话题结构理论的实证性研究[D]. 北京语言大学博士论文,2014.

[9] 宋柔.汉语篇章广义话题结构的流水模型[J].中国语文,2013(6): 483-494.

[10] 卢达威,宋柔,尚英.从广义话题结构考察汉语篇章话题认知复杂度[J]. 中文信息学报,2014(5): 112-124.

[11] 沈家煊.“零句”和“流水句”[J]. 中国语文,2012(5).

[12] 曹逢甫.汉语的句子与子句结构[M].王静,译.北京: 北京语言大学出版社,2004.

Chinese Sentence and Clause for Text Information Processing

SONG Rou1,2,GE Shili1,SHANG Ying2,LU Dawei2

(1. Guangdon Collaborative Innovation Center for Language Research & Service, Guangdong University ofForeign Studies, Guangzhou, Guangdong 510420, China;2. Information Science Institute, Beijing Language and Cuiture University, Beijing 100086, China)

In text information processing, clause is regarded as the basic unit and sentence the compound unit. Thus far, a lack of operational definitions for these two concepts hinders the development of Chinese information processing. This research defines sentence as Sufficient Generalized Topic Structure roughly and clause as Topic Sufficient Clause based on it. Both definitions are put forward with linguistic and cognitive foundations.

chinese text processing; sentence; clause; generalized topic structure; topic sufficient clause

宋柔(1946—),硕士,教授,主要研究领域为计算语言学。E⁃mail:songrou@126.com葛诗利(1969—),博士,教授,主要研究领域为计算语言学。E⁃mail:geshili@gdufs.edu.cn

尚英(1979—),博士,讲师,主要研究领域为计算语言学和对外汉语教学。E⁃mail:shangying229@126.com

2015-07-31 定稿日期: 2016-01-10

国家自然科学基金(61171129,61672175);2016年国家语委重点项目(ZDI135-30)

1003-0077(2017)02-0018-07

TP391

A

猜你喜欢
嵌套句号标点
句号
标点可有可无吗
兼具高自由度低互耦的间距约束稀疏阵列设计
《辽史》标点辨误四则
句号失踪记
句号
小小标点真厉害
句号提意见
论电影嵌套式结构的内涵与类型
嵌套交易如何实现逆市盈利