吴 锋 文
(信阳师范学院 文学院,河南 信阳 464000)
【语言文化与文学研究】
面向信息处理的非分句语段的类型及其特征
吴 锋 文
(信阳师范学院 文学院,河南 信阳 464000)
复句句法语义关系判定对汉语复句信息工程和自然语言理解具有重要意义,而非分句的出现,影响着汉语复句句法语义关系判定的准确率。在界定非分句的基础上,探讨了分句的判别标准以及非分句的结构功能类型及其特征,以期加强复句句法语义关系判定的预处理,为最终实现汉语复句信息处理服务。
复句信息处理;复句;分句;非分句语段
汉语复句句法语义关系判定,是计算语言学句法分析的重要议题,也是中文信息处理的基础性课题。计算机对复句进行自动句法分析,其核心内容就是对分句之间的层次构造和语义关系进行判定,而这种判定分析是以关系词的正确标注和分句的确定为基础[1]。例如:
(1)①这种应用创新的结果,②不仅能提高企业的劳动生产效率,③而且还能增强企业对市场的反应能力,④并使企业赢得或保持竞争优势。(《人民日报》1996-07-06)
(2)①由于工作的需要,②我虽然读过一些语言学方面的书籍,③但自知在语言学家跟前仍是一个门外汉,④所以不敢妄评。(转引自李晋霞2003)
例(1)语段①“这种应用创新的结果”不是分句,而是后面②—④分句的主语,也是整个复句的话题;例(2)语段①“由于工作的需要”不是分句,而是介词“由于”引导的事由性状语成分,②—④三句才是分句。
计算机对复句进行句法语义关系识别,是以语段*这里所说的“语段”, 其含义不同于语言单位“语段”。邢福义、吴振国主编的《语言学概论》(2002)中,语段是指由语义上有相互联系的若干句子,围绕一个语义中心组织起来的句子的组合,又称句群、句组、句段、语篇、篇章或超句体;本文“语段”是以复句为考察背景的,是指位于复句中两个书读符号之间的语言片段,这种语言片段可能是分句,也可能是短语,文中统称为“语段”。为单位进行的。对从复句中提取出来的某个语段,是否为一个分句,计算机首先需要进行正确判定。只有正确地标注了关系词、排除了非分句,计算机对有标复句的自动句法分析才能顺利进行。但诸如上例(1)—(2)的非分句语段,成为汉语复句自动句法分析的难点,影响着汉语复句句法语义关系判定的进展。
学界以汉语复句为背景,探讨有关非分句语段识别和分句的判定的成果不多,仅见李琼(2008,2012)、俞小娟(2009)和洪鹿平(2008)。李琼(2008)对非分句从结构形式方面进行了分析考察,归纳了复句中四种类型的短语语段[2];洪鹿平(2008)通过分割逗号功能来得出复句的分句集[3];胡金柱、俞小娟(2008)采用聚类分析的思想识别复句中的非分句语段,取得一定进展[4]。计算语言学领域有关短语边界的判定研究,如名词短语[5]、介词短语,[6][7]以及搜索引擎日志中名、动组配结构的识别等[8],也为非分句的识别提供了参考。为顺应中文信息处理发展需求,推动汉语复句信息处理的进一步发展,本文拟将系统研究汉语复句中的非分句语段的类型及其特征,为汉语复句的计算机识别奠定基础。
所谓“非分句”,是对于复句的直接构件单位——分句而言的,它是出现在复句中的一些缺乏表述性和相对独立性的语段形式,也可称之为短语字段*“非分句”这一称谓并非语言学上的严格术语,本文仅用于指称复句中缺乏分句地位的各种语段形式,以区别于一般的短语。。如前所述,计算机处理复句的层次关系,首先必须准确判定复句中分句的数目,由于复句中出现的语段不是分句就是非分句,因而对复句分句的确定一般可采用逆向思维来判定,即通过对非分句语段的识别来间接完成,非分句文中用符号(【】/ffj)标示。例如:
(3)只要团结奋斗,扎实工作,【我们今天所做的一切】/ffj,就一定能够起到历史性的作用。(《长江日报》1986-12-15)
(4)【发达国家各种经济贸易集团的成立和发展】/ffj,虽然扩大了地区内部贸易自由化,但是【对于地区外的国家来说】/ffj,则是扩大了关税和非关税壁垒的适用范围。(《人民日报》1990-04-14)
(5)【在经济改革与结构调整过程中】/ffj,如果缺乏政府强有力的宏观调控,如果没有公共行政管理部门的高效率工作,经济活动就很难有序进行,实现经济持续增长和可持续发展的努力就会遇到障碍。(《人民日报》1996-04-25)
例(3)中“我们今天所做的一切”句法上是“VP+的+NP”结构,它是一个短语语段,充当后面分句“就一定能够起到历史性的作用”的主语,被包含在“X就能够起到历史性的作用”这个小句里头。例(4)中有两个短语字段:“发达国家各种经济贸易集团的成立和发展”是“VP+的+NP”结构,充当后面分句的主语;“但是对于地区外的国家来说”在句法上是一个包含有关系词“但是”的介宾结构“对于X来说”,它充当后面分句的状语。例(5)中“在经济改革与结构调整过程中”是介宾结构“在X中”置于句首充当整个复句的状语。
复句关系层次识别过程中,首先要做的就是将这些短语语段排除在外,才能正确地确定参与复句层次组合的分句的个数。而非分句的排除,则涉及对复句中分句的认定、对具有明显形式标志的短语的直接肯定等两个方面。下面我们具体论述之。
究竟什么样的语段才算是复句中的分句?关于这一问题,学界目前看法并不一致。究其原因,与学界对“句子”的认识有密切关系。下面我们先分析学界对 “句子”的界定。
在汉语学界,关于什么是“句子”,人们很难给出一个精确的、形式化的定义。黎锦熙《新著国语文法》(1992)在界定句子时,以意义为标准,认为“能够表示思想中一个完全意思的,叫作‘句子’,通称‘句’”[9]15。赵元任则认为,句子是最大的语法分析上最重要的语言单位,并将“句子”建立在“整句”和“零句”这两个概念之上,“句子可以从结构上分为整句和零句。整句有主语、谓语两部分,是连续化语流中最常见的句型。零句没有主语—谓语形式,它最常见于对话以及说话和行为参杂的场合”[10]42。朱德熙(1982)则将句子定义为“前后都有停顿并且带着一定的句调表示相对完整的意义的语言形式”[11]21。
上述前贤对“句子”的界定经历了从黎锦熙的单纯以意义为标准,到赵元任以结构为标准,直至朱德熙以结构和意义为双重标准的一系列变化。学者虽对汉语“句子”这一概念很难给出一个清晰的界定,但就句子外延及分类看,都一致认同汉语句子从结构上可以分为单句和复句,在这一点上则是有共识的。
至于单句、复句的划界问题,或者说如何判定一个句子是属于单句还是复句,学界仍然存有分歧[12]。吕叔湘《汉语语法分析问题》(1979)明确指出:“单句复句的划分是讲汉语语法叫人挠头的问题之一。”[13]郭中平(1957)曾列举了黎锦熙、王力、吕叔湘、语法小组、张志公五家所持的看法以及分歧[14]。例如:
(6)袭人进来,见这光景,知是梳洗过了。
(7)他们爱祖国,爱人民,爱和平,爱正义。
(8)他一扔下粪筐就往回跑。
(9)关于各项具体政策,中央曾有所指示。
表1 单、复句分析分歧示例表
提及上述各家的分歧,主要是为了说明“句子”概念界定的模糊性以及句子判定标准的差异性。当然,本文主要目的在于如何排除非分句并确定复句中分句的个数,为有标复句的层次关系识别服务,而无意于对单、复句的纠葛问题作过多讨论。
从本文研究目的出发,对分句的判定原则,拟将借鉴邢福义的“小句中枢”说和复句三分理论体系。邢福义(1995)认为,小句是“最小的具有表述性和独立性的语法单位”[15]26。所谓具有表述性,是指能够表明说话人的一个意指,体现一个特定的意图;所谓具有独立性,是指一个小句不被包含在另一个小句之中。他还进一步指出,小句的外延既指单句,也指结构上大致和小句相当的分句,即复句中分句化的小句。这种分句化的小句,它们既相互独立,又相互依存。一方面,每个分句都有句的性质和地位,甲分句不是乙分句里的一个成分,乙分句也不是加分句里的一个成分;另一方面,甲分句和乙分句互有关系,处于一定关系之中;并且往往由特定的关系词语联结起来;分句间由于相互依赖而可以省略某个成分。
根据“小句中枢说”理论,从中文信息处理角度判定复句中某个语段是否为分句必须依据以下三条标准:
其一,结构标准:复句中某个语段为分句当且仅当该语段不能在句法上充当其相邻语段的句法成分,如不能充当主语、状语、定语*当句中的某一个语段形式是主谓结构且有相对独立的表述性,即使从句法上看它也能作前面分句中谓语的宾语,本文仍将其视作一个分句。例如“我看见台上坐满了人,台下也坐满了人”中的“台下也坐满了人”在句法上也是前面“看见”的内容,因而在句法上可以充当宾语,但我们认为“台下也坐满了人”具有相对独立的表述性,可视为一个分句来处理,而且符合目前计算机处理语言的水平。。
其二,语义标准:某个语段为分句当且仅当该语段能够表达一个相对完整的意义;某个语段必须与其相邻的语段存在逻辑上的语义关系。
其三,停顿标准:复句的分句与分句之间,必须有语气停顿,表现在书面上就是语段之间使用逗号隔开。这条标准有助于确认某些包含有搭配型关系标记的紧缩结构。例如:
(10)①因为我没有把握,②只要他的刀在手,③我无论做什么都没有把握。(古龙《多情剑客无情剑》)
根据停顿标准,我们可以确定例(10)语段③是一个含关系标记“无论……都”的紧缩结构。
研究表明,汉语复句中的非分句语段类型多样,形式各异。对非分句语段进行归类整合,既有助于从整体上弄清非分句语段在复句中的分布概况,也有利于弄清每类非分句语段的结构特点,从而针对非分句自身的不同构成特征采取不同的识别策略。
李琼(2008)从结构形式方面分析考察非分句的分布情况,归纳了复句中四种类型的短语语段。本文认为,复句中非分句语段可以从不同的角度进行分类:从有无形式标记看,可分为明显形式标记语段和非明显形式标记语段;从句法功能看,有状语性语段、主语性语段、小句作宾语语段等;从语义功能看,又可分为介宾、时间、地点、范围、凭借等状语语段和话题性语段;从非分句语段的句序位置看,还可分为句首语段和句中语段;从非分句中是否有关系标记的角度,又可分为含关系标记型语段和不含关系标记型语段。
据上所述,以句法功能和表义特点相结合的双重视点考察,复句中的非分句语段主要有四种情况:
(一)状语性语段:由表时间、地点、范围、凭借等非必有论元充当句子的状语成分,一般居于句首独立成语段。例如:
(11)【19世纪中叶】/ffj,由于物理学发展了,人们开始用光谱分析、光度测量和照相术等方法研究天体。(摘自2014年深圳市事业单位职员招考试题)
(12)【在政治体制改革方面】/ffj,虽然各国的侧重点有所不同,但大都认为权利高度集中的体制必须改变,以逐步扩大地方和企业的权限。(《人民日报》1987-12-22)
(13)【只要人家是凭着自己的才干和智慧】/ffj,干出名堂来的,都是值得称道的。(《长江日报》1993-04-20)
例(11)—(13)都是状语性语段。例(11)中“19世纪中叶”是表时间的体词性短语作句首状语,例(12)中“在政治体制改革中”是表范围的介宾短语居于句首作状语,例(13)句首语段“凭着自己的才干和智慧”在语义上是后面语段“干出名堂来”的凭借,它和后面的语段“干出名堂来的”共同组成一个完整的小句。
(二)体词性主语语段:是由体词性成分充当整个复句或复句的某个分句的主语成分。它具体又可分为两类:
其一,复句各个分句的主语,其语义指称对象具有一致性,而将主语置于句首独立为短语语段,使各分句共享同一个主语。例如:
(14)【道歉的魅力】/ffj,不是来自花言巧语,而是来自真诚,来自心灵的沟通和感情的交流,来自为纠正过失而采取的实实在在的行动。(《人民日报》1997-11-03)
(15)【笑】/ffj,就像是香水,不但能令自己芬芳,也能令别人快乐。(古龙《多情剑客无情剑》)
(16)【发达国家帮助发展中国家实现可持续发展的努力】/ffj,既是对人类共同利益的贡献,同时也是对自身利益的一种投资。(《人民日报》1992-05-21)
例(14)—(16)的句首语段都是各自复句的主语。例(14)中句首语段“道歉的魅力”是后面四个分句的主语,由于这几个分句的主语相同,出于语言经济原则的考虑,将这个共同的主语“道歉的魅力”置于句首并以逗号断开,从而形成短语语段,在句法上作整个复句的主语,这种共享的主语相当于语用平面的话题;例(15)—(16)类似。
其二,复句中某个分句被逗号停顿离析为几个语段,从而使得不含谓语部分的一些语段成为非分句。例如:
(17)不管时代的潮流和社会的风尚怎样,【人总可以凭着自己高贵的品质】/ffj,走自己正确的道路。(《长江日报》1982-02-15)(主状语段)
→不管时代的潮流和社会的风尚怎样,人总可以凭着自己高贵的品质走自己正确的道路。
(18)【因为任何缺点和错误】/ffj,都是对人民不利的,因此也就对党不利。(《刘少奇选集》上卷第350页)
→因为任何缺点和错误都是对人民不利的,因此也就对党不利。
例(17)—(18)划线部分都是由于分句被停顿离析,使得主语或主语和状语部分成为一个主状(主语)短语片段,跟后面谓语部分用逗号隔开了。例(17)是由三个语段构成的两个分句,其中第二个分句被停顿离析为两个语段:“人总可以凭着自己高贵的品质” 是由“主语+情态动词‘可以’+【+凭借义】状语成分”充当的主状语段成分,“走自己正确的道路”是谓语语段成分,因而第二个语段不是分句而是短语语段;例(18)第一个语段“因为任何缺点和错误”和第二个语段“因为任何缺点和错误都是对人民不利的”合在一起才能表达一个完整意思,因而“因为任何缺点和错误”并非分句而是主语语段。
(三)嵌套结构语段:复句中某个分句的句法成分包含嵌套结构,嵌套结构被逗号停顿断开,从而形成非分句语段。这种嵌套结构具体有两种类型:
其一,分句的某个成分由复句形式充当,复句形式之间由逗号隔开形成非分句语段。
朱德熙《语法讲义》指出,有的时候单句内部可以包含复句的形式[11]21,也就是说,单句的某个句法成分比较复杂,可以容纳复句结构。与此类似,分句的某个句法成分比较复杂,可以容纳复句结构,从而出现非分句语段。例如:
(19)熊猫儿瞧着他,瞧着【他虽然柔和,但却永不屈服】/ffj的目光,瞧着他那永远不会在任何折磨下消失的微笑……(古龙《武林外史》)
(20)由于不了解武装斗争在中国革命中的重要性,因而犯了【不重视军队工作,不学习军事知识】/ffj的错误。(《刘少奇选集》上卷第342页)
(21)阿飞觉得心里一阵绞痛,他从来未尝过这种【既不是愁,也不是苦,既不是甜,也不是酸】/ffj的滋味。(古龙《多情剑客无情剑》)
例(19)—(21)都在复句的某一分句中包含了复句形式。例(19)中宾语“目光”的修饰语嵌套了一个复句形式“他虽然柔和,但却永不屈服”,“瞧着他虽然柔和”和“但却永不屈服的目光”两个都是语段,它们共同构成一个完整的分句。例(20)第二分句“犯了……错误”中嵌套了一个无标并列关系的复句形式“不重视军队工作,不学习军事理论”充当“错误”的限定性定语,显然,语段“因而犯了不重视军队工作”“不学习军事知识的错误”都不是分句。例(21)第二个分句“他从未尝过……的滋味”中嵌套了两个并列性复句形式“既不是愁,也不是苦,既不是甜,也不是酸”充当“滋味”的限定性定语,自然不再是分句。
其二,分句的某个成分是并列结构,并列结构之间由逗号隔开而形成非分句语段。例如:
(22)①魏、晋时代,口哨盛行,②【不但民间百姓,而且文人墨客、达官贵人,甚至妇女】/ffj都喜爱吹口哨。(《长江日报》1993-01-09)
(23)我赞美白杨树,就因为它不但象征了北方的农民,尤其象征了今天我们民族解放斗争中所不可缺少的【质朴,坚强,以及力求上进】/ffj的精神。(茅盾《白杨礼赞》)
例(22)包含5个语段,却只有2个分句的复句,分句②的主语由并列性结构“不但民间百姓,而且文人墨客、达官贵人,甚至妇女”充当,其中的“不但民间百姓”“而且文人墨客、达官贵人”都不是分句。例(23)是包含5个语段,却只有3个分句的复句,分句③“象征了……的精神”由于并列结构充当定语而被停顿隔开为三个语段,宾语“所不可缺少的精神”的限定性定语“质朴,坚强,以及力求上进”是一个并列结构,这三个语段都失去了分句的资格。
(四)功能词语段:句子里的某些表语气的副词、表示分句间关系的标记词被逗号停顿断开,从而成为一个功能词语段,在句中辅助表达某种功能。例如:
(24)【诚然】/ffj,一个企业固然要抓产品质量,但如果质量好的产品不对路,其价值不能实现,又有何用?*在ccsc复句语料库中,包含“诚然”的复句有667条,“诚然”既可居于句中,又可居于句首,独立为短语语段的有529条,也就是说在自然语流中,“诚然”独立为短语语段的概率高达79.3%。(《长江日报》1997-02-14)
(25)【如果】/ffj,一个男人认为自己只要招招手女人就会跟他一辈子,而且一辈子都会等着他再招第二次了,那么这个男人就难免会遇到一些不愉快的事。(古龙《七星龙王》)
(26)【一方面】/ffj,尽可能地保存自己的力量,【另一方面】/ffj,尽可能地消灭敌人的力量。(毛泽东《抗日游击战争的战略问题》)
例(24)-(26)中的副词成分和关系标记被停顿断开成为一个语段,这种形式的语段在句法上隶属于后面的分句。例(24)中副词成分“诚然”被独立断开,它在句法上隶属于后面分句“一个企业固然要抓产品质量”;例(25)句首的关系标记“如果”被停顿断开成为一个语段,它在句法上被后面的一、二分句标记共享,管辖一、二分句,构成“如果……那么”关系搭配标示分句间的存在“假设—结果”关系;例(26)中关系搭配“一方面……另一方面”被停顿断开,它们分别隶属于各自后面的分句,标示分句间存在逻辑上的并列关系。
本文将复句中经常出现的一些非分句语段整合归纳分为4大类、6小类,因为自然语言处理工程实践中这6小类非分句语段的识别难度不一样,因而对复句层次关系识别的影响度也不一样。比较而言,状语性语段、体词性主语语段和功能词语段比较容易识别,因为状语性语段表时间、地点、范围、凭借等,一般有明显的形式标记,可以采用规则的方法来识别;体词性主语语段是体词性的,一般不包含动词性成分,而功能词语段由表语气的副词或关系标记形成,也不包含动词,这两类非分句语段可以采用基于词性标注信息的方法来识别,目前的准确度也较为理想。真正难的是嵌套结构语段,这类语段一般是由某个分句句法成分的嵌套而形成,结构比较复杂,既缺少可供利用的形式标记,还常常伴随有动词出现,因而识别难度极大,很容易被错误判断为分句,从而给复句层次关系识别造成困难,因而有关嵌套结构型语段将是下一阶段非分句识别研究工作的重点。
[1] 胡金柱,吴锋文,李琼.汉语复句关系词库的建设及其利用[J].语言科学,2010,(2):133-142.
[2] 李琼.汉语复句书读前后语言片段的非分句识别[D].武汉:华中师范大学博士学位论文,2008.
[3] 洪鹿平.汉语复句关系自动判定研究[D].南京:南京师范大学硕士学位论文,2008.
[4] 胡金柱,俞小娟,李琼.基于规则库和聚类分析的复句短语字段的自动识别研究[J].华中师范大学学报(自然科学版),2008,(2):190-194.
[5] 李业刚,黄河燕,史树敏. 基于双语协同训练的最大名词短语识别研究[J].软件学报,2015,(7):1615-1625.
[6] 干俊伟,黄德根. 汉语介词短语的自动识别[J].中文信息学报,2005,(4):17-23.
[7] 卢朝华,黄广君,郭志兵. 基于最大熵的汉语介词短语识别研究[J].通信技术,2010,(5):181-183.
[8] 郑丽,吕学强.搜索引擎日志中“N+V+N”、“V+N+N”型短语识别[J].计算机工程与应用,2013,(6):143-147.
[9] 黎锦熙.新著国语文法[M].北京:商务印书馆,1992.
[10] 赵元任.北京口语语法[M].北京:商务印书馆,1972.
[11] 朱德熙.汉语语法讲义[M].北京:商务印书馆, 1982.
[12] 吴锋文.新时期以来汉语复句基础研究综观[J].信阳师范学院学报(哲学社会科学版),2013,(1):78-84.
[13] 吕叔湘. 汉语语法分析问题[M].北京:商务印书馆,1979.
[14] 郭中平.单复句的划界问题[J].中国语文,1957.
[15] 邢福义.汉语复句研究[M].北京:商务印书馆,2001.
【责任编辑 朱正平】
The Characteristics and Types of Non-Clause Based on Information Processing
WU Feng-wen
(College of Liberal Arts, Xinyang Normal University, Xinyang 464000, China)
Identifying syntactic and semantic relationships of compound sentences has great significance to Chinese information engineering and natural language processing, but non-clauses which often exist in compound sentences bring a bad effect on identifying accuracy of syntactic and semantic relationships of compound sentences. This paper defines what to be non-clauses, discusses the standard of identifying clauses and describes the types and characteristics of non-clauses. And then this paper aims how to strength pretreatment on syntactic and semantic relationships of compound sentences, finally realizes how to serve Chinese information processing.
information processing; compound sentences; clause; non-clause
H146
A
1009-5128(2017)03-0064-06
2016-12-07
国家社科基金青年项目:面向信息处理的汉语复句句法语义关系判定研究(14CYY035);教育部人文社科基金青年项目:汉语有标复句层次关系自动识别研究(12YJC740110);河南省高校青年骨干教师资助计划:而向信息处理的汉语有标复句句法语义问题研究(2015GGJS-143);信阳师范学院“南湖学者”青年项目
吴锋文(1981—),男,湖北麻城人,信阳师范学院文学院副教授,硕士生导师,文学博士,主要从事现代汉语语法、中文信息处理研究。