利用标点符号自动识别分句

2011-08-15 00:48
皖西学院学报 2011年1期
关键词:顿号引号复句

李 琼

(华中师范大学 国际文化交流学院,湖北 武汉430079)

利用标点符号自动识别分句

李 琼

(华中师范大学 国际文化交流学院,湖北 武汉430079)

为了建设一个面向中文信息处理的大规模复句“精加工”语料库,首先要完成自动分词和词性标注工作,在此基础上进行分句层次和关系的自动划分和标注。由于标点符号是最直观而明晰的断句标记,我们编制的初始程序让计算机一“碰到”标点符号就把它前后的语言片段都判定为分句。这就为今后基于句法和语义知识的非分句识别奠定了良好的基础。

标点符号;断句标记;自动识别;分句;非分句

为建设一个面向中文信息处理的大规模复句“精加工”语料库,首先要完成自动分词和词性标注工作,在此基础上进行分句层次和关系的自动划分和标注。然而,对计算机稍有了解的人都知道,电脑毕竟不是人脑,它有时候“考虑”和“处理”问题比较简单。在对这个语料库①中的复句进行层次、关系的自动划分和标注时,如果我们不输入或者说不“教给”它有关知识的话,电脑将自动以标点符号为断句标记(此中的“句”指分句),因为标点符号最直观、最明晰。所谓“电脑将自动以标点符号为断句标记”中的“自动”其实也是人为设定的。意思是说,我们在此之前先编制一个程序,默认或初始设定以标点符号作为识别分句的标记;那么,在以后的程序执行过程中,计算机只要“碰到”标点符号,就会自动把它前后的语言片段(即标点符号分隔出来的语言单位)都判定为分句。当然这样做的风险很大,会把很多非分句语言片段也“收罗”进来;而如果误把非分句语言片段当作分句,将严重影响复句层次的划分,进而影响分句间关系标注的正确性。

一、标点符号的作用

为什么我们初始设定以标点符号作为断句的标记呢?

我们的65万复句语料库中的语料主要来源于《人民日报》和《长江日报》,属于典型的书面语言,不是实际口语的记录。而标点符号是书面语言不可或缺的组成部分,它不仅可以表示停顿和语气,还表明了词语的性质和作用,体现了语言结构的层次性,便于人们阅读理解。且不说文言文,如果没有标点符号,我们阅读起来会不知所云;即使是白话文,如果没有标点符号,今人理解起来也会有相当难度,而且对同一文本的理解可能会出现较大的个体差异。正因为如此,很多著名学者,如郭沫若、叶圣陶、吕叔湘等,都就标点符号的重要性问题有过论述。郭沫若在《沸羹集·正标点》中指出:“标点之于言文有同等的重要,甚至有时还在其上。言文而无标点,在现今是等于人而无眉目”[1](P147)。吕叔湘、朱德熙在《语法修辞讲话》中也认为:“我们必须首先有一个认识:标点符号是文字里面的有机的部分,不是外面加上去的。它跟旧式的句读号不同,不仅仅是怕读者读不断,给它指点指点的。每一个标点符号有一个独特的作用,说它们是另一形式的虚字,也不为过分。应该把它们和‘和’‘的’‘呢’‘吗’同样看待,用与不用,用在哪里,都值得斟酌一番”[2](P35)。叶圣陶说:“标点很要紧。一个人标点不大会用,说明他语言不够清楚”[3](P189)。况且我们在以前描述分句的特点时也提到过“停顿”,认为分句之间必须有停顿,在书面上用标点符号分隔。这些都充分说明了标点符号在书面语言中的重要作用。举例来说:

(1)他机智勇敢。

(1)/他机智,勇敢。

这两句意思一样;但前一例是单句,后例是复句。区别就在于一个没有标点符号,另一个在中间插入了逗号,把“他机智”和“勇敢”变成了复句的两个分句。

正因为标点符号最基本的作用是表示停顿,分清语言的层次;用它们来作为复句中判断分句的标记实在是再合适不过了,简单直接明了,易于操作。难怪邢福义先生在《汉语复句与单句的对立和纠结》一文中对“句”的认定也遵从“点号标句”的从众性原则,并认为标句的点号中最有代表性的是句号,其次是问号和感叹号[4]。然而,邢先生所说的句号、问号、感叹号是标明句(包括单句和复句)的符号,那么标明分句的符号又有哪些呢?

二、逗号设下的“陷阱”

俞士汶、朱学锋在《关于汉语信息处理的认识及其研究方略》中论述:“从英语和日语篇章中分割出句子(暂且认为等同于我们所说的小句和分句)是很简单的事,而且句子还是很清晰的语法单位。英语句子一定包含一个由限定形式的动词担任的谓语,日语句子一定以终止形式的动词结束。可是汉语中句子同句子之间的界限并不清晰。古汉语不使用标点符号,断句是大学问。现代书面汉语虽然使用标点符号,但标点符号并没有承担界定句法单位的功能。若以句号作为句子的结束标志,句子可能很长。句号之前的内容可能是一个句群或段落。若认为逗号可以作为句子的结束标志,则很多句子又是不完整的,有缺省的句子机器是很难分析的。”[5]逗号表示句子内部的一般性停顿,其使用范围主要包括两个方面:一是用在单句的各种成分之间以及成分内部;二是用在复句的各个分句之间[6](P82)。这也就是说,逗号可以作为判断分句的标记,因为它的第二个使用范围;逗号有时候又是造成非分句的“罪魁祸首”,因为它的第一个使用范围。比如逗号可以用在句子的主语与谓语之间表示停顿:

(2)北京市电加工研究所的同志,在武汉重型机床厂调试新产品大型电火花机床,方案中既无防火安全措施,又没按规定经消防监督机关审查。

这一例,虽然第一个语言片段和第二个语言片段之间用逗号隔开作为停顿;但实际上“北京市电加工研究所的同志”是主语部分,后面的那个语言片段是谓语部分,两个语言片段合在一起才是一个完整的分句。所以这里的逗号不是分句的标记。

除此之外,逗号还可以用在句子的动词和宾语之间表示停顿,用在句子的状语部分之后表示停顿,等等。这些情况下逗号的使用就都不能起断句的作用。而且,什么时候该用逗号,具体在哪个位置该用逗号,似乎并无规律可循。这可能跟逗号是使用最频繁、最广泛的一种标点符号有关。也许,逗号作为断句标记和不作为断句标记的比例是1:1。请看例证:

(3)他不仅作为一个官员,而且作为一个人而受到尊重,人们将深切地怀念他。

三、初始程序的修改

《现代汉语》一书介绍的标点符号有句号、问号、叹号、逗号、顿号、分号、冒号、引号、括号、破折号、省略号、着重号、连接号、间隔号、书名号和专名号[7](P413)。但是,在编程的时候我们应排除着重号、连接号、间隔号、书名号和专名号,让计算机碰到这些标点符号时不把它们作为断句的标记。因为在通常情况下,这些标点符号都不起断句的作用。我们还应考虑到顿号、引号、括号的特殊作用,对初始程序稍作修改。下面我们结合实例一一说明。

着重号标明要求读者特别注意的字、词、句,标在字、词或句的下面;连接号的作用是把意义密切相关的词语连成一个整体;间隔号表示外国人或某些少数民族人名内各部分的分界;书名号标明书名、篇名和报刊名等;专名号表示人名、地点和朝代名等,也是标在人名、地点或朝代名下面。有的学者把这些符号划归为“标号”,认为标号主要用来标明词语或句子的性质和作用,是不作为断句标记的;而跟“标号”相对的句号、问号、逗号等“点号”,则主要是表示语言中停顿的。分别举例:

(4)最好不是在夕阳西下的时候幻想什么,而是在旭日东升时奋勇拚搏。

(5)按这种价格计算,年收入5000元以内的家庭,要购买一套两室一厅(折50平方米算),即使不吃不穿,也要积蓄10-30年。

(6)尽管阿卜杜勒·拉赫曼与2月26日的纽约世界贸易中心爆炸案有牵连,但美国政府没有逮捕这位盲人牧师。

(7)1988年春节前,市政府虽然发布了《关于禁止燃放鞭炮的暂时规定》,可是人们对它置若罔闻。

专名号一般只用在古籍或某些文史著作里面,在65万句语料库中没有找到用例。

顿号表示句子内部并列词语之间的停顿,通常连接的是两个或多个词语或短语,而不是小句。如:

(8)1976年到1978年,他往返于武昌、硚口、江岸之间,到业余医大学习,无论是风霜雨雪,还是酷暑烈日,他从未间断。

例中顿号连接的是武昌、硚口、江岸三个名词,除了第一个顿号和前面逗号之间的语言片段是分句外,两个顿号之间和第二个顿号与后面逗号之间的语言片段都不是分句。因此我们需要对先前设定的程序稍作调整,当计算机碰到顿号时,如果顿号和其相邻标点符号之间的某个语言片段中不包含动词,那么这个语言片段就是非分句。当然,两个顿号之间的语言片段一定是非分句。

引号标明行文中直接引用的话。这有三种情况:如果引文部分是某个语言片段的组成成分,那么上下引号之间的语言片段就是分句的某个成分;如果引文部分单独作为一个语言片段,且其紧邻语言片段以“是、即”等判断动词开头,那么上下引号之间的语言片段就是非分句;但如果引文部分单独作为一个语言片段,且其紧邻语言片段不是以判断动词开头,那么上下引号之间的语言片段就有可能是复句的一个分句。例如:

(9)80年代是信息爆炸的年代,诗人唱着“世界天天在倒废纸篓”,我们的教材却还是“而今迈步从头越”,有些东西根本用不上。

(10)“爱之以其道”,是其宗旨,一部《曾文正公家训》,如从“家教”角度看,还是立得住,站得稳的。

(11)“1斤西瓜3两皮”,所以哪一年西瓜多,哪一年的夏天垃圾问题就突出。

例(9)中引号内的“世界天天在倒废纸篓”和“而今迈步从头越”分别是分句中动词“唱”和“是”的宾语;例(10)中引文部分实际上是下个语言片段的主语,因为其紧接着的语言片段以判断动词“是”开头;例(11)中引文部分作为一个分句和下个语言片段构成因果关系,有逗号作为断句标记把两个语言片段隔开。针对这些情况,我们在写程序时就不能把引号作为断句的标志。

括号标明行文中注释性的话。如:

(12)1930年,28岁的沈从文,在北平(今北京)卖稿为生,因而结识《现代评论》主编者陈源(即陈西滢)。

我们认为括号内的部分是行文中注释性的话,不应参与复句的层次划分,不是分句;所以,在编程的时候同样可以不把它作为判断分句的标记。

执行了上述以标点符号为断句标记的程序后,我们得到了一个个计算机认为的“分句”,也排除了一些计算机认为的而事实上也确是非分句的情况,比如两个顿号之间的语言片段、前后括号之间的语言片段等。然而,在那些计算机初步认定为“分句”的集合中,还有相当大一部分是非分句,我们要在进行复句的层次划分和关系标注之前首先排除它们的干扰。有关非分句的自动识别,需要综合利用词性、句法和语义等方面的信息,具体内容我们将另文详述。

注释:

①本文所用语料库是由华中师范大学语言研究所主持开发的现代汉语复句语料库。该语料库收有65万个复句,语料主要来源于《人民日报》和《长江日报》,目前已完成了自动分词和词性标注工作。

[1]郭平英,方未.郭沫若随笔集[Z].北京:中国社会出版社,2005.

[2]吕叔湘,朱德熙.语法修辞讲话[M].上海:开明书店,1951.

[3]叶圣陶.叶圣陶语文教育论集[Z].北京:教育科学出版社,1980.

[4]邢福义.汉语复句与单句的对立和纠结[J].世界汉语教学,1993,(1):11-19.

[5]俞士汶,朱学锋.关于汉语信息处理的认识及其研究方略[J].语言文字应用,2002,(2):51-58.

[6]兰宾汉.标点符号运用艺术[M].北京:中华书局,2006.

[7]邢福义,汪国胜.现代汉语[M].武汉:华中师范大学出版社,2003.

On Making Use of Punctuation Marks to Identify Clauses Automatically

LI Qiong
(CollegeofInternationalCultureExchanges,CCNU,Wuhan430079,China)

In order to build an“advanced”compound-sentence corpus for Chinese Information Process,automatic word segmentation and POS tagging work should be completed first of all.Then on this basis,automatic classification and labeling of levels and relationship between clauses should be conducted.As punctuation marks are the most intuitive and clear marks,we programmed the computer to regard the language fragments between punctuation as clauses.Doing so much is risking,because it will“victimize”a lot of non-clause language fragments which are subject to be identified through other means.

punctuation;punctuation mark;automatic identification;clause;non-clause

H195

A

1009-9735(2011)01-0108-03

2011-01-14

教育部人文社会科学研究青年基金项目“汉语复句书读前后语言片段的非分句识别”(09YJC740032)。

李琼(1979-),女,湖北荆州人,华中师范大学国际文化交流学院讲师,博士,研究方向:对外汉语教学和中文信息处理。

猜你喜欢
顿号引号复句
连动结构“VP1来VP2”的复句化及新兴小句连接词“来”的形成
引号的用法
汉语复句学说的源流
“咕咚”为什么加引号?
引号和书名号
不能省略顿号
略论复句分类与对外汉语教学
标有引号或书名号的并列成分之间不要使用顿号
复句内部不应当用句号
糊涂的顿号