基于词性信息自动识别和标注非分句

2011-09-19 05:42琼,李
关键词:复句介词语料库

李 琼,李 志

(华中师范大学国际文化交流学院,武汉430079)

基于词性信息自动识别和标注非分句

李 琼,李 志

(华中师范大学国际文化交流学院,武汉430079)

在完成自动分词和词性标注工作的基础上,进行分句层次和关系的自动划分和标注,以期建设一个面向中文信息处理的大规模复句“精加工”语料库。可以利用词性信息制定一系列规则去实现部分非分句的自动识别和标注,同时建设一个短语库,把短语语言片段收录其中。

词性;短语库;词性标注

同属于一类的词往往呈现出诸多相同的语法属性,因此词性对于语言信息处理是最便于应用的。词性标注也成为语法分析和大规模语料库深加工的必要步骤,是后续的句法分析、语义分析和语境分析的基础。目前,由华中师范大学语言研究所设计开发的现代汉语复句语料库,包括摘自《人民日报》、《长江日报》等各种报纸、杂志和小说的65万个复句,已基本完成了自动分词和词性标注,这是一切后续工作的重要基础。今天,面对自然语言的计算机处理形势,对词性进行标注更有多种意义:为更高层次的自然语言文本加工提供素材;为语言学的研究,提供翔实的资料;从加工过的文本中获取词类及频度的词性标注知识等。

词性是词在语法意义上的性别,它表示词所属的类别;而语法上的词类正好就是根据词的语法特征,包括词的形态、组合能力、造句功能三方面表现出来的特征,划分出来的。不过对不同的语言来说,这三方面的特征在划分词类时所起的作用并不一样。给汉语的词分类,主要应根据词的组合能力和造句功能,特别是组合能力。反过来说,笔者认为一旦把词语归入了某个特定的类别,就好像给这个词贴上了标签,它就至少应该表现出这类词所共有的典型组合能力和造句功能。比方说,根据能受表示物量的数量短语修饰、不能受副词修饰等语法特征把“老师”这个词归入名词类;而一旦“老师”的词性被标为名词n后,它就表现出可以作主宾语、一般不能作谓语、可以有条件地充当定语等句法功能。正是在这个基础上,又由于65万复句语料库已基本完成了词性标注的工作,所以在这一阶段可以利用标注的词性信息对语料库中的一部分非分句语言片段实现自动识别。

当然,有些语言片段本身就是一个词,如连词、副词等经常单独充当一个语言片段,这样的语言片段就更可以在词性标注的时候解决了。

一、标注说明

(一)词性标注说明

目前在语料的信息属性标注方面,最重要的工作是词性标注,就是标明词的语法范畴和功能类别。在笔者看来,一个词的词类属性,仅仅是该词一个比较重要的功能值而已。给词定一个词性,不是自然语言处理的最终目的;词性只是分析的手段之一。

如果在词性标注阶段能够多解决一些问题,相信会为后面的非分句自动识别工作提供更多的信息。为此,笔者在北京大学计算语言研究所研制的词性标注体系的基础上,针对本项研究的实际情况对一部分词性的标注工作进行了适量调整。具体说明如下:

1.把人名、地名、机构团体和其他专名从一般名词中分离出来,单独进行标注。如:人名标注为nr、地名ns、机构团体nt、其他专名nz。

2.对语素g进行更细致的标注,下分为形语素ag、副语素dg、名语素ng、时语素tg和动语素vg。

3.依照句法功能详细标注兼类词,如副形词ad、副动词vd、名形词an和名动词vn。举例来说:

(1)我们要搞好农村儿童受教育状况的调查。

“调查”的词性,就汉语本身的研究来看,应是动词。在这里之所以将它们标注为名动词vn,是因为两点:第一,“调查”的语法功能更接近名词,确实有了一些与在谓语动词位置上不同的语法功能,只是因为汉语没有形态变化,找不到形式上的标记;所以有些学者认为,它们是动词,但已经“名物化”了。第二,动词在何时成为名动词,包括三种情况:直接受名词修饰与直接修饰名词,直接受“的”字结构修饰成为体词性短语的中心语,在形式动词或其他准谓宾动词及“有”之后。第三,如果在词性标注阶段就把名形词、名动词和形容词、动词分开标注清楚,让计算机知道这些词不再充当小句或分句的谓语,将为今后的非分句识别工作提供更多信息。

当然,词性标注并不属于我们的工作内容,前面也已经说过本项研究是在词性标注工作已大致完成的基础上进行的。

(二)短语标注说明

虽然本文的主要目标是进行非分句的自动识别,暂不涉及标注问题;但笔者将尽可能地在探索非分句自动识别规则的同时对标注问题也给予一定程度的关注,以期为今后的研究工作奠定良好的基础。

书读前后语言片段既有词和短语,也有小句,还有很多“四不象”。尽管如此,笔者还是可以大胆地推测,这些语言片段除了小句之外,非小句(也就是非分句)中所占比例最大的显然应该是短语。因而,在此我们将主要讨论非分句中短语的标注问题。

按照邢福义《汉语语法学》的分类,短语可以从不同的角度分为成分短语和非成分短语、关系类短语和标志类短语、名词短语、动词短语和形容词短语。因为本项研究是面向计算机的,是要实现非分句中短语的自动标注,因此标志类短语将成为本文的重点标注对象。

标志类短语是结构成分之间语义关系比较模糊,只从语表上找出标志的短语。所谓“语表上的标志”包括前标志和后标志,前标志是短语的前面一个结构成分,后标志是后面一个结构成分。根据一个短语是具有前标志还是具有后标志还是前后标志兼有,标志类短语可分为:

前标志短语,如能愿短语和介词短语,前者的前一个结构成分是能愿动词,后者的前一个结构成分是介词;

后标志短语,如“的”字短语、方位短语、趋向短语和比况短语,它们的后一个结构成分分别是“的”字、方位词、趋向动词和比况助词;

双标志短语,如数量短语,前一个结构成分是数词,后面的一个结构成分是量词。

结合研究的实际情况,我们对《汉语语法学》中的标志类短语进行了适当的添加和删并,并增加了一些非标志类短语。本文非分句中的短语包括:

表1 本文非分句中的短语

二、不含动词语言片段的识别和标注

西方语法的传统句子分析格局是主谓两分的格局,这是受古典形式逻辑主词谓词两分格局的影响而形成的,谓语再两分为核心动词和补语。在机器翻译和自然语言理解的研究领域里,经常使用谓词逻辑来描述知识和进行逻辑推理。“动词中心论”恰巧和现代谓词逻辑以谓词为中心相吻合。动词中心论认为动词是句子的核心和重心,主语和其他补语都是核心动词的“补语”,主语和宾语都是修饰或限制核心动词的,在一个层次上。而我国语言学家吕淑湘则于1942年正式出版的《中国文法要略》就提出了“动词中心观”和动词的“方向”问题。吕叔湘说:“句子的重心就在那个动词上,此外凡动作之所由起,所于止。以及所关涉的各方面,都是补充这个动词把句子的意义说明白,都可称为“补词”。

根据小句联结律,两个或多个小句联结在一起并且小句分句化后就能产生复句。那么针对本项研究,一个语言片段要想成为复句中的分句,首先必须具备成为小句的条件。而小句中枢理论在讲到小句成分配置的时候说,除了单词句,小句都有核心,而且充当小句核心的词一般是动词。综合以上两点得出结论:要判断或者说识别一个语言片段是分句还是非分句,首先得看这个语言片段有没有动词。当然,名词也可以充当核心词,但相对于动词来说数量要少得多。

因此,笔者从研究策略的角度出发,首先编制了一个程序让计算机把子语料库中所有不含动词的语言片段标注为非分句,因为大部分分句的核心词是动词。对已经标注了词性的语料,计算机是很容易做到这一点的。只需要对一个语言片段进行逐词或字符扫描即可,如果扫描后没有发现V,就可以先断定这是个非分句。对不含形容词(可谓形容词,不包括非谓形容词或区别词)的语言片段也做同样处理,因为形容词在句中的表现和功能类似于不及物动词。这纯粹是考虑到研究策略而采取的权宜之计,因为语料库中还有少量以名词为核心词的分句,即名词谓语句,但本文对这种情况暂时不予考虑,因为这种类型的分句在大规模语料库中所占比例微不足道,对非分句识别的正确率不会有太大影响。

规则一:以方位词“中、下、底、里、内、间、前、以前、后、以后、之后、前后、左右”等结尾的语言片段标注为方位短语op(orientation phrase)。举例来说:

(2)[八/m点/n三十/m分/n左右/f]op,/w该轮刚驶进青山岬水域,江面突起大雾,驾驶人员立刻采取措施,慢车减速。

该例的第一个语言片段不包含动词,也没有形容词,计算机根据编制的程序很容易识别出它们是非分句,然后调用规则库中设定的“规则一”对它进行自动标注,“八点三十分左右”以复合方位词“左右”结尾,放在方括号内,标注为方位短语op。

规则二:以时间词或时语素“前夕、时刻、时候、月份、时节、世纪、凌晨、清晨、早晨、傍晚、黄昏、期间、时期、春天、夏天、秋天、冬天、前夕、分、点、天、日、月、旬、季、节、年、年代、叶、午、晚、初、末、期、时、春、夏、秋、冬”等结尾的语言片段标注为时间短语tp(time phrase)。

规则三:以助词“起、来、以来、左右”等结尾的语言片段标为时间短语tp(time phrase)。

规则四:以表时间处所的介词“在”开头,以表范围的名词“方面”或“上、下、之下、中、里、面前”等方位词结尾的语言片段标注为状语性短语adp(adverbial phrase),因为这些语言片段的功能大致相当于全句的状语成分。

规则五:语言片段以“在、为、为了、从、根据、据、随着、按、按照、依、关于、通过、经、经过、用、以、对、对于、把、与、供、包括、鉴于、比起、至于、作为、如、像、到、到了、凭借、乘着、面对、除、除了、除去、自、相对于、同、当、向着”等介词或功能类似于介词的成分开头的,一律标为介词短语pp(preposition phrase)。

规则六:如果一个语言片段的词性序列为“/r/m/n、/r/m/q/n、/r/n、/r/vn、/r/q/n、/r/q/vn、/m/q/n、/m/q/vn、/r/q/n、/r/q/vn、/r/u/n、/r/u/vn、/n/u/n、/m/q/n/u/n、/r/m/q/n/u/n、/r/q/n/u/n ”等,或者以这样的词性序列结尾,这个语言片段应标注为量词短语qp(quantifier phrase),其中又包括数量短语和指量短语。。

规则七:某个语言片段如果是复句的第一个语言片段,且以“跟/p、和/p、同/p、与/p、像/p”等介词开头,以“似的/u、一般/u、一样/u”等助词结尾,一律标为助词短语ap(auxiliary phrase)。

规则八:某个语言片段如果以复数助词“们”或准复数助词“等”、“等等”、“等等等等”结尾,则这个语言片段标注为助词短语ap。

规则九:以语气助词“也罢”、“也好”等结尾的语言片段标注为助词短语ap。

三、利用短语库进行识别和标注

本文所说的短语库跟乔姆斯基的词库同中有异,它不是一种语言中储存在人类大脑里所有词语的汇合;而是针对我们的研究任务设计的,专指那些不能用规则识别、只能以清单方式一个一个贮存的非分句的集合。它们是大于词的结构。

上文提到,有些副词、连词或复句关系词语会单独充当一个语言片段,这种情况直接通过词性标注信息就可以识别为非分句了。还有些形式相对固定的短语经常单独充当复句的一个语言片段,但不和前后分句发生任何逻辑上的语义联系,因此也不参加复句层次关系的标注,应排除它们。这些短语是一个相对封闭的类,所以我们采取穷尽性列举的方法,尽可能把它们都收入短语库中。目前我们发现的这类非分句主要有:

规则十:“近年来、不一会儿、不多久、前不久、久而久之、那阵子、这阵子、长期以来、此时此刻、到时候”等单独充当一个语言片段时标注为时间短语tp,某个语言片段以它们结尾的也标注为tp。

规则十一:“很可惜、很明显、没办法、事实上、那当然、那好、实际上、果然如此、算了算了、对不起、说实话、讲心里话、依我看、据分析、要知道、你看、你们看、你看看、你们看看、表面上看、想想看、你想、你们想、你想想、你们想想、你瞧、你们瞧、你瞧瞧、你们瞧瞧、要知道、按理讲、按理说、照理说、这就是说、不也可以说、退一步讲、进一步讲、换句话讲、比如说”等单独充当一个语言片段时标注为插说语ip(inserted phrase),某个语言片段如果以它们结尾也同样标为ip。

规则十二:“相反地、也就是说、具体地说、反过来说、恰恰相反、唯其如此、既然如此、不仅如此、简言之、究其原因、相比之下、更重要的、总而言之”等标注为连词(关系词)短语cp(connection phrase),某个语言片段以它们结尾的也标注为cp。

规则十三:以“从、在、仅从、以、相对于”等介词或副介组合成分开头,以“说、来说、上说、看、来看、看来、上看、讲、来讲、而言、而论”等结尾的语言片段标注为话题短语TP(topic phrase)。为了与时间短语的代码tp相区别,这里用大写字母表示。

规则十四:以“可以、能、能够、应该”等能愿动词开头的语言片段标注为能愿短语mp(modal phrase)。如“可以说、可以断言、可以毫不夸张地说、可以无愧地说、可以看出、可以设想、可以相信、可以肯定、可以肯定地认为、可以预期、可以预料”等。

短语库具有一定的开放性和可增补性,随着研究工作的进展,笔者将不断添加新的类似于上述五类的短语进库。

四、小结

做了自动分词工作的语料库是“粗加工”语料库,标注了词性信息的语料库是“深加工”的语料库;这两类语料库虽然都是语言研究工作可以利用的知识库,但“利用价值”显然还不够高。如果能对语料库中的语料进一步进行“精加工”,标注上更多的词法、句法甚至语义信息,并使标注正确率不断得到提高;这个语料库就会成为语言研究比较理想的知识源,在语言研究工作中发挥更大的作用。然而,分词和词性信息对语料库的“精加工”来说又是最基本和最重要的。一方面,语料的分词和词性标注信息是从事其他语料加工活动的基础,如果没有这个基础,就根本谈不上对语料进行更深入的信息标注;另一方面,自动分词和词性标注也是后续工作的关键一环,其正确率会直接影响到其他语料加工活动的准确性,应尽量避免出现不必要的错误。拿本文来说,根据“小句中枢”理论,小句都有核心,而充当小句核心的词大多是动词。因此从研究策略的角度出发,笔者暂时把不包含动词和(或)形容词的语言片段统一标注为非分句,尽管这样会对少量以名词或其他词类为核心的分句产生误判,而这项工作就必须建立在词性标注的基础上,其正确率也依赖于词性标注的正确率。

接下来,本项目还对凭借词性信息识别出来的一部分非分句进行类型标注,并制定了自动标法的九条规则,但要注意,这九条规则针对的语言片段都是或前或后或前后都有明显形式标记的。

最后,对于那些形式相对固定的短语单独充当的非分句语言片断,采取建立短语库的方式进行识别。因为这些短语是可以穷尽性列举的,每碰到一个新的成员就把它收入短语库中,不断扩大短语库的规律,直至把所有符合条件的语言片断都收录进来。

[1] 邢福义.汉语语法学[M].长春:东北师范大学出版社,1998:439-474.

[2]吕叔湘.中国文法要略[M].北京:商务印书馆,1956:53.

Automatic identification and labeling of non-clauses based on part of speech

LI Qiong,et al.
(School of International Culture Exchanges CCnU,Wuhan 430079,China)

Inorder to build a“finishing”compoundsentence corpus for Chinese Information Process,automatic word segmentation and POS tagging work should be completed first of all.On this basis,automatic classification and labeling of levels and relationship between clauses should be conducted.We can use the POS information to develop a set of rules to achieve some nonclause of automatic identification and labeling,but also can build a phrase library,which includes the phrase language fragments.

part of speech;phrase library;rules

H08

A

1009-8976(2011)01-0077-04

2010-10-29

教育部人文社会科学研究青年项目的研究成果(项目编号:09YJC740032)

华中师范大学“丹桂计划”项目

李琼(1979—),女(汉),湖北荆州,讲师,博士主要研究中文信息处理、对外汉语教学。

猜你喜欢
复句介词语料库
连动结构“VP1来VP2”的复句化及新兴小句连接词“来”的形成
介词和介词短语
汉语复句学说的源流
《语料库翻译文体学》评介
介词不能这样用
基于COCA语料库的近义词辨析 ——以choose和select为例
略论复句分类与对外汉语教学
基于JAVAEE的维吾尔中介语语料库开发与实现
复句内部不应当用句号
看图填写介词