谷晶晶,周国栋
(苏州大学 计算机科学与技术学院,江苏 苏州,215006)
汉语冒号标注与自动识别方法研究
谷晶晶,周国栋
(苏州大学 计算机科学与技术学院,江苏 苏州,215006)
随着对篇章分析研究的逐步加深,标点符号研究成为了篇章分析与消歧的一个重要切入点。有效识别标点符号在句子中的作用,将有助于句法分析、篇章分析以及其他自然语言处理技术的发展。该文主要任务是实现汉语冒号的人工标注与自动识别,其中自动识别采取了规则法和基于统计的最大熵法。基于规则的方法比较简单且易于实现,最大熵方法把规则融入到统计之中,在实验结果中具有更好的识别效果。
汉语冒号分类;最大熵;篇章分析
近年来,标点符号在篇章分析中起到的作用逐渐引起相关研究者的关注。汉语中常用的标点符号有十几种,其中逗号、冒号、分号和句号为句子的分割符号。逗号是所有标点符号中的使用方法最多的,有大量学者已经展开了逗号的相关研究工作。汉语冒号作为句子的分割符号,使用方法之多仅次于逗号。如果能够有效识别冒号在句子中的作用,将有助于句法分析、篇章分析甚至其他自然语言处理技术的发展。
Hobbs[1]认为篇章单元可以小到句子,大到篇章本身。Mann 和Thompson的修辞结构理论[2-3]与Hobbs模型很相似,并认为篇章单元可以小到短语。在汉语中,乐明[4]把汉语篇章的基本单元定义为小句,形式上小句是由句号、问号、叹号、分号、冒号等分割开的文字串。Xue等[5-6]综合了Mann 和Thompson的修辞结构理论,定义了冒号作为句子的定界符,即可用冒号作为基本语篇单元(EDU,Elementary Discourse Unit)的定界符。
本文将冒号作为篇章基本单元的分隔符,提出了汉语冒号的分类标注体系,并对汉语冒号进行人工标注与自动识别。依据《中华人民共和国标准标点符号用法》[7]中公布的汉语冒号使用方法,以及通过对现实语料的统计与分析,制定了汉语冒号的标注体系。该体系的冒号标注范围主要针对汉语中常使用的冒号,数学中使用的冒号(如: 比号)与机器语言中使用的冒号(如: 域名),都不在本文的考察范围之内。
为实现汉语冒号的标注与自动识别,本文将通过以下三点展开: ①提出冒号使用方法分类的标注体系及标注方法; ②进行冒号分类的人工标注; ③采 用基于规则和基于最大熵两种方法进行实验,完成汉语冒号的自动分类与识别。实验结果达到了预期目标,基于最大熵的方法比基于规则的方法实验总体正确高达6.9%。本文研究熵有助于促进自然处理的基础研究和应用研究。
本文组织结构如下: 第二节介绍相关工作;第三节简介语料标注与识别;第四节提出基于上下文特征的冒号分类的方法;第五节阐述实验结果及分析;第六节结语。
针对标点符号的研究在自然语言领域越来越受到关注,近年来很多学者将标点符号作为中文分句相关问题研究的标志[8-15]。比如Jin等[11]提出利用逗号对汉语长句子进行划分。该文章主要识别逗号左右两边的子句是并列关系还是从属关系。
在李幸等[12-13]的文章中介绍了关于层次化汉语长句结构分析,提出了一种针对汉语长句子句法分析的分层处理方法。该方法用标点符号(包括逗号、分号和冒号)对长句子进行切分,然后对切分单元分别处理,得到各部分的分析子树,最后将子树合并,形成完整的句法分析树。该文揭示了基于标点符号的层次化汉语长句结构分析的优越性。
Xue和Yang[14]这篇文章中,主要研究了如何识别哪些逗号等同于句子边界的情况。并给出了逗号作为句子边界的识别方法。该文对汉语标点符号的研究引发了一个新的热点。Yang和Xue[15]一文中,对逗号的使用方法进行了更详细的分类,共划分了七类,其中也包含了逗号等同于句子边界的情况。Xue等[5-6]在识别隐式关系中使用了冒号作为句子的定界符,利用冒号辅助解决篇章关系问题。
3.1 语料介绍
通过统计宾夕法尼亚中文树库(CTB 6.0)和清华中文树库中的冒号数量,发现这两个树库中所包含的冒号数量都太少,不到一百个。本文工作无法在现有的语料基础上进行,需要另外收集语料。
本文收集的语料来自搜狗语料库*http: //www.sogou.com/labs/dl/c.html,包含的主要内容是新闻报道,之外涉及一些其他领域的语料,如: 古今中外的小说、人物传记、节目访谈、法律文献以及广告等。本文将这些混杂在一起的语料划分为五大类: 文言文、现代文学、法律文献、节目访谈和新闻报道。
3.2 标注体系
本文将冒号的使用方法归纳为七类: 引用、动宾、边界、总分、解说、提示、 other。其中引用、动宾和边界又归为话语引用类,而总分、长解说和短解说又归为解释说明类。other分类是对冒号的一些不经常使用的用法归类。图1展示了冒号分类标准。本文对汉语冒号的使用方法进行了详细的划分与自动识别,不仅可以用来切分基本篇章单元,还标示了这些篇章单元之间的关系。
图1 冒号分类标准
引用(Nm): 该类冒号用在是指人物或人物代指与该人的话语之间。文中以P1 P2 P3…标示冒号。如下列例句中的冒号p1。冒号p1前的词为“秦牧”,是一个人物专名。冒号p1前的名词还可以是某个职业群的代表,如“记者”;也可以是拟人化的主语,如一些拟人化的动物或植物名。该类冒号,通常出现在侧重对话内容的对话记录中,不关注对话人的语气、表情、动作等,如访谈记录、主持人手稿等。本文对该类冒号设置的标注标签为Nm。
例1 秦牧: p1要学好语文,必须注意多读、多写、多思索。
动宾(VP): 动宾关系类是指该类冒号分割开了谓语动词与宾语。常用的谓语动词有: 问、答、说、曰、云、想、是、证明、宣布、例如、如下等。这类谓语的主语通常是人物主语或拟人化的主语,冒号后的句子通常是人物话语引用。如下面例句中的冒号p2,就是在句中起到了动宾作用。该类冒号的标注标签为VP。
例2 克莱因说: p2 “普遍的观点是人以群分,人们总喜欢和自己相似的人,所以有理论提出多样化不利于团结。”
边界(SB): 边界是指句子边界(Sentence Boundary),标注标签为SB。这一类冒号被定义为句子边界,是由于冒号前后的句子都是一个完整的IP结构,可独立存在。冒号后的句子一般是对冒号前句中主语的话语引用,由左右双引号界定。该类冒号所在的句子不但关注了对话人的对话内容,还包含很多人物的语气、表情或动作的描写,使人物刻画更生动,多出现在文学作品中。在例3中的冒号p3,冒号后的句子是对冒号前句中主语“凤姐”的话语引用。
例3 凤姐连忙告诉小丫头传饭: p3 “我和太太都跟着老太太吃。”
总分(ZF): 总分类,顾名思义,冒号前的句子是总说,冒号后面的句子是对前面句子的具体分说。以本文中一个句子为例,即例4,由例句4可以看出,冒号p4前的句子是总说“冒号”的使用方法可分为七类,冒号p4后的句子是对“冒号”的使用方法具体有哪七类进行详细分说。
例4 本文将冒号的使用方法归纳为七类: p4 引用、动宾、边界、总分、短解说、提示、Other。
解说(LJ): 该类是指冒号后面的句子是对冒号前面的词语进行解释说明。这类冒号后的句子是对冒号前的某个词或短语的解说。下面的例句5中的冒号p5就属于解说类冒号,冒号p5后面的句子是对“对比试验”的详细解说。
例5 有人曾做过对比实验: p5两个病情相近,年龄和体重相差无几的手术患者,每天食用一只海参的患者,会比另一个患者提前20天左右全面康复。
提示(SJ): 该类是生活中常用的、位于具有提示性短语后的冒号。该类冒号是从解说类中分离出来的一类,冒号后的内容也是对冒号前词或短语的解说,该类冒号前通常只有一个词或短语。这些词或短语通常是: 电话、邮编、地址、姓名、年龄等。如下面的例句6,冒号p6就属于提示类冒号。该类标注标签为SJ。
例6 电话: p6 8888888
other: 本文设置的other分类,是为了将一些出现频率较低的冒号使用方法类统归为一类。这些冒号有: 分总类冒号,呼吁类冒号,作者与作品之间的冒号,如“朱自清: 《背影》”。
3.3 标注方法
人工标注冒号分类是指人为的在语料中对冒号标注分类标签,分类标准参照前面的第3.2小节中介绍的冒号分类标准。标注过程中共使用了七类标签,是在有分词与词性标注信息的文中直接标注。标注时,标注的标签与冒号之间以下划线为间隔。标注示例如下面的例句所示,例句7中的冒号属于动宾类,则标注了“VP”标签,而例句8中的冒号属于总分类,则标注了“ZF”标签。
例7 宝玉_nP 看见_v 道_v : _VP "_n 妹妹_n,_,我_rN 刚才_t 说_v 的_u 不过_d 是_vC 些_qN 呆话_n,_,你_rN 也_d 不用_dN 伤心_a。_。 ”_”
例8 第四十九_m 条_qN 期货_n 交易所_n 应当_vM 以_p 适当_a 方式_n 发布_v 下列_n 信息_n : _ZF (_( 一_m)_) 即时_m 行情_n ;_; (_( 二_m)_) 持_v 仓量_n、_、 成交量_n 排名_vN 情况_n ;_; (_( 三_m)_) 标准_n 仓单_n 数量_n 和_c 可_vM 用_p 库容_n 情况_n ;_; (_( 四_m)_) 交易所_n 业务_n 规则_n 规定_v 的_u 其他_rN 信息_n。_。
3.4 语料统计
本文收集的初始语料达437M,因标注量太大,只抽取了一部分进行人工标注。共标注了5 247个句子,6 469个冒号。标注的语料库,包含了多个领域的语料。因各领域语料混杂在一起,为了便于统计分析,本文人为地将语料划分为五大类: 文言文、现代文学、法律文献、节目访谈和新闻报道。据统计,文言文中使用的冒号主要是动宾类;现代文学中出现的冒号主要是动宾类和边界类;法律文献中出现的冒号主要是总分类;节目访谈中使用的冒号主要是引用类;新闻报道中冒号使用方法主要是提示类和解说类。各领域语料所占的句子数量如表1所示。
表1 各领域语料句子数量统计
3.5 预处理
在对汉语冒号的人工标注与识别之前,需要先对新收集来的语料进行相关的预处理。预处理主要包括: 规整处理、分词、词性标注和手工调整。
(1) 规整处理
对收集来的生语料,要进行规整处理。首先去除不可识别的符号、地址链接等,再进行句子分割。句子分割是指把多个句子组成的段落分割的一个句子为一个段落,并保留包含一个或多个冒号的句子。在程序分割句子的过程中,要注意标点符号的匹配问题。
(2) 分词
中文分词是将一个汉字序列切分成词的序列,是中文信息处理最基础的技术之一。本文语料规整处理后,需对语料进行分词。首先从清华树库中提取出分词语料,划分训练语料和测试语料后,再使用CRF分类工具,训练出分词模型,并利用测试语料对模型评测,证实取得较高的正确率后,然后使用该模型对本文的语料进行分词。
(3) 词性标注
词性标注是指对于句子中的每个词都指派一个合适的词性,如名词、动词、形容词等。与分词类似,实现词性标注,需先构建词性标注的训练模型。同样是从清华树库提取出词性标注语料,划分训练语料和测试语料,使用最大熵工具,训练出词性标注模型,并用测试语料对模型评测,证实取得较高的正确率后,再利用该模型对本文的语料进行词性标注。本文选择清华树库作为分词和词性标注的环境,是由于该语料对词性种类划分较细,有助于提高本文实验的正确率。
(4) 手工调整
在进行分词与词性标注的过程中,会出现很多不可预料的错误,包括分词错误和词性标注错误,这种现象在文言文中尤其多见。这些错误都可能对实验正确率造成影响。手工调整就是对语料中出现的分词错误或词性标注错误予以更正,主要调整冒号附近的词,尽量排除影响实验正确率的因素。
自然语言处理中用到的研究方法,通常是规则法和统计法,以及二者相结合的方法。规则法是从语言学与认知学的观念出发,适合处理自然语言中确定的一面;而统计法是从统计学和计算科学观念为出发点,比较适合处理不确定性的一面。确定与不确定是表示某个语言现象中是否存在作为充分条件的可用特征,但这是相对而言的。规则法的本质是演绎,而统计法的本质是归纳。本文就分别使用了规则法和统计法,其中统计法采用了基于最大熵模型的方法。
两种方法都主要使用了词法特征和位置特征。词法特征主要是冒号前的三个词及词性与冒号后的两个词及词性,位置特征是指冒号前句子的长度,长度记为L。冒号前的三个词(或称左三词)记为: lword_1、lword_2和lword_3,这三个词相应的词性记为: lpos_1、lpos_2和lpos_3,离冒号最近的词为lword_1。冒号右边的两个词及词性记为: rword_1、rword_2和rpos_1、rpos_2,离冒号最近的词为rword_1。
冒号左边选取三个词的原因有三点: (1) 动宾类的谓词通常出现在左词一位置,如例句2中的“说”;(2) 人物专有名词经常出现在左词一、左词二或左词三位置,如例句1中“秦牧”、例句2中的“克莱因”和例句7中的“宝玉”;(3) 总分类冒号一般都有数词出现,该数词通常出现在左词二或左词三位置,等同数词表达含义的词“下列”和“以下”也通常出现在左词二或左词三位置,如例句4中的数字“七”和例句8中的词“以下”。
冒号右边选取两个词的原因有两点: (1) 左引号的位置通常出现在右词一(rword_1)的位置,存在左引号可基本确定该类冒号为话语引用类,如例句2、例句3和例句7中的左引号。(2)总分类冒号右边一般都有数词,而该数词通常出现在右词一(rword_1)或右词二(lword_2)的位置。
4.1 基于规则的冒号分类方法
基于规则的自动提取方法,主要通过对词性和长度的分析,判断冒号所属的分类。主要规则如下:
(1) lpos_1是否为“v”或“vC”,是则标记动宾类,否则下一步。
(2) 若L长度小于2,且lpos_1或lpos_2必有一个为“nP”或“b”,余下的词为名词,则该冒号为引用类,否则下一步。
(3) 若rpos_1为左引号,则标记边界类,否则下一步。
(4) lpos_2或lpos_3是否“m”,是则标记总分类,否则下一步。
(5) rpos_1或rpos_2是否为“m”,是则标记总分类,否则下一步。
(6) 若L小于3,且lpos_1为“n”,则标记提示类,否则下一步。
(7) 若L大于2,且lpos_1为“n”,则标记解说类,否则下一步。
(8) 余下都归为other类。
4.2 基于上下文特征的冒号分类方法
本文的第二种方法是基于最大熵[16]的自动分类。该方法通过提取上下文特征,训练最大熵模型,实现冒号的自动分类与识别。选取冒号前的三个词时,是从冒号位置开始向左寻找,依次得到word_1、lword_2和lword_3。但这三个词不能是圆括号及圆括号内的词,遇到右圆括号的时候,要跳过圆括号及圆括号内的内容,到左圆括号的左边继续寻找左词,直到句首或前一个冒号,则寻找结束。计算冒号前句子长度L时,也要排除圆括号及圆括号内的词。其他特征的选取没有特别要求。选取的具体特征,如表2所示,表2 中同样给出了例句8中冒号所提取的特征值。
表2 特征列表
5.1 实验数据
在实验过程中,将已标注的语料区分为训练语料和测试语料。本文语料共人工标注6 469个冒号,训练语料含有5 756个冒号,测试语料中含有713个冒号。测试语料中,SB类冒号共有40个,ZF类冒号共有64个,VP类冒号共有324个,Nm类冒号共有47个,SJ类冒号共有105个,LJ类冒号共有130个,other类冒号共有4个。
5.2 实验结果
第四节中介绍了两种冒号识别方法,分别是基于规则的方法和基于最大熵的方法,并将基于规则的方法系统作为本文的基准系统。基于最大熵的方法,需要先对训练语料进行学习,再对测试语料进行实验并统计结果;基准系统的实验不需要进行语料学习,为了更好地进行实验结果对比,只需在测试上直接实验样式统计结果即可。基于最大熵的方法,所使用的最大熵工具是由张乐编写的Maxent工具包*http: //homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html。实验结果如 表3所示。由表3可知,基准系统的实验总体正确率为86.5%,基于最大熵的方法实验总体正确率为93.4%,基于最大熵方法明显比基于规则方法的识别效果更好。基于规则的方法相对是比较粗糙的,基于最大熵的方法能更好地利用上下文特征,得到更优解,使我们的实验得到了更高的正确率。两种方法中的VP类都是识别效果最好的,原因在于谓词对动宾类的影响较大;而other类的识别是最不理想的,主要原因在于训练样本太少。
表3 实验结果
续表
5.3 语料分析
本文为了分析语料的差异性,分别对各语料进行了实验。各语料的实验是基于最大熵模型,实验结果如表4 所示。由表4可知,节目访谈类的识别正确率达到了100%。原因在于该语料内基本上只存在引用类(Nm)和动宾类(VP)两类冒号,等于是做二分类,说明了这两类冒号很易于区分。文言文、现代文学以及法律文献中也只含有三、四类冒号,且以其中某两类为主,识别效果也很好。新闻报道语料虽然主要是提示、解说和动宾类的冒号,但其他类的冒号也有很多,且有很多不易区分的冒号,故该语料识别效果最不好。
表4 各语料实验结果
由3.4节的语料统计和5.1节的实验数据可知,新闻语料在总语料中占有将近一半的比例,动宾类冒号也在总测试语料中的冒号占到将近一半的比例。这种情况的语料分布符合现实生活的情况,但为了进一步对比分析,本文又构建了一个均衡语料用于实验分析。均衡语料包含了新闻报道语料400句,和其他各语料分别300句,在选取过程中控制了VP类冒号的数量,使各类冒号也相对均衡。并采用了基准系统和最大熵模型进行对比实验,实验结果如表5所示。由表5可知,在均衡语料中,最大熵模型的总体识别正确比基准系统高8.4%。相比普通语料,最大熵的冒号识别正确率更加优于基准系统。均衡语料总体识别正确率低于普通语料的原因,在于VP类冒号的比例严重下降。
表5 均衡语料实验结果
5.4 错误分析
利用规则自动提取的方法,会出现很多不可避免的错分。采用最大熵的方法,也会出现一些和基于规则方法类似的错分现象。如下面的三个例句,这三个例句中冒号左边都是人物专名,右边的内容有很大差别,但例句10和例句11中的冒号很容易被错分为和例句9相同的引用类。例句10和例句11中的冒号出现的频率很低,所以很容易被错分为Nm。针对这些错分,目前还没有找到很好的解决办法。这也将成为我们下一步工作中的一个挑战。
例9 陈好_nP : _Nm 挑战_v 要_vM 在_p 人_n 的_u 能力_n 范围_n 内_f。_。
例10 王泽国_nP : _LJ 著名_a 的_u 纳税_vN 筹划_n 操作_vN 实务_n 专家_n、_、 经济学_n 硕士_n、_、 中国_nS 注册_vN 会计师_n、_、 注册_vN 税务师_n,_,受训_v 人数_n 超_v 万_m 人_n
例11 朱自清_nP : _other 《_《 背影_n 》_》
中文信息处理已经完成了字处理,较好地解决了词处理,目前的研究重点转向句子研究。句子内部的标点符号也成为了句子研究的一个热点。本文首次提出了汉语冒号的标注与自动识别方法研究,定义了冒号分类的标准及标注方法,并标注了大量语料。我们采用了两种方法来实现冒号的自动分类与识别,分别到基于规则的方法和基于最大熵的方法。基于最大熵的方法比使用基于规则的方法的实验正确率高6.9%,因此也说明使用最大熵的方法能够更好地解决冒号分类问题。在下一步工作中,我们将继续立足于句子内部的标点符号研究。
[1] Hobbs J R Information,intention,and Structure in Discourse: A first draft[C]//Proceedings of the Burning Issus in Discourse. 1993: 41-66.
[2] Mann William C Sandra A Thompson. Rhetorical Structure Theory: [J].Toward a functional theory of text organization. 1988,8(3): 243-281.
[3] L Carlson,D Marcu,M E Okurowski. RST Discourse TreeBank[C]//Linguistic Data Consortium. 2002.
[4] 乐明. 汉语篇章修辞结构的标注研究[J]. 中文信息学报,2008,22(4): 19-23.
[5] Nianwen Xue,Fei Xia,Fu-Dong Chiou and Martha Palmer. The Penn Chinese TreeBank: Phrase Structure Annotation of a Large Corpus[C]/Proceedings of Natural Language Engineering. 2005,11(2): 207-238.
[6] Yuping Zhou,Nianwen Xue. PDTB-style Discourse Annotation of Chinese Text[C]//Proceedings of Annual Meeting on Association for Computational Linguistics(ACL-12). 2012: 69-77.
[7] 中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会. GB/T15834-2011标点符号用法[M].中国标准出版社,2011.
[8] Yuqing Guo,Haifeng Wang,and Josef Van Genabith. A Linguistically Inspired Statistical Model for ChinesePunctuation Generation[C]//Proceedings of ACM Transactions on Asian Language Processing.2010,9(2).
[9] Hen-Hsen Huang and Hsin-His Chen. Chinese Discourse Relation Recognition[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing 2011: 1442-1446.
[10] Vanessa Wei Feng,Graeme Hirst. Text-level Discourse with Rich Linguistic Feature[C]//Proceedings of Annual Meeting on Association for Computational Linguistics(ACL-12),2012: 60-68.
[11] Meixun Jin,Mi-Young Kim,Dong-Il Kim,and Jong-Hyeok Lee. Segmentation of Chinese Long Sentences Using Commas[C]//Proceedings of the SIGHANN Workshop on Chinese Language Processing,2004.
[12] Xing Li,Chengqing Zong,Rile Hu. A Hierarchical Parsing Approach with Punctuation Processing for Long Sentence Sentences[C]//Proceedings of the Second International Joint Conference on Natural Language Processing: Companion Volume including Posters/Demos and Tutorial Abstracts,2005.
[13] 李幸,宗成庆. 引入标点处理的层次化汉语长句句法分析方法[J]. 中文信息学报,2006: 20(4): 8-15.
[14] Nianwen Xue,Yaqin Yang. Chinese sentence segmentation as comma classification [C]//Proceedings of Annual Meeting on Association for Computational Linguistics(ACL-11). 2011: 631-635.
[15] Yaqin Yang,Nianwen Xue. Chinese Comma Disambiguation for Discourse Analysis[C]//Proceedings of Annual Meeting on Association for Computational Linguistics(ACL-12). 2012: 786-794.
[16] Adam L.Berger,Stephen A.Della Pietra,Vincent J.Della Pietra. A Maximum Entropy Approach to Natural Language Processing[C]//Proceedings of Annual Meeting on Association for Computational Linguistics(ACL). 1996: 39-71.
A Research on Chinese Colon Annotation and Automatic Identification
GU Jingjing,ZHOU Guodong
(School of Computer Science & Technology,Soochow University,Suzhou,Jiangsu 215006,China)
With the pragress of discourse analysis,punctuation researches have become an important entry to the analysis and disambiguation of discourse. Effective identificaton of the role of a punctuation in sentences;will help the development of syntax analysis,discourse analysis and other natural language processing technologies. The main task of this paper is to annotate and identify Chinese colon automatically. We adopt rule-based method and maximum entropy method. Rule-based method is relatively simpler and easier to implement. The maximum entropy method uses these rules into statistics,and gets better results in the experiments.
Chinese colon classification;maximum entropy;discourse analysis
谷晶晶(1986—),硕士研究生,主要研究领域为然语言处理。E⁃mail:20114227022@suda.edu.cn周国栋(1967—),博士,教授,主要研究领域为自然语言处理、信息抽取、统计机器翻译、机器学习。E⁃mail:gdzhou@suda.edu.cn
2014-02-24 定稿日期: 2015-01-20
国家自然科学基金(61202162);教育部博士点基金(20123201120011)
1003-0077(2016)03-0016-07
TP391
A