俞士汶,穗志方,朱学锋
(北京大学 计算语言学教育部重点实验室,北京 100871)
今年是中国中文信息学会成立30周年。人生三十而立。在这30年间,学会从成立走向辉煌,确实值得庆贺。学会拟在《中文信息学报》组织一期专刊介绍本领域所取得的成果。笔者有幸也收到约稿函。记得10年前,为纪念学会成立20周年,也出了一本文集《辉煌二十年》,俞士汶在为其撰写的《计算语言学的应用研究和基础研究》一文中写道: “最重要的,(北大)计算语言所将集成这些单项的研究成果,构成综合型语言知识库。期待这个综合型语言知识库在语言信息处理的研究和汉语语言学的研究中发挥更大的作用。” 10年过去了,综合型语言知识库伴随着学会的辉煌而成长,就在今年被推荐申报国家科学技术进步奖,经评审获二等奖,已在公告中。笔者将本文作为一件菲薄的贺礼,奉献给中国中文信息学会成立30周年。
语言知识库是自然语言处理系统的重要组成部分。汉语与英语、日语不同,缺乏形态变化和形式标记,汉语语言知识库的建设尤显迫切和艰巨。基于对母语知识与文化的认知, 北京大学计算语言学研究所(ICL/PKU)从1986年开始研究汉语计算模型和语言知识形式化描述方法,并着力构建语言知识库。历时25年,建成综合型语言知识库(Comprehensive Language Knowledge Base, CLKB)[1]。2011年申报国家科技进步奖的CLKB 包括6个语言知识库、10项规范与标准、核心基础软件工具集和4个应用系统,它们相互支撑,形成一个有机的整体。CLKB的各个组成部分之间的相互关系如图1所示。
图1 综合型语言知识库的结构关系
语言知识库是CLKB的主体。可以从不同的角度对自然语言处理系统中的语言知识库进行分类。按知识表达形式可分两类。一类如词典和规则库等,其中的知识是显性表示的,采用形式化的结构(词典可采用关系数据库结构,规则可采用“条件—动作”产生式表示),便于自动处理程序应用,但其罗列的知识会给自动处理带来歧解;另一类知识存在于语料库之中,每个语言单位的出现,其范畴、意义、用法都是确定的,不过作为语料库主体的语句都是线性的非结构化的文字序列,其中包含的语言知识都是隐性的。语料加工的目的就是把隐性的知识显性化。词语切分将汉字串改造成词语串,词的知识便显性化了,词性标注使得词类知识显性化,义项标注又使词义知识显性化。也可以从颗粒度的角度考察语言知识库,规则库中的知识的颗粒度大,通常描述词类与词类之间的关系,语料库的知识颗粒度小,反映具体的词语与词语之间的关系。至于建构一个具体的语言知识库,究竟要吸纳哪些语言知识,采用什么样的表达形式,则取决于应用目标。如果用于机器翻译,则还需要配备双语对照的知识。
CLKB中的语言知识库有: (1)《现代汉语语法信息词典》(GKB)。中国工程院编《20世纪我国重大工程技术成就》介绍: “《现代汉语语法信息词典》是一部面向语言信息处理的大型电子词典。它按照语法功能和意义相结合的准则收录了7.3万余词语。依照语法功能分布的原则,建立了词类体系,完成了这7.3万词语的归类。并在此基础上,分类描述每个词语的各种语法属性[2]。”现在GKB已扩充至8万词语,语法属性总数达360万项,这些属性基本上是按类描述每个词语同其他词类之间的组合关系。(2)汉语短语结构规则库,含600多条语法规则,主要描述词类与词类之间的组合关系。(3)现代汉语多级加工语料库,实现词语切分和词性标注的基本标注语料库,精加工的有5 200万字,标注了粗粒度义项的有2 800万字;标注了细粒度义项的有700万字。(4)多语言概念词典,含10万个以同义词集表示的概念。(5)平行语料库,含对译的英汉句对100万。(6)多领域术语库,有35万条中英对照术语。CLKB的系列化语言知识库涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。综合而言,CLKB是当今世界上规模最大且获得广泛认可的汉语语言知识资源。
CLKB中的10项语言信息描述规范与国家标准是《现代汉语语法信息词典规格说明书》[3]、《北京大学现代汉语语料库基本加工规范》[4]、《北大语料库加工规范: 切分·词性标注·注音》[5]、《信息处理用词语义项区分的原则和方法》[6]、《中文概念词典规格说明》[7]、《北京大学汉英双语语料库标记规范》[8]、《现代汉语短语结构知识库规格说明书》[9]、GB/T 19100—2003 《术语工作 概念体系的建立》、GB/T 19101—2003 《建立术语语料库的一般原则与方法》、GB/T 19102—2003 《术语部件库的信息描述规范》。在理论探索与前期实践的基础上精心制订的规范和标准指导大规模工程实践。规范和标准的发表和公布促进了学术交流。规范和标准也为辅助构建语言知识库的工具软件提供需求说明。
CLKB中的核心基础软件工具集包括汉语文本切分与词性标注软件、汉语文本注音软件、汉语词义标注软件、汉英双语对齐软件、术语自动提取软件等。人机互助的模式保证了语言知识库的质量和开发效率。
CLKB中的4个应用系统是信息提取系统、基于语料库的双语词典编纂平台、自动关键词标引与摘要系统和百科知识加工与服务平台。语言知识库是应用系统开发的基础,应用系统检验知识库的质量、适用性和覆盖面等。应用系统对语言知识库的反馈信息也有力地推动了语言知识库的建设。
历时25年的综合型语言知识库的研制过程大致可划分为奠基、落成和拓展3个阶段。在各个阶段,研制者都审时度势,适当地提出CLKB的任务和工程指标,既考虑到应用的需求,又考虑到实现的可能。
(1) 奠基阶段(1986~1995年): 与计算机技术前进的步伐相适应,我国自然语言处理到20世纪80年代中期开始了上规模的研究。CLKB的研制者很荣幸,不失时机地加入到了这个研究行列。当时汉语信息处理同英语、日语等比较,差距甚大,要做的工作很多。在语言模型、处理算法和应用系统等多个方向上进行了探索之后,我们思考,如何发挥后发优势?那时,发达国家的语言信息处理研究虽然走在前头,但也并没有取得实质性的突破,这固然同人类对自身的语言机制不甚了了、语言信息处理本质上是一个难题有关,但语言知识库建设的滞后也是一个不容忽视的因素。我们了解到当时先进的计算语言学语法理论[10]用合一运算改进分析算法,这依赖于用复杂特征集表示的以词汇为中心的语言知识,但采用这些语法理论的实用系统要能覆盖足够多的语言现象,必须要有庞大的词汇语言知识库的支持。汉语是我们的母语,汉语语言知识库只能靠我们自己做,责无旁贷。我们生长在中国,自信有对母语知识和文化的认知优势。我们工作在北大,有文理结合的天然优势,恰逢当时朱德熙先生提出“汉语词组本位语法体系”,《语法讲义》和《语法答问》两本著作相继出版,笔者以为中国语言学家提出的语法体系与国外的语法理论实乃异曲同工,我们需要做的就是把中国语言学家的理论成果改造为语言信息处理系统便于应用的形式。当时又有了成熟的关系数据库技术。采用数据库文件格式替代复杂特征集作为词汇的语法属性知识的表示形式,这是现代汉语语法信息词典GKB研制者的关键决策之一,因为它既便于计算机应用,也便于文理两方面专家合作。GKB包含的知识的主体是按照词类分别描述每个具体的词语同其他词类的组合关系,其颗粒度正好介于规则库与语料库之间,不仅保证了词汇知识库建设的先进性,也充分考虑了实现的可能性[11]。GKB研制者尤其幸运的是有机会在朱德熙先生率领下协同攻关。GKB从1986年起开始研制,经过10年的努力,于1995年底通过技术鉴定,其规格说明书在《中文信息学报》1996年第2期全文刊出,详细介绍GKB的《现代汉语语法信息词典详解》由清华大学出版社出版(1998年第一版,2003年第二版)。GKB的作用与影响日益彰显,其技术转让的绩效也日渐显著。CLKB的第一块里程碑是GKB于1998年获教育部科技进步二等奖。有了GKB,支持了机器翻译系统的开发,同时也推动CLKB向句法结构知识和词汇语义知识的方向进行探索。
(2) 建成阶段(1996~2006年): 我们在1995年提出了“综合型语言知识库”的规划[12],全面展开包括汉语短语结构知识库、现代汉语语义词典、现代汉语基本标注语料库、中英文概念词典、双语对齐语料库、多领域术语库等系列语言知识库的建设工作。每一个知识库研制计划的提出都有实际应用需求的背景,也有基础研究自身逐步深入发展的规律和可以实现的基础。依据词组(短语)本位语法体系,短语在汉语结构描述中具有举足轻重的地位,因为“词组的结构和功能讲清楚了,句子的结构基本上也就讲清楚了”[13]。汉语短语结构知识库完全立足于现代汉语语法信息词典GKB,它建立了与GKB的词类体系保持一致的基于功能(优势)分布的短语分类体系,进而描述词类/短语与词类/短语之间的组合关系,但不是笼统地描述“动词后接名词可以构成谓词性短语”之类高度抽象的规则,而是更明确地指出具有什么属性的动词和具有什么属性的名词能构成什么样的短语(动词和名词具有的属性信息均取自GKB),这个短语的特性如何,它继承了其组成的中心成分的哪些属性,丢失了哪些属性,又派生了哪些新的属性。汉语短语结构知识库中的规则也采用数据库文件的记录形式,但它们很容易转换为用扩充的上下文无关语法表述的产生式形式。当基于统计方法的自然语言处理技术逐步汇成主流时,电子版的大量原始语料也已唾手可得,但大规模高质量的加工语料仍然难求。ICL/PKU基于GKB和长期磨砺的技术,于1999年开始实施大规模语料加工,首先完成的是基本加工(包括词语切分、词性标注和命名实体标注),2002年在《中文信息学报》第5、6两期上连续发表的《北京大学现代汉语语料库基本加工规范》获第四届中国科协期刊优秀论文奖。21世纪初,互联网日益普及,对搜索结果的要求越来越高,也有了跨语言检索的需求,中英文概念词典应运而生,该词典以同义词集(Synset)表达概念,又直观地表述概念间的上下位、部分—整体、蕴含等语义关系,为实现准确的缩检、扩检提供了使用方便的语言知识资源。经过20余年的努力,综合型语言知识库的主体建成,各个知识库的集成方案已经提出,集成的关键技术也已突破。2007年教育部组织的鉴定认为: “《综合型语言知识库》开创性地实现了汉语词语的大规模归类与属性描述,很好地处理了基础研究与应用研究的关系,形成了基础资源建设与应用系统开发相互支撑、相互促进的良性模式, 其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平。”同年获教育部科技进步一等奖。
(3) 拓展阶段(2007~2011年): 面向文本内容理解,CLKB实现从语法到语义、词义到句义、双语到多语、通用知识到领域知识的多维度的深度拓展,取得了一系列新成果。在基本加工语料库的基础上,又完成了相当规模语料的粗粒度和细粒度的词义标注。粗粒度的词义信息取自GKB的“同形”字段,细粒度的则取自现代汉语语义词典的“义项编码”字段。CLKB的集成是以词义为主轴实现的,将GKB、现代汉语语义词典和现代汉语多级加工语料库集成到一起,不仅可以进行词频统计、带词性的词频统计、粗粒度和细粒度的义项统计,而且探讨了词语的语法属性的概率描述[14]。基于CLKB的语言知识库的应用系统开发也取得长足的进步。同中国大百科全书出版社合作开发的百科知识加工平台,利用综合型语言知识库中的数据资源、工具和已有应用成果,开发基于知识单元的百科知识管理、检索、编辑、加工软件,集成知识挖掘系列工具并搭建人机交互的工作平台,实现了自然语言处理技术与百科知识应用的有机结合,在很大程度上解决了领域知识工程中的瓶颈问题,进一步开发了人性化的百科知识咨询服务示范系统,探索从信息服务到知识服务的提升路径;该应用系统已经在国家新闻出版总署的“十一五”重大项目“国家数字复合出版系统工程”中发挥作用[15]。此外,基于CLKB的双语对齐语料库所开发的词典辅助编纂系统[16]以及自动关键词标引和摘要系统[17]都已经在若干实业单位使用,获得好评。
20多年来,CLKB的成果、技术和经验得到广泛传播。已产生广泛的学术影响、重大的社会效益和和可观的经济效益。免费使用部分资源的用户数以万计。从1996至2011的16年间持续有外单位同北大签订有偿技术转让协议,份数已逾200,北大获得的技术转让费数倍于国家相关科研经费的总投入。协议用户遍布中华大地(包括香港、台湾),也分布到美国、日本、德国、法国、俄国、英国、韩国、瑞典和新加坡。CLKB于2008年获北京技术市场金桥奖项目二等奖,于2010年 获中国电子学会电子信息科学技术奖一等奖。2011年由工业和信息化部推荐,申报国家科学技术进步奖。
技术是随着时代进步的,特别是计算机技术的进步更是一日千里。太多的辉煌一时的技术成果很快就进了博物馆,甚至完全被人们遗忘。在瞬息万变的计算机世界中,综合型语言知识库CLKB生存了25年,至今仍为人们重视,2011年又增加了若干国内外协议用户。系统地分析CLKB在不同阶段的研制背景、决策与实施过程以及所取得的成果,总结出一些经验教训,或许是有参考价值的。不过,本项目组成员对这些问题还没来得及进行深入的系统的思考和讨论,笔者只能写一些零星想到的心得。
20世纪80年代中期,我国的自然语言处理开始了上规模的研究。如何实现语言知识库共享以避免重复开发成为本领域学者共同关注的问题。就在这个时期,北大计算语言学研究所在与日本松下公司合作开发中文文字处理机的项目中,负责开发一个以词为基础、以语句为变换单位的中文输入软件[18],该软件使用了自然语言句法分析技术。与句法分析程序相独立,该软件包含一组上下文无关语法公式和一部4万词的电子词典,电子词典对其中的每个词除了提供用于编码—汉字变换的输入特征外,还提供用于句法分析的词类和细分类信息。这项工作是大规模语言工程的前哨战,为我们确立语言知识库研究方向提供了理论启示和实践经验,不过,它也是一场遭遇战,因为在该软件中无论语法公式还是电子词典都是匆忙上阵的急就章。与此同时,我们考察了国际上以机器翻译为先导的自然语言处理技术的发展轨迹,学习了以复杂特征集和合一运算为特征的新的计算语言学语法理论,认识到在自然语言处理系统中既要配备所需要的语言学知识特别是词汇知识,又要采用适当的知识表示形式。复杂特征集或格框架等表示形式也是可行的选择,便于自动处理程序使用;不过,在知识库建设初期,只能由人向知识库中注入知识,人操作包含嵌套或递归结构的数据格式并不是太方便。经过反复斟酌,决定面向自动处理的知识表示形式也要向语言学家倾斜,采用便于语言学家理解和操作的关系数据库文件格式,即二维表。二维表的每一行(即“记录”)描述一个词语,各个词语的类型不同、数量不等的语法属性信息则由二维表的列(即“字段”)刻画。至于汉语词语的语法属性知识本身,由于我们有天然的有利条件,自然采用了朱德熙先生的词组本位语法体系,认为汉语词语是可以按照语法功能分布进行分类的,而词语分类对于诸如上下文无关语法之类的形式语法及其分析软件也是必要的。设计现代汉语语法信息词典GKB的数据结构时,针对每一类词建立一个数据库文件,便有了26个词类文件。另建一个总库文件,收入全部词语及其与类别无关的共同属性。前面说,GKB包含8万词语就是指GKB的总库有8万个这样的记录,各类词语的更详细的属性信息分布在各个词类文件中。在GKB文件中,同一词形(指汉字相同,即库中“词语”字段的值)如分属不同词类,以不同记录区分,如“地道”分属形容词a和名词n,“自动”分属区别词b和副词d。属于同一词类的同一词形仍可区分为不同的词项或不同的义项。如动词“抄”有两个词项,在“同形”字段用“A”、“B”区分;没有区分词项的动词“支持”有两个义项,在“同形”字段用“1”、“2”区分。对于动词类,由于有必要更细致地辨析某些字段的值所指示的语法属性,又分别建立了5个分库文件。例如,对于某个动词,动词库的“体谓准”字段的值若是“体”,表示该动词是可以带体词性宾语的,但体词性宾语还可以区分不同的类型,动词库本身不便描述,则在另建的体词性宾语分库中进一步区分宾语的类型和其他特征,如“受事”、“与事”、“施事”及其格标。代词库下也建了两个分库。这样GKB一共有34个数据库文件,并形成如图2的树形结构。总库、各词类库以及分库皆以“词语”+“词类”+“同形”作为主关键项。对总库、各词类库以及相应的分库实施“链接”操作,便可得到每个词语的完整的语法属性信息。
图2 现代汉语语法信息词典的总体结构
这样的数据结构从计算角度考察,便于转化为诸如复杂特征集的其他知识表示形式;从技术层面考察,尽可能减少了词典的冗余,从语言知识本身考察,也是最便于汇集和扩充词汇知识的。
关系数据库文件格式适应了面向机器的语言知识库的形式化与规格化的设计原则,还有一个原则必须贯彻,即周遍性: 对于GKB中的每一个词语、每一项语法属性都要给出正确的值,缺一不可。粗略估算,GKB中需要填写的信息总量在360万以上。这些属性项目的选择和具体知识(即属性的值)的获取途径都是决定知识库工程成败的关键因素。GKB的成功之处就是在将数以万计的词语大致归类的基础上分类详细描述每一个词语的语法属性。之所以会做出这样的决策,一方面是因为有语言学理论的指导,另一方面是有工程实践的体验。关于语言学理论的指导,请允许笔者引用朱德熙先生较长的一段话: “同类的词必须有共同的语法功能,异类的词必须有互相区别的语法功能。说同类的词有共性,并不是说同类的词语法功能完全相同。例如及物动词和不及物动词都是动词,但是在能不能带宾语这一点上有区别。异类的词必须有互相区别的个性,这也不是说异类词之间就毫无共性。例如动词和形容词虽是两类,也有某些共同的语法功能,譬如说都能做谓语,都能受副词修饰等等。因为同类的词语法功能不尽相同,所以大类之下可以分小类(例如动词可以分为及物动词和不及物动词),因为异类的词也可能有某些共同的语法功能,所以大类往往可以归并成更大的类(例如动词和形容词可以归并为谓词)[13]。”关于工程实践的体验,即在开发采用句法分析技术的中文输入软件时,已经对4万词语进行了第一次的分类与细分类试验,深刻地体验到将数以万计的词语归类是极其繁琐的工程,分类越细,交叉现象越严重,归类也就越困难。长期的实践与思索,让我们领悟到分类与属性描述是可以互相转化的。假设只考虑二值属性,如果为词语确立n个属性(n≥1,属性值假定为“可”或“否”),则最多可将词语划分为2n个不相交的类。反之,欲将词语划分为 N(N≥2)个不相交的类,则至少需要确立[ log2(N-1) + 1 ] 个不同的属性(这里的方括号代表取整数操作)。分类与属性描述也是可以互相补足的。具体到汉语,词类问题极其复杂,为了按时完成有限目标的语言工程,实在不宜另起炉灶。幸运的是,当时北大计算语言所与中文系正合作承担科研项目,GKB自然继承了朱德熙先生的词类体系。继之,考虑语言自动处理特别是句法分析实现歧义消解的需要,参照朱先生论著中对每类词的特性的论述,GKB按类设置了各种语法属性字段。正是由于这样的决策和设计,极大地方便了语言学家参加GKB的实际工作。朱德熙先生、陆俭明教授、郭锐教授在“七五”期间完成的2万多词的词典原型,成为其后GKB继续发展的基础。接受语言学家的指导、与语言学家深度合作、前期语言知识获取走了一条捷径也是GKB成功的重要因素之一。实际上,陆俭明教授始终是CLKB项目组的重要成员,提供语言学理论指导。读者或许已经注意到,在“语言知识获取”前面有“前期”二字,这是因为最丰富、最可靠的语言知识还是存在于第一手语言材料或者说语料库之中,但是20世纪80年代中期,电子文本还是稀缺的资源,可以显性揭示各类语言知识的加工语料还没有出现,因此依靠语言学家及其成果(词典与语言学论著),跨出语言知识库建设的第一步是至关重要的。在尚没有大规模电子语料可供检索的历史条件下,朱德熙先生关于汉语词类及各类词的语法特点的论述确实体现了学术大师的远见卓识,GKB继承词组本位语法体系在当时也算是一个明智的决策,但由于语言现象极其复杂,不能企求语言学家关于语言学知识的每一条论述都同语言事实严丝合缝地相符,因此,GKB也对朱先生的个别论述作了一些局部的修正[19],但这种修正仍然符合词组本位语法体系的基本原理。CLKB也不拘泥于知识获取的固定模式。以服务概念检索为开发目标的中英文概念词典,就是在英文Wordnet的基础上开发的,但中文部分并不是英文的简单翻译,充分吸收了汉语文化与知识的元素。当CLKB的各类语言知识库及其规范、开发工具逐步齐备之后,相互间的参照和订正就为CLKB进一步消除瑕疵、提高质量提供了方便。
在确立语言知识形式化描述体系和获取途径的同时,有关语言工程实施的决策也是成败的关键之一。语言知识库规模必须足够大,质量必须足够高,CLKB始终将知识库的质量看成自己的生命线。但大规模、高质量、种类齐全的语言知识库又不可能一蹴而就,必须分阶段实施。像GKB的规模由初期包含词语4万、经5万、7万不同阶段最终才达到8万,质量也是不断提高的。25年间CLKB保持了持久的生命力,经验之一是语言知识及其表述形式独立于自然语言处理系统和实现算法,结构化与非结构化权宜采用。经验之二是在每一项知识库工程大规模实施之前,必须制订好规范。经验之三是充分发挥人机配合的优势。配合语言知识库建设,开发了成套的软件工具,像语法信息词典管理开发软件支持了GKB的规模升级和质量提高,可视化编辑软件对于中英文概念词典、汉英双语对齐软件对于双语语料库、术语自动提取软件对于多领域术语库的开发都发挥了重要作用,特别是词语切分与词性标注软件对基本加工语料库的建设更是起到了支撑作用。但在知识库建设中,研制人员的素质和责任心是更具决定性的因素。CLKB的各个知识库都有专人维护,特别是GKB和基本加工语料库从研发到维护,负责人始终坚守职责,从不懈怠,相互切磋,求同辨异,共同保证了CLKB中最具基础性的两个语言知识库的不断更新与改进。1990年之后,基于统计的自然语言处理技术逐渐成为业界主流,在这种形势下,CLKB坚持基于规则的方法和基于统计的方法并举,为两种方法的发展提供支持,实际上CLKB中包含的应用系统、词语切分与词性标注等工具软件的开发也综合运用了这两种方法。
CLKB中包含的各种语言数据资源之间尽管在内容上有密切的联系和协调的分工,但其表现形式各异,物理上相互独立。为解决异构语言资源之间的集成和信息融合的难题,CLKB提出了“以词义为主轴”的集成方案。GKB和基本加工语料库的集成是CLKB各个知识模块集成的基础。原始语料库与汉字(字典)有对应或转化关系,词语切分语料库与词语(未注词类的词典)有对应或转化关系,词语切分与词性标注语料库同 词语/词类(注了词类的词典)有对应或转化关系。基本加工语料库是完成了词语切分与词性标注的,如果忽略GKB中的“同形”信息(将具有不同“同形”信息的若干记录合并成一个),就可实现基本加工语料库同一部注了词类的词典的对应,可为该词典中的词语提供词频信息以及带词性的词频信息,也可为语料中的词语提供词典中的释义、用法等各种参照信息。不过,GKB中已有“同形”信息,舍弃实在可惜,而将GKB同基本加工语料库集成,两者之间又存在缝隙,要填补这个缝隙,就要在基本加工语料库中增加“同形”信息的标注。这又是一项浩大的工程。为了实现真正有用的集成,我们痛下决心,开发义项标注语料库。在 2 800万汉字的基本加工语料库上,加注“同形”信息,得到了粗粒度义项标注语料库;进而在其中700万汉字的粗粒度义项标注语料库上加注现代汉语语义词典中的义项编码信息,便得到细粒度义项标注语料库。这样,便可更细致地进行粗粒度义项频度、细粒度义项频度的统计。实现语料库与GKB集成的具体办法是将语料库改造为数据库,语料库中的每个词语都是该数据库的登录项,词性、同形、义项编码以及每个词语在文本中的位置(详略不等)都作为该数据库的字段的值。GKB、现代汉语语义词典和该数据库分别有对应的主关键项(“词语”+“词类”+“同形”或“词语”+“词类”+“同形”+“义项编码”),便可实施“链接”操作,便得到每个词语的全面知识,既包括词典中的,也包括语料库中的。如此便实现了GKB、现代汉语语义词典分别和粗粒度义项标注语料库、细粒度义项标注语料库的无缝对接。频度统计还可以视需要按年、按月、按日进行。“以词义为主轴”还可进一步实现同中英文概念词典、双语语料库、专业术语库等语言资源的集成。同时,采用“以词义为主轴”的集成方案,综合型语言知识库对北大计算语言所之外的其他语言知识库也是开放的。该方案将词法知识、句法知识、语义知识、多语言知识等多种类知识形成交叉索引、检索和相互操作、验证的结构模式,从而实现多种语言资源之间准确、便捷的交叉存取和应用。
综合型语言知识库CLKB除了申报2011年国家科学技术进步奖的内容外,还包括其他一些有价值的且有一定影响的语言知识库。现代汉语语义词典[20]已在前面提及。还有汉语合成词结构库[21]、中文缩略语数据库[22]、汉语成语知识库[23]、现代汉语虚词用法知识库[24]等等。其中,现代汉语虚词用法知识库(Chinese Function word usage Know-ledge Base,简称CFKB)由郑州大学和北大计算语言所合作开发,昝红英博士主持。 CFKB包括现代汉语虚词用法词典、现代汉语虚词用法规则库以及现代汉语虚词用法标注语料库,是一个三位一体的语言知识库。目前,CFKB 中的词语总数为2 389,用法总数为4 345。这些知识库都可以看成是CLKB的衍生成果。
综合型语言知识库并不因已取得阶段性成果而停止前进的步伐,它将随着语言信息处理技术的进步而发展。语义计算是自然语言处理向自然语言理解进军途中必须攻克的堡垒。CLKB也应随着语义计算的发展而精进。
从处理对象看,当前语义计算正由词汇语义学经句法语义学向篇章语义学发展,逐步扩大覆盖范围。从研究内容的深度看,语义计算可划分为互有联系、相互支持的3个层面: ①本体层面,②认知层面,③语用层面。本体层面上的语义计算的实质就是借助客观的世界知识(常识)消解语言单位和语言结构的歧义。这样的知识是可以放在知识本体中的。本体的构建和应用成为各种语言长期以来的研究重点。但是即便消解了歧义,不等于就实现了自然语言理解。因为像隐喻的识别与理解就超出了歧义消解的范围[25],很简单的隐喻“他是老狐狸”就同本体中的知识相悖,隐喻计算应当属于认知层面上的问题。至于语用层面上的问题则更多、更复杂,通常与篇章理解掺杂在一起,仅举较简单的汉语述补结构中的补语的语义指向为例。“(文章)写完了 /(老师)写累了 /(毛笔)写秃了”中的“完 / 累 / 秃”虽然都是“写”的补语,但其语义所指却分别是远离“写”的客体、主体和工具。要求解补语的语义指向,知识库不仅要提供动作的主体、客体、工具等语义角色这样的知识,还要描述这些语义角色在动作完成之后会发生什么样的变化。
进行以上3个层面上的语义计算研究也需要语言知识库的支持。CLKB虽然包含了一些语义知识,但只限于本体层面,即便在本体层面上,也还有很多工作要做。在认知层面,ICL/PKU只做了初步的理论探索[26-27],其中也提及隐喻知识库的建设。幸运的是,北京语言大学王治敏博士与ICL/PKU合作于2011年申请到了国家自然科学基金项目“隐喻识别与理解的理论与方法研究”,该项目已把隐喻知识库的建设作为研究重点之一。至于语用层面,目前还只停留在思考阶段,或许需要建设一种“动态”配价语法知识库(已有的现代汉语语义词典是以配价语法作为理论指导的)。
从1986年起到2010年底止,综合型语言知识库整整走过了25个年头。这项基础研究之所以能持续这么长的时间,是因为适应了社会信息化进程所需要的自然语言处理技术与计算语言学的发展。《国家中长期科学和技术发展规划纲要》将基于自然语言理解的中文信息处理列为前沿技术,昭示了语言信息处理有广阔的发展空间。综合型语言知识库不会停止前进的步伐,期望这朵小小的浪花汇入中文信息处理的洪流,继续为中文信息处理的发展贡献力量。
对于综合型语言知识库的发展,国家科研项目提供了基本的保障,广大用户和合作单位给予了宝贵的支援,北京大学提供了良好的学术环境。《中文信息学报》发表了多篇介绍综合型语言知识库的文章,在它前进的道路上树立了路碑。笔者谨向所有支持综合型语言知识库发展的部门、单位、领导、师长和朋友致以诚挚的谢意。国家科技进步二等奖的获奖名单限10人,实际上还有更多的专家、老师和同学为综合型语言知识库付出了辛劳和智慧,笔者谨向各位默默奉献者致以崇高的敬意。
[1] 俞士汶.建设综合型语言知识库的理念与成果的价值[J].中文信息学报,2007,21(6): 3-12 .
[2] 中国工程院编.常平主编.20世纪我国重大工程技术成就[M].广州: 暨南大学出版社,2002: 30-31.
[3] 俞士汶,朱学锋,王惠,等.现代汉语语法信息词典规格说明书[J].中文信息学报,1996,10(2): 1-22.
[4] 俞士汶,段慧明,朱学锋,等.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5): 58-65.
[5] 俞士汶,段慧明,朱学锋,等.北大语料库加工规范: 切分·词性标注·注音[J].汉语语言与计算学报,2003, 13(2): 121-158.
[6] 吴云芳,俞士汶.信息处理用词语义项区分的原则和方法[J].语言文字应用,2006,(2): 126-133 .
[7] 于江生,刘扬,俞士汶.中文概念词典规格说明[J].汉语语言与计算学报,2003, 13(2): 177-194.
[8] 常宝宝,柏晓静.北京大学汉英双语语料库标记规范[J].汉语语言与计算学报,2003,13(2): 195-214.
[9] 俞士汶.现代汉语短语结构知识库规格说明书[J].汉语语言与计算学报,2003,13(2): 215-226.
[10] 俞士汶主编.计算语言学概论[M].北京: 商务印书馆,2003年: 16-75.
[11] 俞士汶,朱学锋,王惠,等.现代汉语语法信息词典详解(第二版)[M].北京: 清华大学出版社,2003: 19-136.
[12] 朱学锋,俞士汶.自然语言处理与语言知识库[C]//罗振声,袁毓林主编.计算机时代的汉语汉字研究.北京: 清华大学出版社, 1996: 107-118.
[13] 《朱德熙文集》编辑小组.《朱德熙文集》第1卷[M].北京: 商务印书馆,1999: 278-294,334-344.
[14] 俞士汶,段慧明,朱学锋.词的概率语法属性描述研究及其成果[C]//许嘉璐,傅永和主编.中文信息处理——现代汉语词汇研究.广州: 广东教育出版社,2006: 227-283.
[15] Zhifang Sui, Yao Liu. The Development of an NLP-based Chinese Ontology Construction Platform[C]//Proceedings of The 2010 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology(WI-IAT 2010): the workshop of Natural Language and Ontology Engineering(NLPOE), Toronto, Canada: 出版者, 2010.
[16] 常宝宝.基于语料库的双语辞书编纂平台[J].辞书研究,2006,(3): 122-133.
[17] 李素建,王厚峰,俞士汶,等.关键词自动标引的最大熵模型应用研究[J].计算机学报, 2004,27(9): 1192-1197.
[18] 俞士汶.中文输入中语法分析技术的应用[J].中文信息学报, 1988, 2(3): 20-26.
[19] 俞士汶.关于副词与区别词兼类的答辩[C]//北京大学汉语语言学研究中心《语言学论丛》编委会编.《语言学论丛》第四十辑. 北京: 商务印书馆,2009: 39-55 .
[20] 王惠,詹卫东,俞士汶.现代汉语语义词典规范[J].汉语语言与计算学报,2003,13(2): 159-176.
[21] 刘云,俞士汶,朱学锋.现代汉语合成词语数据库的开发及应用[C]//张普.第二届中文电化教学国际研讨会论文集,广西桂林: 广西师范大学出版社,2000: 273-278 .
[22] 支流,朱学锋,段慧明,等.中文缩略语还原技术初探[C]//孙茂松,陈群秀.全国第八届计算语言学联合学术会议论文集. 北京: 清华大学出版社,2005: 600-602.
[23] Lei Wang, Shiwen Yu. Construction of Chinese Idiom Knowledge-base and its Applications[C]//Sun Le and Keh-Jiann Chen. Proceedings of COLING 2010: the Workshop on Multiword Expressions: from Theory to Applications (MWE 2010), Beijing, China: 2010: 11-18 .
[24] 昝红英,朱学锋. 面向自然语言处理的汉语虚词研究与广义虚词知识库构建[J].当代语言学,2009,11(2): 124-135 .
[25] 俞士汶,王治敏,朱学锋.文学语言与自然语言理解研究[C]//曹右琦,孙茂松主编.中文信息处理前沿进展——中国中文信息学会二十五周年学术会议.北京: 清华大学出版社,2006: 72-79.
[26] 王治敏. 汉语名词短语隐喻识别研究[D].北京: 北京大学,2006.
[27] 贾玉祥. 汉语文本中的隐喻计算研究[D]. 北京: 北京大学,2010.