萧国政,高精鍊,7,双文庭,姬东鸿,郭婷婷,吴泓渺
(1. 武汉大学 文学院,湖北 武汉 430072;2. 武汉大学 语言与信息研究中心,湖北 武汉 430072;3. 湖北省语言与智能信息处理研究基地,湖北 武汉 430072;4. 武汉大学 计算机学院,湖北 武汉 430072;5. 武汉大学 外国语言文学学院,湖北 武汉 430072;6. 武汉科技大学 外国语学院,湖北 武汉 430065,7. 广东问果科技股份有限公司,广东 广州 510620)
语言资源建设对于语言信息处理或计算语言学的重要性,可以说是不言而喻的。例如,孙茂松等《语言计算的重要国际前沿》中,第三问题就是语言资源建设[1]。本文结合我们资源建设实践、项目研究和团队学科背景,从词位理论构建入手,提出我们对语言资源类型、性质以及建设的新的思考理论和建议,以期活跃思想,推动资源建设发展,展示语言理论的突破对语言技术和资源建设跨越性发展的意义。
词位是语言学范畴,这里特指英语lexeme的翻译及其相关研究,不是“词语某某位置”的汉语紧缩。从源于英语系统的文献看,1exeme由1exicon和-eme两部分合成,最初出现在印欧语言学中是20世纪40年代。-eme(“位”) 类相关术语系列及出现时序是: (语音单位的)音位phoneme(19世纪晚期),(语法单位的)语素morpheme(l9世纪末),(语义单位的)义素sememe(20世纪初)。其中,phoneme和morpheme分别来自于法语的phonème和morphème,sememe则是seme和-eme两部分合成。[2]
词位在语言学中的基本用法有三: (1)构成词的词干语素(与词的语法的构形语素morpheme相对)*据《牛津英语词典》的考证,最早在英语中使用lexeme一词的文献是B.L.沃尔夫1940年的文章: “沃格林(C.F.Vorgelin)已经完成了一项艰巨的工作,把大量变幻莫测的肖尼语(Shawnee)词干复合词分析为构成成分词位(1exeme)(或称词干stems)以及其它(构形的)语素(morphemes)。”这一用法与法语的lexème(词干)或者morphème lexical(词汇语素)的所指相同。;[3](2)词典中的词目(也称词条)*见王宗炎编,湖南教育出版社1998年版《英汉应用语言学词典》214页。;(3)词典中的义项*统指称语素,如霍凯特(C. F. Hockett)著,索振羽、叶蜚声译,北京大学出版社1986年版《现代语言学教程》,181-183页。。 从语言资源建设的目标性指向看,选择词位表词目,其聚类能力和可生发性最具学科张力,因此本文是在这个意义上使用词位一词。为了区别或强调,文中有的地方称之为“词目词位”。
《英汉应用语言学词典》指出: 词位是语言意义系统中有区别性的最小抽象单位,在实际口语或书面语的句子中,以各种不同的形式出现,即使有几个不同的屈折形式或包括几个单词,也仍然只构成一个词位。例如,英语中go,goes, went,gone,going这些屈折形式都属于同—个词位go。又如break in,make up,the stick and the carrot,fish in troubled waters,paper-cut等短语,虽包括几个单词,然而每个短语都只是一个单独的词位。[4]在词典里,每一个词位都作为一个单独的词条或次词条来处理。[5]并且在这个意义上,词位是对词典编纂理论和方法的概括和总结。因为词典编纂的一项重要工作,是把形式相同,意义不同的词分别立项,把形式相同或不同,而意义有某种程度相同的词语形式聚合在一个词目之下。
可以说,词典是人类第一种形式的人工语言资源,是人类语言和知识系统的整理和储存,是学习、继承和创新知识的资源和工具。词典对于人类犹如语言资源之于计算语言学。
或者说,对计算机来讲,语言资源是一种数据化的特殊词典。但是这种词典的语言形式涵盖面和内容需求远远高于和多于传统词典。网络发展和语言信息处理面临的任务需要我们挖掘和重构“词位”理论的内涵和外延,以满足学界和用户日益增长的语言资源和语言资源建设的需要。[6]
为了较为直观地了解以词典词目及内容为对象的词位,我们先看《牛津高阶英汉双解词典》[7]walk词条的一个实例:
[1]walk1/ wk; wk/v
[I, Ipr, Ip, In/pr] (a) (of a person) move along at a moderate pace by lifting up and putting down each foot in turn, so that one foot is on the ground while the other is being lifted (指人)行走:Howoldwasthebabywhenshestartedtowalk? 这个女孩几岁开始走路的? *Wewalkedslowlyhome.我们慢慢走回家. *Hewalkedintotheroom.他走进了房间. *walkingupanddown走来走去 *Theywalkedalongtheriver.他们沿着河边走.…I’llwalkyouhome.我陪你走回家去.
[1]是walk1“词位”比较全面的展示。
首先,词位和语言学的其他“位”范畴(如“音位”、“义位”)一样,其“位”一方面代表着相同性质的语言单位的集合(set),另一方面,“位”由“位”的代表形式及其变体构成。[1]的第一行词条形式walk(简称词目),是该词位的代表形式(抽象形式)。其下面的6个例证中,walk的不同形式(简称词例)walk、walked、walked、walking、walked、willwalk,可合并为4种:walk、walked、walking和willwalk,是其词位变体,为具体形式[8]。*walk应看作与walked等相同性质的形式,只是语法添加的形式类型不同: 一个添加的有音形式(ed、ing等),一个采用了语音零形式(可记作Ø),进一步参看[5]。词目是对词条的概括和抽象。并且,应该指出:
[2] 包含抽象和具体两类形式,是词位“位”的第一个位特征: 构成特征。
第二,通过比较观察不难发现,词目是walk的纯词汇形式,可称“词汇词”。其词例形式是为了满足句中某种语法需要的句中形式,或说是带有句法标记(或添加)的语法词和句法变体,可称“句法词”。结合[2],应该说:
[3] 词位是对变体的抽象,词目是对词例的抽象,词汇词是对句法词的抽象。[3]是词位的第二个位特征: 内部关系特征。
从[3]可看到,这种关系特征隐含着这样一个推论:
[4] 词汇词是词语的语言形式,句法词是词语的言语形式。因为语言是对言语的抽象。
或者我们可进一步说,词汇词代表着抽象的语言层面,语法词反映着具体的言语层面。比较这两个层面及其词汇词和句法词,不难发现,词目词位及其位变体的构成机制及原理,可概括为如下的等式结构:
[5] 词汇词(walk)
② 句法配件一般称之语法构形,准确地讲,应是句法完型,藉此从词的词汇形态换装为词的句法形态。
[5] 表明,从词汇词到句法词,其间经过了满足造句需要的句法配件的匹配和时体意义(Time and Aspect)及形式附加。Walk词位的构成式可描述为:
[6] /walk/: {walk,walked,walking,……}*[6]中,/* /表词位,花括号{* }是词位变体集合,其中用逗号隔开每一个成员均为冒号前面词位之变体。下同。需要指出的是,花括号中的walk与词位形式/walk/中的walk看似相同,其实不然。前者属句法词,是动态运用中的形式,后者是词汇词,语言静态单位。前者是由词汇词walk添加句法配件Ø构形而成的。
从词汇词到句法词的语法手段是句法附加。其形式一般有两类三种形式。一类是无声零形式(Ø);另一类是句法附加,一般通过词尾的屈折变化(inflection)来完成。句法屈折有两种形式: 一是词汇词与代表其语法附件直接合并,如[6]花括号中第2和第5两个词语形式;另一种是由词汇词和语法附件的间接合并,如[7] /go/词位花括号中的第三、四两个形式went和gone。
[7] /go/: { go,goes,went,gone,going,……}
词位,是运用于一种语言研究的语言学范畴或理论,对于面向多语的计算语言学或语言信息处理来讲,其概念重构除了上面的揭示和解释外,其更为重要的,是词位对变体的语义扩张容忍度或容忍域,以及变体与变体之间的差异概括与表述。
为了直观,我们可把[1]walk用例的中英文形式加上下划线分段对比如下:
[1′]Walk1(指人)行走
1)Howoldwasthebabywhenshestartedtowalk? 这个女孩几岁开始走路的?
2)Wewalkedslowlyhome. 我们慢慢走回家.
3)Hewalkedintotheroom. 他走进了房间.
4)walkingupanddown走来走去
5)Theywalkedalongtheriver.他们沿着河边走.
6)I’llwalkyouhome.我陪你走回家去.
由上我们看到,词目词(词汇词)walk汉译“(指人)行走”,“行走”是“走”的双音节形式,同义语用变体。用例1)walk汉译“走路”。“走路”是人行走的另一种表述形式;2)、3)、5)中3个walked,除3)译为“走…了”,其余和walking一样均译为“走”。从例中平行对应的语料角度看,walk对应的汉英词位,可作如下的表述:
[8] a./walk1/ : {walk,walked,walking,willwalk}
b. /行走/ : { 走路,走…的*表过去的时态助词“的”。/走…了,(正在)走,(将/可)…走}
从[8]a和[8]b及其对比,不难看出,walked和will walk的意义大于walk,其对应的汉语,或“走”后带有“的/了”,或“走”前带有“将/可”。这种情况表明,印欧语用词汇词统领句法词的词位理论,一直隐藏着一个不为人们表露的问题,即“位—位变体”之间存在语义差异,即语义上句法词的内涵大于词汇词。
一般来讲,具有整体和部分关系的语符列a和ab,ab和abc,长语符列外延缩小,内涵增加,意义多于或大于其被包孕的部分。或者说:
[9] 句法词的意义内涵大于词汇词意义内涵,二者是广义的逻辑上下位关系。词位变体不同于音位变体,变体之间存在和允许逻辑上的上下义。
[9]是词位的第三个特征: 变体词义差异的容忍特征或特性。并且,具有语义上下义关系的词位变体是一组同“祖”形式,相互之间是“同族”关系。词位/*/中的词语形式及其意义,就像一家人的(社会标记)姓氏,为彼此具有同辈或世代联系的生物基因,并且在这个意义上我们说:
[10] 相同的意义或家族DNA,是词位形成、变体联结与语言聚类的基本依据,其下位义包孕上位义。
[10]是词位的第4个特征: 语义同祖包孕特征。《牛津高阶英汉汉英双解词典》的词条中除了动词walk1还有名词walk2。为节省篇幅,walk2的词典内容部分摘录如下:
[11]walk2/ wk; wk/n
与[1]相比,[11] 增加了a walk形式,综合以上语料和分析,英汉两种语言的同一词位[8]可改写为[12]:
[12] a. /walk/ : {walk,walked,walking,willwalk,awalk}
b. /行走/ : {走路,走…的/走…了,走,(将/可)走,散步/漫步,步行 }
综上,面向语言资源建设的多语词位,首先是一个抽象的语言学理论范畴,其语言学原理是词目词(词汇词)对语例词(句法词)实行了语言对言语的抽象;其次,本类词位(词目词位)是词目词为入手形式和意义DNA的言语语法词的家族式聚合。同一词位的变体之间,语义上是同祖关系,这种关系在多语言中是普遍存在和平行显现的;第三,本词位模型为新语言资源的自动或半干预产生所提供的理论和方法依据,属于语言学和计算语言学的应用理论探索。第四,应用理论先行,可能对应用研究和应用技术实现具有超过过往的强势推力和学术张力。
可以说,有语言就开始有了语言资源,就像有了自然物质就有了自然资源一样。只要人类的科学和技术足够发达,人类无限的需求都能如愿付诸实现,自然资源的价值和形式就会出乎意料的多型和多样。语言资源的这种性质不仅随着语言学和计算语言学的不断发展,会显示其超乎以往的丰富和便捷,而且对其他资源的类型、认识、开发和利用会具有隐喻和提示性的意义。语言资源有两种形态,自然形态和加工形态,而自然语言资源呈现的形态,是语言资源的第一形态——自然形态,该形态是人工语言资源的基础或源泉。
从用户角度看,截至目前为止的人工资源可分为3类: 人用资源、机用资源和人机共享资源。
就可机用的人工资源来看,我国计算语言学界比较熟悉且一般首推的是孙茂松等(2014)提到的WordNet、VerbNet、HowNet、MindNet,美国宾夕法尼亚大学开发的英语句法树库UPenn Treebank,北京大学开发的现代汉语语法信息词典和大规模词性标注语料库[1]。此外,网上其他可使用的单语资源、双语、多语平行语料、电子词典(如有道词典,特别是灵格斯词典)等,其学科价值,特别是社会价值和再生价值及共享前景十分值得关注。[8]这里特别要指出的是对于已有各类资源形成属性及再生价值的意识,是资源充分利用和快速产生的第一基础和原动力。甚至可以说,看不到或不重视这一点,就难有人工语言资源的自觉再生和快速再生,并且人工语言资源比自然语言资源具有更高的学术价值、经济价值和社会价值。
关注、发掘和使用语料的平行结构和平行特征,是现有自然语言资源和人工语言资源又好又快再生新资源的第二基础和方法论保证。
平行结构和平行特征方法论的基础,是语言和语言资源上的互蕴涵(逻辑永真式蕴涵)原理和实然性性质。发掘和使用平行结构和平行特征,是上述原理和性质的使用。具体讲,或者说在方法层面上,是AB互证和新旧互证。
要做到这一点,首先要善于发现和使用平行结构和平行特征,该研究关涉到两个方面: (1)语言学的理论和知识;(2)计算语言学技术及实现。从理论上讲,语言方面的平行性研究需超前和适度超前,以为技术的平行性实现、利用和开发提供基础。下面看一个语言另一方面的示例:
[13] a. 他打枪打得很准
b. 他的枪打得很不错
c. 他枪打得不怎么样
d. 枪他打得不错
首先,[13]a、b、c、d是平行句式结构,该句式是动宾拷贝结构的“得”字句,其代表式(或称标准式)可描述为: SVOV得L(且两V同形同义)。该结构有4个变体(含代表式): 1)SVOV得L;2)S的OV得L;3)SOV得L;4)OSV得L。[9]
第二,其4个变体均有后4成分和3成分相同的省略表达提取式(摘要式): “OV得L”和“(S)VO L”。
第三,“VOV”是“VOVO”的半拷贝式和异形平行式,VO和OV是同义异序式。
发掘和提取上述大小平行结构及特征,不仅是使该自然语言资源自动或半自动完成或实现人工资源转化的第一步,而且还可自动得到[13]a、b、c、d的言语摘要(或说这些句子的意思是): 打枪很准(对应a)、打(的效果)很不错(对应b/d)、打枪不怎么样(对应c)。
第四,其几个平行句中的主语位置上的“(他)打枪/的枪/枪”具有同“位”性,是同一词位不同句法分布的言语同义变体。*关于此类句式及其相关词语变体,进一步参考萧国政《“语法三个世界”研究及修辞关联》。
第五,可藉上述原始资源和再生资源,推知[14]。[14]的实现,也是上述工作和成品之资源性和资源价值的自检验。自检验是资源建设有效性的重要构成。
[14] 他的澡还没洗完
其意思是: 洗澡没完(/结束)
[13]是把相关结构的句子集中在一起而凸显其语言资源性的举例,就是半自然语言资源的一种呈现,在很多有关语言研究文章的集中举例,都属于这类性质的语言资源。而在原始自然语言资源中,相关结构句往往可能分布在更大的篇章中,它们常常被其他文字间隔开来。看一个网载的语言自然资源的例子:
[15] 中国筹建五家新的保险公司
新华社北京三月二十三日电(记者钞文)
经中国人民银行批准,泰康人寿保险股份有限公司等五家保险公司正在紧张筹建中。……中国现有保险公司二十六家,境外保险公司在中国设立办事机构的有一百多家。保险界人士表示,随着中国保险市场的逐步对外开放,迅速发展民族保险事业十分重要。这次批准建立的五家保险公司,可以说是由此推出的一大举措。
从现有资源和技术工具,很多研究机构或单位都可利用软件完成[15]下划线一类的工作,使其成为人工资源。然后从下划线标记的平行结构及特征,得到再生的新的人工资源。简言之,该资源的资源性,起码可给我们呈现以下两点:
1) “筹建”和“建立”属于同一词位“/建构/”的不同变体;
2) 三次复现的“建构”变体,其前面的紧邻词语“中国”“正在紧张”和“批准”均为篇章行进中依次强调的焦点信息。
进一步,如果将2)的具体词语删除和抽象化处理,就可得到一个新的工具性再生资源(框架性资源):
[16]多次复现的动词(含变体),其前面的紧邻词语可能均为篇章强调的焦点信息。
语言资源再生可行性的第三基础,是大数据意识。大数据意识不等于大数据。这里的所谓大数据意识,就是从大数据的背景或用大数据的思路和方法,观察、对待和处理语料、语料库和已有语言资源,从而建构更多再生资源。*关于“再生”,进一步看第5节。
上个世界70年代,一位国家重要报纸的资深职业记者,给业余记者讲记者从业目光和职业敏感时说: 一般人来到山上,看到满山是草,不以为然。但在一个道行高深的老中医眼里,却是满山遍野的宝(各类价值和功用不菲的中药)。并且中医的道行越深,其药的类型和功用越多,其价值越高,若用现在的观点来讲,就是其可产生的数据或其潜在的数据就越大。而这种视角和意识,从某个方面讲,就是我们的大数据意识。
我们认为,现有资源的大数据价值、前景以及研究、开发的深度,很重要的一个方面就在于我们的职业目光、语言学、计算语言学道行及努力。应该说,绝大多数所需资源,包括规律和联系,都反映在无限开放的语料及现有资源中。
尽管学科、市场和用户的问题和需求是无限的,但可供使用的语言材料和资源也是无限的。只要意识到位、平行支点选择得当、发掘研究对路、网络搜寻范围和语篇领域相对合适,乐观一些讲,我们几乎能得到任何新的满意或比较满意的所需资源。
本文反复强调的重点是多语、多型、平行资源及再生建构。
这里先说“再生”。“再生”一般来说被看作是新旧更替。再生不论是用在能源领域还是生命的表述,往往都是表达对立性发展或变化,即有A则无B,反之亦然。但语言资源的“再生”是包孕或包容型的。从上可以看到,我们的再生是AB同堂,有B不灭A,有C仍有AB。因而,语言资源的再生可以说是一种最大限度的资源丰富,是可呈几何级数的井喷式发展。
所谓“多语”,包括英语、汉语、俄语等多种语言,也包括共同语言及其方言。“多型”除了上述各个方面、各个层面和各类结构的已有资源和新资源外,还应包括像汉语这种语言的书面繁体字与简体字文本的平行性资源。例如,当我们输入“马铃薯”的时候,我们搜索引擎的界面可同时出现“番薯”“土豆”“地瓜”和potato,当我们输入“身体”的时候,简繁体的“身体”可同时出现。同样,当有“皇后”一词简体文本,转化成繁体字文本时,“后”不再变成 “先后”之“后”的繁体(即错成“皇後”)。*简体字系统里,先后的“后”和皇后的“后”,是一个字,即共用了繁体字系统中皇后的“后”。
总之,要使我们的资源及其技术实现,能让我们在多语和多型的搜索方面感受到信息处理和网络技术进入到智能的“语义”时代。当然,这绝不是说不可控,使搜索陷于多得不能再多的羡余信息之中,而是相反。因为检索前的可选界面,能简便地实现这种功能,就像很多的多语网页的语言选项所能做的那样。
限于时间和篇幅,多语平行资源的利用、再生,上面的举例只选了以英语为起点的英汉比较和对照,汉语和其他语言为起点的多语平行资源其原理与之类同。并且,我们认为,若做更多世界语言资源的平行对比研究,最好两两平行操作。例如,先对比研究AB再对比研究BC或AC等等,以便所涉语言及其平行性尽可能充分地体现或呈现。
[1] 孙茂松,刘挺,姬东鸿等.语言计算的重要国际前沿[J]. 中文信息学报,2014,28(1): 1-6.
[2] Pearsall J. The New Oxford Dictionary of English[M]. Shanghai: Shanghai Foreign Language Education Press, 2001: 1061, 1396, 1203, 1690.
[3] Whorf B L. Language, Thought and Reality: Selected Writings[M]. MIT, 1956: 160.
[4] 王宗炎.英汉应用语言学词典[M].长沙: 湖南教育出版社,1998: 214.
[5] 陶原珂.词位与释义[M].北京: 高等教育出版社,2004: 4.
[6] 萧国政,姬东鸿,肖珊. Ontology的类型及汉语词网的Ontology结构[J].长江学术,2011(2): 111-113.
[7] Hornby, A S著,李北达等译.牛津高阶英汉双解词典(第4版)[M]. 北京: 商务印书馆,1997: 1704.
[8] Crystal, D.编,沈家煊译.《现代语言学词典》[M]. 北京: 商务印书馆,2002: 202.
[9] 萧国政.“语法三个世界”研究及修辞关联[J].福建师范大学学报,2010(4): 61-65.