基于英汉平行语料库的术语组块自动抽取

2018-05-23 11:50杨福义
中国科技术语 2018年2期
关键词:组块语料库

杨福义

摘 要:双语平行语料库的数据资源建设是语言工程的前端。其中包含大量的术语及语言翻译知识。深入研究和开发双语语料库,对术语翻译具有重要意义。文章论述了平行语料库的深加工流程和中文语料标注的自动化加工。使用“语法符号语言”建立文本的语法映像,生成短语组块库。按短语结构规则采用人工智能方法自动抽取术语翻译组块,自动生成术语组块词典与词表,列出部分术语组块查询应用的实例和逆向追踪双语例句的实例。

关键词:计算术语学,语料库,知识抽取,术语部件,组块

中图分类号:H059;H083;H087文献标识码:ADOI:10.3969/j.issn.1673-8578.2018.02.002

Abstract: The construction of data resources of bilingual parallel corpora is the front end of language engineering, and contains a large number of terms and language translation knowledge. Full use of bilingual corpora for further research and development is of great significance to terminology translation. This article discusses the deep processing flow of parallel corpora and automatic processing of Chinese corpus annotation. Using the grammar symbol language, the grammar image of the text is set up, and the phrase chunk library is generated. According to the rules of phrase structure, the term translation chunk is automatically extracted by the method of artificial intelligence, and the lexicon and thesaurus of term chunks are automatically generated. Moreover, some examples of the application of terminology block query and examples of reverse tracing bilingual examples are listed.

Keywords: computational terminology, corpus, knowledge extraction, component, term block

引 言

雙语语料库,能为英汉翻译提供海量真实的参考译文实例,从而帮助译者改进译文质量。同时,双语语料库中的大量对应文本还有助于进一步认识和研究翻译过程。对于翻译实践来说,双语语料库还可以作为翻译人员的参考工具,帮助提高翻译质量和效率,在双语词典编纂、翻译教学、翻译研究及机器翻译中获得广泛的应用。

本文重点介绍大型双语平行语料库采用的语言工程中自动化深加工后的语言处理技术,以及采用人工智能方式抽取深加工后的知识、生产大批量语块库并产生专用术语词表的过程。批量中文术语新词的自动发现,对术语审定和翻译工作都有参考价值。

一 语料库加工和术语专用词表的自动生成

(一)语块抽取的指导思想

天下万物,语言学的表示,就是名词。天下万事,都是反映万物在时间和空间的运动状态,语言学的表示,就是动词。

名词和动词是描述万物万事的基础,而形容词和副词分别修饰名词和动词,反映程度、属性。从概念本体的角度分析,这四个词类是一切文本的核心,是反映万事万物的基本符号,也是分析术语构成的主要模式。

从哲学的角度分析,一个客观事物,可用不同的语言来描述,但反映的都是一个事实。从符号学的角度分析,是用不同的符号体系来表示同一事物,这些体系相互构成映像关系。

数理语言学将语言现象分析解读为自然界所具有的规律,从而使人们认清语言的本质。符号学把人类对客观事物的描述,转换成以符号表示的信息世界。所有这些,对自然语言处理有着重要的启示:语言中词汇的虚和实,是值得研究的一个重要方面。从符号学和信息论角度分析英汉平行语料库,对表意文字和拼音文字两种不同的语言系统进行对比研究,具有深远的意义。

从虚实的角度对中英文平行语料库进行自然语言处理,对句子进行分析,将为机器自动翻译提供最有价值的数据资源。在云技术蓬勃发展的现在,是一个具有探索性的试验。

自然语言处理需要正确理解词义。词有虚实,句有主次。杨树达在《词诠》序例中指出:“凡读书有二事焉:一曰明训诂,二曰通文法。训诂治其实,文法求其虚。辨别实词的意义,前人叫做‘明训诂;了解虚词的作用,前人叫做‘审辞气。”[1]

笔者根据这些理论,对双语平行语料库中的汉语句子进行句型模式的分析描述,提出了一种语法描述语言,建立了语法描述语言和中文词汇的平行对应,从而为句子分析做出了一个新的探索。使用与国家标准可以相互对应转换的符号体系,进行中文词性标注,从而实现了实词语块的自动切分,解决了语块边界的辨识问题。使用规则库分析语块,自动化生成术语翻译用的短语词表。

(二)语块抽取的重要意义

在建立大型双语平行语料库的基础上,笔者通过大数据处理的关键技术,基于人工智能的方法和思路,结合批量术语生成与发现的需要,构建了超过百万条目的短语库,并且研制了复合术语的自动抽取与发现应用程序。

冯志伟在《现代术语学引论》中指出:“术语的自动处理与机器翻译系统的译文质量有密切的关系,此外,信息检索、信息抽取、文本分类的运算的基本单位都是单词型术语或词组型术语,也离不开术语的自动处理。”[2]

宗成庆在《统计自然语言处理》中指出:“语块识别问题是自然语言处理领域研究的一个基础性问题,关于汉语语块的定义,至今没有一个公认的权威解释,很多专家都给出了自己的诠释和划分标准。” [3]

郑家恒指出:“句法分析分为两个过程。一是组块的识别,即从句子中识别出组块。二是组块之间关系的判断,即将组块结合句子。语块实际上就是一种短语。” [4]

冯敏萱指出:“短语库是一个丰富的语言资源,可以进行短语分类研究、短语和中心词的研究、汉语短语与英文短语的对比研究。短语库是综合型语言知识库的有机组成部分,它的建设将为短语结构研究、句法分析和机器翻译提供强大的语言知识支撑。”[5]

笔者参考以上专家研究成果,实现了对语料库的深加工,构建了反映语法模式的符号语言。用语法符号语言建立双语语料库的中英文平行语料的语法映像,在此基础上抽取、建立含有词性标注的大型短语语块库。使用短语语块库进行智能化的信息抽取,用于基于语料库的术语翻译应用研究和特定句法分析对比研究,从而实现了涉及句法、语法、语义、语块研究的信息抽取。

(三)语块及其相关术语的定义与语法描述语言

对于短语,各专家提出不同的分类标准。例如,山西大学将短语分为10种:名词短语、动词短语、形容词短语、副词短语、时间短语、处所短语、区别词短语、介词短语、数词短语、数量词短语。

对于语块,武汉大学则分为:名词块、动词块、形容词块、副词块、时间词块、处所词块、数量词块、“的”字块、“地”字块和“得”字块。

参考相关资料,本研究使用的术语定义如下(除标明引用资料的术语定义外,均为笔者自定义术语):

语块:小于句子,大于词的语法功能单位。其中部分语块又称为“短语”。

自然语块:语言文本中以标点符号为间隔划分的字词符号的有序集合。

实词语块:不含有虚词(介词、助词、连词)的文本中的字词顺序集合。组成语块词的个数称为语块粒度。

术语组块:含有专业术语的实词语块。

句子结构模式:把汉语句子看作由实词语块、虚词和标点符号组成的语法符号的有序集合。

语法符号:汉语语法词类标记符号。

语法描述语言:以有限的语法描述符表述的语法关系的符号序列,构成与语言字符串平行对应的词性标记串,构成语法符号世界,从而可以分析句子模式的语法构成。

以下定义引自《术语学、知识论和知识技术》[6]:

符号句子:符号复合体,它对应于一个逻辑句子。

符号句子链:符号句子复合体,这些符号句子对应于一个由逻辑句子形成的链条。

符号句子系统:符号句子复合体,这些符号句子对应于一个由逻辑句子组成的系统 。

以下定义引自国家标准《信息与文献 术语》[7] :

术语短语(terminological phrase):至少包含一个术语和一系列其他词汇的词的组合,其选择受到所涉及的术语的限制。

笔者基于以上定义来说明大型语料库的组块库的自动生成。从组块库抽取生成以术语部件为核心词的候选术语词表。生成核心专用词词表后,把词表与已审定公布的术语比较可以批量生成词组型术语新词,从而自动发现大批量术语短语。

语法符号语言采用单个字符定义,对应语块中的一个粒度(即一个词),使得任何句子(包括复句)都可以采用语法描述语言进行分析,从而研究句子构成模式。

语法符号集的确定参考国家标准《GB/T 20532—2006 信息处理用现代汉语词类标记规范》[8],该标准划分为13个词类和7个切分单位。为保证词性标注为等长度编码,利于计算机计算处理,调整修改如表1。

此表中一个编码代表一种语法成分。在短语词典标注时,字母一律大写,从而便于使用二分图模型进行词语句和语法句的平行对应分析处理,便于中英文词组、短语和语块的比较与计算。这样语块结构不仅可以有词类构成分析,而且有句法功能分析和语块类型统计分析。

(四)实词语块库自动生成的过程

实词语块库通过计算机程序依据双语语料库自动生成。在生成过程中使用了语法符号语言并建立了文本内容与语法符号语言的平行对应。

1.实词语块语法符號描述语言实例

实词语块语法符号描述语言实例如下(方括号内是语法语言描述的块结构,由语块词性标注编码构成):

2.语块库自动化生成过程

以下介绍生成过程。首先对中英文平行语料进行语法标注,然后:

a.对标注后的语料,进行语法模式的抽取,构建与句子原型对应的语法描述句库。

b.按实词语块的定义,使用语法符号语言进行语块抽取,从自然语块中自动抽取实词语块,生成语块库。

c.对语块库进行统计抽取,生成短语词典。

d.对短语词典进行查询检索,生成大批量的复合术语词表。

(五) 双语平行语料库加工后的成品库

对大型语料库的加工,会生成有重要意义的各类信息的数据库。这些库是资源库的函数。

语料库的批量加工所生成的数据库有三类:

1.语法符号句子链式库

语法符号句子链式库简称“符号句子库”。符号句子库是用语法符号表示每一个句子结构的数据集合,用于研究句子结构模型。

在符号句子库中,可以看到实词语块和虚词及标点符号之间的关系,从而进一步分析实词语块组成结构和汉语句子(包括子句)的句子模式。

符号句子库使用三类标识,实词语块标识(用“·”表示)、虚词类别标识(介词P,连词C,助词U)和标点符号标识。

符号句子库举例:语法描述句是“·(·)U·[1005614-7]”。表示其句子语法结构是:实词语块+开括弧+实词语块+闭括弧+助词+实词语块。

对句子结构模式规律进行统计分析可以分析各种语块构成模式的统计规律。对符号句子库加工生成实词结构模式做频次统计。

2. 语块模式库

语块模式库是语料库加工生成的,用于分析自然语块结构和统计概率。

自然语块构成模式举例:

·C·[1915]9实词语块+连词+实词语块

C·U·[1724]10 连词+实词语块+助词+实词语块

上述实例的方括号内是语块模式的频数,最后是序号。

3.实词语块库

实词语块库是对语块按词分段与语法词词性对应的描述,用于实词语块结构分析和短语词典的生成。

例如:“新兴市场”语块由形容词“新兴”加名词“市场”组成,组块粒度是2。

实词语块库内容举例:

新兴 市场 [AN]

美国 恢复 活力 [SVN]

美国 私人 股本 公司 [SNNN]

超过 原先 预期 筹资 金额 [VDVVN]

(六)短语词表

术语自动抽取工程最终产品是由术语核心词构成的短语词表。短语词表是语料库深加工应用的最终产品之一。

查询显示特定术语部件的同时,可生成以术语部件为核心的术语词表。

复合术语的术语词表,以核心术语加前缀构成向心术语,表示类别聚合;以核心术语加后缀构成离心术语,主要表示术语的属性展开。

短语词表的数据表示分为三项:分词后的词组型术语、第一个方括号内的词性标注和第二个方括号内的出现频次。

以上介绍了术语语块生成的理论、技术方法与工具。大型平行语料库和资源池的数据库群共同构成了满足用户基本需要的术语自动发现与生成系统。将新术语自动抽取工作纳入依靠大数据和云技术的生产方式,进行术语的发现、抽取和定义工程化、自动化,使词典编辑实现基于语料库资源的自动化生产。

二 术语语块的查询与应用

(一)建立以云技术为指导的数据库群检索体系

单一的数据库已经无法满足术语工作的需要。当前,迫切需要建立以云资源为基础的数据库云资源检索。

云资源检索是为满足用户需要而在统一格式的系统下利用庞大的网络数据库群的服务检索。

目前,最大的问题是语料库只提供单一的查询检索,无法满足用户的需要。面对复杂的检索表达式和庞大的反馈输出,没有哪个用户会把几千几万页资料一一浏览,再屏幕拷贝、统计。用户无法获取相应研究课题检索与统计分析一体化的报告文本,限制了语料库资源的深层次应用。

应用大数据和云计算技术,目前使这种需求成为可能。

在笔者应用的检索试验中,将几个大规模的数据库检索相关联使用,方便了对语言学与术语的深入研究。

这里,仅对涉及术语及术语翻译方面的应用进行介绍,重点介绍语块查询与输出程序。

在检索界面输入以术语部件为核心的术语,则系统检索、输出含有该术语的全部短语,并且输出以术语部件为核心的Ngram词表。十万条术语部件,可以批量生成各个部件的词表和相关的实证例句。

这些,将为术语翻译资源的建设提供坚实的基础。

(二)术语短语生成实例

以下介绍以部件词检索自动生成该部件相关词表的实例,见表2、表3。

在频数大于等于2的“头寸”词表中,发现新术语有13个,已经审定收录的术语有2个。所发现的新术语可在中英文双语语料库的原文对照实例中查询。

(三)应用新术语查询实例

1双语对照查询实例

以“空头头寸”术语为例,百度百科的词条如下:

空头头寸(bear covering/Short Position)

空头头寸 :由卖出空头而产生的投资头寸。由于此头寸尚未被冲销,因此可从市场价格下跌中获利。即投资者因预料价格会下跌提前提出卖出价格大笔卖出或者使卖出大于买入的行为。

而在应用实例中(见表4),报刊应用的是“空头头寸”(short positions),这可作为术语审定与术语翻译的参考,为术语部件译为单数还是复数提供实证,从而确定以术语部件“头寸”为中心的一系列术语的翻译原则。

2. 从专用词汇术语词表中发现新术语及翻译实例

例如,新术语“信用光谱”的发现及查询过程:

a.查询“信用”,从128万短语词典中抽取了“信用”词表;

b.查看“信用”词表,发现“信用光谱”新术语;

c.查询“信用光谱”获得信用光谱中英文术语翻译和语用实例(见表5)。

三 结 语

双语平行语料库的大量资源可以用于多种语言课题的研究,是宝贵的资源。目前,已经实现了跨语言领域的双语平行资料检索和语块生成的自动化。

下一步工作是对中英文句子做多叉多標记短语块的进一步比较分析,为自动生成英汉对译语块库做语言工程实践的探索,以期采用人工智能方式自动生成英汉语块翻译词典,对英语语料库语块进行加工并对平行词汇级别的双语做对齐分析,从而为计算机辅助机器翻译提供参考。

参考文献

[1] 杨树达.词诠[M].北京:中华书局,1954:五.

[2] 冯志伟.现代术语学引论[M].增订本.北京:商务印书馆,2011:569.

[3] 宗成庆.统计自然语言处理[M] 北京:清华大学出版社,2013:215.

[4] 郑家恒.智能信息处理——汉语语料库加工技术及应用[M].北京:科学出版社,2010:180.

[5] 冯敏萱.汉英平行语料库的平行处理[M].北京:世界图书出版公司北京分公司,2011:138.

[6] [奥地利]费尔伯.术语学、知识论和知识技术[M].邱碧华,译;冯志伟,审校.北京:商务印书馆,2011:296-321.

[7] 中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.GB/T 4894—2009.信息与文献 术语[S].北京:中国标准出版社,2009.

[8] 中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.GB/T 20532—2006.信息处理用现代汉语词类标记规范[S].北京:中国标准出版社,2006.

猜你喜欢
组块语料库
横浪作用下大型上部组块双船浮托安装动力响应特性试验研究
《语料库翻译文体学》评介
组块理论的解读及启示
融入注意力机制的越南语组块识别方法
基于语料库“隐秘”的词类标注初步探究
陆丰7-2油田导管架平台上部组块低位浮托安装关键技术
基于JAVAEE的维吾尔中介语语料库开发与实现
英语词汇组块学习路径研究——组块法
词汇组块层次网络
基于网络语料库的“给力”研究