可比语料库构建与可比度计算研究综述

2019-11-03 14:07原伟

电脑知识与技术 2019年23期

摘要：论文描述了可比语料库的基本构建方法，包括使用已有语料库、网络资源和复合方法的三种类型。随后对单语种可比语料和多语种可比语料的可比度计算问题进行了阐释和分析。结果认为，可比语料库的构建需要根据具体的应用场景和需求进行设计实施，根据不同应用场景可比语料的可比度需作具体描述和相应规定，并设定合理的度量指标。

关键词：可比语料库;可比度

中图分类号：G434 文献标识码：A

文章编号：1009-3044（2019）23-0224-04

开放科学（资源服务）标识码（OSID）：

1 引言

随着可比语料库研究和应用的不断深入，构建大规模可比语料库逐渐成为学科发展和语言信息处理的主要趋势和迫切需要，很多学者都尝试从不同的角度、采用不同的方法构建可比语料库。就当前的研究现状来看，构建可比较语料库的核心问题是如何获取可比语料，如何建立语料间的映射关系以及如何衡量语料间的可比度。下面根据当前可比语料库构建研究的相关成果，可比语料库的构建方法可以分为三类，即使用已有语料库、网络资源和混合数据的三种类型，下面依次就这些方法作研究讨论。

2 使用已有语料库的构建方法

现有语料库是可比语料的重要来源，基于现存语料库的构建方法主要是按照一定的比例、人工或手工抽取现存语料库中的数据后组合匹配，在这方面诸多学者都做了有益的尝试。Ismail等（2009）将欧洲平行语料库中的英文—西班牙文互译语料按时间划分成两部分，分别取不同时间段、非互译的西班牙文和英文文本搭建可比较语料库;Garera等（2009）也利用欧洲平行语料库构建英文—西班牙文可比语料库，包括西班牙语语料库部分包含10万条句子，共计213万词次，英语部分同样为10万条句子，207万词次;Haghighi等（2008）利用新华社新闻平行语料库构建可比语料库，具体来说选择该平行语料库中的前5万句英文和后5万句中文搭建可比语料库;Rapp（1999）利用法兰克福汇报中的德语新闻和卫报中的英语新闻构造德英可比较语料库，德语语料来源于1993年至1996年法兰克福汇报（Frankfurter Allgemeine Zeitung）的德语新闻语料库，共计1.35亿词次，英语语料来源于1993年至1996年英国卫报（the Guardian）的英语新闻语料库，共计1.63 亿词次;徐华（2012）把对外广播信息服务语料库中英文语料分别分成前后两部分，使用不同部分的中文语料和英文语料的构成可比语料库。

利用现存语料库构建可比语料库的方法特点是首先是语料来源统一，语料类型一致，语料可比的依据也相对明确;其次，语料来源一般选择现存的平行语料库，采用数据顺序的调整与调换手段，将语料的平行关系转换成可比关系。

3 基于网络的构建方法

基于网络自动采集构建可比语料库是当前领域发展的主要趋势，语料数据的一般来源于搜索引擎、维基百科、新闻网站、特定领域网站等。根据语料来源的不同，采集手段和方法都会不同。

3.1基于新闻网站的可比语料库构建

新闻文本作为可比语料具有天然的优势，主要原因是：首先，新闻报道以发布时间为准，方便以时间为依据收集语料;其次，同一事件在不同新闻媒体网站产出的报道不同，且数量可观;最后，同一事件虽然在不同媒体报道的方式不同，但内容具有相似性，十分契合可比语料的要求。Gigaword可比语料库（美国宾夕法尼亚大学语言数据联盟）包括中文、英文、阿拉伯文等语言，其数据来源主要是相关新闻媒体的报道。早期新闻可比语料库构建的主要思路是直接选取不同新闻组织发布的新闻报道作为候选语料，构建过程中可以限定新闻报道的数据特征（如时间）和描述内容（如标题），以保证在候选语料加工形成可比语料阶段语料噪音在可控范围，利用特征匹配和过滤技术生成对齐文档，构建可比语料库，Sheridan、Brasehler等（1996;1998）均采用了上述做法;Talvensaari等（2007）利用跨语言信息检索技术进行新闻可比语料构建，源语言文档和目标语言文档分别为瑞典新闻文档和洛杉矶时报新闻文档;Gupta（2008）使用互联网爬虫工具收集开放网络上的新闻报道，并以此为基础构建了可比语料库;Vu等（2009）提出了一种基于特征的新闻可比语料库构建方法，具体来说是将源语言与目标语言语料通过时间、标题—内容的两次筛选后候选文档对，提取文本标题-内容特征、语言无关特征和单语术语特征，融合计算文档相似度，从而基于相似度建立可比语料对关系;于海涛（2009）从新闻网站获取中英文语料，随后使用跨语言信息检索技术进行双语相似度计算并建立可比语料对齐;黄德根、李丽双等（Huang DG，2010）使用基于最大墒模型的多词短语抽取和基于多项特征过滤的技术进行汉英新闻可比语料构建;房璐（2011）将新华网、人民网等新闻网站作为种子地址，利用网络爬虫收集英汉文本，之后利用跨语言信息检索技术实现文本之间的对齐;原伟等（2019）以语料来源相同、发布时间相近、主题内容相似为依据自建小型俄汉新闻网络评论可比语料库用情感倾向性判定和表达手段对比。

3.2基于维基百科的可比语料库构建

维基百科是一个由志愿者编撰的免费网络百科全书，不仅包括传统百科条目，还包括地名、年鉴、时事等词条，并且以多语种的形式展现。维基百科作为可比语料来源具有诸多优势，比如语料主题性强、规模大、格式规范、扩充速度快、信息结构完整、定期备份、免费公开、下载便捷等等。尤其是维基百科提供的多语言链接，使得获取的多语言文本天然上就是对齐的，为抽取多语言可比语料提供了极大的便利。其相关研究有：Yu等（2009）采集了维基百科中相應语言的全部资源，通过多语种链接对齐后搭建可比语料库;Otero等人（2010）面向考古领域利用了维基百科中的类别信息，使用多语言链接建立了可比语料库;Ion等人（2010）利用WordNet中的命名实体下载相应的英文维基百科页面，在通过多语言链接获取德语、罗马尼亚文语料构建了可比语料库;刘飒（2012）利用维基百科网址列表下载网页并利用跨语言链接进行文档对齐，构建基于维基百科的领域可比语料库;胡弘思（2013）获取了维基百科的中文及英文的数据库备份，进行了处理后，建立了本地维基语料数据库，随后统计了词汇数据、构建了命名实体词典，通过维基百科本身的网页对应关系获得了中英可比语料文本。

从上面的研究可以看出，基于维基百科的可比语料库构建，现存两种挖掘可比语料的方法：第一种，首先构建对象领域的词表，随后依据词表维基百科中的单一语种页面，最后多语言链接采集其他语种的页面;第二种，首先从维基百科中下载不同语种的所有语料数据，再使用相似度计算等技术实现语言间的可比语料对齐。

3.3基于领域网站的专业可比语料库构建

对于专业领域的可比语料库构建，当前一般采取网络获取语料的方式，而高质量的领域词表是获取专业领域可比语料的关键，具体来说，构建过程主要分为两个阶段的任务。第一个阶段是单语语料采集，即使用领域关键词在专业网站或者搜索引擎中检索结果，搜索结果下载保存后获取单语言的文本集合。第二阶段，通过跨语言词表的对应关系，实现文档的映射对齐，通过相似度计算排序后生成可比语料。

Talvensaari等（2008）通过Google搜索引擎获取多个语言的领域词表，再使用网络爬虫技术采集可比语料建立语料库;Leturia等（2009）采用了两种关键词抽取和查询途径收集领域可比语料;Fiser等（2011）在研究医学领域可比语料库构建的过程中，采用了一种新的方法，即从医疗卫生杂志中采集英语和斯洛文尼亚语文本作为原始语料，随后利用网络爬虫采集大规模语料对原始语料动态扩充。为了保证从网络获取的语料与原始语料有较高契合度，通过计算初始文本与网络文本的相似度来设置阈值，将相似度高的语料作为初始语料，在保证语料质量的基础上实现了语料有效扩充。

4 复合式构建方法

除了基于已有语料库和互联网的构建方法之外，近年来出现融合式的可比语料构建方法。例如，Li等（2011）将语料库构建分解成了两个阶段——原始语料准备和语料扩展，主要原因是原始语料的规模和质量存在限制，可以使用外部语料数据补充原始语料，通过语料相似度计算对后加入，对质量能够有效控制。该方法的优势在于可以在扩展语料规模的同时确保可比语料的质量;不足是需要准备高质量的原始语料资源。刘飒（2012）分别基于搜索引擎、维基百科和领域数据库中的可比语料构建语料库，对三种方法进行比较分析，在语料可比度度量方面，以词为单元，通过基于统计序列相似度、基于词频序列相似度、基于术语序列相似度三种方法在平行语料、可比语料、非可比语料等进行实验。

基于假设“可比文本中对应的互译词语的出现频度是相关的”，Tao等（2005）设计了一种不依靠任何语言资源（如双语词典、句对等）来获取双语可比语料的方法。具体来说，计算文本中每个词的词频分布情况，如果源语言词与目标语言词的频度分布越相似，两篇语料描述同一内容的概率越大。这种方法适用于多语种可比语料库的构建，原因是该方法是与具体语言无关，可避免语言数据不同引起的局限，如双语句对、词典质量及覆盖率等。弱点在于构建过程中计算量巨大，对大规模语料库的构建效率较低，而且由于完全依赖词频统计，难以确保语料的可比对齐质量。

Oard等（1998）基于跨语言检索的方法处理可比语料，核心思想是使用跨语言信息检索技术检索与某种语言文档内容相似的另一种语言文档，双语文档的匹配方法为：非翻译同源匹配（依据不同语言词语书写形式或语音相似性来判断语料匹配）、提问式翻译（依据源语言提出的问题自动翻译成目标语言查询词进行单语检索）、文献翻译（用目标语言描述的文献全部自动翻译成用源语言描述后进行检索）和中间语言翻译四种方式（把源语言与目标语言都自动翻译成中间语言进行匹配）。赵莲（2010）对上述方法进行了改进，在具体操作中先抽取源语言文档中的关键词并成目标语言，利用翻译后的查询语句在目标语言文档集合中进行查找，形成源语言一目标语言文档对，经过滤后添加到可比较语料库中。

5 语料的可比度及其计算

虽然当前学界对可比语料的可比度没有明确统一的定义，但是不可否认的是可比度是可比语料质量和应用场景评估的重要指标，通常语料可比度同相似度是息息相关的。如果一定要给一个界定，我们认为语料的可比度可以理解成为对应语料之间在文档类型、形态特征、主题内容等方面的相似程度。从这个角度来说，在多数情况下，语料的“可比”程度就是它们的“相似”程度（原伟易绵竹，2017）。

5.1单语种语料的可比度计算

早期的单语种语料相似度研究多从语料统计指标入手，其核心是计算文本相似度，方法不尽相同。例如，Kilgarriff等（1998）选取能够代表语料特点的词语作为特征词，基于特征词频率分布、特征词语料之间的排序分布等对语料进行相似度计算; Saralegi等（2008）采用领域特征、报道类型、文档主题、发表日期等多维特征，估计新闻语料的总体可比度;Leturia 等（2009）统计分析领域语料中关键词来评价语料的可比度;Li 等（2010）基于语料中词汇翻译的期望值来计算可比度，并通过实验证实了有效性。TTC项目研究从两个维度衡量可比语料可比度，首先是高质量互译文本对特征词的频率分布相似度，其次衡量不同语种文本集中锚点相似或相异程度。

5.2 多语种语料的可比度计算

针对双语或多语种的可比语料，可比度计算问题就直接涉及了跨语言文本的相似度计算问题。当前，该领域研究是学科研究的热点方向。Potthast等（2011）在研究中将跨语言相似度计算的方法分为四类：基于N元语法的方法、基于词典的方法、基于可比语料的方法和基于平行语料的方法。基于N元语法的方法首先对多语言文档进行预处理，提取其特征，使用N元语法作为特征词对文档进行标引，随后N元语法特征进行翻译（机器翻译或同源匹配技术、平行语料或双语词典等），借此将多语言文档映射到某一语言空间，以便使得多語言文档使用一种语言的向量空间体现，这样跨语言的文档相似度计算即转化为一种语言向量空间中不同向量夹角的计算;基于词典的方法借助双语词典源语言文本逐次翻译转化为目标语言文本或反方向进行，从而将多语言文本在同一种语言的向量空间中进行表示并进行向量夹角计算，得出跨语言文本相似度;基于可比语料的方法利用语义分析标引多语言文档，并利用可比语料中文档之间的相似或对齐关系向统一语义空间的映射转换，借此跨语言文档相似度计算;基于平行语料的方法利用平行语料中句子或短语对齐关系，通过潜在语义分析、比较分析、典型相关分析等技术构建多语言语义空间，使得跨语言文档相似度计算在同一个语义空间中实现。

[12] Li B.， Gaussier E.， Aizawa A. Clustering Comparable Extraction [A].In Proceedings of the Computational Linguistics[C]. Portland： 49th Annual Corpora for Bilingual Lexicon Meeting of the Association for Oregon. 2011.

[13] Oard D.W.， Diekema A.R. Cross-Language Information Retrieval[J]. Annual Review of Information Science and Technology， 1998（33）.

[14] Otero P.G.， L‘opez I.G.. Wikipedia as Multilingual Source of Comparable Corpora[A]. In Proceedings of the 3rd Workshop on Building and Using Comparable Corpora， LREC2010[C]. Malta， 2010.

[15] Potthast M， Barrón-Cede？o A， Stein B， et al. Cross-language plagiarism detection[J]. Language Resources and Evaluation， 2011， 45（1）： 45-62.

[16] Rapp R. Automatic identification of word translations from unrelated English and German corpora [A]. In Proceedings of ACL 1999[C]， 1999.

[17] Saralegi X， San Vicente I， Gurrutxaga A. Automatic extraction of bilingual terms from comparable corpora in a popular science domain[C]//Proceedings of Building and using Comparable Corpora workshop. 2008： 27-32.

[18] Sheridan P.， Ballerini JP. Experiments in multilingual information retrieval using the SPIDER system[A]. In： Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval[C]. Zurich， Switzerland. 1996：58-65.

[19] Talvensaari T.， Pirkola A.， Jarvelin K.， et al. Focused web crawling in the acquisition comparable corpora[J]. Information Retrieval. 2008 （5）.

[20] Tao T.， Zhai C.X. Mining Comparable Bilingual Text Corpora for Cross一Language Information Integration[A]. In Proeeedings of the 11th ACM SIGKDD international conference on Knowledge diseovery in data mining[C]. Chieago， USA， 2005.

[21] Vu V.， Aw A.A.， Zhang M.. Feature—based Method for Document Aligment in Comparable News Corpora [A]. Proeeedings of the 12th Conference of the European Chapter of the ACL[C]. Athens， Greece， 2009.

[22] Yu K.， Tsujii J. Bilingual dictionary extraction from Wikipedia [A].In： Proceeding of MT Summit XII[C]. Ottawa， Canada， 2009.

[23] 房璐，葛運东，洪宇，等. 可比较语料库构建及在跨语言信息检索中的应用[J]. 广西师范大学学报（自然科学版），2010（3）.

[24] 胡弘思. 基于维基百科的双语可比语料的句子对齐[D]. 上海交通大学，2013.

[25] 刘飒. 专业领域可比语料的构建与评价研究[D]. 南京理工大学，2012.

[26] 徐华. 基于可比较语料库的中英文词表构建研究[D]. 苏州大学，2012.

[27] 于海涛. 可比较语料库的研究与构建[D]. 大连理工大学，2009.

[28] 原伟，易绵竹.基于维基百科的俄汉可比语料库构建及可比度计算[J].山东大学学报（理学版），2017，52（09）：1-6.

[29] 原伟，代勋勋，徐琳宏.基于俄汉新闻网评可比语料库的情感分析研究[J].解放军外国语学院学报，2019，42（02）：99-106+160.

[30] 赵莲. 大规模中英可比较语料库构建[D]. 大连理工大学，2010.

【通联编辑：王力】