中英新闻可比语料库在线构建系统的设计

2019-08-21 00:33
安顺学院学报 2019年3期
关键词:语料语料库双语

(1、2、3.湖北文理学院计算机工程学院,湖北 襄阳441053)

双语语料库作为基础资源,在机器翻译、跨语言信息检索、词典编纂等领域起着重要作用[1,2]。双语语料库按照互译程度的差异可分为平行语料库和可比语料库。所谓可比语料就是主题相同或相关的语料,不要求互为翻译对。可比语料库根据对齐的程度分为语料库级别和篇章级别。一些新闻网站,例如新华社,同时用多种语言发布新闻,一段时间内这些网站发布的多语种新闻的集合可视为语料库级别可比语料库,这种语料库从整体上是可比的,但具体到单个篇章并未对齐。本文针对的是篇章对齐的语料库。可比语料相对平行语料具有来源广泛、领域覆盖全面、内容时效性强和易于获取的优势。因此,近年来关于可比语料库的研究日益增多。在语料库的构建方面,也从构建平行语料库逐步转向了可比语料库。在可比语料库构建方面,国内外的相关研究也不少,例如,文献[3]从瑞典新闻网站和美国新闻网站获取语料,首次利用跨语言信息检索方式构建可比语料库;文献[4]从新华网下载中英新闻语料,同样采用跨语言信息检索方式进行对齐;文献[5]利用维基百科构建可比语料库;文献[6]从社交网站推特(Twitter)挖掘可比语料。这些研究有一个共同的特点就是基本采用离线的、一次性的方式构建语料库,生成的语料库的规模有限。文章尝试在上述研究工作的基础上设计了一种可比语料库在线构建系统,持续稳定的生成可比语料,以构建更大规模的可比语料库。根据已有的研究,可比语料常见的来源有新闻、百科信息(如维基百科)以及社交网站(如推特)。语料库在线构建需要语料持续更新,易于获取,因此新闻是最适合的对象。利用新闻具有时效性强的特点,通过设置时间窗口,可以大大缩减潜在可比新闻对的搜索范围,使得语料下载和文本对齐可以并行处理,使得在线构建成为可能。基于此,本文设计了一个中英新闻可比语料库在线构建系统。该系统能够在少量人工干预的情况下在线运行,持续稳定的生成可比语料,可构建时间连续、大规模的新闻可比语料库。

1 系统的总体设计

中英新闻可比语料库在线构建过程如图1所示。系统主要由两大模块组成:语料获取模块和文本对齐模块。语料获取模块使用爬虫监测选定的中英文网站的新闻更新情况,并下载新闻网页,然后从网页中抽取新闻文本及相关元素,最后存入生语料库。文本对齐模块从生语料库中取出新闻,首先依据新闻的发布时间构造候选新闻文本对,然后对候选新闻文本对进行分词、去停用词、抽取内容词等常规文本处理,随后在在线词典的支持下计算候选新闻文本对的可比度,保留高可比度的候选新闻文本对,最后存入可比语料库。

两个功能模块基本是并行处理的,只是在系统启动的初始阶段,待语料获取模块收集到一定时间范围内(以天为单位)语料后,文本对齐模块才能文本对齐和可比语料生成工作,此后两个模块可以实现并行工作。

图1 中英新闻可比语料库在线构建过程示意图

系统最关键的步骤是计算可比度。可比度用于衡量双语文本对的可比性。鉴于语义的复杂性,可比度的计算没有标准。从计算复杂度和效果综合考虑,本系统选择文献[5]和[6]提出的基于词汇重合度的可比度计算方法。

2 系统的详细功能

2.1 语料获取

2.1.1 双语新闻网页下载

正确的选择新闻网站和新闻类型对于系统的设计具有重要影响。本系统选择从环球时报英文版网站(www.globaltimes.cn)的国际新闻板块获取英文新闻,从凤凰网的国际新闻板块获取中文新闻,主要原因这两个网站的列表页结构简单,直接采用静态分页而不是动态加载的方式(如图2所示),易于爬取;另外这些列表页也包含新闻的发布时间,易于爬虫监控新闻的更新情况。相比其他类型的新闻,国际新闻用不同语言发布的可能性更大。文章使用的爬虫为Webmagic (http://webmagic.io/)。

图2 凤凰网和环球时报英文版的列表页

2.1.2 新闻文本的抽取

通过Jsoup解析网页结构,然后抽取新闻的相关信息,包括新闻标题,发布时间,新闻来源,新闻正文,如图3、图4所示:

图3 中文新闻文本

图4 英文新闻文本

2.2 文本对齐

2.2.1 候选文本对生成

新闻具有即时性的特点,针对同一事件,不同语言的新闻发布时间应该相差不大,根据这一特点可以大大缩小候选文本对的规模,还能提高对齐的准确性。经过测试,设置时间窗口为1天,即给定一篇源语言新闻文本,将发布日期三天内的目标新闻文本作为候选集,即前一天,当天,后一天的目标新闻文本。将源语言新闻文本与目标语言新闻文本候选集的每一篇进行配对即得到候选文本对。

2.2.2 候选文本对可比度计算

(1)文本分词及去停用词:首先,对候选文本对中的中文新闻文本和英文新闻文本分别采用中科院分词软件NLPIR和斯坦福大学的自然语言处理工具包CoreNLP进行分词和词性标注,然后,根据停用词表,去掉停用词。

(2)内容词提取:为了进一步减少计算量,仿照文献[7],对于去停用词后的文本,只保留内容词,即名词、动词、形容词和副词。

(3)词汇翻译:通过调用网易有道词典API,将上一步得到的英文新闻文本词汇和中文新闻文本分别进行英译汉和汉译英。

(4)候选文本对可比度计算:基于词汇重合度的可比度计算公式如下:

comparability(den,dcn)=

其中,binDC(den,dcn)=

binDC(dcn,den)=

trans(w,d)当词语w在文档d中有对应的翻译等于1,否则等于0。

2.2.3 可比度阈值设定

通过设定可比度阈值过滤主题相似度不高的文本对。由于语义的复杂性,可比度阈值的设定没有理论计算方法,通常通过人工抽样判断,而且文本对的主题相似度与可比度的计算值也不是简单的线性关系。通过随机抽取200对文本对进行人工判断主题相似度,将可比度阈值设置为0.28,则得到的文本对中90%为主题相同或相关。

将所有可比度低于阈值0.28的文本对滤掉,剩下的文本对可以认为是主题相关的,即可比的,文本对齐过程结束。

2.2.4 可比语料库的存储

对齐后的文本对的集合即为可比语料库,为了便于使用,通常将可比语料库存储到文件或者数据库中。在存储可比语料库时,为了方便以后的应用,除了存储英汉新闻文本对本身外,还将存储新闻文本标题、发布时间以及基于词汇重合度的可比度计算值,示例如图5所示。

图5 可比新闻文本对示例

2.3 影响系统连续在线运行的因素

除了计算机故障、网络故障等不可控因素外,影响系统连续在线运行的因素主要是网站的改版,包括新闻目录页的改版和新闻内容页的改版,这将影响网页的下载和内容抽取。据观察,网站一般并不会频繁改版,即使改版,系统一般也只需要修改少量代码即可重新运行。

3 总结

可比语料是一种用途广泛的双语资源。可比语料库的构建是一个研究热点,但如何连续渐进构建大规模的可比语料库这方面的研究还不多见。文章在前人工作的基础上,通过选择合适的新闻网站,权衡各种可比度计算方法,设计了一个中英新闻可比语料库在线构建系统。系统的主体部分已经开发完成,测试结果表明,系统能够在线生成中英新闻可比语料。

猜你喜欢
语料语料库双语
基于归一化点向互信息的低资源平行语料过滤方法*
《语料库翻译文体学》评介
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
快乐双语
快乐双语
快乐双语
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入
Reliability assessment consideringdependent competing failure process and shifting-threshold