大规模双语句对自动获取技术

2012-04-29 00:44:03王澍郑德权赵铁军

智能计算机与应用 2012年3期

关键词：王澍铁军数据源

王澍郑德权赵铁军

摘要：从互联网上挖掘大量双语平行句对，可以快速有效地构建大规模双语资源，服务于统计机器翻译。从挖掘对象的不同，将网络数据源分成对照网页和平行网页两类，提出一种抽取双语句对的方法。首先，从上述两类网页中分别抽取平行文本段，对照网页文本段抽取的主要方法为页面过滤和模板匹配，而平行网页依赖于网页结构的相似，采用对应节点匹配方法；其次，采用Ｇａｌｅ－Ｃｈｕｒｃｈ算法进行句对齐，得到平行句对；最后统一进行后处理。实验结果表明，从对照网页获取平行句对的准确率达到９３．３％，平行网页为９３．５％。

猜你喜欢

王澍铁军数据源

新昌县征订《铁军》连续五年超千份

铁军(2022年12期)2022-12-07 11:51:46

王澍建筑作品中的传统水墨“画意”表达

国画家(2022年1期)2022-03-29 01:20:24

心声歌刊(2022年6期)2022-02-14 13:20:22

铸成消防铁军

中国石油石化(2021年8期)2021-07-20 07:36:26

狂妄与谦恭

作文与考试·初中版(2021年11期)2021-04-16 11:18:48

狂妄与谦恭

做人与处世(2020年23期)2020-12-28 11:47:04

Web 大数据系统数据源选择*

计算机与生活(2018年3期)2018-03-12 08:38:11

基于不同网络数据源的期刊评价研究

中国科技期刊研究(2017年2期)2017-05-14 06:16:26

读《铁军颂》

大江南北(2016年6期)2016-11-21 21:15:31

自由如莲徐徐开

求学·素材版(2015年5期)2015-06-12 03:43:46

智能计算机与应用2012年3期

智能计算机与应用的其它文章: 面向多论坛的自动群发技术研究; Java多线程同步机制的应用分析; 基于AT89S52数字血压计的设计与实现; 基于动态调整节点包发送速率的基站保护策略; 大气光估计对单幅图像去雾复原的影响; 基于结构光技术的动物内脏三维重建研究