大规模双语句对自动获取技术

2012-04-29 00:44王澍郑德权赵铁军
智能计算机与应用 2012年3期
关键词:王澍铁军数据源

王澍 郑德权 赵铁军

摘要: 从互联网上挖掘大量双语平行句对,可以快速有效地构建大规模双语资源,服务于统计机器翻译。从挖掘对象的不同,将网络数据源分成对照网页和平行网页两类,提出一种抽取双语句对的方法。首先,从上述两类网页中分别抽取平行文本段,对照网页文本段抽取的主要方法为页面过滤和模板匹配,而平行网页依赖于网页结构的相似,采用对应节点匹配方法;其次,采用Gale-Church算法进行句对齐,得到平行句对;最后统一进行后处理。实验结果表明,从对照网页获取平行句对的准确率达到93.3%,平行网页为93.5%。

猜你喜欢
王澍铁军数据源
新昌县征订《铁军》连续五年超千份
王澍建筑作品中的传统水墨“画意”表达
铁军颂
铸成消防铁军
狂妄与谦恭
狂妄与谦恭
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
读《铁军颂》
自由如莲徐徐开