罗 阳,季 铎,张桂平,王莹莹
(沈阳航空航天大学 知识工程中心,辽宁 沈阳 110136)
双语平行语料库是由原文文本及其平行对应的译文文本构成的语料库,在翻译知识的获取、双语词典的建立、机器翻译和跨语言信息检索等自然语言处理领域有重要的应用价值。随着互联网的普及和国际化的需要,越来越多的信息以多种语言的形式在网络上发布,使互联网成为一个取之不尽,日益增长的信息资源库,其中包含大量的双语甚至多语语料资源。本文所要介绍的是一种如何从浩如烟海的、复杂的网络数据中挖掘双语资源的方法。根据双语资源的存在形式可将Web资源分为两大类[1],即双语平行网页和单一双语网页(下文称双语网页): 前者是两个单语的平行网页,两种语言的平行文本分别存在于这两个单语的平行网页中;后者是一个双语网页,平行文本存在于这个网页内。具体来说,双语平行页面中对应位置的内容可以作为双语平行句对。以往的系统都主要集中于对这类页面的研究。并主要通过平行页面的URL进行关联的分析和挖掘,在具体应用中都获得了较好的效果[2-4]。
双语网页可能是对商品的介绍、对专业术语的解释或外语学习网站。双语页面中包含大量双语资源,并且这些双语资源大部分遵循一定的规则和模式。一个日汉双语页面中包含格式一致的双语信息(日汉翻译对),如“3 ベリファイ 检验,证实,核实 verify”等,且都遵循相同的格式规则,如图1所示。据估算[1],在中文网站中至少有数以千万计的双语页面,每个页面中都包含有大量的双语资源,如果能通过人工整理将此类有章可循的双语网页从互联网众多的页面中筛选出来,然后按照既有的模式对其内部双语翻译对进行挖掘,即可得到对齐的双语资源。这种方案在双语对齐分析后期语料细加工上具有优势;另外双语网页往往具有领域性知识,可以进行不同领域的双语资源挖掘。因此本文主要研究此类网页的双语资源挖掘。
图2 方法框架
本文深入研究中日双语网页的结构特点,在进行网页筛选时不采用传统的词作为特征,而是利用网页中频繁出现的包含双语信息的模式判别双语网页。本文提出了一种基于频繁序列模式(Frequent Sequence Pattern, FSP)的网页分类算法来对互联网中的页面进行分类,筛选出符合要求的中日双语页面,从中抽取双语资源。实验结果表明,本方法能够有效地进行网页分类,筛选出的网页具有90%以上的正确率。在此基础之上,使用FSP对双语页面中的资源进行挖掘可得到92.5%的正确率。本文以日汉两种语言为例,讨论了日汉双语网页分类方法,该方法同样适用于英汉、英日等编码区分度大,和日韩、中韩等较难区分编码的双语网页分类。方法框架如图2所示。
在从单一双语网页中挖掘双语资源方面,2007年Cao[5]、2008年Lin[6]提出两种不同的方法,都是基于括号的模式,如“北京大学 (パキンだいがく)”,括号中的日语为括号前汉语的翻译。该方法适用于网站页面中出现诸如人名、地名、书籍名及动植物名等专有名词,和专业领域里的专业术语,作者为了方便读者以及提高页面的可阅读性,在其母语后用括号将其外语翻译标注出来的页面,这样的页面有很多潜在的双语翻译对。2008年郭稷[7]等还就这种形式中,母语术语边界划分问题进行分析,例如“足球教练佐夫(Zolf)”中Zolf对应翻译的确定,提出使用多特征判别模型进行边界划分。这种通过括号来提取术语翻译的思想在大量页面中做过测试,并且取得了预期的结果,然而,并不是所有的双语页面都遵循括号模式,所以这类思想可能会错失Web上的很多翻译资源。2007年Cao[8]训练了一个音译对齐判别模型用于音译对的抽取,然后训练一个翻译判别模型,利用此模型进行翻译对的抽取。不过利用音译抽取具有一定的局限性,因为很多双语翻译对的读音并不相同,对于汉—日翻译对来说,出现读音类似的翻译对的几率非常低。2009年Jiang[1]同样将双语页面建立成DOM树,使用音译模型发掘种子,然后用模式匹配的方法在每一个节点的内部文本中挖掘潜在的英汉双语翻译对,并采用了分类器给候选模式打分。
网页分类技术借鉴了文本分类中的一些方法,但是Web页面资源与普通文本资源相比又有以下特点: (1)Web页面为半结构化资源,除了页面内容外还有许多其他信息,如HTML标签、JavaScript等脚本语言内容等;(2)格式非常灵活,一个页面可能包含不同的格式并且每个格式有不同的标准;(3)不同Web页面的风格与内容有很大差异。除了Web页面自身的特点外,作为中日双语页面中的一种语言,日文的结构具有很大复杂性,导致对日文的判定有一定难度。这些特点决定网页分类算法分成三类,基于内容的分类方法,基于链接的分类方法和组合分类的方法。
基于内容的网页方法即将Web页面用纯文本的形式表示出来,然后使用文本分类技术,例如K-NN算法和基于SVM的方法从训练集中筛选特征词,然后计算训练集和测试集的相似度进行分类。Sung[9]提出了一种基于标签区域的逐步分析算法(TAgger-Reigon Progressive Analysis, TARPA),Haruechaiyasak[10]提出一种基于特征词模糊联系(Fuzzy Association)的网页分类方法。基于链接的分类方法即如果页面A中有一个超链接至页面B,那么就认为页面A和页面B是相关的,可以利用分类方法对相关的页面进行分类。这种网页分类方法的弊端是这种页面链接关系往往不能正确反映页面的语义联系,即拥有链接关系的两个页面可能在内容方面没有任何联系;而没有链接关系的页面之间可能联系紧密,这两种情况都会影响到分类的效果。Tai[11]提出的基于链接页面的PageRank值的方法提出一种邻居页面的过滤方法(Neighbor Text Percolation),通过计算链接页面的PageRank值来筛选出符合要求的邻居页面,然后将这些邻居页面和原页面一起进行分类,能够有效改善上述弊端。使用组合分类的方法进行网页分类即使用两种分类器,一种是借助于链接分类的结果来进行内容分类,另一种是利用内容分类的结果来进行链接分类。范炎[12]提出使用朴素贝叶斯协调分类器的方法进行组合分类器网页分类。使用组合分类的方法可以综合前两种方法的优势,也能充分利用网页的特征,但是不同的分类器性能不同,采用哪种分类器组合策略可以达到较好的效果很难确定。
可能包含双语资源的网页有多种获取方法: 可以通过在搜索引擎上进行启发式搜索(如输入启发条件“日语专业词汇”);可以收集相关主题网站,根据链接递归下载[13];也可以利用种子翻译对来搜索相关网页。在得到候选双语网页后,我们使用支持向量机来判别双语网页。
支持向量机(SVM)由Vapnik[14]在结构风险最小化与VC维理论的理论基础上提出,根据有限样本信息,综合考虑机器学习的能力与问题模型的复杂程度,平衡二者的优劣利弊以获得预期效果,能够有效解决有限样本集的机器学习问题。设样本(x1,y1),…,(xi,yi),…,(xn,yn),xi∈Rn,xi和yi均为样本中的向量,其中yi可能是样本集中经过特征提取后的特征构成的向量,也可能是经由核函数将特征向量映射至高维空间后的映射向量。若yi的取值为+1和-1,则SVM模型称之为二分类SVM。
若样本集是线性可分的,在d维特征空间中判别函数的一般形式为
f(x)=w·x+b
(1)
特征空间的分类平面方程为
w·x+b=0
(2)
若有存在权重向量w*,使得‖w*‖最小,并且满足
(3)
即
yi(w*·xi+b)≥1
(4)
则w*称为支持向量,分类平面w*·xi+b=0为最优分类平面,并且对所有样本正确分类。此问题可以利用Lagrange方法转化为其对偶模型,即找出函数
(5)
约束条件为
(6)
这是一个二次函数寻求最优解的问题,存在唯一解。最优解中不为零的αi即为支持向量。解此问题得到的最优分类函数为
(7)
本文使用数据挖掘中“频繁序列模式”[15]的概念,即: 令I={i1,i2,…,im}是一个项集,是项目的非空集合,其中ij是项目。一个序列(Sequence)s=
定义1频繁序列模式(Frequent Sequential Pattern, FSP): 查找DOM树Treedom中的所有叶子节点Leafi,将Leafi中的内容对应成文本元素序列S=
Web页面属于半结构化资源,本方法对Web页面进行预处理,将HTML文本转化为DOM树,取不同的文本元素(数字、空白、日文、中文、英文等)为项目;取DOM树中叶子内容对应的文本元素序列为事务,一篇HTML文本即为一个事务集。叶子内容所对应的文本元素序列在事务集中的支持度大于最小支持度,即为频繁序列模式。本文将不同的文本元素使用不同的标示符替代,其对应关系如表1所示,可将频繁序列模式形式化。例如模式“1 かさ(傘) 〔名〕 伞”即形式化为“NSJ(J)S〔C〕SC”。
表1 文本类型与对应标识符
一个双语页面中的双语资源会遵循一定的模式,这种模式可以看作是FSP。本文规定FSP的判定条件为: 对于模式Pi,若Pi中同时包含中文和日文,并且support(Pi)>Tr,其中support(Pi)为P在一个Web页面中出现的次数,则认为Pi是一个双语FSP。Web页面中若包含数量可观的FSP,也就意味着页面中包含大量双语资源(日汉翻译对),那么可以将其看作候选双语页面。例如图1所示的页面中包含 “8 テーパー 尖锥 taper”,形式化后的模式为“NSJSCSE”,其同时包含中文和日文,若定义Tr=5,则此模式为FSP。很显然:
(1) “NSJSCSE”包含的信息“8 テーパー 尖锥 taper”为有效的双语信息;
(2) 此页面中双语资源的形式大多为“NSJSCSE”。
基于上述两点可以很容易判断出页面为双语页面。所以,判断一个Web页面中是否为双语页面可以通过判断页面中是否包含有双语信息的频繁模式来实现。
从Web页面中提取频繁序列模式过程的算法:
For i=1 to 总网页数Do
转化第i 个网页为 DOM 树
形式化DOM 叶子节点的内容
If (叶子节点内容的长度<自然行的长度)
Then 选择叶子节点做为模式片段
Else 选择自然行作为模式片段
Endif
For j=1 to 第i个网页中的总模式片段数Do
If (支持度(第j个模式片段)>Tr&& 第j个片段中包含“C”和“J”)
Then 将第j个模式片段加入候选FSP集中
Endif
Endfor
Endfor
提取出频繁模式作为特征后,考虑到日汉两种语言有使用相同文字的特点,去掉仅有日语、日汉通用文字和常用标点的特征。本文采用TF-IDF的特征权重计算方法[16]:
(8)
tfi(d)表示特征ti在文本d中出现的频率,N为文本集中的总文本数,ni为出现特征ti的文本总数。
在网页分类的基础上,本文同样使用3.2节得到的频繁序列模式对已经判定为双语网页的页面进行双语资源的挖掘。即把特征选择得到的FSP放入规则库,将网页DOM树的叶子节点内容按照文本元素形式化为模式片段,若某模式片段与规则库中的规则相同,则提取该叶子节点中的内容为双语资源。
利用频繁序列模式对网页信息进行匹配处理能得到可观的双语信息,但是频繁序列模式未必包括Web页面中的所有有用信息的规则,例如人为操作时将最大频繁模式中的“.”写为“。”,无法在规则库中找到,可以利用机器学习的方式将这些有用的模式形式化为规则然后加入规则库中。
首先定义非规则文本归属度:
定义2文本信息归属度AD: 对于非规则的文本信息Ii,令m为紧邻Ii之前连续出现规则的数目;令n为紧邻Ii之后连续出现的规则数目,即若Ii-1…Ii-m均为规则,Ii-m-1不是规则,则紧邻Ii之前连续出现规则的数目为m,若Ii+1…Ii+n均为规则,Ii+n+1不是规则,则紧邻Ii之后连续出现规则的数目为n。定义Ii的非规则文本归属度
(9)
对于不能和规则库中规则匹配的文本信息,计算其AD值,若为0则直接舍弃;若不为0,根据AD值选取阈值,若文本信息AD值大于阈值,则将此文本信息形式化的规则扩充至规则库。
定义非规则文本归属度,可以使本方案能自动地挖掘文本中潜在的、非频繁序列模式的规则。默认AD值为1,实验表明阈值越大,机器学习得到的规则库具有较高的正确率。
本文使用《标准日本语》中单词和机械专业术语共458个词条为搜索项,通过百度搜索得到6 060个网页,经过人工标注,双语网页3 023篇,非双语网页3 037篇。实验随机选取三批测试数据集,每批选取200篇双语网页,200篇非双语网页,共400篇作为测试数据集,其余作为训练数据集,规定网页中含有5条以上双语资源的网页为双语网页。
本文解决的是二分类问题,所以实验使用SVMlight作为SVM的实现,用SVMlight的默认参数,构造了一个线性SVM。
同样由于二分类问题,在本文实验中,以文本分类的准确率来衡量基于频繁序列模式的双语网页分类的性能,定义如下:
双语资源挖掘采用正确率(precision,简记为P)来衡量系统性能,定义如下:
本实验通过在训练语料中提取FSP,得到499个特征,加上每篇网页中权重最大的FSP作为附加特征,共得到500个特征。实验选取的三批测试数据集经过SVM分类得到的结果如表2所示,实验证明本方法具有较好的准确性和稳定性。然而,实验中是按网页中的自然行和DOM树的叶子节点(由HTML标签分割的内容)为单位提取频繁序列模式的,对于双语对不在同一行或被标签分开的网页(如双语翻译对存在与表格中)就无法提取到正确的FSP,甚至提取不到FSP,则在分类时会将这类网页分到非双语网页中去,从而对分类的准确率有一部分影响。
表2 网页判别实验结果
通过有双语网页判别和直接用频繁序列模式提取双语资源的对比实验可以看出,在双语网页判别的基础上挖掘双语资源具有较高的准确性,这对于收集双语资源,建立高质量的双语资源库是有意义的,实验结果如表3所示。
表3 双语资源挖掘实验结果
本文描述了一种基于频繁序列模式的Web双语资源挖掘方法,该方法首先使用网页中频繁出现的含有两种语言特征的序列模式为分类特征,用SVM实现网页分类,然后在确定为双语页面的网页中使用频繁模式挖掘出双语资源。实验证明该方法在双语网页分类和双语资源挖掘的任务上有较好的性能。
未来工作中,我们将进行非自然行中频繁模式提取的工作,考虑将模式叠加,以解决表格和非自然行双语页面分类的问题。并在双语网页分类的基础上进行双语资源的挖掘,根据频繁模式提取出高质量对齐的双语翻译对,建立双语语料库。
[1] L. Jiang, S. Yang, M. Zhou, et. al. Mining Bilingual Data from the Web with Adaptively Learnt Patterns[C]//Proceedings of 47th Annual Meeting of the Association for Computational Linguistics. ACL, 2009: 870-878.
[2] Jisong Chen,Rowena Chau,and Chung-Hsing Yeh.Discovering parallel text from the World Wide Web[C]//Proceedings of the second workshop on Australasian information security, Data Mining and Web Intelligence, and Software Interllationalization.Australia, 2004: 157-161.
[3] Philip Resnik and Noah A.Smith.The web as a parallel corpus[J].Computational Linguistics,29: 349-380.
[4] Ying Zhang, Ke.Wu, Jianfeng Gao, et. al.Automatic acquisition of chinese-english parallel corpus from the web[C]//Proceedings of ECIR-06,28th European Conference on Information Retrieval. 2006.
[5] G.H. Cao, J.F. Gao and J.Y. Nie. A system tomine large-scale bilingual dictionaries from monolingualweb pages[C]//Proceedings of MT summit XI: 57-64.
[6] D. Lin, S. Zhao, B. Durme, et. al. Mining Parenthetical Translations from the Web by Word Alignment[C]//ACL 08, 2008: 994-1002.
[7] 郭稷,吕雅娟,刘群.一种有效的基于Web的双语翻译对获取方法[J].中文信息学报,2008,22(6): 103-109.
[8] G.H.Cao,J.F.Gao and J.Y.Nie. A System to Mine Large-Scale Bilingual Dictionaries from Monolingual web Pages[C]//Proceedings of MT Summit XI, 2007.
[9] Lichun Sun, Mengchang Chen, et.al. Web Document Classification based on Tagged-Region Progressive Analysis[C]//Proceedings of the International Computer Symposium (ICS), 2004.
[10] Choochart Haruechaiyasak, Meiling Shyu. Web Document Classification Based on Fuzzy Association[C]//Proceedings of the 26th International Computer Software and Applications Conference, 2002: 487-492.
[11] Shyhming Tai, Chengzen Yang and Ingxian Chen. Improved Automatic Web-page Classification by Neighbor Text Percolation[C]//Proceedings of the 8th CSIM Conference on Information Management Research and Practice, 2002: 289-296.
[12] 范焱,郑诚,王清毅,等. 用Naive Bayes方法协调分类Web网页[J]. 软件学报, 2001, 12 (9): 1386-1392.
[13] 林政,吕雅娟,刘群,等. 基于双语混和网页的平行语料挖掘[C]//第十届全国计算语言学学术会议,2009.
[14] Cortes C, Vapnik V. Support vector networks [J]. Machine Learning, 1995, 20 (3): 273-297.
[15] Agrawal R Srikant. Mining sequential patterns[C]//Proceedings of the 95 Int’1 Conf Data Engineering, Taipei, Taiwan, 1995: 73-98
[16] 徐凤亚, 罗振声. 文本自动分类中特征权重算法的改进研究[J].计算机工程与应用, 2005, 41(1): 181-184.