关于领域语料库的研究

2014-07-07 15:38:54何焱丁玲
关键词:语料类别语料库

何焱,丁玲

1.遵义医药高等专科学校,贵州遵义563002 2.哈尔滨工业大学深圳研究生院,广东深圳518055

关于领域语料库的研究

何焱1,丁玲2

1.遵义医药高等专科学校,贵州遵义563002 2.哈尔滨工业大学深圳研究生院,广东深圳518055

在网络信息愈加庞杂的背景下,分类技术被广泛的采用,但分类技术一般都需要标准的语料作为训练集,而这些语料往往是通过人工标注的方法来满足其标准性和准确性。这样开发周期相对较长、工作量大,而且不易改变分类。本文针对这一问题,研究如何根据各领域网站的本体结构从中获取语料并将这些语料按照给定的分类体系重新组织净化,最终获得高质量的分类语料库。

语料库;本体结构;分类体系

1992年以来,中国大量的研究中文处理的单位分别建立起来语料库[1],中文信息处理的研究中,语料库是基本的语言资源。中文信息处理离不开语料库的支持,重要性越显突出。中文语料库迅速发展,包括通用语料库,平行语料库和学习者语料库等[2]。比较有代表性的通用语料库是人民日报语料库。另外清华大学的大型中文语料库收集了多种分类,可用于处理语言信息的各个方面[3]。

在自然语言处理研究领域,语料的重要性不言而喻,无论是文本分类、文本聚类、自动文摘、问答等经典的自然语言处理研究课题,都需要大量的经标注的语料进行实验。然而,经标注的语料通常难以获得,未标注的语料获取较为容易,因此语料标注就成了各种自然语言处理研究工作不可缺少的一项工作。许多自然语言领域的专家借助社会标注的力量完成了语料库建设。但是社会标注应用到语料库建设中具有一定的局限性,如随意性、不一致性、不可控性等。对特定领域来说,此领域的专业网站所带来的信息更为丰富,这些信息里就含有了领域本体,可以将这些网站里的信息看作是标注好的语料来加以利用,本文主要研究基于锚文本的领域语料库的研究。

1 基于锚文本的领域语料库的研究

1.1 网站本体结构分析与提取

1.1.1 网站本体结构分析对于特定领域的网站来说,信息总是会按照该领域的某一分类体系进行划分并放在不同的页面里。可以说,这个网站的结构中就包含了该领域的本信息[4]。直观的看,网站信息可以被组织成一种层次结构,例如,进入Yahoo网站,会沿着目录层次Home>Science>Biology>Zoology>Animals,Insects,and Pets去搜索有关Animals,Insects,and Pets的内容,该条路径也明显地指出了Animals,Insects,and Pets在生物学科中所属的分类。该网站的领域本体信息可以从图里抽象出来形成一棵树,该树所表现的就是这个网站的本体结构。例如健康领域的权威网站39健康网//www.39.net,我们可以从它的主页导航栏如图1上看出该网站的明显的信息分类情况。

图1 39健康网主页导航Fig.1 39 Health Net homepage navigation

根据首页,我们可以将它的网站结构表示成一个层级分明的结构图(图2):

图2 39健康网网站机构图Fig.2 39 Health Net site organization chart

通过对大量的领域网站结构进行分析,本文得出一个结论,领域网站的拓扑结构中蕴含了该领域的本体结构,或者说可以从领域网站的拓扑结构中获取领域本体结构。

1.1.2 基于网页结构及锚文本信息的网站本体结构提取领域网站的网页在视觉上可以看出明显的分块,通常每一个分块就代表一个本体类别。通过分析大量的领域网站首页本文发现,每一个分块的标题一般都是一个锚文本链接,该链接指向的网页是该分类的首页,本文称之为二级首页,类似地的会有三级首页、四级首页……。

这些首页中的分块信息体现在网页源文件里就是一系列的<table>标签或<div>标签加上锚文本链接。<table>标签或<div>标签体现了网页的结构,锚文本链接给出了该结构对应的本体信息,因此我们可以利用这两者的结合来构造一个领域网站所蕴含的本体结构树。

首先,对首页源文件进行处理,过滤掉非<table>标签或<div>标签同时保留链向本站的锚文本链接,对于前后都被文本包围的链接由于其一般属于网站的关键词导航,不具有实际意义,所以将其也过滤掉。因为网站一般含有广告链接,而这些链接是不链接到本站的,所以可以通过判断该锚文本链接的指向来将广告链接去掉。这些经过滤后形成的源文件具有如下形式,本文称之为结构化源文件:

然后追踪里面的锚文本链接,从而获得二级、三级等首页的结构化源文件。通过处理这些源文件,我们可以近似的构造出本体结构树。

具体算法描述如下:

2 系统评测

在系统实验的过程中,我们保留了一下四种情况的实验结果:

(1)完全匹配路径的情况下,无类别同义词输入

(2)完全匹配路径的情况下,有类别同义词输入

(3)非完全匹配路径的情况下,无类别同义词输入

(4)非完全匹配路径的情况下,有类别同义词输入

为了验证系统的有效性,我们在系统经过以上四种情况的每种情况下,系统生成结果的17个类别中随机选择10个类别,并且每个类别中随机选出100篇文本作为训练集,另外100篇文本作为测试集使用。并且本章将从多个方面考察生成的文本语料库中文本标注的准确性。

2.1 评价方法

为了评价本系统生成的文本语料库的性能,需要借助于对文本分类性能的评价标准。而评价文本分类的整体性能时,最常用的方法是用F-Measure[5]值来表示,F-Measure值越大,分类的性能就越高。

在统计学中,F-Measure值是测试准确率的测量方法。在计算F-Measure值的过程中需要计算两个变量:准确率(precision)p和召回率(recall)r,这两者的计算方法如下:

其中:nij——分类前标注为类别i,分类后仍然分为类别i的文档数

ni——分类后类别i所含有的文章总数

mi——分类前被标注为类别i的文档总数

传统的F-Measure值计算方法是准确率与召回率的调和平均数:

平均准确率和平均召回率分别为:

总的F-Measure值为加权平均值:

2.2 实验结果及分析

实验由以下两大部分组成:人工识别文本语料的准确率;根据分类结果分析。下文中所涉及到的“完全路径匹配”定义是完全按照给定分类体系所指定的分类路径匹配情况下所获得的文本。而“非完全路径匹配”是指路径部分匹配,一般是最下层部分分类。

2.2.1 人工判断语料库自动构建系统获得文本的准确率本系统所采用的聚类算法是凝聚层次聚类(Agglomerative Hierarchical Clustering,AHC)算法,因此需要对参数进行调整。参数调整范围为0~1,我们对参数分别取值0.1、0.5、0.9三个值。表1分别是每组参数中随机取5个分类的准确率统计:

表1 凝聚层次聚类参数调整文本准确率Table 1Agglomerative hierarchical clustering accuracy parameter adjustment text

根据以上实验得出结论:针对于本系统,结合聚类算法的最佳聚类参数为0.1。我们取最后结果,则之后的实验分析将针对这个参数进行。

2.2.2 根据随机抽取5类的分类结果分析因为本系统的目标是自动构建标准的文本语料库,那么验证系统结果的最好方式就是用系统生成的文本做文本训练集,应用在文本分类中,从而分析语料库的优劣。

将文本集抽象为向量空间模型,其中特征抽取部分利用TF-IDF来表示每个词在文章中的权重。这里我们还是对非完全路径匹配且有同义词的方法所获得的数据进行实验。在其中随机抽取出5个类别进行分类,每个类别随机取100篇文章作为文本训练集,另外,100篇文章作为测试集,测试集与训练集是完全不重合的,并且是人工标注的标注测试集,而且以下所有分类均基于本测试集进行测试,以保证分析结果的有效性与准确性。实验采用开源代码决策树C4.5进行分类。

2.2.2.1 人工标注语料库进行分类我们对每个类别均人工标注区别于测试语料的100篇文本,通过分类器分类结果如图3,以下为了更清楚的表达分类结果,都用表2的形式表示。其中,行标表示目标分类,列标表示实际分类。

表2 人工标注领域语料库分类数据Table 2 Corpus annotation field of artificial classification data

根据上述数据我们计算如下:

设F(i)是类别i的F值,则,

F(1)=0.959F(2)=0.929F(3)=0.949F(4)=0.974

F(5)=0.990

可得分类平均准确率、平均召回率、以及F值:

平均准确率:96.2%

平均召回率:96.0%

F值:0.961

2.2.2.2 聚类后语料库分类聚类后对以上分类分别随机抽取100篇文本作为分类器的训练集,分类结果见表3:

表3 聚类后领域语料库分类数据Table 3After clustering categorical data domain corpus

图3 人工标注领域语料库分类结果Fig.3 Corpus annotation field of artificial classification results

根据上述数据可得分类平均准确率、平均召回率、以及F值:

平均准确率:94.8%

平均召回率:94.4%

F值:0.946

2.2.3 根据独立的全部14类的分类结果分析根据以上实验,我们确定了聚类时所使用的文本间相似度为0.1时效果较好。但是以上实验是采用随机抽取5个分类的样本进行分析的,具有较大的局限性,所以我们接下来设计了用相互独立的全部14个类别抽样进行分类训练,对比分类效果。

2.2.3.1 人工标注语料库进行分类我们仍然对每个类别均人工标注区别于测试语料的100篇文本,通过分类器分类结果如表4中,行标表示目标分类,列标表示实际分类。由于分类比较多,表格里省去了类别名称,这里用类别编号代替。其中的5(健身)、8(养生)、16(美容)均为大分类,即包含了其他分类的分类,这里不参与分类实验对比。

根据下述数据我们计算可得分类平均准确率、平均召回率、以及F值:

平均准确率:83.1%

平均召回率:81.2%F值:0.821

表4 人工标注领域语料库分类数据Table 4 Corpus annotation field of artificial classification data

2.2.3.2 聚类后语料库分类聚类后对14个分类分别随机抽取100篇文本作为分类器的训练集,分类结果如表5:

表5 聚类后领域语料库分类数据Table 5After clustering categorical data domain corpus

根据上述数据我们计算可得分类平均准确率、平均召回率、以及F值:

平均准确率:79.8%

平均召回率:78.6%

F值:0.792

3 结束语

本文通过对大量领域网站的网站结构进行分析,总结了领域网站组织信息的规律,采用基于网页结构及锚文本信息的方法提取出了领域网站的本体结构。同时用大量的实验数据证明语料库自动构建技术切实有效。

[1]刘华.超大规模分类语料库构建[J].现代图书情报技术,2006(1):70-73

[2]卫乃兴.2003年上海语料库语言学国际会议述评[J].解放军外国语学院报,2004(1):56-59

[3]王建新.我国在语料库语言学研究方面的部分发展[J].大连外国语学院报,1999(3):17-20

[4]Fang J,Guo L,Niu Y.Documents classification by using ontology reasoning and similarity measure[C].Yantai:Fuzzy Systems and Knowledge Discovery,2010:1535-1539

[5]Li X,Wang Y,Acero A.Learning query intent from regularized click graphs[C].New York:Proceedings of the 31st SIGIR Conference,2008:339-346

Research on Corpus in a Field

HE Yan1,DING Ling2
1.College of Zunyi Medical and Pharmaceutical,Zunyi 563002,China 2.Harbin Institute of Technology Shenzhen Graduate School,Shenzhen 518055,China

Under the more complex background of a network information,classification technology is widely adopted. Classification techniques generally required standard corpus as a training set,and these data go often through the method of manual annotation to meet their standards and accuracy.Therefore,it is relatively long to develope,and has a heavy workload, and it is not easy to change the classification.Aiming at this problem,the study on how to obtain data from the ontology structure of field websites and then to reorganize and purify according to the given classification system.In the end,to get the high qualitative classified corpus.

Corpus;ontology structure;classification system

TP392

A

1000-2324(2014)03-0360-06

2012-12-22

2013-01-18

互联网医学信息自主整合方法研究(黔科合J字[2013]2335号)

何焱(1975-),女,硕士,副教授.研究方向:计算机网络应用、数量处理.E-mail:190792074@qq.com

猜你喜欢
语料类别语料库
《语料库翻译文体学》评介
把课文的优美表达存进语料库
基于语料调查的“连……都(也)……”出现的语义背景分析
服务类别
新校长(2016年8期)2016-01-10 06:43:59
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
语言与翻译(2015年4期)2015-07-18 11:07:45
《苗防备览》中的湘西语料
论类别股东会
商事法论集(2014年1期)2014-06-27 01:20:42
国内外语用学实证研究比较:语料类型与收集方法
中医类别全科医师培养模式的探讨