Web学术语料库的特征及其应用初探

2015-11-14 01:58罗志高
外国语文 2015年5期
关键词:语料语料库网页

罗志高

(重庆工商大学 外语学院,重庆 400067)

1.引言

20世纪中后期,语料库语言学兴起,大规模电子语料库逐渐出现,1964年布朗语料库(Brown Corpus,100万词)在美国创建,这是世界上第一个电子语料库,之后相继有了LOB(100万词)和LLC(50万词)。BROWN、LOB和 LLC并称为三大经典语料库。(Kennedy,1998)20世纪90年代前后,随着计算机储存容量不断增大,光电字符识别技术不断发展,出现了更大规模的语料库,如COBUILD(45亿词)、ICLE(250万词)、BNC(1亿词)、ANC(1亿词)和ICE(24个分库各100万词)等,语料库作为自然语言集合体,规模越来越大。

20世纪90年代,网络上出现了海量电子文本和数据,学者们开发出了第一代网络语料库WebCorp(Web as Corpus),它以海量网络文本为语料,以搜索引擎和网络检索软件为检索工具,并以传统语料库方式提供检索结果。但是,作为第一代网络语料库,WebCorp存在语料代表性、语料加工、检索速度慢等缺点(邢富坤,2006)。第二代网络语料库Web学术语料库应运而生,其英语全称是WebCorp Linguist’s Search Engine,缩写为 WebCorp LSE。

2.Web学术语料库及其特征

Web学术语料库是一个学术性网络语料库检索系统,其语料来源于网络,但按语言学标准进行了筛选,并进行了语言学标注,专门服务于语言教学与研究。它集成了网络、搜索引擎和传统语料库的优点,具有自己的特征。

2.1 独特搜索引擎与爬虫工具

在Web学术语料库出现之前,也有学者把网络当作语料库从事语言研究,并利用商业搜索引擎检索语言信息。可为语言学家利用网络资源提供巨大帮助,然而这些研究都依赖商业搜索引擎,因而时受诟病,称其检索信息不可靠。有鉴于此,Web学术语料库建立了自己的搜索引擎和爬虫工具,爬虫工具得到“种子”和参数后,就按指令从网络上下载文档,或从网络文档上实时提取新词。爬虫工具可设置的参数包括:每个领域网页下载数量、要抓取文件类型、要排除的字符串或网页等。爬虫工具能根据网页超级链接,从一个网页爬到另一个网页,并下载各种类型的文档,包括HTML、PDF、Word、PS以及 TXT文档。然后,离线语料处理工具对其进一步处理,如语料离线标注、日期提取与整理等。

Web学术语料库定期检索网络、更新语料,并按日期存储语料。因此,相对于传统语料库,该库语料新颖、时尚。此外,其搜索引擎和爬虫工具还具有以下特点:(1)根据黑名单不检索或不下载某些网页;(2)记录错误和重新检索部分网页;(3)提取日期、作者、标题和次标题信息;(4)分析网址并提取指定部分的内容;(5)按日期储存文档;(6)剔除广告标语和链接;(7)剔除网页中非文字符号。

2.2 网络文本格式全而有代表性

大多数语料库研究使用网络语料时,只考虑HTML 格式文档(参见 Ide,2002;Fletcher,2004;Baroni& Bernardini,2004)。这是因为HTML格式文档网络上最多、最容易得到。然而谷歌搜索对象还包含了其他格式文档,如PDF、DOC和PS格式文档。Kehoe&Gee(2007)为了检验网络上各种文件类型数据,通过Google文件管理器得到了以下数据:

表1 谷歌数据:英文网页文档中主要文档格式及其数量

Renouf(2005)认为,第一代网络语料库的“网络文本”是不合格语料库文本,因此,Web学术语料库重新定义了“网络文本”:(1)是连贯语篇;(2)语篇完整、意义明确;(3)以完整句子表达内容,并带有句号;(4)包含段落。Web学术语料库借用了Ide等2002年的“连贯语篇”定义:即至少包含2000个字符,其段落平均字符至少30个。Cavaglia和Kilgarriff(2001)的相关研究也排除了非标记符号不到2000的所有网页。

表2进一步显示出,每种网络文档格式中,段落平均字符超过30个,且字符总数超过2000文档占各自类型文档总数百分比:

表2 谷歌数据:“合格网络文本”占本类型网络文本的百分比

从表2可以看出,虽然绝大多数(约占93%)网络文档是HTML格式,但网络上仍然有相当数量其他格式文档,尤其是PDF文档,且能达到“网络文本”标准。所以,Web学术语料库进一步拓展了“网络文本”概念,即不仅包括 HTML文档,还包括PDF、Word、PS、RTF和TXT格式文档,而且设定了“网络文本”的语言质量标准,从而保证了其语料的良好代表性。

HTML格式文档是网络上原生格式文档,为了方便屏幕阅读,它们往往以短段落形式呈现,因此,HTML文档段落划分不严谨。此外,网络上每个子网页都是独立文档,不一定是连贯的完整语篇。为了避免这种情况,Web学术语料库的爬虫能根据网页上“下一页”或“更多”链接把单独子文档拼凑起来,从而形成完整连贯语篇。Web学术语料库还有一系列工具,用来从网络上提取非HTML语料,如在线学术期刊文本提取工具、PDF转XML格式工具、RTF文件类型筛选工具。每个工具中都被嵌入了独特程序,以提取作者、出版日期等信息。

总而言之,Web学术语料库的语料质量高、代表性强,能充分代表网络上海量、动态的语言资源。

2.3 海量而新颖的网络语料

传统语料库的一个典型问题在于Zipfan(美国语言学家,1902-1950)规律。即,在任何自然语言语料库中,频率最高词汇出现次数几乎是频率第二高词汇出现次数的两倍,第二高词汇又是第三高词汇的两倍,依次类推。如此算来,布朗语料库前135个最常用词汇就占了其总量的一半。因此,语言学家们希望语料库越来越大,以保证非常用词汇及各种用法的出现。所以,Web学术语料库设计规模达到100亿字符,这几乎是世界上所有语料库规模的总和。

根据谷歌1998年的数据,谷歌缓存数据至少有10000亿字符。(Brin&Page,1998)Web学术语料库虽未含有整个互联网,但其筛选后语料不仅具有语言学价值,且能体现或代表全部互联网语言资源精髓。Web学术语料库构成如下:(1)一系列特定领域子库,每月更新;(2)报刊子库,每日更新;(3)一个多TB微型互联网语料子库。网络语料每天增加几百万网页,这给Web学术语料库提供了最新、最全的语料,大大提高了语言研究者找到新发现的机率。相对于第一代网络语料库,Web学术语料库的语料虽然还是海量,但能计算出大小,其子库也是规模已知和可掌握实体,能进行相对词频、搭配和比例方面的统计,其检索结果和统计信息更准确。

2.4 Web学术语料库的独特功能

Web学术语料库具有传统语料库的基本功能,如单词、短语、结构、通配符检索或词性检索与统计。但它不同于传统语料库、普通搜索引擎,它的功能独特,能对检索结果进行复杂分析与处理,且用户界面简单易用。

首先,它具有词汇筛选功能,可以限定其他词汇同页共现或不出现。另外,它还有“附近共现”搜索功能,如,在检索栏输入“cooks NEAR broth”,检索行就会同时包含“cook”和“broth”这两个词,同时这两词之间距离不超过10个单词,这两个功能可以提高搜索准确性。

其次,它能从多角度筛选检索结果,用户可以设定参数,系统自动筛选,或者手动筛选结果,如用户指定只显示某时间段语料,或按日期升序或降序排列语料;检索结果能按时间、搭配、排序和原始信息等进行深入分析。其中,语料原始信息包括:语料产生日期、来源网址、所属领域、字符数、检索行和来源网站数量。

另外,该语料库还具有浏览器日志功能,即能保存用户检索要求和结果,保存时间为一个月;还能记下热门搜索词,从而揭示学术热点。

3.Web学术语料库的应用探索

基于以上特征和功能,Web学术语料库有其独特应用价值。

3.1 用于新词或稀有用法研究

传统语料库以书面语料为主,其建设和更新耗时费力,所以往往只代表特定时段的语言。如Brown、LLC、LOB 代表20 世纪60、70年代英语,BNC和ANC代表20世纪90年代英语,这些语料库具有时间局限性。而且传统语料库容量有限,一般检索不到荒废词或稀有词汇,而新词在传统语料库更不容易找到。但Web学术语料库时时更新,语料时间跨度大、新颖、时尚、规模大,可以应用于新词、荒废词或稀有词汇的研究。

3.2 用于短语创新性用法研究

Web学术语料库支持通配符检索,通配符后面还可以出现数字,用于规定短语中该位置最多可出现的单词数。比如,检索要求“it was*3 which”中,其中数字“3”用于限定通配符所在位置最多可出现3个单词。这一功能可应用于语言固定结构变异性用法的研究。例如,“all your eggs in one basket”用法似乎已经成为“凝固表达式”,但是,语言研究者可以在Web学术语料库中调查其变异性或创新性用法。在检索栏输入“all your* in one basket”,同时在词汇筛选栏中输入“-eggs”,以确保检索结果不包含“all your eggs in one basket”的检索行,检索结果如下(检索时间:2013.08):

me never to put all your Kabbalists in one basket or plate,as the old adage,“Don’t put all your cows in one basket.I know’men’Ahhh,it’s called”Putting all your nuts in one basket.

以上例句显示出,固定短语也有变异性或创新性用法,至于取代词与原词存在怎样关系,则有待进一步研究。

3.3 用于语言历时研究

Web学术语料库有一套时间检测与标注机制,其爬虫工具到达某一网页时,会依次检测网页服务器标头、写作日期、网页修改日期、网址所含日期、版权日期等,并记录下其中之一,作为语料产生的日期。该语料库能按时间先后对检索结果进行排序,并能以图表形式显示检索词或短语的出现频率,出现频率可以按天、月或年计算,也可以按某个领域、某个国家范围或某种格式文档总量计算。

Web学术语料库还包含专门的历时语料库,在语言历时研究方面有很大价值。以短语“weapons of mass destruction”为例,在检索栏中输入该短语(检索时间:2013.08),得出的检索结果和频率图表揭示出以下信息:该短语最早出现于2000年,2003年使用频率最高。而普通搜索引擎包括谷歌,搜索时间范畴也仅限于一年内,其可供选择的时间范围有:过去24小时、过去1周、过去1个月。

3.4 区别歧义搜索或稀有用法研究

Web学术语料库可以限定某个词汇共现在同一页面、文档、句子,或检索词前后一定范围内,从而提高搜索精确度。比如,在检索栏输入“energy”,同时在词汇筛选栏里输入“positive,-flower”,选择共现在“句子”(或“整个文档”)范围内,检索词所在句子就会包含“positive”,同时不包含“flower”,因此该语料库能搜索特定的搭配关系,区别词语的歧义性表达。

常见词汇稀有用法是词典编撰一大难题,这种用法很难在传统语料库找到匹配行。Web学术语料库的语料来自网络,时时更新,海量而新颖,再加上该语料库的“附近共现”功能,Web学术语料库使得词典编撰这一难题迎刃而解。例如,在检索行输入“sole NEAR shoe”,可以检索到39个例句(检索时间:2013.08),这种检索方式得到的检索行中,“sole”意思是“鞋底”,而不是常见的“唯一的”意思。这表明,该共现功能起到创造语义韵的作用(Louw,1993),从而保证只搜索检索词的特定意义。

4.结语

Web学术语料库有自己独特的网络语料提取、处理、检索工具等,并且集成在一个网页界面上,方便易用,即便语料库初入门的研究者也能轻易上手。传统语料库因有自己独特的语料标注格式或语料库工具,常常将入门研究者阻挡在门外,而Web学术语料库的这种集成性使得语料库这一研究范式能得到更广泛的应用。Web学术语料库不仅充分利用了网络语料的海量、动态和新颖性,还吸收了搜索引擎和第一代网络语料库的优点,具有自己独特的功能与应用,弥补了传统语料库的不足。它不仅开拓了英语母语者的研究视野,对外语研究与教学也有很大价值。

[1]Baroni,M.& Bernardini,S.BootCaT:Bootstrapping Corpora and Terms from the Web[C]//Proceedings of the4th International Conference on Language Resources and Evaluation(LREC).Lisbon:Lisbon University Press,2004:1313–1316.

[2]Brin,S.& L.Page.The Anatomy of a Large - scale Hypertextual Web Search Engine[J].Computer Networks and ISDN Systems,1998(30):107 -117.

[3]Cavaglià,G.& A.Kilgarriff.Corpora from the Web[C]//Fourth Annual CLUCK Colloquium.Sheffield:Sheffield University Press,2001.

[4]Fletcher,W.H.Making the Web More Useful as a Source for Linguistic Corpora[G]//Ulla Connor and Thomas A.Upton.Applied CorpusLinguistics:AMultidimensional Perspective.Rodopi,Amsterdam,2004:191-205.

[5]Ide,N.,R.Reppen & K.Suderman.The American National Corpus:More Than the Web can Provide[C]//Proceedings of the Third Language Resources and Evaluation Conference(LREC).Las Palmas,CanaryIslands,Spain,2002:839-44.

[6]Kehoe,A.& Renouf,A.WebCorp:Applying the Web to Linguistics and Linguistics to the Web[C]//World Wide Web2002Conference.Honolulu,Ha-waii,2002.

[7]Kehoe,A.& M.Gee.New Corpora from the Web:Making Web TextMore “Text-like”[G]//P. Pahta, I.Taavitsainen,T.Nevalainen & J.Tyrkk.Studies in Variation,Contacts and Change in English Volume2:Towards Multimedia in Corpus Studies.Helsinki:Helsink:University Press,2007.

[8]Kennedy,G.An Introduction to Corpus Linguistics[G].London:Addison Wesley Longman,1998.

[9]Kilgarriff,A.Web as Corpus[C]//Proceedings of Corpus Linguistics2001.Lancaster University,2001:342– 344.

[10]Louw,B.Irony in the Text or Insincerity in the Writer?The Diagnostic Potential of Semantic Prosodies[C]//Baker,M.,Francis,G.& E.Tognini-Bonelli.Text and Technology.Philadelphia/Amsterdam:John Benjamins,1993.

[11]Renouf,A.WebCorp:Providing a Renewable Data Source for Corpus Linguists[G]//S.Granger and S.Petch-Tyson.Extending the Scope of Corpus-based Research:New Applications,New Challenges.Amsterdam and Atlanta:Rodopi,2003:39 -58.

[12]Volk,M.Exploiting the WWW as a Corpus to Resolve PP Attachment Ambiguities[C]//Proceedings of Corpus Linguistics.Lancaster RECL,2001.

[13]Renouf,A.,A.Kehoe & J.Banerjee.The WebCorp Search Engine:a Holistic Approach to Web Text Search[C]//Electronic Proceedings of CL2005,Birmingnam:University of Birmingham,2005.

[14]邢富坤.Web语料库及其特征初探——与传统语料库的对比研究[J].外语电化教学,2006(2):62-64.

猜你喜欢
语料语料库网页
基于HTML5与CSS3的网页设计技术研究
《语料库翻译文体学》评介
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
基于语料调查的“连……都(也)……”出现的语义背景分析
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法