涂春梅
【摘要】计算机辅助方法能被用来研究文本中的词汇模式.数据来自欧亨利的短篇小说《警察与赞美诗》和参考数据库是LOB语料库作比较数据和Antconc3.4.4软件来学习复制验证。
【关键词】复制 频率统计 词汇模式 警察与赞美诗 类符/形符比
一、引言
讨论词汇如何在文本中分配来模仿这些程序,讨论单词序列的一些特征。可以理解的文本,它的词汇必须有衔接性:新旧信息的模式分布在文中的重复相关的词汇链。话题是用词汇表示的。单词频率列表和单词分布图可能有助于识别主题和文本边界,为解释提供依据。用的语料是O Henry的短篇小说《警察与赞美诗》仅1363字。讲述为在监狱里度过寒冬,故意违反法律.他没如他所愿蹲监狱;最后,他到教堂,被赞美诗感动,决定痛改前非,却被送进了监狱。
二、分析1:频率统计(按降序)
1.功能词频率统计 在LOB和《警察与赞美诗》中,最高频十个单词降序是:1] LOB:the of and to a in that is was it;2] ‘the Cop and the Anthem:the a and Soapy of his he to in policeman;LOB和文中最高频率的词是the.发现此词在任何文本中都占很大比例。在LOB中它的频率所占比重低于文本中:LOB 6.1%,此文本中7.3%。2]中出现的词在1]中就没有Soap,his,he,policeman.这说明此五个词在此文本的频率列表中更高。估算这些词故事中的频率比在一般语言中多多少,比较了他们在LOB和文中的频率:3] LOB:Soap0,his 0.56%,he 0.82%,policeman 0.001%;4]此文本中Soap2.8%,his2.5%,he2.4%,policeman 1.1%.相对于文本长度,he和she在文中比在LOB更频繁。his和he的频率是一样的。第三人称单数代词,he/his和定冠词the指he,指Soapy,故意做了具体的事情。
2.实词的频率统计 忽略LOB中100个最常见的词,此文本的频率列表中最高频实词umbrella, bench, island, winter, restaurant, square, cigar, street, waiter, arrest, cop, door, glittering, moved, refuge, ambitions, arrested.最高頻的实词能揭示主角Soapy的行为变化,名词代表某地方的故事情节.关于词频的适度初始事实值表明简单的词频反映此故事的中心话题。
三、分析2:
频率统计(出现顺序)这些方法没告知词汇在文本中的分布。文本中词汇出现顺序的频率能暗示文本的结构。以此文本的第一段为例。按词汇在文本出现顺序的频率列表:5] on14, his34, bench6, in23, Madison3, square5, Soapy38, moved3, uneasily3, and45, when4, moves, the100, park2, you10, may1, know1, that11, winter6, is8, near2.大多数词很少出现,大约一半的单词类型仅出现一次.然6]里很多高频词出现在故事的开头,但它们于故事主题无意义。5]中可看到那些出现在开头段落中的词汇词,它们在后文中出现不止一次:6] Madison3, moved3, uneasily3, when 4, moves 1, park2, near2.列表不能看到哪些词是首次出现在故事后期,这与小说Eveline中的Youman不同。此段corner第一次出现,凭直觉它是故事中的一个新话题。此文第一自然段中新词的频率为:7] corner4, Sixth1, Avenue1, took2, stone1, sent1, through2, glass1, shop1, window2, people2, came 3, running 2, around2, stood2, still1, pockets1, smiled1, sight1.7]中频率大于1的新词:8] corner4, took2, through2, window2, people2, came 3, running2, around2, stood2.然而这个过程显示哪些新词在情节的最后段落被采用,不是在文本的最后段落,这同于在“Eveline”中的Youman的发现。
四、结论
总之,虽然文章没有完全复制这个发现,仅部分复制了此发现,但我们可以看到如何使用语料库和软件Antconc.3.4并测试文本中单词的频率。复制的结果部分与短篇故事“Eveline”不同,我认为原因是《警察与赞美诗》中有几个单个独立的小故事。
References:
[1]Sinclair,J.Corpus,Concordance,Collocation.Oxford:Oxford University Press.
[2]Sinclair J.Corpus and Text:Basic Principle.In M.Wynne(ED.), Developing linguistic Corpora:a Guide to Good Practice,2004.
[3]欧亨利.警察与赞美诗,1906.endprint