□ 刘 潇
(武汉大学 外国语言文学学院,湖北 武汉510620)
通过词表覆盖率评测法语文本难度的方法
□ 刘 潇
(武汉大学 外国语言文学学院,湖北 武汉510620)
在我国英语阅读研究中,常采用量化方法测量文本。而法语相关研究则几乎是空白。本研究将法语教学大纲的词表与国外的常用法语词表对比,测算这些词表在不同语料库中的文本覆盖率和生词率,从而估算掌握相应单词量的学生在阅读不同类型文本时遇到的单词难度。结果表明,可将5%的生词率作为能否独立读懂文章的标准。在筛选难词时,单个词表易有疏漏,应结合多个词表综合判断。此外,为取得更好效果,应以词族为计量单词的单位,兼顾不规则动词的词形。
词表;覆盖率;语料库;文本难度
在外语阅读中,读者遇到的障碍通常是由生词引起的。通过词表中单词在文本中所占比例,能判断掌握相应单词的读者阅读时的单词难度,从而更好地选择有效的教学材料,促进学生阅读技能的健康发展。而量化的语料库方法在我国法语教学中鲜少得到应用。因此,本文选用教学大纲词表在内的几种常见的法语词表,统计它们在教材及其他阅读材料语料库中的文本覆盖率,以供教学参考。
在计量词汇时,首先应该明确统计单词的单位和方法。一般有以下三个不同单位可供选择:单词(mot),即按词汇的不同形态分别计算。词目(lemme),即只计算单词作为字典条目时的形态,忽略其阴阳性、单复数、时态。词族(famille de mots),即把通过不同构词法构造的词根相同的单词计为一个词族。如produit,produits和production,按以上单位应计为3个单词,或2个词目,或1个词族。
具备构词法知识的读者容易根据词缀和词根推测出单词的含义,尤其是在有上下文的理解过程中。因此,在英语词汇量的研究中,通常采用词族作为单位[1]。然而,大部分法语生词表采用词目作为统计单位。由于现实条件制约,本文采用词目作为计量单位。
文本覆盖率,指的是词表中单词在文本中所占比例。统计单词比例时,常使用两种计量方式:类符(type,即每个单词无论出现多少次都只计一次)或形符(token,即每个单词按实际出现次数计算)。在此与多数研究一致,选取形符作为统计方式。
读者认识的单词在文中达到多少比例,才能有效理解文本呢?内申(Nation)和同事认为:读者至少需要认识文中95%的单词,才能独立理解文本,并可从上下文中猜出生词含义。为实现较流畅、愉悦的阅读,不需上下文即可理解的单词则需占文中98%[2]。他在统计时,将专有名词、明显的复合词及感叹词计入覆盖率,不算作生词。
此外,内申参与开发编写了Range软件,可用于分析文本的词汇深度和广度。Range软件自带3个基础词表:Basewrd1,含 998个词族,共计 4119词;Basewrd2,含 988 个词族,共计 3708 词;Basewrd3,含570个词族,共计3107词。前两个词表涵盖英语文本约87%的词汇,最后一个词表为最常用的学术词汇,在学术文本中的覆盖率为8.5%。在分析文本时,Range生成的文件会显示该文本中词汇在这3个词表中覆盖的程度。其使用者还可自行编写基础词表,满足特殊研究需要。目前在我国的英语教学研究中,有著作介绍Range软件,并举例说明如何应用该软件分析应用于教材的文章难度[3],也有使用易读度软件AntwordProfiler通过覆盖率等方式分析文本难度的尝试[4]。
而在法语教学研究中,少有研究者使用定量分析方法通过词表和语料库分析文本。关虹依据《高等学校法语专业基础阶段教学大纲》和《高等学校法语专业高年级法语教学大纲》,制定含4个层级共8500个单词的新词汇表,并据此分析学生在作文中体现的掌握和运用法语词汇的能力[5]。但在教材和阅读材料研究中,暂未看到类似语料库方法的实践。
在法语教学史上最早的重要词表是古根内姆等语言学家在1955年发布的《基础法语》(可在http://www.lexique.org/telAutresBases.php下载)。该词表包含两级:第一级1475词,第二级3500词。第二版词表在此基础上扩充到8774个单词。该词表主要是根据词频和分布率制定的,语料为275个人访谈所得的口语语料库,包含163篇文本,312 134个词,7995个词目。此外,编写者还围绕20个兴趣中心补充了320个易联想(disponibilité)单词,剔除了 104 个粗俗用词(如bouquin, foutre, formidable, vélo 等)[6]。
计算机开始广泛使用后,对词汇的计量变得更为方便,涌现出许多新词表。
Lexique3词表是一个收入词条较全的开源词表,包含 142 728 个单词,对应 47 342 个词目[7](可在 http://www.lexique.org/telLexique.php下载)。其中单词的词频有两项。前者是书面文本统计得来,语料库由法语分析与处理实验室 (Analyse et Traitement Informatique de la Langue Fran aise,Atilf) 提供的从 1950 年到2000年间出版的218本小说构成,1470万词汇量级。后者是口语资料统计得来,语料库为9474部电影的字幕,5千万词汇量级。由于研究对象为文本,本文采用书面文本统计所得的词频。
塔克等人认为,基于法语在母语为法国人的使用环境中统计出的词频,与法语学习者在学习过程中接触到这些词语的顺序和频率存在差异,所以应采用基于课本统计出的分级单词词表判断法语学习者遇到的单词难度[8]。
FLELex的编写者统计了28本专为外国学生使用的法语教材和29本目标读者为外国学生的简写法语读本中的777 835个词,并将语料按照《欧洲语言共同参考框架:学习、教学、评估》分为6个层级:A1(入门级),A2(初级),B1(中级),B2(中高级),C1(高级),C2(精通级)[9]。FLELex 中共有 14 053 个实词词目和 183个语法词词目 (可在 http://cental.uclouvain.be/flelex/#tab-download下载),对每个词目,标注其词性和在不同层级的教材或简写本中标准化计算后的词频。由于编写者采用了两个分词器预处理语料,所以有TT和CRF两个版本,本文采用TT版本。
我国法语专业的教学大纲词表有两种:《高等学校法语专业基础阶段教学大纲》(以下简称 《基础大纲》)包括3800个单词,其中需要熟练掌握的积极词汇为2600个[10]。 《高等学校法语专业高年级教学大纲》(以下简称《高年级大纲》)包括8040个单词。它是《基础大纲》3800 词汇表的扩大[11]。
以下选取Lexique3词表前4000词目 (以下简称Lexique3-4K),Flelex_TT词表前4000词目(以下简称Flelex-4K)与基础大纲对比,Lexique3词表前8000词目 (以下简称Lexique3-8K)、Flelex_TT词表前8000词目(以下简称Flelex-8K)与高年级大纲、第二版古根内姆词表(以下简称Gougenheim)对比,测试不同词表在各语料库中辨别生词的能力。
Lexique3词表中,拼写相同而词性相异的词被计为不同词项。然而,在大纲词表中,绝大多数具有多种词性的词计为一项。因此,在统计时,将Lexique3词表中相同拼写的词目词条合并,条目的频率之和作为统一的词目词频。同时,更正部分高频词的词目标注错误,筛选有效的短语,最终得到的词表含45 512个词目,125 646个词条,1117个短语。对 Flelex和Gougenheim词表也作类似处理。
对教学大纲词表进行如下预处理:更正了存在的拼写错误;去除了重复收录的单词;将相同单词的不同形式归并为Lexique3中的词目。因此得到的单词数目与各大纲中标明的数目略有差异。“基础大纲1”为第一学年应掌握的积极词汇,“基础大纲1+2”为第一、二学年应掌握的积极词汇,“基础大纲全”为基础大纲中所有词汇。
3.1 统计覆盖率的方法
统计覆盖率时,词表中的词组与自反动词按照其中去除高频虚词之后的单词计算。
表1是根据Lexique3词表统计出的词频排名前15 000的词目在每1000词层级时,分别在Lexique3书面文本语料库中的覆盖率:
表1:排名前8000的词目每1000词层级在Lexique3书面文本语料库中的覆盖率
由表1可见,词频最高的1000个词目的出现次数之和占语料库所有单词总数的80%以上。据博多(Baudot)在 22 000 词条,1 040 150 词次,800 份语料基础上对法语词汇的计量,使用频率最高的不到3000词在语料库中占比为90%[12]。本次采用的Lexique3词表得到的数据与之相符,较为可信。
词表中词目词频排名5000以外的词汇的百万词词频均小于10,彼此数值差距较小,为中低频词,在不同词表中排名可能会随语料库内容不同而有较大变化。例如地名pékin在Lexique3中排名在14 000以外,但对于中国学生,这是较早接触到的高频词。
表2:教学大纲词表分别的词目数及在Lexique3语料库的覆盖率
以上词表在Lexique3词库中覆盖率较低。一方面,是因为该语料库中为原版法语小说,难度较高。另一方面,是因为Lexique3中部分高频词不在大纲词表中,其中包括au,du等缩合冠词。高年级大纲中缺少et,de,quoi等高频词,而仅et一个词的百万词词频率就为20 879.73,覆盖率为2.29%。
为提高由词表所得生词的准确性,按以下方法,在未覆盖的词中排除对读者不造成或造成较小阅读障碍的词。首先,使用高频虚词作为停用词表。其次,由于人名、地名等专有名词容易结合上下文得知其所指对象为人物或地点。百以内的数词在第一学年就已习得,但词表中易疏漏(如高年级大纲中缺少deux这个高频数词)。因此,将人名、地名、百以内的数词和序数词作为专有名词表。此外,其他在句首以外位置都以大写字母开头的单词也视作专有名词。再次,在Lexique3词表中找出拟声词、感叹词。余下的单词视为词汇量与该词表相符的学生的生词,统计生词率。
3.2 词表在教材和分级阅读材料等语料库中的覆盖率和生词率
测试文本分为4类。第一类是教材,选取北京外国语大学1992年版《法语》1—4册(以下简称北外法语)和《法语综合教程》1—4册(以下简称综合教程);第二类是课外分级读物,采用上海外语教育出版社法语分级注释读物丛书(以下称分级读物)中A1到B2的4个难度各1册简写本:《美女与野兽》《小法岱特》《环游世界80天》和《巴黎圣母院》;第三类是高年级大纲中推荐的原版小说:《小王子》和《包法利夫人》;第四类是新闻,采用5个新闻网站各1篇不同主题的文章。
首先在教材语料库中测试各词表的覆盖率和生词率是否符合课本的难度级别顺序(表3)。
根据表3可知,判断文本难度时,用停用词表和专有名词等词表修正后的生词率的效果好于原始词表的覆盖率。如高年级大纲在两套教材中的2册、3册覆盖率都高于第1册覆盖率,而用所有词表的生词率判断,两套教材的难度都符合相应编排的顺序,且数值之间呈阶梯状差异,分界清晰。说明生词率可作为衡量文本单词难度的有力标准。
除Lexique3-8K和Gougenheim词表显示北外法语的3册、4册生词率比综合教程相应册数略高外,其他词表都显示,综合教程每册难度高于北外法语相应册数。而综合教程1和2对应法语专业一年级第一、二学期,3和4对应二年级第一、二学期。综合教材难度可能明显高于目标读者水平。这一现象还可归因于北外法语编写时间与教学大纲的年代相近 (基础大纲参考的教材中虽没有列出这一版本,但有1962年和1980年的北京外国语学院版《法语》),因此两者的词汇重合度高。
表3:教材语料库的覆盖率和生词率
此外,根据以上结果,可沿用英语的相关研究成果,将5%的生词率作为是否能理解文本的重要指标。掌握基础大纲1的学生,阅读北外法语1时生词率小于5%,学会基础大纲2后,阅读北外法语2的生词率也在5%以下,掌握全部基础词汇后,可独立阅读北外法语3的大部分课程(表中仅列出整册书平均值,实际在16课中有6课生词率超过5%)。这与教学经验较一致。
再以综合教程4第一课Texte A的生词为例,测试各词表辨别生词的能力(表4)。
其中,amoureux, attaque,échange, promesse 和royaume仅在Gougenheim中未出现,cours和fois仅在Flelex的两级词表中未出现,chasseur,enfer和pied仅在基础大纲中未出现,établir仅在高年级大纲中未出现,corde和livrer仅在课后生词表中被列为生词。这些都是难度相对较低的单词。
而 archet,caisse de résonance,montreur d’ours,se désaltérer,escopette 这样在绝大多数甚至所有词表中都未出现的生词,确为文中最难的一批单词。此外,rêveur和violoniste这样的单词尽管没有出现在部分词表中,但与它们相同词族的rêve和violon却在词表,显示出以词目为单位选词的局限性。
可见,靠单个词表或专家意见选出生词,难免会出现疏漏和有争议的情况。在选用的词表中,Gougenheim词表由于年代较早,效果明显比其他词表差。
接下来,再测试各个词表在分级读物、小说和新闻语料库中的覆盖率和生词率(表5)。
在使用基础词表和Gougenheim判断分级读物文本难度时,A1的生词率略高于A2,而其他词表的结果都符合该系列的分级顺序。比较这两篇文章不在基础大纲而在高年级大纲的单词,A1的690个类符中有40个,A2的704个类符中有44个,相差不大。但A1中fée出现 9 次,monstre出现 9 次,épouser出现 8 次,而A2中此类单词仅sorcier出现4次,所以整体占比小于A1。对于单词量与基础词表相一致的读者而言,A1和A2这两册读物中的生词比例可能正如生词率所显示的,A1略高于A2。当单词量扩展,识别A1中反复出现的与童话相关的单词后,A1的实际单词难度仍低于A2。
表4:综合教程4第一课Texte A按不同词表选出的生词
表5:阅读材料、小说和新闻语料库的覆盖率和生词率
所有词表中,《小王子》的生词率都在B1和B2级之间,《包法利夫人》则明显难于B2等级,与教学经验相一致。
《包法利夫人》和新闻语料库的对比结果显示,除Flelex-4K词表中两者生词率相当,Flelex-8K中前者生词率高于后者外,其他词表均判定前者生词率小于后者。这一结果可能说明,Flelex词表中收录的单词更贴近时事,而其他词表由于语料来源文学作品比例较高,对文学作品的覆盖率更高。在查验生词时发现,新闻语料库中在Flelex-8K而不在高年级大纲的词有36个,其中包括 migration, législatif, gestion, logiciel等与政治、经济、科技相关的单词。《包法利夫人》中在高年级大纲而不在Flelex-8K的词有646个,其中postscriptum,ligature,étymologie,laminoir 等单词都专业性较强。证实了这一推断。
词汇是语言教学的基础组成部分,对阅读等技能的提高尤为重要。相关的语料库建设和研究能极大促进词汇教学的科学性和效率。在验证多个词表在不同语料库中的覆盖率和生词后,证实了这种方法对评估文本难度的有效性,以及将5%的生词率作为能否读懂法语文本标准的可行性。
数据也显示,无论是语料库生成的词表,还是综合其他词表成果由专家审阅制定的教学大纲词表,都有不同程度遗漏高频或较新单词的情况,还不可避免地存在少量错误。
表6中的科技词汇,在Lexique3词表中由于语料库来源为2000年之前的文本,所以排名靠后,而基础大纲和高年级大纲的编写年代较早,缺失其中的三个单词。在较晚编写的《大学法语教学大纲》第2版和《大学法语课程教学要求》中,则计入了internet。
表6:部分科技词汇在英语和法语词表中的对比①表中英语排名采用Paul Nation(2014)中使用的25个按词频排序的1000词族表,该资源可在http://www.victoria.ac.nz/lals/staff/paul-nation.aspx下载。
为提高词表的质量和编写时的效率,需不断关注最新研究成果,结合多个来源,应用软件统计的优势,着重审阅来源中不一致的地方,并查漏补缺,才能得到更符合实际的结果。
在编写词表和统计生词时,以词目为单位判断生词难度存在两个主要问题。一方面,忽略了不规则动词等部分单词的形态变化对读者的难度。一年级学生认识être的直陈式动词变位,但不认识其虚拟式形态。另一方面,会将与高频词词根相同的低频词误认为难词。如productivité在Lexique3词表中百万词词频仅为0.34,排名23 963,而与它同源的production词频则为14.59,排3988位,为常用词。
对专有名词的处理,也不应一概而论。大多数情况下,人名、地名等信息不影响文章内容。但在新闻等特殊情况下,如对相关背景没有了解,则会读不懂文章。在科研等文本中,特殊的专有名词更是内容的核心,不应笼统地不计入生词。
此外,词汇计量中词组的处理也是难点。在对文本分词时,难以将词组与其他同时出现的单词区分。在通过语料库统计得来的词表中,既有parce que,d’accord等真词组,也有la plupart des,la plupart du这样的假词组。
尽管词汇计量已有较长历史,在实际应用中,由于语言本身存在大量不规则现象、语料本身的质量参差不齐、开发语料库有一定专业门槛、专家精力有限且主观性强等条件局限,现存词表仍需进一步改良和拓展,并应当与语料库方法和计算机辅助相结合,以适应学生需通过互联网等方式大量阅读符合其知识水平的同时代真实语料的迫切需求。
参考资料:
[1]NATION.How much input do you need to learn the most frequent 9,000 words?[J].Reading in a Foreign Language,2014,26(2):1-16,2.
[2]HIRSH D, NATION.What vocabulary size is needed to read unsimplified texts for pleasure?[J].Reading in a Foreign Language,1992,8 (2):689-696,690.
[3]王立非.计算机辅助第二语言研究方法与应用[M].北京:外语教学与研究出版社,2007:45.
[4]吴文彦,韩亚微.《经济学人》作为大学非英语专业学生阅读材料的易读性研究[J].北京印刷学院学报,2013,21(3):33-36.
[5]关虹.基于语料库的法语语言能力评价[J].解放军外国语学院学报,2004,27(6):55-58,56.
[6]程依荣.法语词汇学导论[M].北京:外语教学与研究出版社,2002:190-192.
[7]NEW B,et al.Une base de données lexicales du franC,ais contemporain sur internet:LEXIQUE[J].L'Année Psychologique,2001(101):447-462,453.
[8]TACK A,et al.Modèles adaptatifs pour prédire automatiquement la compétence lexicale d’un apprenant de franC,ais langue étrangère In Actes de la 23e Conférence sur le Traitement Automatique des Langues Naturelles [C].Paris:TALN,2016:4-8.
[9]FRANCOIS T,et al. FLELex:a graded lexical resource for French foreign learners In the 9th International Conference on Language Resources and Evaluation[C].Reykjavik:LREC,2014:26-31.
[10]高等学校法语专业基础阶段教学大纲[M].北京:外语教学与研究出版社,1988.
[11]王文融.高等学校法语专业高年级法语教学大纲:试行[M].北京:外语教学与研究出版社,1997.
[12]SEGUIN H.Fréquences d’utilisation des mots en fran C,ais écrit contemporain.Jean Baudot,1992, Les Presses de l’Universitéde Montréal[J].Revue québécoise de linguistique,1993,22(2):179-181.
10.14180/j.cnki.1004-0544.2017.12.011
H32
A
]1004-0544(2017)12-0068-07
刘潇(1985-),女,湖北武汉人,武汉大学外国语言文学学院法语系博士生。
责任编辑 李利克