基于词汇特征与语法模式的汉语二语写作质量动态发展研究

2022-06-06 13:24王浩学程勇胡晓清
华文教学与研究 2022年2期
关键词:语料库

王浩学 程勇 胡晓清

[关键词] 写作质量;词汇多样性;词汇复杂性;语法多样性;语法复杂性;语料库

[摘  要] 本研究以韩国在华学习者汉语中介语语料库3个年级596名学生共6789条有效作文语料为研究对象,以词汇特征及语法模式为测量指标考察韩国学习者汉语作文水平的动态变化。词汇特征指标包含词汇多样性、词汇复杂性两个维度,共8个指标;语法模式指标包含语法多样性、语法复杂性两个维度,共12个指标。本文创新性地将《国际汉语教学通用课程大纲》(修订版)248条各级语法模式转化为正则表达式,使用SPSS等软件对作文语料进行大规模精细考察与分析。研究结果表明,词汇特征指标中,词汇多样性2(词种数)及词汇复杂性2(高级词种数)与年级分布具有最高的相关性。语法模式指标中,语法多样性2(语法项种数)和语法复杂性2(高级语法项种数)与年级分布具有最高的相关性。本文进一步分析了词汇与语法各指标的相关关系,讨论了词汇紧密性与语法松散性的特征及修辞化表达对指标的影响,并对未来汉语二语词汇及语法教学提出反思和建议。

[中图分类号]H195.3  [文献标识码]A  [文章编号]1674-8174(2022)02-0020-12

1. 引言

近年来,对于汉语二语写作质量的语言特征定量研究逐渐引起了学者的重视。作文语言特征的考察指标主要可以分为词汇类指标和句法类指标。在词汇类指标方面,常用的测量方式有词汇丰富度(lexical richness,LR)、词汇密度(lexical density,LD)、词汇复杂度(lexical sophistication,LS)、词汇独特性(lexical originality,LO)、词汇多样性(lexical variation,LV)、词汇正确性(lexical accuracy,LA)等。吴继峰(2016)发现词汇变化性、词汇复杂性、词汇密度、词汇错误率四个自变量构成的组合能解释英语母语者二语汉语写作成绩总变异的46.2%。王艺璇(2017)发现词种数、词汇错误比重和常用词数三个参项可以解释作文成绩92.8%的变异。张娟娟(2019)发现,词汇丰富性可以解释汉语二语作文成绩71.4%的变异。在句法类指标层面,Jiang(2013)考察了T单位长度、无误T单位长度和无误T单位百分比三个指标测量英语母语者汉语二语写作水平的效度,发现只有无误T单位百分比可以有效区分出不同汉语水平。吴继峰(2016)发现T单位数量、T单位长度、T单位分句数和话题链长度不是测量英语母语者汉语二语写作句法复杂性发展的有效指标,而话题链数量、话题链分句数和零形成分数量才是有效指标,吴继峰(2019)进一步对韩语母语者的研究表明,话题链数量、话题链分句总数、零形成分数量、T单位长度等4个指标既能有效区分韩国学生的汉语水平,也能有效预测其写作质量。Yu(2020)进一步丰富了话题链特征,包括话题链单元、话题链、复杂话题链。朱慧敏(2021)回顾了句法复杂性指标的发展进程,指出“二语书面语句法复杂性测量指标研究由单纯的粗粒度指标向粗细粒度指标结合的发展趋势,且对细粒度指标的研究日益细化和深入”。吴继峰(2021)对比了不同颗粒度的句法复杂度指标对写作质量的关系,将话题链数量、话题链分句总数和零形成分数量作为粗粒度指标,将复杂名词短语比率、复杂名词短语总个数、名词前复杂修饰语总长度作为细粒度指标,其中复杂名词短语比率可以解释记叙文写作成绩总变异23. 3%,名词前复杂修饰语总长度可以解释议论文写作成绩总变异的18. 8%,该研究结论证明了名词短语复杂度细粒度指标是预测记叙文和议论文写作成绩的有效指标。

以上研究均为汉语二语教学作文质量的指标优化作出了探索性贡献,但是仍存在一些可待优化的方向:一是所研究的学生语料样本数量有待进一步扩充,语料内容有待进一步丰富。在汉语二语教学作文质量相关研究中,往往只对少量作文样本进行分析,且作文主题有限;二是汉语二语作文质量的历时考察十分缺乏,汉语二语学习过程中的动态变化应当被进一步重视;三是作文质量指标有待进一步精细化、本土化、数字化。在大多数研究中,T单位、话题链等粗粒度指标只是从一个较为模糊的宏观角度去分析作文质量,后来出现的细粒化指标,如短语比率等,虽较之前的粗粒度指标具有更细化的考察标准,但仍不能精细化考察汉语学习者究竟掌握了哪些具體的知识点,掌握的具体程度如何,缺乏与汉语二语语法教学具体内容的联系。

针对上述不足,在语料选取方面,本研究以韩国在华学习者汉语中介语语料库为语料来源。本研究充分发挥该语料库优势,用庞大的作文语料数量提高结论的可靠性,用年级分类的历时性作文语料考察学生在汉语二语学习过程中的动态变化。在指标选取方面,本研究创新性地构建语法搭配模式正则代码库,精细化考察语法模式的多样性与复杂性。汉语缺乏形态变化,主要语法手段是语序和虚词。基于汉语的此种特点,汉语语法可以归纳为众多的语法搭配模式,《国际汉语教学通用课程大纲》(修订版)(2014,以下简称《大纲》)的常用汉语语法分级表将语法项进行了归纳和总结,在汉语二语教学实践中,教学的目的正是让学生掌握众多具体的词汇知识点与语法知识点并应用于交际。作文中具体语法项的精细考察具有很大意义,但大部分汉语作文质量指标研究往往忽略了对于具体知识点的考察与分析,采取较为笼统的指标,如T单位、话题链等,缺乏符合汉语语法特点的本土化研究指标。为了弥补此方面的空白,本研究基于《大纲》常用汉语语法分级及词汇分级表的结构形式,利用计算机正则表达式进行转化并构建一个语法搭配模式正则代码库。通过编程对作文语料中出现的语法项进行检索统计,将学生所掌握的语法点模式进行量化分析。

2. 研究设计

2.1 研究问题

(1)“词汇特征”和“语法模式”的测量指标有哪些?哪一些指标能够有效反映学生的学习效果?

(2)随着学生年级的增长,哪些指标变化幅度最大?它们与年级的相关性如何?

(3)词汇特征各指标与语法模式各指标之间有无相关性?呈现怎样的关系?

(4)学生对于具体难度等级的词汇和语法的实际掌握情况如何?每一等级的词汇和语法呈现怎样的变化趋势?

2.2 语料来源

本研究语料来源于“国别化汉语中介语语料库库群”中的“韩国在华学习者汉语中介语语料库”(胡晓清,2018a、2018b)。该语料库主要有以下几大特点:语料层次分明、递进性强,分为初级、中级、高级三个大层级;语料控制严,真实性强。真实性包括两层含义,一是文字的真实性,即收录的语料忠实原来的语言文字面貌,对收录语料基本遵从“就错录错”原则,全面反映学生实际语言表现。二是水平的真实性,即收集的语料是学习者真实语言水平的反映;语料采集具有连续性,动态性强。语料库既可以对同学段学习者的语料做横向跟踪,也可以对同一学生、同一学习群体在不同学段、不同年级做纵向跟踪。优化后的语料库基础数据如下表:

2.3 基于正则的语法模式库构建及语料预处理

语法模式库由《大纲》中的语法项转化而成,语法项分为六个难度级别,共248条语法项。语法模式涵盖了《大纲》中所要求汉语二语学习者掌握的基本语法知识,语法项转化为正则代码的示例如下:

在对所有语法项进行正则转化后,可以划分出生语料语法模式库与熟语料语法模式库。生语料语法模式库中的语法知识不需要包含词性信息,可直接在生语料库中检索,如上表中并列复句的正则表达式。熟语料语法模式库的语法知识包含词性信息,需要在分词标注的语料库中检索,如上表中程度副词的正则表达式。语法模式正则代码库将具体的语法知识进行形式化表示,可以直接追踪某一个、某一级语法点在学习过程中的动态变化,对考察学生的学习效果具有极大意义。

在语料的预处理上,本研究采用“机注人校”方法,首先使用北京大学分词与词性标注工具包进行词性标注处理,再进行人工校对与修正。人工修正的主要内容是对标注词性差异格式的修改,使其与正则代码库标注规范保持一致。在生熟语料处理后,设计相关算法,将学生语料写入相关文件,包含每条语料的姓名、年级、字数、字种数、词数、词种数等基础信息,并基于《新汉语水平考试(HSK)词汇》(修订版,2012)及本研究所构建的语法搭配模式正则表达库加入词汇与语法等相关信息。根据前人研究,语料字数长度会对各指标产生较大影响。本研究首先利用SPSS 26.0软件对字数按照3个标准差筛选数据,以减少文本长度对各指标的影响程度,最终得到3个年级共6789篇有效作文语料。之后使用SPSS软件进行数据计算得出词汇特征与语法模式的相关指标,并进行相关的统计分析。

2.4 测量指标及相关操作定义

2.4.1 词汇特征指标

词汇多样性(lexical variation)是指文本中词汇的使用范围。在二语习得作文质量的相关研究中,作文总词数和总词种数因其操作性强、效度高在词汇特征测量中非常多见(Lu,2012),而最常用的词汇多样性测量工具是类符形符比(TTR,type-token ratio),但这个指标极易受样本长度影响,文本越长,类符形符比就会降低(Malvern等,2004:3-14)。为了弥补这个缺陷,不同学者对TTR指标进行进一步优化,Guiraud(1960)提出了RTTR(Root Type Token Ratio),利用G值计算词汇多样性。Carroll(1967)提出了平方根类符形符号比CTTR(Corrected Type Token Ratio),将分母转化为两倍形符的平方根。对数类符形符比(LogTTR,Bilogarithmic TTR)和优博指数(Uber Index)也具备较好的测量效果。Lu(2012)对比了20种词汇多样性测量手段,发现总词种数和平方根TTR(总词种数/[总词数])是信度最高的手段,而优博指数是国内英语和汉语二语词汇多样性较为常用的词汇多样性测量手段(鲍贵, 2008; 王海华, 2012; 吴继峰, 2016)。本文采用四种词汇多样性测量手段:

词汇多样性1 = 总词数

词汇多样性2 = 总词种数

词汇多样性3 (RTTR) =[总词种数总词数]

词汇多样性4 (Uber   index )=(log总词数)2/(log总词数-log总词种数)

词汇复杂性(leixcal sophistication,LS),用于测量“学习者言语产出中相对少见和高级词汇所占的比例”(Read,2000:203)。《新汉语水平考试(HSK)词汇》(修订版,2012)将汉语二语学习者所需要掌握的词汇依据难度水平划分为六级,本研究基于此分级词表,将四到六级词汇作为高级词汇,分析以下四个指标:

词汇复杂性1 = 高级词数

词汇复杂性2 = 高级词种数

词汇复杂性3 = 高级词数/词总数

词汇复杂性4 = 高级词种数/词总种数

2.4.2 语法模式指标

在语法指标的选取方面,本研究并未采用以往大量使用的粗粒度指标。典型的粗粒度指标如Hunt(1996)提出的T单位,Wolfe-Quintero K等(1998)指出比率方式对句子复杂性测量最具有效性,并建议使用其它基于T单位的子句比率等指标来衡量句法复杂性。上述粗粒度指标在汉语二语作文质量研究中较大范围应用与发展,但此类指标具有明显的局限性,虽然可对句法复杂性进行整体性测量,但缺乏对语言使用细节的具体考察,精度较低,对指标结果解释较为模糊,难以与二语教学过程紧密关联。近期具有较细颗粒度的测量指标开始涌现,测量指标逐渐精细至短语层面,Crossley (2014)、Paquot (2019)、吴继峰(2021)等研究均表明复杂短语层面的细粒度指标在测量二语写作质量和区分学习者语言水平上具有较好效果,但复杂短语的考察方式也过于泛化,难以精准契合汉语的语法特点,从而难以对二语教学实践进行具体指导。本文创新性地采用基于漢语语法模式库的细粒度指标,将语法模式指标分为语法多样性与语法复杂性,将语法多样性(grammatical variation)定义为文本中所使用的语法模式的范围。语法多样性越高,表明文本包含更多样的语法结构,具备更丰富的语法知识。本研究中语法多样性以具体的语法知识点的匹配数目及种数进行精细考察,该指标的匹配逻辑与词汇指标相近,均是对具体的语言知识进行检索与统计。前人研究中未有采用此种模式考察语法多样性的先例,本文类比词汇多样性指标,将RTTR、Uber index等计算方式用于语法多样性的考察,采用以下8种语法多样性测量指标:

语法多样性1 = 总语法项数

语法多样性2 = 总语法项种数

语法多样性3(RTTR)= 总语法项种数[总语法项数 ]

语法多样性4(Uber index)=(log总语法项数)2/(log总语法项数-log总语法项种数)

语法多样性5= 总语法项数/总字数

语法多样性6= 总语法项数/总词数

语法多样性7= 总语法项数/总分句数

语法多样性8= 总语法项数/总整句数

与词汇复杂性的定义与操作类似,本文中语法复杂性(grammatical sophistication)指文本中相对少见和高级的语法项所占的比例,语法复杂性越高,表明该篇语料使用的高级语法项越多,语法知识难度更高。《新汉语水平考试(HSK)词汇》(修订版,2012)将汉语二学习者所需要掌握的语法项依据难度水平划分为六级,本文将其中4-6级语法项作为高级语法模式,分析以下四个语法复杂性指标:

语法复杂性 1 = 高级语法项数

语法复杂性 2 = 高级语法项种数

语法复杂性 3 = 高级语法项数/语法项总数

语法复杂性 4 = 高级语法项种数/语法项总种数

3. 研究结果

3.1 分级词汇与语法项历时性描述

对韩国在华学习者汉语中介语语料库进行数据预处理,得到6789条作文语料,使用SPSS 26.0进行基础数据描述性统计,所得结果如下表:

由表3可知,五种语法单位均值均随着年级的升高而增加,字数变化幅度最大,整句变化幅度最小。这种现象也与各级语法单位的构成大小与层级特点有关,随着年级的升高,学生作文的字数、词数、句数都呈增长趋势,这也符合学生学习过程的客观事实与规律。

《新汉语水平考试(HSK)词汇》(修订版,2012)将汉语二学习者所需要掌握的词汇依据难度水平划分为六级,本研究基于此分级词表,对每条语料进行检索统计,见表4。由表格横向对比得,在同一年级的水平下,词汇用量总是呈现一级向六级递减的趋势,一级词汇使用次数最多,六级词汇使用最少。由表格纵向对比得,同一词汇等级的情况中,词汇用量总是呈现一年级到三年级递增的趋势,一年级使用次数最少,三年级使用次数最多。

《国际汉语教学通用课程大纲》(修订版)将汉语二语学习者所要掌握的语法项依据难度水平划分为六级,本研究基于此分级语法项,将其转化为形式化规则,对每条语料进行检索统计,见表5。该表格规律与表4所示词汇规律类似,由表格横向对比得,在同一年级的水平下,语法项用量总是呈现一级向六级递减的趋势,一级语法项使用次数最多,六级语法项使用最少。由表格纵向对比得,同一语法等级的情况中,语法项用量总是呈现一年级到三年级递增的趋势,一年级使用次数最少,三年级使用次数最多。

3.2 词汇特征各指标分析结果

词汇特征分为词汇多样性与词汇复杂性两个维度,各分四个测量指标,测量结果的描述性数据见表6。

我们结合数据并利用直方图、P-P图、散点图进行正态性检验、线性检验、方差齐性检验,结果显示词汇特征各指标数据接近正态分布,并满足方差齐性,可以进行方差分析、相关分析等统计检验。我们将学生年级作为分组变量,将词汇特征的8种指标的测量结果作为因变量,进行单因素方差分析、经分析得,学生的年级分布对8种指标的影响均极其显著(p < 0.001),如表7所示。

由此可见,词汇特征的8个测量指标均能有效区分出不同年级的词汇多样性与复杂性情况,并且由事后多重比较的结果得,8个指标也可以显著区分一年级与二年级、一年级与三年级、二年级与三年级的词汇水平。在此基础上,本研究进一步研究各指标与年级的具体相关性,详见表8。

由Spearman相关分析得,词汇特征8个指标与学生年级的相关性均极其显著(p < 0.001),且均为正相关关系。在词汇多样性指标中,Spearman相关系数排序为0.259 > 0.255 > 0.249 > 0.248(词汇多样性2 > 词汇多样性3 > 词汇多样性4 > 词汇多样性1),词汇多样性2指标(总词种数)具有最高的相关性(r = 0.259),可以作为词汇多样性的最优指标,四种指标系数相近且均具有极强显著性(p < 0.001),均可作为词汇多样性的检测指标。在词汇复杂性指标中,Spearman相关系数排序为0.386 > 0.352 > 0.344 > 0.267(词汇复杂性2 > 词汇复杂性1 > 词汇复杂性4 > 词汇复杂性3),词汇复杂性2(高级词种数)具有最高的相关性(r = 0.386),可以作为词汇复杂性的最优指标。

3.3 语法模式各指标分析结果

语法模式分为语法多样性和语法复杂性两个维度,其中语法多样性有8个测量指标,语法复杂性有4个指标,测量结果的描述性数据如表9所示。

该数据不满足方差齐性,故进行Kruskal-Wallis检验,以学生年级作为分组变量,语法模式的12种指标的测量结果作为因变量,经分析得,语法模式各指标在不同年级之间的差异均极其显著(p < 0.001),如表10所示。

由此可见,语法特征的12个测量指标均能有效区分出不同年级的语法多样性和复杂性情况,并且由事后多重比较的结果得,12个指标也可以显著区分一年级与二年级、一年级与三年级、二年级与三年级的词汇水平。在此基础上,本研究进一步研究各指标与年级的具体相关性,见表11。

由Spearman相关分析得,语法模式的12个指标均与学生年级的相关性均极其显著(p < 0.001)。在语法多样性指标中,除语法多样性5-7外,其余指标均为正相关。语法多样性各指标Spearman相关系数排序为:0.230 > 0.211 > 0.210 > 0.177 > |-0.135| > |-0.104| > 0.088 > |-0.051|(语法多样性2 > 语法多样性4 > 语法多样性1 > 语法多样性3 > 语法多样性5 > 语法多样性6 > 语法多样性8 > 語法多样性7),各指标均与年级存在显著相关性(p < 0.001),但Spearman相关系数差异较大,其中语法多样性2指标(总语法项种数)具有最高的相关性(r = 0.230),可作为检测语法多样性的最优指标。在语法复杂性指标中,Spearman相关系数排序为0.181 > 0.169 > 0.090 > 0.080(语法复杂性2 > 语法复杂性1 > 语法复杂性4 > 语法复杂性3),语法复杂性2(高级语法项种数)具有最高的相关性(r = 0.181,p<0.001),是检测语法复杂性的最优指标。

3.4 词汇特征与语法模式各指标相关性分析

在完成词汇特征与语法模式各指标与年级分布的历时性分析后,本研究继续探究词汇特征与语法模式各指标的相关性关系。由Pearson相关系数分析得词汇特征与语法模式各指标相关矩阵见表12。

由表可知,词汇各指标与语法各指标绝大部分相关性显著,极小部分相关性不显著,如语法复杂性3分别与词汇多样性1,词汇多样性2,词汇多样性4,词汇复杂性1的关系均不显著。在显著相关的指标中,词汇多样性1与语法多样性1具有最高的相关性(r = 0.973,p < 0.001),这两种指标均比较简单,均以个数为计算指标,不要求限制语法单位,即一篇作文中词汇的个数越多,语法项数目也出现的越多。这种情况符合我们对于语言习得的普遍认知。词汇各指标与语法各指标大部分呈正相关,小部分呈负相关。负相关大多出现在词汇复杂性与语法多样性指标的相关关系中,出现这种现象的原因,我们将在后文展开讨论。

4. 讨论与分析

4.1 词汇特征与语法模式的有效指标

通過前文对词汇特征及语法模式共20个指标的分析,我们可以得出以下结论:在词汇特征方面,词汇多样性与词汇复杂性的所有指标与年级的相关性均极其显著。在词汇多样性指标中,词汇多样性2(总词种数)与年级具有最高的相关性(r = 0.259);在词汇复杂性指标中,词汇复杂性2(高级词种数)与年级具有最高的相关性(r = 0.386)。在语法模式方面,语法多样性与语法复杂性的所有指标与年级的相关性均极其显著。在语法多样性指标中,语法多样性2(总语法项种数)与年级具有最高的相关性(r = 0.230);在语法复杂性指标中,语法复杂性2(高级语法项种数)与年级具有最高的相关性(r = 0.181)。

从实验结果可以看出,种数指标总是具有最高的相关性,可以作为考察汉语二语学习者词汇与语法掌握程度的最佳指标。虽然种数具有最高的相关性,但在词汇方面,各指标相关系数差异不大,也均可作为测量指标;在语法方面,各指标相关系数则差异较大,并且部分指标与年级呈现负相关关系,这一情况将在后文中讨论。

4.2 词汇紧密性、语法松散性及修辞化表达

语言习得是一个多层次、多维度不断互动的动态系统,词汇习得和语法习得是其重要的子系统。动态系统理论(dynamical system theory)的一个重点探讨问题是子系统的发展规律及它们之间的关系,因此,Van  Geert(1994)把同步增长的变量称为“共同增长因子”(connected grower),其它的则是相互竞争的关系(competitor)。通过前文的分析结果可以看出,在历时的二语习得过程中,词汇习得与语法习得两个子系统在指定长度的语法单位中并非共同增长,而是相互竞争,形成了词汇紧密性和语法松散性的两种相反趋势。我们已经得知,年级分布与各指标均存在显著相关性,但引人注意的一点是,词汇多样性与词汇复杂性的所有指标、语法复杂性的所有指标及语法多样性的前四个指标均与年级呈正相关,但是语法多样性5-7三个指标与年级分布呈负相关。我们继续对词汇指标与语法指标进行相关性分析,发现所有指标中,只有语法多样性5-7指标与年级分布呈负相关,这种现象的原因是因为随着汉语二语学生年级的提高,其作文呈现词汇紧密性与语法松散性两种趋势。由前文的指标介绍可知,语法多样性5-7的计算方式如下:

语法多样性5 = 总语法项数/总字数

语法多样性6 = 总语法项数/总词数

语法多样性7 = 总语法项数/总分句数

以上三种指标均是以某类语法单位作为分母,分别指平均每个语法单位里会出现的语法项的数目。随着学生年级的升高,语法单位的增长速度和语法项的增长速度是不同步的,前者速度远远高于后者,这就是词汇紧密性与语法松散性。以作文字数为例,随着年级升高,学生作文的字数迅速增加,在本研究的语料库中,平均每升高一个年级,字数增加54.64,但是语法项并没有如此大的增长量。此种特点对语法多样性5(以字数为分母)的影响最大,导致其呈现显著的负相关。同理,以词、分句作为指标分母的原理与此相同,但这几种语法单位之间也具有差异,显然字、词、分句的增长速度也是递减的,字数增加的最快,词数次之,到了由前者组成的句子层面增长速度就趋于缓慢,所以这三种指标的负相关系数也呈现递减。同时,当分母单位为整句时(语法多样性8),指标与年级分布呈现微弱正相关(r = 0.88,p < 0.05),这也是由差异的增长速度所决定的。

词汇紧密性与语法松散性的本质,是组合关系与聚合关系,词汇是语法聚合中的可更替材料,可以无限填充而句子语法结构始终稳定。本研究中以具体的语法项作为匹配对象,其本身就是一种聚合关系。以语料库的两个句子为例:

(1)星期五/t ,/w 敬爱/v 的/uj 老师/n 让/v 我/rr 写/v 作文/n ,/w 我/rr 很/d 开心/a. /w

(2)星期五/t 美丽/a 善良/a 的/uj 老师/n 让/v 我/rr 写/v 作文/n,/w 我/rr 感到/v 很/d 开心/a. /w

根据前文的算法进行检索与统计,可以得到第一句中共17个字,11个词,3个分句,1个整句。第二句共21个字,13个词,2个分句,1个整句。虽然语法单位的特征有所差异,但是两个句子包含的语法项是完全相同的,如下表所示:

仅从语法项数目来看,两句话所包含的语法点完全相同,每句共出现5次语法项,但因其语法单位长度不等,所以会影响语法多样性的部分指标。以语法多样性5为例,第一句的计算结果为0.294,第二句的计算结果为0.238。两式的分子均为5(语法项数),分母分别为17和21(字数),由此导致了随着作文长度的增加出现语法模式稀疏的现象。同理,语法多样性6与语法多样性7也出现类似情况。

文本长度的增加为何没有促进语法模式的增加呢?通过观察与分析,我们可以看出,两句的差别主要在于修辞的差异,同样修饰“老师”这个词,第一句用“敬爱”,第二句用“美丽善良”;同样表示开心,第一句用“我很开心”,第二句用“我感到很开心”。而这些搭配差异是不在《大纲》所规定的语法项之列的,所以无法检测为语法模式。这也解释了采用语法多样性5-7的指标会出现与年级呈现负相关的原因,随着年级增长,学生会采用更多样化的文字表达,这些文字表达已经超出了语法模式的范畴,但又不断增加着文本的长度,语法模式的数量几乎停止增长,但语法聚合中的可更替的词汇材料可以无限填充而句子语法结构始终稳定,如果某一个学生用“美丽善良又受人尊敬”作为“老师”的修饰语,那么对这种指标的干扰作用会更大。这种加强语言表现效果的语言形式不属于固定的语法模式,是一种修辞模式。这要求我们在研究汉语二语习得的量化分析中,要着重研究学生的修辞化表达应该如何设立检测标准、如何将修辞模式也纳入检测指标等问题。换一个角度思考,暂时不论汉语作为第二语言的情况,仅对于汉语母语作者的文本,我们是如何评价一篇文章好坏的?这里面有深层次的认知因素,但在语言表达的形式层面,修辞化表达是一个不可缺少的考察维度。汉语二语习得的过程也是如此,修辞化表达是高阶写作的必经之路,根据本文语法模式构建方式,汉语修辞模式也可以通过计算机进行形式化表示,构建修辞模式库并设计指标进行量化分析,这方面的研究有待继续深化。

4.3 高级词汇与语法知识的汉语二语教学启示

通过前文分析,我们发现高级词汇与语法项始终只占学生词汇和语法项总数的很小一部分。从词汇方面看,一年级平均高级词汇占比为16.83%,二年级平均高级词汇占比为21.52%,三年级平均高级词汇占比22.90%。这也与吴继峰(2016)的结论“英语母语者的汉语产出性词汇量严重不足,即使到了高级阶段,写作仍以甲、乙级词为主”相类似,虽然汉语二语学习者处于高级学段,但高级的词汇知识并未取得较好的学习效果。从语法方面看,一年级平均高级语法项占比2.36%,二年級平均高级语法项占比2.43%;三年级平均高级语法项占比2.57%。相比于高级词汇,高级语法项占比很低,增长速度也极低,表明学习者在学习过程中对高级的语法知识的掌握程度处于停滞状态。

对于这种现象,我们一方面要从标准制定的角度反思,一方面要从标准贯彻的角度反思。从标准制定的角度来看,词汇特征的分级标准来源于《新汉语水平考试(HSK)词汇》(2012),语法模式的分级标准来源于《大纲》(2014),这两个分级标准均来自于权威机构,但仅从本文的研究来看,高级词汇的使用量较少,即使是高年级学生,平均每篇作文也仅使用5.1个六级词汇。高级语法项的使用量则更少,高年级学生平均每篇作文仅能出现0.23个六级语法项,这表明绝大多数学生在写作中不会采用六级语法项。由此可见,学生对于《大纲》所要求的高级词汇和语法知识掌握程度较低,汉语二语习得过程中语法知识的标准制定应当更加贴合汉语二语教学的实际状况,不断完善汉语二语词汇及语法知识的难度分级标准。

从标准贯彻的角度来看,汉语二语教学者应当更加关注高级词汇与语法的教学效果,让学生在掌握了初级词汇语法知识的基础上,加大高级词汇语法知识的教学力度,采用有效的教学方式,让学生突破初、高级之间的“瓶颈”,真正掌握高级的词汇、语法知识。不能只让学生的作文水平仅仅停留在能够传递信息的初级层面,而要紧扣大纲要求,扩展相应的知识,不断提升学生的汉语水平。

5. 结语

本文是基于“国别化汉语中介语语料库库群”中的“韩国在华学习者汉语中介语语料库”的实证性研究,以词汇特征及语法模式两个方面考察韩国汉语学习者汉语作文水平的动态变化。本文创新性地将各级语法模式转化为正则表达式,使用SPSS等软件对作文语料进行大规模精细考察与分析。研究结果表明:词汇特征指标中,词汇多样性2(词种数)及词汇复杂性2(高级词种数)与年级分布具有最高的相关性。语法模式指标中,语法多样性2(语法项种数)和语法复杂性2(高级语法项种数)与年级分布具有最高的相关性,并且两个维度的各指标之间大部分具有显著相关性。大部分指标与年级分布呈正相关,小部分呈负相关。本文对于负相关指标进一步分析,讨论了词汇紧密性与语法松散性的两种趋势,并对汉语二语作文质量指标的完善提出建议。

未来的汉语二语研究还需要学界对作文质量指标进行进一步拓展。本文所使用的语法模式库是符合汉语特点的细粒度指标,具有本土化与精细化的特点,有助于对具体的语法知识进行追踪考察,对于学生写作质量的分析与汉语二语教学的效果反馈具有很大意义。通过语法模式各指标的分析,发现修辞化表达也是写作质量不可忽略的因素之一,而现在修辞化表达的定量分析研究较为缺乏,于此提出了修辞模式的范畴,在下一步的研究工作中应进一步对其进行研究和分析。

[参考文献]

鲍 贵 2008 二语学习者作文词汇丰富性发展多纬度研究[J].外语电化教学(5).

段胜峰,李 森 2014 对外汉语二语教学研究的进展与述评[J].西南大学学报(社会科学版)(6).

胡晓清 2018a 国别化汉语中介语动态语料库建设理念、实践与前瞻[J].山东师范大学学报(人文社会科学版)(5).

——— 2018b 国别化汉语中介语动态语料库建设与研究[M]. 北京:中国社会科学出版社.

孔子学院总部,国家汉办 2012 新汉语水平考试(HSK) 词汇修订版[EB/OL]http://www.chinesetest.cn/godownload.do#/.

孔子学院总部,国家汉办 2014 国际汉语教学通用课程大纲[M]. 北京语言大学出版社.

商务印书馆, 国家汉办/孔子学院总部 2010 新汉语水平考试大纲[M].

王海華,周 祥 2012 非英语专业大学生写作中词汇丰富性变化的历时研究[J]. 外语与外语教学(2).

王艺璇 2017 汉语二语者词汇丰富性与写作成绩的相关性——兼论测量写作质量的多元线性回归模型及方程[J]. 语言文字应用(2).

吴继峰 2016 英语母语者汉语写作中的词汇丰富性发展研究[J].世界汉语教学(1).

吴继峰,陆小飞 2021 不同颗粒度句法复杂度指标与写作质量关系对比研究[J].语言文字应用(1).

吴继峰,周 蔚,卢达威 2019 韩语母语者汉语二语写作质量评估研究——以语言特征和内容质量为测量维度[J].世界汉语教学(1).

张娟娟 2019 东南亚留学生记叙文词汇丰富性发展研究[J].云南师范大学学报(对外汉语教学与研究版)(1).

郑咏滟 2011 动态系统理论在二语习得研究中的应用——以二语词汇发展研究为例[J]. 现代外语(3).

朱慧敏,唐建华 2021 句法复杂性测量指标研究:回顾、反思与展望[J].山东理工大学学报(社会科学版)(1).

Carroll, J. B. 1967 Foreign language proficiency levels attained by language majors near graduation from college[J]. Foreign Language Annals 1(2).

Crossley, S. A. & McNamara, D. S. 2014 Does writing development equal writing quality? A computational investigation of syntactic complexity in L2 learners[J]. Journal of Second Language Writing 26.

Guiraud, P. 1959 Problèmes et Méthodes de la Statistique Linguistique[M]. D. Reidel.

Hunt, K. W. 1966 Recent measures in syntactic development[J]. Elementary English 43(7).

Jiang, W. 2013 Measurements of development in L2 written production: The case of L2 Chinese[J]. Applied Linguistics 34(1).

Jin, H. G. 2007 Syntactic maturity in second language writings: A case of Chinese as a foreign language (CFL)[J]. Journal-Chinese Language Teachers Association 42(1).

Lu, X. 2012 The relationship of lexical richness to the quality of ESL learners oral narratives[J]. The Modern Language Journal 96(2).

Malvern, D., Richards, B., Chipere, N., & Durán, P. 2004 Lexical Diversity and Language Development[M]. New York: Palgrave Macmillan.

ODell, F., Read, J. & McCarthy, M. 2000 Assessing Vocabulary[M]. Cambridge university press.

Paquot, M. 2019 The phraseological dimension in interlanguage complexity research[J]. Second language research 35(1).

Reed, J. 2004 Plumbing the Depths: How Should the Construct of Vocabulary Knowledge be Defined[J]. Vocabulary in a Second Language 209-227.

Van Geert, P. 1994 Dynamic Systems of Development: Change between Complexity and Chaos[M]. Harvester Wheatsheaf.

Wolfe-Quintero, K., Inagaki, S. & Kim, H. Y. 1998 Second Language Development in Writing: Measures of

Fluency, Accuracy, & Complexity[M]. University of Hawaii Press.

A dynamic development study of CSL writing quality based on lexical features and grammatical patterns

WANG Haoxue, CHENG Yong, HU Xiaoqing

(School of Liberal Arts, Ludong University, Yantai, Shandong 264001, China)

Key words: writing quality; lexical diversity; grammatical sophistication; grammatical variation; grammatical sophistication; corpus

Abstract: This study takes 6,789 valid compositions of 596 students in 3 grades of Korean students from the Chinese Interlanguage Corpus for Korean Learners in China, and examines the dynamic changes of Korean studentsChinese composition levels with vocabulary characteristics and grammar modes as the measurement indicators. Lexical indexes include two dimensions: lexical variation and lexical sophistication, with a total of 8 indicators; grammatical pattern index contains two dimensions: grammatical variation and grammatical sophistication, with a total of 12 indicators. This study innovatively transforms 248 grammatical patterns listed in International Curriculum for Chinese Language Education into regular expressions, and uses SPSS and other softwares to investigate and analyze the composition corpus on a large scale. The results show that the lexical variation 2 (type)  and lexical sophistication 2 (advanced type)  have the highest correlation with the grade distribution. As for the grammar index, grammatical variation 2  (grammatical type)   and grammatical sophistication 2  (advanced grammatical type)  have the highest correlation with the grade distribution. We further analyze the correlation between words and grammar, discuss the characteristics of lexical compactness  and grammatical looseness,  and put forward advice for future Chinese vocabulary and grammar teaching.

【責任编辑 刘文辉】

[收稿日期] 2021-04-26

[作者简介] 王浩学,男,鲁东大学文学院,主要研究方向为应用语言学。电子邮箱: wanghx@m.ldu.edu.cn。程勇,男,鲁东大学文学院讲师,硕士生导师,主要研究方向为计 算语言学,电子邮箱:chengokyong@126.com。胡晓清,女,鲁东大学文学院教授,硕士生导师, 主要从事汉语词汇研究、汉语作为第二语言习得研究、汉语中介语研究、语料库语言学研究, 电子邮箱:xiaoqingytyt@126.com。

[基金项目] 山东省教育科学规划课题“面向分级阅读的中小学阅读材料易读性研究” (2021QZD004);汉语辞书研究中心规划课题“面向融媒体辞书编纂的多源例句分级检索 系统构建研究”(CSZX-YB-202004)

猜你喜欢
语料库
语料库辅助英美文学教学模式初探
可比语料库的建立及翻译教学研究
基于语料库翻译学的广告翻译平行语料库问题研究
护理英语语料库建设探索
如何利用语料库语言学提高英语教学
浅谈语料库分类及用途
近5年语料库应用于外语教学的研究综述
国内外语料库建设研究简述
运用语料库辅助高中英语写作
关于“nothing succeeds without a strong will”的语料库研究