基于因子分析的中文学习者低分段作文语言特征研究*

2022-03-14 10:16玲孙金华

外语研究 2022年1期

王玲孙金华

（1.南京大学文学院，江苏南京 210023；2.国防科技大学国际关系学院，江苏南京 210023）

0.引言

写作一直是第二语言习得领域研究(包括对外汉语教学)中反映学生综合语言能力的重要组成方面。如何有效解决高水平学习者口语能力与书面写作能力不平衡的问题，日益引起关注。近年来，一些学者开始尝试从语言区别性特征来讨论第二语言或外语写作问题(Ortega 2003;Lu 2011;Verspoor et al.2012)。“语言区别性特征”(亦简称为“语言特征”，下文统一称为“语言特征”)指的是对某一语言文本的语言要素(比如词汇、句子结构等)进行描写所概括出的客观性成分及特征(Jiang 2013;Jin&Barley 2013)。不少学者研究发现，语言特征是影响二语学习者作文质量的重要因素(Humphry et al.2014;Banerjee et al.2015；吴继峰2018)，也是有效体现二语学习者书面语水平的重要特征(Malvern&Brian 2002)。不过，有较多研究关注的是某个或某几个语言特征对写作的影响(Laufer&Paul 1999;Housen&Folkert 2009)。作文是一个有机整体，某个维度(比如词汇)语言特征的指标表现较好，不意味着作文质量就高(Ortega 2003)。基于上述背景，本研究选取了不同维度的指标来分析语言特征与作文质量的关系。

1.研究设计

1.1 研究对象和确定的语言特征

本研究以中文学习者低分段作文为研究对象。作文样本来自北京语言大学HSK动态作文语料(http://yuyanziyuan.blcu.edu.cn/info/1043/1501.htm)。选取的低分段作文(无等级证书以及6-8级证书)，成绩在10～60分之间。由于一些研究表明体裁、话题等会影响二语写作的质量(Kormos 2011；刘瑜2017)，因此，为排除不同体裁和话题的干扰，选取的120份作文均为议论文，且限制在3个话题:“我看流行歌曲”“父母是孩子的第一任老师”和“学习汉语的苦与乐”。考察的语言特征涉及词汇、句法、语篇、汉字这4个维度。

1.1.1 词汇维度

已有学者用“词汇丰富性”(lexical richness)作为探究词汇与写作质量使用关系的测量指标。Read(2000)将“词汇丰富性”的指标分类为词汇密度、词汇复杂性、词汇变异性、词频分布和词语错误(Lexical errors)。王艺璇(2017)在此基础上将“词汇丰富性”的内涵扩展为词种数(Type)、词汇多样性、词汇复杂性、词汇密度、词汇准确性等。本文借鉴王艺璇(同上)提出的词汇测量的总括性指标，但又剔除掉“词汇复杂性”这一指标。因为“词汇复杂性”指罕见词语(Lexical rareness)在文本中出现的比重(Read 2000),Yuan&Ellis(2002)、鲍贵(2008)等学者发现词汇复杂性是区分不同水平学习者的最佳指标和依据。而本文是针对同一水平即高水平留学生展开的，因此最终确定词汇方面的测量指标包括:词种数、词汇多样性、词汇密度、词汇准确性。具体统计方法如下:

(1)词种数:指的是作文中词汇类符数量，如“我认为流行歌曲使人们感到很舒服，因此我喜欢流行歌曲。”词种数为11，包括“我、感到、很、人们、认为、使、舒服、喜欢、因此、流行、歌曲”这11个词，其中“歌曲”和“流行”虽出现两次，词种数仅计算一次。

(2)词汇多样性:是指学习者在语言使用中所展现出的词汇变化程度(Malvern&Brian 2002)。词种数和总词数的比(Type-token ratio，TTR)是使用最广泛的计算公式，但一些学者研究发现TTR的信度受到文本长度的影响。本文由于所用语料库容量相近，且所选取的二语写作文本均为限制字数条件下的写作任务，文本字数受到控制，故使用计算较简便的词种数与总词数的比。具体计算公式为:词汇多样度=(词种数/总词数)×100%。

如“父亲是我最尊敬的人，也是我的朋友，我爱我的父亲。”词种数为10，包括“我、的、父亲、爱、朋友、人、是、也、最、尊敬”这10个词，其中“我”出现4次；“的”出现3次；“父亲”和“是”出现2次，总词数是17，则词汇多样度为(词种数/总词数)×100%=58.82%。

(3)词汇密度:指的是某一文本中实词(Lexical word)在总词数中的比重。本文采用Laufer&Paul(1999)提出的词汇密度计算公式:词汇密度=(实词种数／总词种数)×100%。例如:“父亲是我最尊敬的人，也是我的朋友，我爱我的父亲。”这一句中，总词数是17；实词种数8包括“我、父亲、爱、朋友、最、是、人、尊敬”这8个词，故词汇密度为(实词种数/总词种数)×100%=80%。

(4)词汇准确性:指的是某一文本中使用正确的词语在总词数中的比重即为词汇正确率(Read 2000:131)。由于本文考察对象为参加高等汉语水平考试(HSK高等)总分在280分-500分之间的学生，其语言水平较高，计算正确词汇数量操作难度较大，本文借鉴吴继峰(2018)使用的采取通过计算错误率的方式进行统计计算的方法，即用每篇作文的错词数除以每篇作文的总词数，最后，从1中减去错误率得到正确率。

本文在分析学生作文词汇错误时发现，此阶段学生词汇错误可以划分为语义错误与词汇偏误两类。其中，语义错误包括理性意义基本相同的词、语素相同的词、母语多义对应的汉语词、单音节和双音节同义词等使用错误(同上)。本文使用“语义错误率”统计每篇作文中语义错误的分布情况，具体计算公式是:语义错误率=(语义错误数量/文章总词数)×100%；如“最苦(痛苦)的事是对别人不能表示(表达)我的思考(想法)。”总词数是13；语义错误数为3，语义错误率为(语义错误数量/文章总词数)=23.08%。

词汇偏误包括外来词、误用词、多余词、混合词和缺词等。本文使用“词汇偏误率”统计每篇作文词汇偏误的分布情况，具体计算公式是:词汇偏误率=(词汇偏误数量/文章总词数)×100%。如“根(根据)声调来(的)意思都(的)不同。每个人都有经验(经历)过以(因为)声调为出(闹出)了(的)很多难忘的事情。”总词数是22；词汇偏误数为6，词汇偏误率为(词汇偏误数量/文章总词数)=27.27%。另外，词形错误我们放在汉字层面进行统计(具体见后文)。

1.1.2 句法维度

句法维度，指的是学界普遍采用“句法复杂性”这一标准。“句法复杂性”(syntactical complexity)，也被称为“语法复杂性”(grammatical complexity)，或者“句法成熟度”(syntactic maturity)(Ortega 2003)。本研究的“句法复杂性”利用T单位长度、无误T单位百分比、话题链长度、话题链分句数、零形成分数和特殊句计数等几个指标进行考察。具体统计方法如下:

(1)T单位长度。指的是一个T单位中所包含的字数(Jiang 2013)。那么何为“T单位”?本文借鉴安福勇(2015)和吴继峰(2018)的研究，将T单位定义为:包含一个独立谓语和其他附属小句或嵌入小句的独立主句。具体来说，可包括以下几条标准:简单句作为一个T单位；一个由两个或两个以上分句组成的复句，根据每个分句中是否有谓语被划分为不同的T单位。只有当分句中有谓词时，它才能被视为T单位；复杂句中的嵌入分句不作为独立的T单位；分句中均含有谓语的情况下，汉语偏正复句，由一个分句承载主要信息，从句依附于主句，所以算作一个T单位；汉语联合复句，每一个并列的分句都算作两个T单位。(其中偏正复句与联合复句的分类标准参照黄伯荣和廖序东(2017:134)。例如:

[1]我的父亲是一名办事员。（一个T单位）

[2]对我来说，父亲是对我影响最大的人。（一个T单位）

[3]父亲叫我去他的单位工作。（一个T单位）

[4]只要听到母亲的歌声，那声音的影片便会放映出来。（一个T单位）

[5]他一边收拾行李，一边认真思考父亲的话。（两个T单位）

其中例[1]是一个简单句，可以看出一个T单位；例[2]含有两个分句，虽然表示某种复句结构，但第1个分句“对我来说”是一个插入语，没有谓语，可以看作一个T单位；例[3]是一个复杂句，可以看作一个T单位；例[4]是一个偏正结构的复句，因此算作一个T单位；例[5]是联合复句，每一个并列的分句都算作一个T单位，整个句子为两个T单位。

统计方法为:统计每篇作文中T单位所包含的平均字数。如:“虽然城市的生活有些繁忙，但我总觉得自己是适合这种生活方式的。”此句为偏正复句，包括2个T单位，平均T单位长度为14(所包含的平均字符数)。

(2)无误T单位百分比。指的是没有语言错误的T单位占T单位总数中的比例(Jiang 2013)。其中对语言错误的认定，本文基本采用HSK动态语料库的偏误标记，但在本研究中不计繁体字和标点错误、字层面的偏误、词层面的偏误。只记录句子层面的偏误，如:缺少句子成分、存在多余句子成分、特殊句式错误(如“把”字句错误、“被”字句错误等)、重叠错误、语序错误、固定格式错误、不完整句等。

具体计算公式是:(无误T单位数量／T单位总数)×100%。如:“这句话对每个孩子应是很感动。”此句有语法错误，应改为“这句话对每个孩子来说都很感动”，此为有误T单位，不计入计算。

(3)话题链长度。指的是每篇作文中话题链所含的平均字数(ibid.)，其中话题链是汉语的一种语篇单位。曹逢甫(1995:105)为了解决汉语句子界限模糊的问题，最早在汉语中引入了话题链的概念，他指出话题链是由一个或数个小句所组成且以一个出现在句首的共同话题贯穿其间的一段话。关于话题链的具体划分，有几个问题需要做简要说明。首先，单句后不存在具有相同话题的分句，此单句是否可以计算成为一个话题链?如“昨天我已经去过了”此句后再无其他成分。其次，话题链链首小句的位置出现显性话题，其他小句位置是否可以出现显性的同指代词以及名词?如“妈妈的画已经画完了，这其中包括中国古典的意象。”其中第二句中包含同指代词“这”，是否可以与链首小句计算成为一个话题链。本文的话题链划分方法，将通过举例说明。

[6]昨天我不是很舒服。

[7]那棵树树干细，叶子大，很不协调，所以我没买。

[8]妈妈的画已经画完了，这其中包括中国古典的意象。

例[6]句以“我”为单个小句，单句后不存在具有相同话题的分句，但本文也将其计算成为一个话题链；例[7]以“那棵树”为主题，其后分句均以“那棵树”为话题，为多个小句构成的话题链，这是典型的话题链的形式，计算成为一个话题链；例[8]句中话题链，链首小句的位置出现显性话题，其他小句的话题位置以“同指代词”或“名词”代替，如第二句中包含同指代词“这”，本文将其与链首小句计算成为一个话题链。之所以这样划分，是考虑到本文的研究语料不是汉语母语者的作文，而是以汉语为第二语言的留学生中文作文，这一划分标准放宽了话题链的定义范围，便于计算和确保数据的有效性，也为后期计算话题链与作文质量的关系提供条件。

具体的统计方法为:计算每篇作文中话题链所含的平均字数(吴继峰2016:28)。如“祥子知道自己混到那么干净利落已经是怎样的不容易，闻着现在身上的臭汗味，他把以前的挣扎与成功看得分外光荣，比原来的光荣放大了十倍。”(老舍《骆驼祥子》)按照话题链的定义，此选段为一个话题链，话题链长度为60。

(4)话题链的分句数。指的是指每一个话题所包含的分句数量(Jin&Barley 2013)。具体计算方法:统计每篇作文中话题链所含的分句平均数(包括含有主题的首句)(吴继峰2016:29)。又如这句“祥子知道自己混到那么干净利落已经是怎样的不容易，闻着现在身上的臭汗味，他把以前的挣扎与成功看得分外光荣，比原来的光荣放大了十倍。”(老舍《骆驼祥子》)，此选段为一个话题链，分句数为4。

(5)零形成分数。关于零形成分的定义，本文借鉴Jin&Barley(2013)的主张，认为零形成分为一种由两个或两个以上分句组成的序列，其特征是几个分句共有一个主题，其主题只出现在第一个分句中，其余均以“无词汇”形式出现，这种空白的形式，即为零形成分。零形成分数主要指零形主题或主语的数量。具体计算方法为:统计每篇作文话题链中零形成分总数。如:“我认识她，Ø长得又高又瘦，Ø整天在看书”，其中“Ø”为零形成分，此句零形成分数为2。

(6)特殊句计数。主要是指具有汉语特点且留学生易出现偏误的句子(韩笑，冯丽萍2017)。选取标准主要借鉴《汉语水平等级标准与语法等级大纲》(1996)以及《国际汉语教学通用课程大纲》(2014修订版)所规定的符合汉语书面语教学要求且中文学习者易出现偏误的句式。具体计算方法为统计特殊句的数量，其中只计算正确的特殊句型句。

表1 ：特使句型例表

1.1.3汉字和篇章维度

关于汉字维度测量标准，本文采用学界普遍使用的汉字正确率进行研究(王艺璇2017；吴继峰2018)。其中汉字错误的界定，借鉴吴继峰(2018)的研究方法，将汉字错误分成两类:一类是字形错误，即错别字，包括错字、别字、漏字、多字；第二类是用拼音代替汉字，包括拼音字、无法识别字。

具体计算方法如下:首先利用国家语委的字词统计软件计算每篇作文的总字数(不包含标点在内)，再根据HSK动态作为语料库中的错字标注计算每篇作文中的错字字数，然后计算每篇作文中汉字错误率，最后用1减去错误率即为汉字正确率。具体计算公式是:1-(两类汉字错误的总个数／总字数)×100%。如“他跟他的朋友说了一两边，说他再做一年就不做了。”这句中“边”为错别字，应该改为“遍”，则此句汉字正确率为95%。

在语篇方面，本文借鉴吕文华(2014)的观点，从语法手段、词汇手段和连接成分中选取篇章维度测量标准。由于本文句法维度的测量包含特殊句、话题句等测量指标，因此不单独对语法手段进行测量，且由于本文的测量对象为以汉语为第二语言的留学生，其汉语作文中介词与助词的使用频率较低，不易得到有效数据。综合上述两点，本文选取连接成分中的“连词”以及词汇手段中的“代词”作为篇章维度测量标准，探寻“代词计数”“连词计数”与作文质量的关系。具体统计方法如下:

(1)代词计数:即每篇中正确使用的代词数量，本文参照黄伯荣和廖序东(2017:183)对于代词的定义标准，即代词指能够起替代和指示作用的词，它大致相当于所取代和表示的语言单位的语法功能。按照句法功能划分“代词”包括代名词、代谓词、代数词、代副词，其中代名词的代词包括“人称代词”“疑问代词”和“指示代词”。“代词计数”的具体计算方法为统计平均每100词中正确使用的代词数量。如“告诉我他是谁。”这一句中“我”和“他”均为人称代词，代词计数为2。

(2)连词计数:即每篇中正确使用的连词数量，本文参照黄伯荣和廖序东(同上:185)对于连词的定义标准，即连词是指起连接作用，连接词、短语、分句和句子等，表示并列、选择、递进、转折、条件、因果等关系的词。“连词计数”的具体计算方法为，统计平均每100词中正确使用的连词数量。如“既能实现交流，又能被广为接受的手段就是社会革命。”其中“既……又”即为连词，连词计数为2。

1.2 研究问题和研究方法

主要研究问题是汉语学习者低分段作文在语言特征方面表现出哪些特征以及反映出的作文的问题与不足。为了解决上述问题，本研究采用因子分析法对上述14个测量指标进行分析。因子分析法是研究如何保证信息最少丢失的情况下，使因子变量具有较强解释性的一种多元统计分析方法(Gusti 1993)。较之于线性回归分析法，因子分析法的优势是可以从众多变量中归纳、筛选出最有影响的变量，然后用这些最有影响的变量来解释最大量的观测事实，从而得以揭示出事物之间最本质的联系(Tweedie&Baayen 1998)。

首先，用SPSS(24.0)因子分析统计软件中的KMO和Bartlett球形检验对14个测量指标数据进行分析。结果表明:卡方=327.789.P=.000，而且，KMO值为0.821。其中p=.000＜0.001说明数据做因子分析具有有效性，可以通过因子分析方法展开研究。其次，确定有统计意义的测量指标。载荷值为0.35或更大被认为有统计意义，结果显示，除“特殊句计数”外，其他13项的载荷值大于0.35，为有效指标。第三步，确定因子个数。利用主成分分析法和极大似然法正交旋转，从13种语言区别性特征的数据中心提取主成分，确定因子个数。13个语言特征最终综合成为4个因子(因子1-因子4)。这4个因子代表了低分段留学生中文作文的主要语言特征，也是影响低分段留学生作文质量的重要因素。第四步，提取亚因子，给因子命名。为确定4个因子所包含的语言特征，分析低分段留学生汉语作文特点，我们利用极大似然法，在主成分分析的基础上进行空间旋转，用以确定上述4个因子的亚因子。亚因子检验结果见下表。

表2 ：低分段作文语言区别性特征亚因子分布及测量指标载荷情况

上表显示，因子一包括5个亚因子(语义错误率、词汇偏误率、无误T单位百分比、汉字正确率以及连词计数)；因子二包括4个亚因子(话题链长度、零形成分数、代词计数、话题链分句数)；因子三包括词汇多样性、词汇密度2个亚因子；因子四包括词种数、T单位长度2个亚因子。

根据同一因子的亚因子之间存在较高的共性，可以确定因子的性质，进而为因子命名(吴红云刘润清2004)。根据这一特点，对因子一-四的命名情况为:因子一命名为“准确性”因子。因子一包含的5个亚因子均与语言使用准确性相关。吴继峰(2016)、李春琳(2017)等学者均使用上述指标测量过汉语学习者语言的准确性，故命名为“准确性”因子。因子二包含的4个亚因子均为Jin&Barley(2013)提出的可以有效考察汉语话题链的测量指标，故命名为“话题链”因子。因子三包含的2个亚因子主要用来探究不同类型的词语在语篇中所占比重的多少，测量学习者使用词汇的范围(Scott&Michael 2013)，词汇使用范围越广，语言多样性越高(秦晓晴2009)，故命名为“词汇多样性”因子。因子四包含的两个亚因子均用来观察汉语学习者输出词汇和句法的“量”的指标，与作文篇幅长短相关。曹贤文、邓素娟(2012)和安福勇(2015)等曾使用以上两种指标测量学生输出词汇的多少与句子的长短，故将因子四命名为“篇幅”因子。

2.低分段作文四因子的统计结果

2.1 准确性因子

关于“准确性”的定义，学者们的看法比较一致，指的是没有错误，表意清楚明白，确切无误，不产生歧义(李旭奎等2017；张恒超2018)。但研究者在测量“准确性”时，存在分歧较大。比如，选词错误、拼写错误、断句错误等，都在一定程度上反映写作的准确性问题，但不同的学者对待他们的态度存在差异，有些忽略不计，有些加以统计。这些都涉及到如何对待和选取错误以及如何确定语言准确性标准的问题。

如何确定语言准确性的标准，学界还没有统一的结论。本研究较认同郝全梅(2008)的说法，她认为“二语学习者”与“母语者”不同，其目的语并不一定要做到确切无误，读者读其语言，能够准确完整地理解他们的意图即可。因此在检索时，将“不造成歧义”作为判断“语言准确性”的辅助标准。虽然HSK语料库已经完成了语言错误的标注，但我们不盲目将语料库标注的语言错误计算在内，而是在理解性的基础上从整篇文章不同纬度综合的角度出发判断语言错误。如语料库中将繁体字计为错别字，本着“不造成歧义”即可的原则，本研究不探究繁体字与简化字的差异，在计算汉字正确率时不将繁体字计为错别字。

为了更好地描述准确性语言特征在汉语学习者作文中的表现，我们通过计算各个语言特征的“标准分”来加以检验，通过“标准分”判断测量指标对因子的作用(公式如下)(刘照德等2019)。其中“标准分”分布类似于坐标轴，正数代表存在或数量多，负数代表缺失或数量少。而数字越大，其作用越明显；越趋近于0，作用越小。例如，假设语义错误率以及词汇偏误率的标准分为正，既表现为语义错误以及词汇偏误较多，而无误T单位百分比为负，则表示为无误T单位百分比较低，无误T单位较少，其他亚因子分析原则以此类推。(z为标准分，x为原始载荷，x¯为平均值，s为标准差)“准确性”因子的统计结果见表3。“准确性”因子包含的5个亚因子，其载荷值均＞0.35，有统计意义，均为有效指标。

表3 ：因子—亚因子分布及测量指标载荷及方差

其中“语义错误率”“词汇偏误率”“无误T单位百分比”，3个测量指标的载荷值依次超过了0.8＞0.35(载荷值为0.35或更大的被认为有统计意义)，说明语义错误、词汇偏误以及T单位错误是影响低分段作文准确性的主要因素。此外，“汉字正确率”以及“连词计数”这两个区别性特征载荷值也大于0.6，说明它们也是影响低分段作文准确性的重要因素。

2.2 话题链因子

学界关于话题链的定义大体可分为两类。一类以屈承熹(1998)等学者为代表。他们认为，话题链是一个由多个小句组成的段落，共享一个主话题。主题显性出现在一个子句中，隐性出现在其他子句中。如“那棵树树干细，叶子大，很不协调，所以我没买，”该句话题“那棵树”为主题，在句首小句中显性出现，其他小句中未出现。另一类以曹逢甫(1995)、方梅(2008)等学者为代表。他们认为，话题链是由一个或数个小句组成，具有共同话题，且话题贯穿其间的一段话。这一定义与第一类定义最大的区别在于，不仅第一个小句的话题位置可以出现话题，其他分句也可以出现，占主导地位的同指代词和名词。如“我从小就喜欢音乐，不只喜欢听音乐，我还喜欢写音乐，更喜欢唱歌。”根据曹逢甫等学者的定义，句子中的“我”属于同指显性代词，代指句子中的主语，这种显性话题不仅可以出现在第一个小句中，还可以出现在其他小句的话题位置，因此此句可以看作为1个话题链；根据屈承熹等学者，他们认为显性的同指代名词形式不允许在一个话题链中多次出现，话题链中只允许出现一个显性话题，按照这个观点，此例句包含2个话题链。我们主要依据曹逢甫等学者的定义检索话题链。为便于计算和确保数据的有效性，我们将单句也计算为一个话题链。具体计算方式如下:

[9]昨天我不是很舒服。

[10]那棵树树干细，叶子大，很不协调，所以我没买。

[11]妈妈的画已经画完了，这其中包括中国古典的意象。

例[9]句为单句，将其计为一个话题链，例[10]为句首出现话题，其他小句存在隐性话题，属于典型的话题链结构构成的一个话题链。例[11]句第二句中包含同指代词“这”，因其指代句首话题“妈妈的画”，将其与链首小句计算成为一个话题链。

对“话题链”因子进行亚因子分析结果见表4。“话题链”因子的四个亚因子的载荷值均＞0.35，即说明这四种语言特征均为影响低分段作文话题链的有效指标。其中“话题链长度”和“话题链分句数”载荷值超过0.9，是重要影响因素。另外，零形成分数的载荷值为0.871，代词计数的载荷值为0.446，说明这两个特征也是不容忽视的两个因素。

表4 ：因子二亚因子分布及测量指标载荷及方差

2.3 词汇多样性因子

词汇多样性，指的是不同类型的词在语篇中所占比重的多少。即在写作中使用多种不同的词，如同义词、上位词、实词和其他相关词，而避免重复使用某些词来表示(Polat&Youjin 2015)。

表5 ：因子三亚因子分布及测量指标载荷及方差

由上表可知，词汇多样性的两个亚因子的载荷值大于均0.35，是有效指标。结合标准分可知，词汇多样性标准分为-1.021，表明词汇多样性较低；词汇密度标准分为-0.092，趋近于0，对因子影响较小，表现为词汇密度适中。

2.4 篇幅因子

本文使用的“篇幅”指标引自安福勇(2015)的研究，具体指使用“字数”“词数”的多少来衡量文章长短，包括作文中词的数量、词种的数量、句子的长短(以字数表示)等。

表6显示，亚因子词种数和T单位长度的载荷值分别为0.790和0.676，大于0.35，均为有效指标。结合标准分，词种数标准分为正数1.117，说明词种数较多；T单位长度标准分为正数1.114，说明T单位长度较长。表明此阶段汉语学习者输出文本能力较强，写作文本词种数较多，T单位长度较长。

表6 ：因子四亚因子分布及测量指标载荷及方差

3.低分段作文区别性语言特征分析

因子分析的统计结果显示，词汇准确性、词汇多样性、话题链以及文章篇幅是中文学习者低分段作文中呈现出的值得关注的语言特征。对作文文本的分析可以发现，中文学习者低分段作文在这四个方面存在较多不足。

语言准确性方面的不足主要表现为语义错误、词汇偏误以及语法错误较多，影响作文内容的表达，造成阅读困难。低分段作文显示，学生词汇偏误与语法错误较多，表现为有相同语素或同音素的词，学生容易混淆，导致词语搭配错误，造成语义错误率高；此外缺词、多词以及缺少成分、语序错误、句式杂糅的现象十分普遍，造成词汇偏误率较高，无误T单位百分比较低。例如:

[12]我当兵以后我父亲劝告（劝）我学习汉语，所以我来到中国学习汉语。一到北京学习，我就遇见（遇到）了很多困苦（困难）的事情。

[13]根据声调来（的）意思都（的）不同。每个人都有经验（经历）过以（因）声调（应添加“错误”）为（而）闹出（发生）的很多难忘的事情。

[14]跟我们国家气候不一样，生活方式也不一样。最苦（痛苦）的事是别人不能对表示（表达）我的思考（想法）。

例[12]中出现较多语义错误，如将“劝”错用为“劝告”；“困难”错用为“困苦”；“想法”错用为“思考”。而例[13]中存在较多词汇偏误，如“来”和“都”为词汇错用，应改为“的”；“以”和“为”应改为“因”和“而”；“声调”后应添加“错误”；“闹出”与“事情”词汇搭配有误，应该为“发生”，此外，还存在一例语义错误，即“经验”语义理解有误，改为“经历”。例[14]中也有较多的语义错误，如“苦”应该为“痛苦”；“表示”应为“表达”，而“思考”应为“想法”。此外，例[14]划线部分存在较多语法错误现象，如缺乏主语和语序错误，正确表述应该为“北京的气候跟我们国家的不一样”以及“最痛苦的事是不能对别人表达我的想法”；这一段话中存在3个T单位，但无误T单位仅有1个，无误T单位百分比较低。

另外，汉字正确率较低以及连词计数较低(正确使用的连词)。例如:

[15]所以初学汉语第一个辛苦是接属[接触]到中国人的困难。但可能同时是“塞翁失马”一样现像[象]，因为径[经]过最初两三年学汉语的“黑葙[箱]作业”的过程后，我掌握了基本发音和词匯[汇]的要点。结果到中国重新开放的时候，我已经会说一些比效[较]流和（流行）但並[并]不标准的中国话，使我可以自由与新中国的朋友们沟通。

[16]虽然（因为）不同的国家有的汉语跟我国家汉字的意思相同，所以头一次看汉语没有陌生。

[17]我长大了，而且（但是）我的牙不太好看，我觉得我本来喜欢唐[糖]，但（所以）我的牙不好，可是都是我爸造成的。

例[15]存在大量汉字错误，如形近错别字，“径与经”“效与较”“像与象”“葙与箱”“並与并”，以及音近混淆词错误，如“接属与接触”，这两类错误在留学生低分段汉语作文中十分常见，母语者在使用这些词语时，不会出现此类错误，但留学生，特别是母语为表音文字的学生，易出现此类错误；例[16]与例[17]中连词错误表现明显，例[16]中“虽然”使用错误，应改为“因为”与后一小句的“所以”形成因果关系。例[17]中“而且”和“但”使用错误，应该改为“但是”和“所以”。低分段作文中，连词使用的数量并不少，但连词使用错误问题较为严重，学生不能根据文章的意义选择合适的连词。

词汇多样性方面，主要的缺陷是作文词汇密度适中，但词汇多样性较低。表现为学习者在表达观点时，会重复使用自己有把握的词，而不会变化使用多种词汇。例如:

[18]学习汉语的时候也有苦的地方，也有乐的地方。学习本来是不容易的。学习汉语的时候，我认为开始学习汉语的时候呢，苦的地方是发音。我在首尔工作的时候开始学习汉语，上课的时候，老师让我读课本，那时候我的舌头很硬，怎么也硬，老师和同事们总是笑。半年后我到中国来学习了。我一到中国就开始上课了，那时我听不懂老师的讲话，所以老师问问题的时候（缺少“我”）总是东问西答，现在呢，我说话的时候，让中国人感觉“她看样子大学生，但说话的时候孩子一样”“他说话是不是开玩笑”因为我的表达能力很差，而且一个同样的词是有不同的意思，还有各个方面说话的方式不一样，以上这种方面让我感觉苦。那么乐的方面呢，我觉得乐的方面比苦的方面多。开始学习的时候跟中国人说话的机会只是买东西的时候，但也高兴。现在呢，（缺少“可以”）跟中国人讨论，而且表达能力也提高了，有这种感觉的时候高兴。但是最乐的时候呢，我的发音不准所以让中国人产生了笑的时候等很多。现在想苦的地方也可以说乐的地方。

[19]我的父亲是个技术工人。性格上说很温柔，不知道对男的这样的说法是不是合适，但他的却[确]是很柔和的人。对（从）生活上来说非常老实，认真，勤劳。他的这一切都给我带来了很好的影响。我可以这么说，上大学以后读较多的书，我慢慢完成了人生观、价值观。我对世界了解得（了）不少，认识了很多伟大的八[人]物，高尚的学者等等，我都尊敬他们。可是我对他们的尊敬心（尊敬）不对（如）我父亲。这个世界上我最喜欢的人是父亲，（词汇赘余“向”）向学习的人（对象）也是父亲，以后我的事业完成的（词汇缺失“那”）一天替我最高兴的人，我相信也是我的父亲。我担心他年龄不少（小），等到那时候我的父亲身体好，我祝（祝愿）他的（词汇赘余“的”）健康！

从词汇密度角度来看，例[18]有238个词，实词数为139，词汇密度为58.40%。例[19]有151个词，实词数为122，词种数67个，词汇密度为80.79%,整体来看，学生作文词汇密度均超过50%，表现为低分段留学生汉语写作词汇密度适中。从词汇多样性角度来看，例[18]有238个词，词汇多样度为33.15%，例[19]有151个词，词汇多样度为44.37%，可以看出任务时间内有效产出词汇数量较多，但用词较为单一，学生重复使用自己有把握的词，而不会变化使用多种词汇，导致文本质量较低。

在话题链以及文章篇幅方面，总体来看，低分段作文中话题链使用方面的不足是，话题链长度较短，存在话题链跳跃的问题。即，学生往往就一个话题链进行简单描述后，则立即转向对另一个话题链，文章中心内容不固定，缺乏连贯性、整体性，使文章中心不明确。

[20]在我们世界有成千上万的歌手。//人们都有自己所喜欢的歌手或歌曲//，其中我也喜欢流行歌曲的那一类//。每个人都喜欢不同的歌曲，有的爱听流行歌曲，有的爱听旧的歌曲。//我认为歌曲对人有利的//。

[21]他对我们非常严格。表情、动作都使人觉得非常害怕。//因此我们的表哥，表姐妹们从来（一直）怕他。//过年，亲戚都在一起的时候小孩子们特别怕考（靠）近在（“在”多余）我父亲。//

例[20]中，主题分别为“人们”“我”“每个人”“我”；例[21]中，主题分别为“他”“表哥、表姐妹们”“小孩子们”。每个句子仅仅形成“主题+评述”的形式，没有形成“主题+评述，+评述+……”的话题链，使得主题描述不全面，文章割裂开来，结构不清晰，内容不连贯。其次就话题链分句数来看，例[20][21]话题链的分句数较少。为更加准确说明这一结论，我们对120份汉语学习者作文进行数据整理，发现留学生作文中话题链分句数均较少，平均值仅为1.7423。多数话题链，除首句外，仅含有一个分句，单个话题链的内容并未说完，就开启一个新的话题链，造成文章割裂，言未达意。由上述两点可见，低分段留学生作文话题链使用情况较差。结合标准分，零形成分为负，代词计数为正，其表现为零形成分数较少、代词计数较多。结合文本发现，学生作文中应使用零形成分的部分大多出现“这”“我”“她、他”等代词，汉语学习者习惯使用名词或代词等形式指称主题，而不习惯使用零形成分，这导致代词数量较多，零形成分数较少。

关于篇幅方面，需要思考的问题是，是否作文输出的篇幅越长，其作文语言质量就越好。王艺璇(2017)、吴继峰等(2019)等曾采用词种数作为指标，测量学生词汇掌握程度，发现作文中词种数越多，表明学生词汇掌握程度越好，则作文的写作质量越高。但我们对作文文本的分析发现篇幅长短与作文质量并非成正比。为了进一步说明这一问题，我们引入汉语母语者同题作文进行比较。

[22]父母对孩子的生存有巨大的影响。/从孩子一落地，他就开始让识[认识]世界。/他让识[认识]的对一个人就是父母亲。/孩子跟父母一起生活就会学到父母的行为。/小孩子第一个学习就是摩仿父母亲。/从吃，喝，睡，玩，日常等等的方面都只有父母的习贯[习惯]让孩子知道应该怎么做。/换一句话说，父母就是孩子的第一个老师。/这样说孩子不一定全学的都是好的，/父母的坏习贯[习惯]也都会吸收到。/这时，孩子长大后也会受到不断的环竟[环境]变化，/他也会受到别人的批评，/因为他一切做的都是父母所教的。/假如父母教的好，/孩子自己会扮断（判断）什么是好的什么是坏的。/这就是做父母最难的一件事，/教出一个好孩子。/父母的心全都给了孩子。/孩子大部分都知道有了问题一定可以请求父母的帮助。/可是这也是要父母的陪养[培养]才能让孩子知道有这一条路。/如果父母把孩子教对了，/孩子才不会走错条路。/（留学生汉语作文——《父母是孩子的第一任老师》）（词种数115，22个T单位）

[23]父母是孩子的第一任老师，/这句话体现了家庭教育对个人教育的重要性。/主要表现在以下几点，/首先父母决定着孩子可以接触什么，/为孩子创造最基本的生活环境。/其次，父母对孩子的教育是潜移默化、无法抵抗的，/他融入在生活之中，/在一言一行之中，/对孩子的影响是无形却真实。/最后，父母对孩子的影响是长久的，/不论是童年时期还是成年之后，/这些影响也许会伴随孩子的一生。/（母语者输出文本——《父母是孩子的第一任老师》）（词种数61，11个T单位）

上述例子中一个T单位用“/”表示。例[22]是汉语学习者的作文，其中词种数为115，存在22个T单位，T单位的平均长度为16；例[23]为汉语母语者作文，词种数为61，存在11个T单位，T单位的平均长度为13.1。比较发现，汉语学习者低分段作文篇幅较长，T单位长度与汉语母语者作文相当，而且词种数还高于汉语母语者作文。但从具体文本内容质量来看，汉语学习者作文中词汇的难度以及内容论证的深度要远低于汉语母语者。如汉语母语者作文中，使用了“潜移默化”“无法抵抗”“无形”“一言一行”等难度较大的词汇；另外，汉语母语者从父母对孩子影响的内容、方式、持久度等三个方面进行论述，而汉语学习者仅论述了父母对孩子生活的影响，深度低于汉语母语者。还有，汉语学习者作文T单位长度虽长，但语言不够精炼，存在较多重复词汇。上述两例显示，作文篇幅长短与作文质量并非正比。虽然语言输出的量在一定程度上可以反应其语言能力，但作文的质量总体上会受准确性、丰富性以及内容连贯性等多种因素的影响。因此，单独用篇幅长短无法说明汉语学习者低分段中文写作的总体特征。留学生低分段作文篇幅较长，表明此阶段学生语言表达能力有所提高，学生基本能够完成作文的字数要求。但从具体文本内容质量来看，其与母语者相比，词汇的难度以及内容论证的深度都还有待提高。

4.结语

本文采用因子分析法对中文学习者低分段中文作文语言区别性特征进行分析，结果显示，除特殊句计数为无效指标外，语义错误率、词汇偏误率、无误T单位百分比、汉字正确率、连词计数、话题链长度、零形成分数、代词计数、话题链分句数、词汇多样性、词汇密度、词种数、T单位长度等均为测量低分段留学生中文写作质量的有效指标。另外，因子分析将上述语言区别性特征聚合为4个固定因子，分别为“准确性因子”“话题链因子”“词汇多样性因子”以及“篇幅因子”。统计结果表明，准确性、词汇多样性、话题链以及文章篇幅是低分段作文中呈现出的值得关注的语言特征，具体存在的不足包括:

(1)语言准确性有待提高。学习者作文中语义错误较多，特别是有相同语素或相同音素的词，留学生比较容易混淆，造成作文行文歧义点多；词汇错用，缺词、多词，以及缺少成分、语序错误、句式杂糅的现象十分普遍。(2)话题链的使用情况较差。话题链长度较短和话题链分句数较少是中文学习者作文中话题链使用情况较差的重要原因，表现为一篇作文多个话题，文章的主题来回跳动的现象，学生往往就一个话题链进行简单描述后，则立即转向对另一个话题链的描述，文章中心内容不固定，缺乏连贯性、整体性。(3)词汇多样性有待提高。留学生低分段作文词汇密度适中，但词汇多样性较低。表现为学习者在表达观点时，会重复使用自己有把握的词，而不会变化使用多种词汇。(4)篇幅与质量不成正比。低分段作文篇幅较长，表明此阶段学生语言表达能力较高，但从具体文本内容质量来看，词汇的难度以及内容论证的深度都还有待提高。

以上研究结果对第二语言写作教学有一定的启示:第一，在写作教学中，要特别注意学习者的语言错误，采取各种有效的方法加以纠正，以提高学生的语言正确性。近年来，关于“二语写作教学中的书面纠错反馈的有效性”存在争议，主要有以下两点:第一，纠错是否有效?第二，如果是，哪种纠错方法最有效?本文认为，无论纠错效果如何，语言的正确性都是影响作文评分的最重要因素。强调语言的正确性，加强对学习者基本语言技能的训练是提高学生语言水平的基础，是一切能力发展的基石，因此在对外汉语教学中，特别是针对高水平学习者，准确性不容忽略。第二，注重培养中文学习者汉语话题链意识。中文篇章有其独特的特点，并非“主语-谓语”形式，而是由“主题-说明”组成。教师应注重培养学生的话题意识，尤其是写作时话题链的建构，虽然这对学生来说可能较为困难。正如周强和周骁聪(2014)所指出的，“汉语这种简单而灵活的意合型篇章组合结构在人们的日常理解和交流中没有困难，但它对汉语写作的连贯性提出了巨大挑战。”因此，理解汉语篇章构成，注重汉语写作话题链的使用以及语言篇章的连贯性，是写作教学中教师与学生需要关注的重点。