郭望皓 宿飞鸿
摘 要:本文首先通过问卷调查的方式,对影响汉语文本难度的因素进行调查,结果显示初、中、高三个不同级别的难度影响因素存在显著性差异。然后对各影响因素进行了具体分析,按影响因素重要程度的高低对各级别的各因素进行了排序,并在此基础上对各影响因素进行加权处理,最终得到各影响因素的权重系数。
关键词:文本难度问卷调查影响因素排序权重
一、引言
阅读在语言学习中的重要作用是不言而喻的,如何为学习者提供难度适宜的阅读材料是第二语言教学中的一个重要课题。“易读性”(Readability)正是联系文本难度与读者水平之间的纽带。所谓易读性是指“文本易于阅读和理解的程度和性质”(李绍山,2000),是应用语言学中的一个重要概念。用代数方程量化文本因素与易读性之间的关系,就是易读性公式。对汉语易读性的测定也就是对汉语文本难度影响因素及其权重的测定,这对汉语作为第二语言教学中的阅读教学、教材编写及阅读测试都具有十分重要的现实意义。张志宁认为:“要得到一篇文章的综合难度系数,必须考虑影响文章难度的诸因素及其各自的权重比例。要得到这个比例,既可以通过限时阅读测试等方法对留学生进行测试,然后统计学生在各个变量上出现错误的数量,通过多元线性回归的方法建立一个针对汉语文本的可读性公式;也可以通过问卷调查的方式取得教师和学生对各变量重要性的主观感受,从而得出相对符合实际的诸因素的权重;最好是把这二者结合起来,综合得出难度系数”(杨金余,2008)。本文旨在通过问卷的方式,对影响汉语文本难度的因素进行调查,并计算出各影响因素的权重。
二、汉语文本难度影响因素问卷调查
(一)问卷内容
本套问卷共6个题目,均围绕影响汉语文本难度的相关因素展开。这6题可分成三组,每组2个小题,分别调查教师认为对初、中、高三个不同级别的学习者而言,在阅读汉语文本时,影响难度的因素主要体现在哪些方面,并根据难易程度对影响因素进行排序。
(二)调查对象
问卷调查的对象均是上海高校中一线的对外汉语教师,包括上海交通大学、上海师范大学和上海大学等院校专、兼职教师,还有部分有教学经验的语言学及应用语言学的硕士和博士研究生。其中以上海交通大学国际教育学院的专职教师为主。所有调查对象都具有半年以上的实际教学经历。
本次试验一共发出问卷70份,收回有效问卷60份。
(三)结果分析
调查问卷的6个问题都旨在调查影响汉语文本难度的因素有哪些,这些因素如何排序。其中1、3、5三个小题分别是对初、中、高不同级别的影响因素的调查,题目为不定项选择题;2、4、6题是让被调查者对自己认为的影响因素进行排序,题目为排序题。我们将收回的60份有效问卷的答案输入SPSS17.0软件进行分析。
1.影响因素分析
根据被调查者对调查问卷中1、3、5三个小题的答案,经过统计得到表1汉语文本难度影响因素调查情况汇总及频率表。表中“人数”就是选择该选项的人数,绝对频率是选择该选项的人数与参与该题目调查的总人数之比。需要说明的是,初级与中级的总人数均为60,高级为59,其中一人未回答问卷中的该题。相对频率是该选项被选次数占该级别中所有选项被选次数之比。从该表中我们可以发现,在初级汉语中,“汉字、词汇、语法”三项的绝对频率值都很高,均超过了70%,词汇的比例居然达到了93.3%,即表明在被调查的60位教师中仅有4人未将词汇列为初级汉语的难度影响因素。可见,“汉字、词汇、语法”三项因素是被调查的对外汉语教师们普遍认为的难点因素。在中级汉语中,汉字、词汇和语法三要素的绝对频率比值均有所下降,但词汇、语法的频率依然较高,而汉字频率却有大幅度下降,降低了72个百分点。这表明到了中级之后,汉字已经不再是难点所在,而被句长和修辞所取代。到了高级阶段,语法的绝对频率也有较大幅度下降,而题材和体裁的绝对频率却显著上升,词汇的重要性依然不容忽视。从数据上看,词汇、修辞、题材和体裁是高级汉语文本的难点所在。这大体上和我们对外汉语教学的实际过程较为接近,初级主要是汉字、语法的教学,中级主要为词汇、短语结构的教学,高级教学的核心就是篇章了,问卷中的修辞、题材和体裁三要素就属于篇章的范围。根据表中相对频率的数据,可以发现相对于初级而言,中、高级的影响因素分布较为分散,各影响因素的相对频率比较接近。另外,我们可以根据此表中的相对频率数对影响因素进行一个初步的排序,待后文与排序题做一下比较,排序结果如下所示(“>”表示重要性大于):
初级汉语:词汇>汉字>语法>句长>修辞>篇长>题材>体裁
中级汉语:词汇、修辞>语法>句长>篇长>题材>体裁>汉字
高级汉语:修辞>词汇>题材>体裁、篇长>句长>语法>汉字
表1:汉语文本难度影响因素调查情况频率汇总及频率表
初级因素 中级因素 高级因素
人数 绝对频率(%) 相对频率(%) 人数 绝对频率(%) 相对频率(%) 人数 绝对频率(%) 相对频率(%)
汉字 47 78.3 20.3 13 21.7 5.6 10 16.9 4.4
词汇 56 93.3 24.2 41 68.3 17.5 35 59.3 15.5
语法 42 70.0 18.2 37 61.7 15.8 18 30.5 8.0
句长 27 45.0 11.7 36 60.0 15.4 24 40.7 10.6
篇长 15 25.0 6.5 32 53.3 13.7 31 52.5 13.7
修辞 23 38.3 10.0 41 68.3 17.5 44 74.6 19.5
题材 12 20.0 5.2 20 33.3 8.5 33 55.9 14.6
体裁 9 15.0 3.9 14 23.3 6.0 31 52.5 13.7
总和 231 100.0 234 100.0 226 100.0
汉语难度影响因素与级别这两个变量之间是否相关,不同级别在影响因素方面是否存在显著性差异?为此,我们定义零假设:汉语难度影响因素与级别这两个变量不相关。表2为用SPSS进行?2检验的结果,求得?2值为93.134,p<0.05,所以可以拒绝零假设,认为这两个变量存在相关关系,即不同级别的影响因素是不同的。因此在对不同阶段易读性公式进行拟合时应选取不同的影响因素作为自变量。这也再一次证实了Weaver的观点,即易读性公式有其适用范围,对于不同级别的读者对象来讲,应该选用不同的易读性公式。
表2:?2检验表
值 自由度 显著性.(双尾)
皮尔逊卡方 93.134a 14 .000
似然比 91.628 14 .000
线性联合 69.951 1 .000
有效值个数 693
(a.0个单元期望值小于5.最小期望值为17.69.)
另外,为了具体考察各影响因素在初、中、高三级中是否存在显著性差异,我们进一步做了单因素方差分析,具体结果见表3。
表3:方差检验表
平方和 自由度 均方 F值 显著值
汉字 组间 15.211 2 7.606 46.905 .000
组内 28.700 177 .162
总和 43.911 179
词汇 组间 4.900 2 2.450 19.667 .000
组内 22.050 177 .125
总和 26.950 179
语法 组间 6.400 2 3.200 14.984 .000
组内 37.800 177 .214
总和 44.200 179
句长 组间 .100 2 .050 .201 .818
组内 44.100 177 .249
总和 44.200 179
篇长 组间 2.844 2 1.422 6.716 .002
组内 37.483 177 .212
总和 40.328 179
修辞 组间 4.900 2 2.450 10.814 .000
组内 40.100 177 .227
总和 45.000 179
体裁 组间 4.900 2 2.450 12.736 .000
组内 34.050 177 .192
总和 38.950 179
题材 组间 5.378 2 2.689 15.716 .000
组内 30.283 177 .171
总和 35.661 179
从表3可以看出,除了句长这一影响因素在三个级别中没有呈现显著性差异之外,其他影响因素均呈现出显著性的差异,它们的显著值均小于0.05。并且F值越大,差异越显著。在所有的影响因素中,汉字的差异性是最强的。即问卷显示,汉字在初、中、高三级中体现的难度值相差较大。
2.影响因素排序
调查问卷中的2、4、6三题是请被调查者分别对1、3、5三题中选择的影响难度的因素进行排序,要求按由难到易的顺序排列,如果认为难度相当可排在同一位置上。从实验结果来看,排序题最少项为1,即认为该因素是唯一重要的因素;最多为8,即对题目中的8个因素均进行了排序。大部分被调查者进行排序的数目为3至6个不等。考虑到之后要对因素进行赋值,若将所有8类因素全部纳入统计之中,会出现大量的0值,对结果产生较大的影响,因此,首先要选取排列的个数。由于排序题是多选题的延续,根据我们在1、3、5题中的统计可知,初、中、高三级全部被选因素的总和分别为:231、234和226,平均每人每种级别选择了四种左右的因素进行排序。因此,我们只选取排在前四位的因素进行统计分析。
首先,我们根据四级李斯特量表对因素进行赋值,即排在第一,也就是认为第一重要的因素赋值为“4”,排在第二的因素赋值为“3”,第三重要的因素赋值为“2”,第四重要的因素赋值为“1”,其余因素均赋值为“0”。运用SPSS可以得到各因素在各阶段的均值及标准差,见表4。根据均值大小,我们可以对各级别的影响因素进行排序。
初级汉语:词汇>汉字>语法>句长>修辞>篇长>体裁>题材
中级汉语:词汇>修辞>语法>句长>篇长>题材>体裁>汉字
高级汉语:修辞>词汇>题材>体裁>篇长>句长>语法>汉字
通过与上文中得到的排序相比较,我们发现二者基本一致,不存在大的出入。因此可以基本上认定这就是问卷调查中得到的教师认为的学习难度的排列标准。
表4:排序赋值均值及标准差
初级 中级 高级
均值 标准差 均值 标准差 均值 标准差
汉字1 2.40 1.639 .43 1.125 .22 .832
词汇2 2.68 1.347 2.22 1.786 1.58 1.663
语法3 1.88 1.530 1.48 1.513 .47 .953
句长4 .90 1.217 1.47 1.512 .83 1.262
篇长5 .37 .901 1.02 1.228 1.10 1.435
修辞6 .83 1.368 1.63 1.529 2.42 1.642
题材7 .25 .680 .77 1.307 1.44 1.590
体裁8 .27 .880 .45 1.064 1.25 1.469
三、影响汉语文本难度因素权重的确定
根据上文中对2、4、6三小题中对各个影响因素的赋值数据,我们可以计算各影响因素的权重系数。所谓权重系数是某一评估指标在整个指标系统中的重要性程度;它表示在其它指标项不变的情况下,这一指标项的变化对结果的影响。所有评估指标的权重系数【W1,W2,…Wi,…Wn】称为权集合,(史秋衡、余舰,2004)。权重系数的大小与目标的重要程度有关。影响汉语文本难度因素的权重系数矩阵如下:
汉字 词汇 语法 句长 篇长 修辞 题材 体裁
初级 0.25 0.28 0.20 0.09 0.04 0.08 0.03 0.03
中级 0.05 0.23 0.16 0.15 0.11 0.17 0.08 0.05
高级 0.02 0.17 0.05 0.09 0.12 0.26 0.15 0.13
该权重系数实际上是对上文影响因素排序的量化,从数值上反映各因素的重要程度的高低。
根据此权重系数公式,令y为文本难度,Xi为第i项影响因素的统计值,可得到初、中、高三个级别的主观易读性公式,分别是:
y=0.02x1+0.17x2+0.05x3+0.09x4+0.12x5+0.26x6+0.15x7+0.13x8
四、结语
本文在问卷调查的基础上,首先对初、中、高三级难度汉语文本影响因素的差异性进行了分析和检验,结果证实不同级别的影响因素确实存在显著性差异,并对各个因素的差异性进行具体分析。接着将三个不同级别按影响因素重要程度进行排序,在此基础上对各影响因素进行加权处理,最终得到各影响因素的权重系数。希望这些结果能对汉语教学中的阅读教学、教材编写、阅读测试提供一定的帮助。
参考文献:
[1]李绍山.易读性研究概述[J].解放军外国语学院学报,2000,
(4).
[2]杨金余.高级汉语精读教材语言难度测定研究[D].北京大学硕士
论文,2008.
[3][美国]Wearver,W.C.Expoistory text[A].In R. Barr,Handbook
of Reading Research[C].New York,1991:230~245.
[4]史秋衡,余舰等.高等教育评估[M].贵阳:贵州教育出版社,
2004.
(郭望皓 江苏昆山 解放军外国语学院外训系 215300;宿飞鸿 上海交通大学国际教育学院 200300)