普通话测试信息分析

2010-07-18 03:12:04赵欣如严志宇谭军华肖云鹏张学波叶卫平
中文信息学报 2010年4期
关键词:易错音节普通话

王 璐,赵欣如,谢 簪,严志宇,谭军华,肖云鹏,李 峤,张学波,叶卫平

(1.北京师范大学 教务处,北京100875;2.北京师范大学 信息科学与技术学院,北京100875)

0 引言

1994年国家语委、国家教委和广电部联合发布《关于开展普通话水平测试工作的决定》,启动了全国范围的普通话水平测试。测试加快了普通话推广进程,提高了普通话水平,加深了我国各地区各民族人民之间的了解与沟通,促进了和谐社会建设,在我国扩大国际交往和对外文化交流中也发挥了巨大作用。

随着测试的开展,相关研究也初见成效[1],为完善测试、推动普通话普及提供了相关依据。与此同时,定期举行的普通话测试还积累了大量测试信息。分析利用这些信息有助于了解普通话测试、普通话学习以及普通话自身的某些规律。本文选择某普通话测试中心一次测试(1 095名考生)的全部信息作为研究样本。对普通话测试信息进行了尝试性统计,得到有意义的结论。

本文统计了考生方言背景和专业背景与测试成绩的关系,二者对测试成绩影响较大。文学类专业普通话水平最高,其他学科不分仲伯;本文统计了普通话测试字词部分的常见错误及不同类型错误发生的频率;本文最后从总分和内容关联相关性两方面统计得出测评员评分一致性很好。

本文第1节介绍数据样本;2、3、4节介绍考生背景的影响,常见错误及测评分数一致性统计结果;第5节介绍数据采集及本文使用的“普通话测试信息数据库”;第6节总结全文。

1 数据来源

数据选自某普通话测试中心一次测试1 095名考生的全部样本。中心设在北京某一高校,考生多为该校在校本科生、研究生和留学生。该校国内生源地覆盖各大方言区和少数民族语言区,留学生来自世界各大洲。考生专业分属哲学、经济学、法学、教育学、历史学、文学、管理学、理学和工学九个学科。考生方言背景和学科背景分布都比较全面。另外,中心所在学校是师范院校,由于所有师范生都参加普通话测试,因而成绩基本反映该校学生的普通话水平全貌。测试使用了5份单音节词和双音节词试题,与短文朗读作品、命题说话题目一起供测试抽取。每位考生均由两位测评员评分。

2 不同背景考生普通话测试成绩分析

不同方言所含音素及声调不同、字词读法不同,所以不同方言背景的学习者学习普通话语音遇到的问题和学习的难度也不尽相同。不同学科学习内容与研究范畴不同,对普通话的关注程度存在差异,所以不同学科背景的学习者,普通话使用水平也存在差异。二者的影响会反映在普通话测试成绩当中。2.1、2.2节将分别分析测试成绩与方言背景及学科背景的关系。

2.1 普通话测试成绩和方言背景的关系

1 095名考生多为在校大学生,来自各地,并已在北京学习生活了一段时间。其中来自北方方言区的考生436人,闽方言75人(包括闽南闽北),粤方言18人,赣方言55人,湘方言79人,吴方言36人,少数民族语言区25人,留学生133人,“方言背景”为普通话的238人。图1是不同方言背景考生成绩分布状况。其中“其他”包含少数民族语言和外国语,“粤方言”考生人数少,数据不一定有代表性。

图1 不同方言背景普通话测试成绩分布

本次测试最好成绩为“一级乙等”(一乙),最差成绩为“三级甲等”(三甲)。

分析图1得到三点结论:第一,方言背景对普通话测试成绩影响较大[2],由于成绩体现普通话水平,因此可以推论方言背景对普通话水平有较大影响;

第二,“普通话”背景考生表现最佳,“一乙”率达66.37%。因为成长于普通话环境之中,考生表现优异符合逻辑;

第三,除普通话背景的考生之外,“北方方言”背景的考生成绩明显高于其他方言。“一乙”率47.58%,高于名列其后的“赣方言”19.01个百分点。按照定义,普通话“以北京语音为标准音,以北方话为基础方言”。北方方言区又多与北京地域接近,历史上人员流动较多,因此普通话在语言语音上与“北方方言”较为接近,“北方方言”背景的人学说普通话也较为容易[3]。

2.2 普通话测试成绩和学科背景的关系

本次测试的考生按教育部学科分类分属九个不同学科。其中哲学38人,经济学和管理学两学科合计108人,法学(法律、政治、国际关系)30人,教育学(教育、心理、体育)144人,文学(中文、外语、艺术与传媒)314人,历史学 46人,理学(数学、物理、化学、生物、地理)341,工学54人,其他20人。图2是考生总分按学科背景分布图。分析图2可以得到三点结论:

第一,不同学科背景考生的成绩存在较大差异;

第二,“文学”类专业考生的普通话水平明显好于其他学科。“一乙”率达到58.78%,高于排位第二的“工学”22.11个百分点。文学类专业语言方面的学习内容较多,对从业人员的普通话要求普遍较高,选择这类专业的学生语言天分往往也较高。这些因素共同作用使得其普通话整体水平远好于其他专业。统计结果符合预期;

第三,“文学”之外的其他学科普通话水平不分伯仲。文理工科之间普通话水平没有明显差异,结果出乎“文科应该好于理工科”的预期。

哲学、法学人数较少(40以下),数据不一定具有代表性,在此不做分析。

图2 不同学科背景普通话测试成绩分布

综上所述,方言背景影响普通话水平,“北方方言”考生普通话水平仅次于“普通话”背景考生;学科背景也影响普通话水平,文学类考生普通话水平高于其他学科,其他学科普通话水平差异不大。根据本文作者统计,本次测试中各个学科考生的方言背景分布基本相同,因此本文关于学科背景的结论是可信的。

3 单音节词和多音节词部分错误分析

普通话测试分四部分:单音节词朗读、多音节词朗读、短文作品朗读和命题说话[4]。字词、作品及话题涵盖了普通话各种音质[5]、声调现象及韵律特征。试题难易结合,照顾到测试不同等级的需要。可以说普通话测试比较全面地考察了考生的普通话水平。

为了了解测试内容在普通话测试中的表现,本文考察了本次测试5份字词试卷的成绩。总结出普通话测试中的常见错音,并对各类错音进行了具体分析。

3.1 常见错音分析

分数能够告知一个音节读音是“正确”、“错误”还是“有缺陷”,但是分数并不指出错读音节的出错环节。以音节“ken3”为例。分数可以认定一名考生的“ken3”有错,但并不指出是声母读错,韵母读错,声调读错还是声韵调皆错?也不指出“ken3”对该考生来说是声母难读,韵母难读,还是声调难读?是不知道规范读音,还是一时疏忽?即便如此,我们仍然可以依据分数得到关于发音难点的启示。

如果含有某音素的音节出错比例远大于其他音节,那么判定它是易错音素是合乎逻辑的。表1列出了5份试卷中出错最多的10个音节,并按平均得分由低到高的顺序排列。

首先分析易错、易缺陷声调。表1中50个最易出错、易缺陷音节中包含26个上声(3声)音节,占易错、易缺陷音节总数的52%。由此不难判定上声是普通话最容易产生错误和缺陷的声调;

第二,考察易错、易缺陷韵母。50个易错、易缺陷音中含36个鼻韵母音节,占易错、易缺陷音节总数的72%。鼻韵母高出错率的统计结果与生活中常见的前后鼻音不分现象相吻合。

第三,分析易错、易缺陷声母[6]。表 1中 50个音节基本涵盖了所有声母类型。其中擦音类(j、q、x 、z、c、s、zh 、ch、sh)26 个,零声母(y 、w 、e)9 个,鼻边通音类(l、n)8 个,爆破音类(b、k、d、t)7 个 。

擦音是最易产生错误和缺陷的声母,这与普通话使用中常见平舌、翘舌、舌面擦音不分的现象相吻合;第二类易产生错误和缺陷的声母是鼻边通音中的n、l,和常见的 n、l不分现象相吻合;零声母和爆破音等不易出现问题的声母与最易出现错误和缺陷的鼻韵母组合,也容易出错。

表1 常见错音统计表

综上所述,普通话声调中上声读音不容易掌握,韵母易错、易缺陷音大量发生在鼻韵母音节,而声母易错、易缺陷音则集中在平翘舌和舌面擦音,以及n、l上 。

3.2 易错音出错频率统计

为了解各类易错音素发生错误的频率,本文将典型易错音错误频率列于图4。

图4 典型易错音出错概率统计

图4可见各类常见错音中,生僻字正确率最低,读错22.9%、缺陷6.16%,两项合计有近三分之一的音节不正确;位居第二的是儿化音,16.31%不正确;3、4、5、6 位分别是翘舌擦音(zh、ch、sh)10.23%,前鼻韵母(n结尾)9.85%,后鼻韵母(ing、eng、ang结尾)9.33%,以及边音(l)9.16%。

虽然生僻字和儿化音出错频率很高,但是在最容易出错的音节表1中并不显眼,这是因为它们在试卷中所占比例较小的缘故。

3.3 不同方言背景易错音分析

不同方言的音素、声调和语汇集合不同,学说普通话易错、易缺陷的音也不相同。表2列举了不同方言背景考生最容易出现错误和缺陷的音节,按平均得分由低到高排列。

由表2首先可以看出不同方言背景考生的读音缺陷方面的共同点:如声母中的平翘舌擦音和韵母中的鼻韵母缺陷;

第二,从表2也可以看出不同方言背景考生普通话发音易错、易缺陷的不同点。同是擦音,粤方言考生发生在平舌音(z、c、s),闽方言赣方言考生发生在翘舌音(zh、ch、sh),吴方言考生则二者都有发生。同是鼻韵母错误,吴方言多发生在后鼻韵母(ng),其他方言前后鼻韵母(n、ng)没有不同。

表2 不同方言背景易错音

4 分数一致性分析

普通话测试采用主观评分,每位考生分数由两位测评员独立评分再平均。两位测评员分数的一致性是最令人关注的问题。本次测试共有15组测评员,每组2人为相同的考生评分。本文选择其中数据量较大的13组,考察两名测评员分数的一致性,一致性用两组分数的相关性衡量。定义如下:

其中x和y分别为两个测评员评出的两组分数,r为两组分数的归一化相关系数。

4.1 考生总分一致性分析

首先考察两名测评员为每位考生评出的总成绩之间的相关性。计算方法如下:测评员1评出的全部考生的总分组成一个一维序列,测评员2评出的全部考生的总分组成第二个一维序列,两个序列中考生的排列顺序相同。计算这两个序列的相关性。13组测评员总分相关性绘于图5。

图5可见,各组测评员评分相关性分布在0.84到0.99之间,13组测评员平均相关性为0.929 877。说明测评员的判断高度一致。

4.2 内容关联相关性分析

普通话测试分单音节词、多音节词、短文朗读和命题说话四部分。以下计算各部分分数之间的相关性,即内容关联相关性。计算方法如下:单音节词的100个分数(满分0.1)顺序排列,多音节词的100个分数(满分0.2)顺序排列其后,短文朗读分数(满分30)和命题说话分数(满分40)依次排列其后,得到包含202个分数的一维序列。两个测评员为一个考生评出两个分数序列。首先计算每个考生的两个

图5 考生总分相关性

序列的相关性,然后再对二测评员共同评测的所有考生平均。13组测评员的内容关联相关性绘于图6。

图6可见内容关联相关性分布在0.81到0.976之间,均值0.841 952。

图6 内容关联相关性

结果表明,首先,关于一个考生在各部分测试内容上的表现,不同测评员的看法基本一致。

其次,与图5比较,内容关联相关性低于总分相关性。说明测评员对考生具体音节正确与否的意见略有相左,但是关于考生普通话总体水平的看法高度一致。

事实上,不同测评员对不同错音的敏感度不同。如有些测评员对平舌翘舌极为严谨,另一些测评员则对前后鼻音更为敏锐。普通话测试的最终成绩由两个测评员平均得到,而互有差异的测评员的分数平均恰恰保障了测试的完备性。

综合4.1和4.2我们看到,不同测评员对考生普通话总体水平的判断高度一致;对考生在测试各部分内容上的分别表现的判断也基本一致。测试分数具有高度稳定性。换句话说,对于一个特定的考生,无论由哪个测评员作测评,分数都不会有大的波动。求取均值的步骤进一步提高了分数稳定性。普通话测试的方案设计在分数稳定性角度看来十分合理。

本文统计数据表明,普通话测试尽管是主观评分,但是评出的分数高度稳定,因而也是相对客观的。

另外,内容关联相关性是两个测评员差异的度量。差异包含对不同错音的敏感度不同、也包含对所有错误的总体容忍度不同。如果能够进一步分析差异,有效利用,选择具有不同错音敏感取向的测评员组成测评组,更可以收到相互补充、完善测试的功效。

5 数据采集

为了便于统计,本文建立了“普通话测试信息数据库”(普测库)。用来采集和统计试题、考生、分数以及测试音频等信息。

试题信息包括测试使用的5份字词试题的汉字内容和拼音,人工录入“普测库”。考生信息包括考生“方言背景”、“学科背景”等信息,由考生通过网上报名系统填写,自动导入“普测库”。分数信息包括总分、单音节和多音节词中各音节分数、短文朗读和命题说话分数。利用“普测库”分数录入工具人工录入。(少数试卷没有字词部分各音节分数,则不参加内容关联相关性统计。)音频信息在测试现场录音,经数字化后,由“普测库”自动切分工具切分成100个单音节词、48或49个多音节词、短文和命题说话诸部分。以音频文件的形式存放在预设的分类目录之下。各个音频文件的存放路径收入“普测库”。

“普测库”实现了各种考生信息、分数信息、音频信息的关联查询。查询细化到声韵母及声调。

本文全部数据都是首先通过“普测库”关联查询得到基础数据,用Excel或本文编写的统计软件自动计算得到的。

6 小结

本文以普通话测试数据为依据,分析了方言背景和学科背景对普通话水平的影响,发现文学类学科普通话水平较高,其他学科普通话水平不相上下。本文从主要失分音素和发音难点两方面考察了普通话测试中的易错音节。文中分数相关性统计表明,不同测评员主观测评之间有很高的相关度,评出的分数是比较客观的。本文还指出基于测评员错音敏感差异分析的测评员分组将会有助于提高测试的完备性。

[1] 贺静坤.普通话水平测试研究综述[J].鲁东大学学报:哲学社会科学版,2008,25(6):63-67.

[2] 林焘,王理嘉.语音学教程[M].北京:北京大学出版社,1992.

[3] 李印久.多方言环境条件下的普通话教学[J].湖南科技学院学报,2009,30(7):145-147.

[4] 国家语言文字工作委员会普通话培训测试中心.普通话水平测试实施纲要[M].北京:商务印书馆,2004.

[5] 周同春.汉语语音学[M].北京:北京师范大学出版社,2003.

[6] 徐秉铮,邱伟.汉语普通话声母的分类与识别[J].中文信息学报,1993,7(1):33-39.

猜你喜欢
易错音节普通话
攻克“不等式与不等式组”易错点
『压强』易错警示
立体几何易错警示
三角函数中防不胜防的易错点
拼拼 读读 写写
我教爸爸说普通话
藏文音节字的频次统计
如果古人也说普通话
学生天地(2016年19期)2016-04-16 05:15:26
快乐拼音
17