黄自然
(黄山学院文学院,安徽黄山245041)
韩国学生汉语中介语平均句长与句长分布发展研究
黄自然
(黄山学院文学院,安徽黄山245041)
摘要:分别以“字”“词”为单位统计100万字韩国学生汉语中介语的平均句长和句长分布发展情况,并与汉语本族人使用情况进行对比。研究发现:初、中、高三级韩国学生中介语平均句长分别为8.94字/5.97词、10.07字/6.57词和10.87字/7.08词,本族人平均句长为10.91字/7.1词,中介语平均句长的发展经历了一个从初级到高级逐步上升并不断靠近目标语水平的过程;在句长分布上,两者均呈“长尾”分布态势,且最高峰分布区间一致,两者的差异主要表现在中介语句长分布范围小于本族语者,呈现出短句、长句均发展不足的特点。
关键词:韩国学生;汉语中介语;平均句长;句长分布
(一)研究现状
中介语的系统性可以从语音、词汇、语法等方面去探究。语法的系统性为中介语系统性研究中的重要组成部分,语法的发展过程和发展状况是观测中介语系统性的一个重要窗口。“语法的发展通常可以从两方面进行评定和分析:一是句子的长度,即句子中所包含的最基本的意义单位的数量;另一个更为主要的方面是句子结构的完整性和复杂性”[1]294。
平均句长(The Mean Length of Utterance,简称MLU)是指每个句子所包含的有意义单位(一般指词或语素)的数量均值[2]153。平均句长与句长分布的研究主要集中在儿童母语习得研究方面,代表性成果有Brown(1973)[3]、吴天敏、许政援(1979)[4]和朱曼殊(1986)[5]等。Brown(1973)以“语素”为单位研究英语儿童平均句长发展过程,将英语儿童平均句长的发展分为五个阶段,每个阶段对应一定的平均句长和句法发展特征。汉语儿童母语平均句长的研究主要包括以“字”为单位的研究(如吴天敏、许政援(1979))和以“词”为单位的研究(如朱曼殊(1986))。汉语母语习得方面的研究表明儿童平均句子长度随年龄而增长,并伴随句法的复杂化。以“字”为单位计算平均句长具有简单、便捷的优点,但存在汉字不都是意义单位、所得的结果无法跟其他语言句长发展情况进行有效比较等问题。以“词”为单位不存在以上问题,但在词的界定和具体切分上常存在分歧和困难。
到目前为止,汉语作为第二语言习得的平均句长(MLU)研究不多,主要有施家炜(2002)[6]、靳洪刚(2006)[7]等。施家炜(2002)使用韩国留学生的个案跟踪语料,重点考察韩国留学生汉语句式MLU的发展和汉语句式习得的阶段性特征与发展趋势。研究发现在7个半月的跟踪期内,第二语言学习者的MLU(以词为单位)由3.48极为迅速地发展到7.98,儿童越过同样的跨度需要2.5-5年。靳洪刚(2006)通过问卷调查探讨汉语语言结构复杂度的发展过程,研究表明英语母语背景学习者的平均句长和平均话题链长均有直线上升趋势,而平均T-单位和分句长度的发展却表现为曲线趋势。
从现有的研究成果看,平均句长的研究主要以个案跟踪调查或问卷调查为主要研究手段,基于大规模分国别的留学生汉语中介语语料库的研究仍较为少见。本文尝试以100万字规模的韩国学生汉语中介语作文语料库为基础,以“字”和“词”为单位对韩国学生平均句长和句长分布的发展情况进行定量、系统研究。
(二)语料来源
本文语料包括汉语本族人语料和韩国学生中介语语料。汉语本族人语料主要来源于当代小说语料和初中学生作文语料①小说语料主要包括曹文轩的《红瓦黑瓦》,张贤亮的《绿化树》,方方的《桃花灿烂》,海岩的《玉观音》,余华的《许三观卖血记》,共计约80万字。初中学生作文语料主要来自小山屋作文网(网址http://zuowen.xiaoshanwu.com/zuowen),包括写人、叙事、写景、状物、议论、抒情、书信等多种体裁,共计约40万字。。选取综合语料的目的在于规避个人言语风格、体裁等因素对句子长度的影响。韩国学生中介语语料主要来源于南京师范大学的“韩国学生汉语中介语作文语料库”,语料分为初、中、高三级②其中初级为一年级,汉语学习时间一般三、四个月至一年;中级为二年级,汉语学习时间一般为一至二年;高级为三、四年级,汉语学习时间一般都在两年以上。,初级20万字,中级、高级各40万字,共计约100万字。语料为韩国学生篇章完整的考试作文,能较为真实地反映韩国学生汉语中介语系统的句子面貌。
(三)句子的界定与切分
“中国语言学家给句子下的定义已有几十种,几乎是一家一说,甚至一家数说。”[8]423汉语句子的界定仍存在较大的分歧。语体学上的句长研究一般以书面标点符号“。”“!”“?”作为切分句子的标志,所得句子既包括单句、也包括复句甚至句群,所得单位的同质性存在很大问题。为了能更好地观察韩国学生句法的发展状况,本研究选择以“小句”作为观测点,借鉴“小句”理论对书面语中的句子进行切分[9],最后所得单位仍以“句子”相称。
对大规模语料库句子长度的统计主要依靠计算机软件来辅助实现。在界定“句子”和明确句子切分标准③句子的具体切分标准包括对句子特殊成分(如独立成分、复指成分)的处理,对变式句的处理、对句首状语修饰句子串、宾语位置句子串、引述性话语和直接引语的处理,对复合谓语句、紧缩句的处理等,具体论述见黄自然(2012)。的基础上[10],本研究使用句长统计软件,以“,”“:”“;”“。”“?”“!”“……”作为句子边界的标记对句子进行切分,并人工校对带“,”“……”的句子。
在此基础上,本文分别以“字”“词”为单位对100万字韩国学生汉语中介语语料的平均句长和句长分布进行封闭性、穷尽性的统计分析,从实证研究的角度考察中介语的发展过程,检验、论证和丰富汉语中介语理论。
(一)统计数据及整体情况
先以“字”为单位来考察韩国学生中介语的平均句长和各类长度句子的分布情况。通过句长统计软件的统计,发现在约100万字的韩国学生中介语语料中④句长统计软件统计的具体字数为914020字。100万字原始语料是通过办公软件WORD的“字数统计”功能统计出来的,该“统计信息”中所显示的“字数”包括了文本中标点符号的数量。而我们的句长统计软件统计出来的字数不包括标点,所以在最后的字数上跟以前用WORD统计出来的字数存在一定的差异,这一差异即为语料中标点符号的数量。后面各学时等级中介语也存在类似的情况,不再另做说明。,共有句子90370个,平均句长为10.11个字。韩国学生以“字”为单位的中介语句长分布范围为1-44字,中介语句子在各句长上的分布呈不均衡状态。将不同句长句子的出现频次制图如下(图1):
图1韩国学生中介语不同句长频次分布及变化图(以“字”为单位)
从上图可以看出,韩国学生中介语句子在所有长度上的出现频次呈“长尾”分布态势①“长尾”这一术语借自美国人克里斯·安德森提出的“长尾理论”。该理论主要用于解释“网络时代”的商业和经济模式,即认为在网络时代,除了占绝对地位的商家占据大部分客户以外,大众客户的分布则如一条长长的尾巴。。句子频次在8个字时达到峰值,然后逐渐下降。10个字以内的句子②包括10个字的句子,下同,不再一一说明。占句子总数的近60%,15个字之内的句子达87.76%,20个字之内的句子数量已超过95%,30个字以上的句子只零星出现。
从主要分布区间看,7、8、9个字句子是句子长度分布的最高峰区间,在这一区间,句子的出现频次均在8000句以上,这一区间的句子数占句子总数的27.29%。从最高峰区间往两端推移,6-10个字句子的出现频次均在7000句以上,为句长分布的高频区间,这一区间占句子总数的43.8%;5-12个字句子的出现频次均在5000句以上,为句长分布的次高频区间,这一区间占句子总数的63.96%;4-14个字的出现频次均在4000句以上,为句长分布的次次高频区间,这一区间占句子总数的78.68%。韩国学生以“字”为单位的句长分布的区间性明显。同时,韩国学生中介语句子频次在所有高频区间上基本呈正态分布,即以8个字句长为频次峰值向两端依次递减。
(二)以“字”为单位的各级韩国学生中介语句长发展特点分析
在分析韩国学生中介语总语料平均句长和句长分布情况的基础上,我们也采用同样的统计方法分析了韩国学生不同学时等级(即初、中、高三级)中介语平均句长、句长分布范围、句长分布最高峰区间、主要百分比累加值对应的句长、句长分布主要区间等方面的情况,并对其进行对比,以探讨以“字”为单位的各级韩国学生中介语句长发展特点。上述各方面在韩国学生各级中介语语料及总语料中的表现情况如下表(表1):
表1韩国学生各学时等级平均句长及句长分布对比表(以“字”为单位)
根据上表,韩国学生汉语中介语平均句长和句长分布的发展主要有以下特点和规律:
韩国学生中介语平均句长(以“字”为单位)逐级上升:从初级的8.94发展到中级的10.07,再发展到高级的10.87,依次增长了1.13个字和0.8个字,初级到中级增长明显,中级到高级增长幅度减小;韩国学生中介语句长分布范围逐级扩大:初级为1-34字,中级为1-40字,高级为1-44字;韩国学生中介语句长分布的最高峰区间逐级上升:初级为6-8字、中级为7-9、高级为8-10个字;韩国学生中介语对应同一百分比累加值的句子长度逐步上升,也就是说,学生水平越高,句子长度的分布范围越广;韩国学生中介语最常用区间的范围逐级扩大:初级为4-12个字,中级为4-14个字,高级为4-15个字,各级最常用区间的句子数量接近句子总数的80%。
(一)统计数据及整体情况
本节考察韩国学生中介语以“词”为单位的平均句长和各长句子分布情况③本研究采用北京大学计算语言学研究所的“北京大学现代汉语语料库基本加工规范”作为分词规范。所使用的分词软件为中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS,机器分词后再进行人工校对。。通过软件统计发现:在约100万字的韩国学生中介语(具体词数为598627)中,共有句子90370个,平均句长为6.62个词。韩国学生以“词”为单位的中介语句长分布范围为1-28个词,句子的分布相对集中,不同句长句子频次分布如下图(图2):
图2韩国学生中介语不同句长频次分布及变化图(以“词”为单位)
根据图2,发现以“词”为单位的韩国学生中介语句长分布具有如下特点:
总体来看,韩国学生中介语以“词”为单位的句子长度分布亦呈“长尾”分布态势。句子频次在5个词时达到峰值,然后逐渐下降,10个词以内的句子数已超过句子总数的88%,15个词以内的句子已达句子总数的98.37%,在分布链上形成一条不断靠近横坐标的“尾巴”。
从主要分布区间看,4、5、6个词是以“词”为单位的句长分布的最高峰,在这一区间,句子的出现频次均在11000句以上,这一区间占句子总数的40.12%;从最高峰区间往两端推移:3-8个词句子的出现频次均在7500句以上,为句长分布的高频区间,这一区间占所有句子总数的69.81%;3-10个词句子的出现频次均在4500句以上,为句长分布的次高频区间,这一区间占所有句子总数的82%。韩国学生以“词”为单位的句长分布的区间性明显,并且在所有高频使用区间上基本呈正态分布,即以5个词句长为频次峰值向两端递减。
(二)以“词”为单位的各级韩国学生中介语句长发展特征分析
在分析韩国学生中介语总语料及各学时等级中介语语料以“词”为单位的平均句长及句长分布情况的基础上,我们对不同学时等级上韩国学生中介语的平均句长、句长分布范围、句长分布的最高峰、主要百分比累加值对应句长、最常用句长分布区间等方面进行分析。上述方面在以“词”为单位的韩国学生各级中介语语料及总语料中的呈现情况如下表(表2):
表2韩国学生各学时等级平均句长及句长分布情况对比表(以“词”为单位)
从上表可以看出,以“词”为单位的韩国学生中介语平均句长及句长发展变化具有以下5个方面的特点和规律:第一,随着学时等级的提高,韩国学生中介语以“词”为单位的平均句长逐步上升。从初级的5.97发展到中级的6.57,增长0.6个词;中级到高级平均句长从6.57发展到7.08,增长了0.51个词;第二,随着学时等级的提高,韩国学生中介语以“词”为单位的句长分布范围扩大。最长的句子从初级的23个词,扩大到中、高级的28个词;第三,韩国学生句长出现的最高峰区间依次为4-6个词(初级)、4-7个词(中级)、5-7个词(高级),这说明韩国学生中介语句子的最高峰区间在4-7个词上,同时表明中介语句长的最高峰随着学时等级的提高而逐步上升;第四,从主要百分比对应的句子长度看,随着学时等级的提高,对应同一百分比累加值的句子长度(词)逐步上升,即学生水平越高,句子长度的分布范围越广;第五,从句子分布的最常用区间看,初级、中级的最常用区间均为3-9个词,高级的最常用区间为3-10个词,这说明在各级语料中,绝大多数句子均集中在10个词之内。最常用区间的句子数量占句子总数的80%左右。
以“字”和以“词”为单位统计的中介语句子长度在平均句长、句长分布范围、最高峰区间、最常用区间的分布上都具有较强的一致性和相关性①韩国学生中介语语料的词字比为1:1.53(598627: 914020),本研究中各种以“字”“词”为单位的平均句长及句长分布数据与韩国学生中介语词与字的比例关系基本一致。。通过对语料进行穷尽性、全面性的统计分析,我们发现以“字”“词”为单位的中介语平均句长与句长分布发展表现出中介语本身所具有的规律性、动态性和系统性。
(一)中介语平均句长与目标语(本族人语料)对比分析
平均句长是一个考察句法能力的参考指标。下面对比分析韩国学生中介语各学时等级语料及总语料与本族人语料的平均句长情况,具体数据如下表(表3):
表3韩国学生中介语与本族人语料平均句长对比表
从上表可以看出,无论以“字”或以“词”为单位,韩国学生中介语平均句长均低于汉语本族人。从平均句长的发展过程来看,韩国学生初级阶段平均句长与本族人差距较大,以“字”或“词”为单位分别相差1.97个字和1.13个词。高级阶段则已非常接近本族人的水平。从初级到高级,是一个不断靠近本族人平均句长的过程。
(二)中介语句长分布与目标语(本族人语料)对比分析
下面从分布范围、最高峰区间、最常用区间等三个方面对比分析韩国学生中介语句长分布与本族人句长分布的共性和差异。两种语料上述方面的具体数据如下表(表4):
表4韩国学生中介语与本族人语料句长分布对比表
根据上表,可以对韩国学生中介语语料与汉语本族人语料的句长分布情况作如下分析:
从句长的分布范围看,本族人的句长分布范围大于中介语语料。本族人语料中的长句主要为小说语料中文学色彩比较浓厚的句子,或者是欧化特征比较明显的句子。这类句子在中介语中出现的几率较小。下面我们将本族人语料和中介语语料中的长句各举两例加以说明:
(1)但在风中摇晃着的似乎还有点怕冷的尖尖小荷,以那份鲜嫩的绿色和孩子般的摇晃,预示着一个绿荷满塘的未来。
(2)在这座荒村中的这间简陋的小土房里,在这昏黄的、被雾气和柴烟弄得闪烁不定的油灯光下,我完全是个多余的人!
(3)还有在爆竹声声响起的时候,对很多辛苦工作或学习了一年而想借假期好好休息的人可谓是个折磨。
(4)★其实我想“占有”这两个字儿并不是一个很好的方法用来挽留我们所爱的东西留在自己的身边。
其中(1)(2)为本族人语料中的长句,都带有较为复杂的修饰性成分(定语或状语),句子结构方式也带有欧化句式的特点。(3)(4)为韩国学生中介语的长句,(3)带有较长的状语,但复杂程度不及例(1)(2)。(4)则是韩国学生在运用长句时出现的偏误用例。中介语在句长的覆盖范围上不及本族人,原因既跟第二语言学习者的语言水平有关,也跟两种语料在语体上的差异有一定的关系。
韩国学生中介语与目标语(本族人语料)在句长的最高峰区间上表现出较大的共性。以“字”为单位的最高峰区间集中在6-10个字,以“词”为单位的最高峰区间集中在4-7个词。这一长度区间可能是语流中句子(小句)长度的主流,这一长度区间也符合信息处理的短时记忆原则,即人类短时记忆的理想长度一般为7±2个模块,这种共性表现为汉语句子(小句)长度分布的特征。
从最常用区间来看,中介语跟本族人语料在分布上的共性主要表现为最常用区间的范围大致相当。两者的差异主要表现为中介语的常用区间略小于本族人,这在各个学时等级上又有所不同。从初级到高级,表现出不断向本族人区间分布靠拢的特征。
对各级中介语语料和本族人语料的句子频次百分比的具体分析表明:本族人在一定长度范围上的短句(1-3个字,1-2个词)和长句(18个字以上,13个词以上)的使用比中介语更为突出。也就是说,中介语主要集中在典型的句长范围(本族人和中介语都是高频使用的区间)内。这既是一般表达的需要,也是输入、输出最多的形式。
本文分别以“字”“词”为单位研究了韩国学生汉语中介语平均句长和句长分布发展情况,并与汉语本族人使用情况进行对比。研究发现韩国学生中介语平均句长的发展经历了一个从初级到高级逐步上升并不断靠近本族人水平的过程。中介语语料跟本族人语料在句长分布上既有共性,也有差异。共性体现为两者均呈“长尾”分布态势,且最高峰分布区间范围一致(6-10字、4-7词),差异主要表现在中介语句长分布范围小于本族人,呈现出短句、长句均发展不足的特点。本研究表明中介语作为一个独立的语言系统,有其自身的系统性和规律性。
参考文献:
[1]朱曼殊,缪小春,主编.心理语言学[M].上海:华东师范大学出版社, 1990.
[2]李宇明.儿童语言的发展[M].武汉:华中师范大学出版社, 1995.
[3] Brown, R. AFirst Language: the Early Stages[M]. Cam⁃bridge Mass. Harvard University Press,1973.
[4]吴天敏,许政援.初生到三岁儿童言语发展记录的初步分析[J].心理学报,1979(2).
[5]朱曼殊,主编.儿童语言发展研究[M].上海:华东师范大学出版社,1986.
[6]施家炜.外国留学生汉语句式习得的个案研究[J].世界汉语教学, 2002(4).
[7]靳洪刚.从汉语写作过程看CFL语言结构复杂度的发展[M]//汉语教学学刊(第2辑).北京:北京大学出版社,2006: 114-125.
[8]张静.汉语语法问题[M].北京:中国社会科学出版社,1987. [9]邢福义.小句中枢说[J].中国语文,1995(6).
[10]黄自然.韩国学生汉语中介语句长与定、状语复杂度发展研究[D].南京师范大学博士学位论文,2012.
责任编校金秋
作者简介:黄自然(1982-),男,湖南岳阳人,黄山学院文学院讲师,博士。
基金项目:教育部人文社会科学基金项目“基于作文语料库的韩国学生汉语中介语系统研究”(10YJA740101);黄山学院引进人才启动项目“韩国学生汉语中介语句长与句法复杂度发展研究”(2013xskq001);黄山学院校级教研项目“基于任务型教学法的韩国学生汉语口语教学模式研究”(2013JXYJ10)
收稿日期:2015-12-15
中图分类号:H195
文献标识码:A
文章编号:2095-0683(2016)01-0160-06