赵焕改 西北师范大学国际文化交流学院
提 要 建立学习者语料库并基于语料库进行多维研究,是近年来国内外第二语言教学和外语教学研究的热点内容。国内外已建立的学习者语料库不少,但都无法满足汉语继承语的教学及研究需求。本研究着眼于语料库的使用需求,从汉语继承语学习者语料库建设的必要性,语料的追踪性、同质性、真实性、共享性、可比性以及平衡性等方面探讨汉语继承语学习者语料库的建设,以期能为汉语继承语学习者语料库的建设提供参考,为中介语对比分析提供新的角度和数据。
近年来,学习者语料库的作用日益受到重视,建立学习者语料库并基于语料库进行多维研究,已成为国内外第二语言教学和外语教学研究的热点和难点。基于大规模真实文本的、定量分析与定性分析相结合的研究方法逐渐成为汉语习得与教学研究的主流方法。语料库语言学的研究路径包括“语料库指引”“基于语料库”“语料库驱动”等三种(梁茂成等,2010)。这些研究可以视作从语料库资源平台的“供给侧”视角所做的分析(曹贤文,2020),从研究者需求视角做分析的则不多,只有曹贤文(2020)等。同时,第二语言教学与研究的不断发展也对中介语语料库的建设提出了新的需求。目前,已建成的中介语语料库中尚未见到专门的汉语继承语学习者语料库,可真正实现纵向追踪的语料少,语料同质性、真实性、共享性、可比性、平衡性等均有提升的空间。
为了使建成的语料库可以更好地满足研究者的需求,在研究中发挥更大的作用,本文结合建库实践,从使用者需求的角度探讨汉语继承语学习者语料库建设的必要性以及语料的追踪性、同质性、真实性、共享性、可比性和平衡性等问题。
汉语作为第二语言教学与研究的不断发展对汉语中介语语料库的建设提出了新的需求,总体而言,可以概括为以下几个方面。
继承语(heritage language),又称“社区语言”(community language)、“家庭语言”(home language)、 “祖语”(ancestral language)、“传承语”等,是“由于个体转向另一门主导语言而没有完全习得的第一门语言”(Valdés,2001)。继承语理论的相关研究认为,继承语习得具有一语习得和二语习得的双重特征,但又不同于常规的一语习得和二语习得。因此,自1977年“继承语”一词出现以来,该理论就受到了国外学界的广泛关注,近年来国内也开始关注该理论,已有的研究包括国外相关研究综述(曹贤文,2017;邵明明,2018)、继承语译法的探讨(郭熙,2017)及继承语习得研究的初步尝试(吕婵,2017;邵明明,2018)等。对汉语继承语习得的深入研究同样离不开基于语料库的研究方法。而已建成的语料库,语料产出者数量不均衡,少见汉语继承语学习者的语料。因此,当前汉语继承语教学与习得研究的主要方法依然是小样本、小规模的定性研究,所得结论的普遍性、稳定性不强。而继承语研究中的核心问题,如继承语习得与二语习得的关系、继承语习得的研究等需语料支撑的研究目前较少。因此,建立具有一定规模的汉语继承语学习者语料库就显得十分必要和迫切。
所谓“能实现真正意义上纵向追踪的语料库”,是指收集到的语料是相同学习者在初、中、高不同学习阶段的语料。由于纵向追踪研究能观察较完整的二语发展过程和发展过程中的一些关键转变点,因此特别适合习得过程研究(文秋芳、胡健,2010)。曹贤文(2013)认为,只有通过纵向追踪调查才能全面了解学习者由预制的套语到可分析的语言结构、由重复模仿他人话语到自主生成第二语言的习得过程。二语发展的动态系统理论成为热点之后 (Van Geert,2008),采集纵向发展语料、开展动态发展研究更是受到学界关注。目前,汉语中介语语料库基本都是共时截面语料库,历时纵向语料库十分缺乏。一些学者提出,可利用不同语言水平等级语料构建类历时语料库(quasilongitudinal corpus),以解决纵向语料缺乏的问题 (Granger,2002; 颜明、肖奚强,2017)。不过,Gass和Selinker(2008)把这类数据称为“伪纵向数据”(pseudo-longitudinal data),认为用分层截面数据来取代纵向数据,其有效性充满争议。但是,由于建设纵向语料库收集语料时间跨度较长、费时费力,且长期学历班学生较少,纵向语料收集困难。因此,目前尚未见到规模较大的能实现真正意义上纵向追踪的汉语中介语语料库。已建成且对外开放的汉语中介语语料库多为“跨层共时语料”,即分属于初、中、高不同水平等级的不同学习者的共时语料。如北京语言大学的“HSK动态作文语料库”“全球汉语中介语语料库”等都属于此类。因此,语料的限制导致与儿童母语习得研究相比,采用纵向追踪语料进行的二语习得过程研究比较少。客观地讲,在纵向语料缺乏并且收集难度较大的情况下,采用跨层共时语料研究二语发展过程不失为一种简便易行的办法(曹贤文,2013),对促进二语习得过程研究确实起到了积极的作用,不过正如 Doughty和Long(2003)所指出的:“(由于)纵向研究极少,大量的二语习得研究是横截面式的,使得在一些重要问题上所得出的结论存在严重的限制。因此,能实现真正意义上纵向追踪的语料库的建立对汉语习得研究尤为重要。”
学习者的年龄、性别、学习时长、学习环境、教师、教材、教学方法的差异,都会使学习者产出的语料出现不同程度的差异,而这些差异又会影响语料的同质性,从而一定程度上影响研究结论的客观性。在语料收集中如能充分考虑这些因素,并且在语料库使用者检索时能依据不同研究目的检索出来的话,则能使研究结果更加可靠,更加有针对性。然而,跟母语语料库常常受制于建库者的取舍不同,中介语语料库在这些方面实现得不够充分,基本上都是受到客观条件的限制(施春宏、张瑞朋,2013)。当前汉语中介语语料收集受限于语料产出者数量不及母语语料产出者多,因而在保证量的情况下,无法对其他方面的差异做到全部考虑,导致当前学习者语料库中语料普遍同质性不高。具体而言,学习者语料库中的语料在学习者年龄、学习环境、所用教材、教学方法、语言环境等方面的同质性均待提高。
Myles(2008)认为,高质量的语料库其中一个特点是“口语的”,因为口语语料能更好地代表学习者语言产出体现的语言系统,由于受到在线言语产出的压力,与书面表达受到较多监控处理特征相比,口头表达相对来说更能反映学习者的语言能力。当前的汉语中介语语料库语料获取手段单一,多为书面语语料,口语语料较少。并且由于汉语中介语口语语料转写困难,因此,容易出现费时费力转写出的语料却无法真实还原口语语料的原貌而实用性差的问题。近年来,随着语音识别技术的进步,机器自动转写母语者语料取得了很好的效果,但是在学习者语料的自动转写,尤其是发音偏误较多的语料转写方面,效果却不太理想。如何能最大程度地尊重口语语料的原貌,也是语料库建设者和研究者需要考虑的问题之一。
当前已建成的汉语中介语语料库,只有少数是面向公众免费开放的,如北京语言大学的“HSK动态作文语料库”“全球汉语中介语语料库”、中山大学的“汉字偏误中介语语料库”、台湾师范大学的“汉语学习者汉字偏误数据资料库”等,并且由于各种原因,已开放的语料库也时常会出现打不开的问题。多数语料库只供建库者小范围内使用,造成了资源的浪费。因此,可以开放访问的网络版本的语料库也是学界所需要的。
对比研究作为重要的研究方法,其研究的开展离不开充足的可对比语料的支持。当前,大多数汉语中介语语料库由于语料同质性差,在进行一些对比研究,如不同阶段习得情况对比、不同母语背景学习者汉语习得情况的对比研究时,研究结论会受到不同程度的影响。同时,由于没有统一的建库规范,建库实践中存在随意性(张宝林、崔希亮,2015),造成已建成的各库之间的语料无法进行并集1研究,这也导致了语料库重复建设与资源浪费。因此,同质性较高的可实现对比的语料库也是当前研究所需。
汉语中介语语料库建设的目的是为对外汉语教学与研究服务(张宝林,2019)。因此,以下内容将以“中亚地区汉语继承语学习者语料库”建设为例,探讨面向以上研究需求的汉语继承语学习者语料库的建设。笔者结合多年的建库经验及建库实际,对“中亚地区汉语继承语学习者语料库”中语料的追踪性、同质性、真实性、共享性、可比性和平衡性等进行关联,对已建或待建的汉语中介语语料库具有普遍意义的问题进行探讨。
Mitchell和 Myles(2004)认为:“二语习得研究除了清晰的理论框架以外,最宝贵的资源是可使用的高质量数据。” Ortega和Iberri-Shea(2005)明确指出,跟踪研究能够解决二语习得研究中的许多基本问题,如二语石化、母语迁移、二语学习关键期等。曹贤文(2013)认为:“要真正研究学习者的语言发展变化,纵向语料比跨层语料更加适合……对于研究汉语二语习得过程,既需要截面数据,也需要纵向数据,纵向追踪语料库起着共时语料库难以替代的作用。”因此,需要花大力气采集中介语发展过程中的纵向数据,通过加强汉语中介语动态发展语料库建设,来支撑相关二语习得研究,尤其是深入考察中介语在时间轴上的变异和变化表现,对学习者中介语系统的动态发展轨迹做出比较完整的描述和解释。
理想的可追踪性语料是相同学习者在不同阶段的语料,这样才能实现真正意义上的追踪,否则只能算是伪纵向语料库。基于伪纵向语料库进行的研究会掩盖某些个性,从而对结论产生影响。西北师范大学自2013年开始招收中华文化语言本科学生,至今已8年多,共招收四年制本科生300多名,这些学生母语多为东干语,他们在西北师范大学进行为期四年的汉语专业学习,其教学计划、课程设置、教学环境、生活环境等完全一致。这一特殊群体可以保证收集到的语料是包含同一批学生在不同学习阶段的语料,也包括不同学生在相同学习阶段的语料,即包含可以实现真正意义上纵向追踪的语料,这是以往的语料库所未能实现的,也是该语料库的独特性之一。为了便于进行追踪性研究,语料库建设者在语料编码上采用了学生的“学号+学年+学期+科目+语料来源(+补考)(+课目+题号)(+页码)”的编码方式,通过汉语拼音和英文大写字母+阿拉伯数字+短横(+波浪号)的方式来实现,比如“20185703001-2018-2019-1-ZHQZ/QM-BK/A/B/1-7~2”,其中,“20185703001”是学生学号,“2018-2019”是学年,“1”指第1学期,“ZH”代指综合课,“QZ/QM”指期中/期末。这样在语料库中进行检索时,可以依据学生的学号检索出其不同阶段的所有语料,也可以进一步根据“科目”代码等实现对不同课程语料的检索。如此便可以实现对个案或群案的不同学习阶段、不同课程习得的动态追踪研究。
学生的学习环境不同,会对语料的同质性产生一定影响。为了确保语料的同质性,“中亚地区汉语继承语学习者语料库”建库过程中收集的语料是不同学习者在相同学习环境下的语料。由于语料产出者同属中华语言文化本科学历班,因此有着相同的培养方案及课程设置,且学习者年龄跨度为18—25岁,平均年龄为19.6岁,学习者在年龄、学习环境、所用教材、教学方法、语言环境方面的同质性均得到了很好的保证,而这正是语料同质性的保证,这是在一般的中介语语料库建设中很难做到的,也是“中亚地区汉语继承语学习者语料库”的独特之处。
与书面语语料照实录入不同的是,口语语料需要在反复听辨音频文件的情况下,将音频文件转写成文字。音频文件中存在停顿、重复、声韵调问题、声音模糊、鼻音、外文,以及非言语因素(如音频文件的杂音干扰、笑声、咳嗽等)和学生的姓名该如何转写等问题,如何在尽可能保持音频文件原貌的前提下,保质保量地完成转写任务,也是我们研究的内容。为了解决这一难题,我们在转写口语语料的时候,对其中的停顿、重复、声母错误、韵母错误、声调错误以及听不清、鼻音、非言语行为、外文、朗读、学生姓名、听后重复等与书面语语料录入不同的部分均采用了相应的符号进行标记2。在转写完成之后,我们还会对转写后的语料进行多次交叉校对,以确保最大限度地还原口语语料的真实面貌。
依靠个人或某个机构的力量很难把中介语语料库迅速扩大,最好的方法是实现各校合作与资源共享。这就需要有统一可行的建库规范,如统一的采集、编排和标注的原则,同时要有一致的文本外标记(属性标记),可供使用者根据不同需要“提取各类不同文本的集合或交集、并集来进行研究”(张普,2003)。因此,为了实现语料的共享,也为了满足研究者的需求,使费时费力收集来的语料为更多的研究者所用,“中亚地区汉语继承语学习者语料库”的建设主要采用了当前刚建成的、规模最大的“全球汉语中介语语料库”的标注规范。并且,“中亚地区汉语继承语学习者语料库”在建库之初即就语料库的检索需求与技术人员充分沟通,在语料库建库专家的指导下,确定本库检索平台的开发要求,开发出简单、实用、具备用户友好性的检索平台,以满足研究者的多种检索需求,方便其使用。拟建设开放的语料库建设与使用平台,除满足一般的检索需求外,还结合本语料库语料追踪性的独特之处,特设按照语料代码检索,以便于研究者进行纵向追踪性的研究。并且,由于该库与“全球汉语中介语语料库”的标注体系相同,因此,研究者还可以根据需求,提取“中亚地区汉语继承语学习者语料库”语料和“全球汉语中介语语料库”中的非汉语继承语者语料,并集进行研究。
中华文化语言本科学历班中的学生包含母语为东干语的学生,也包含母语为学生所在国官方语言(如哈萨克语、吉尔吉斯语、乌兹别克语等)的学生,但由于这些学生所在国家的官方语言之一是俄语,因此几乎所有学生都会俄语。他们产出的语料既包括口语语料,也包括书面语语料;既包括汉语继承语学习者的语料,也包括非汉语继承语学习者的语料。也就是说,这些语料既包含东干语母语背景的留学生的语料,也包含俄语背景的留学生的语料。语料产出者的学习环境完全相同,因此具有很好的对比性,可以为汉语继承语者与非汉语继承语者的对比研究、相同学习者不同纵向发展阶段的中介语比较、学习者口语与书面语语料比较以及双语及多语者的汉语习得研究提供坚实的语料基础。以上种种对比研究属于近些年为了克服偏误分析的局限而兴起的“中介语对比分析理论”的研究范畴。“中亚地区汉语继承语学习者语料库”使得研究者在较易获得的汉语母语者语料库及东干语语料库3的基础上,还可以实现中介语、目标语和学习者母语的比较等,为对中亚汉语继承语者的汉语习得全貌进行综合考察提供了便利。
在进行对比研究时,需要考虑各阶段语料的平衡、各类型(书面语、口语)语料的平衡、各文体语料的平衡、各性别语料的平衡等。在建库过程中,我们考虑到了产出者水平、母语背景、性别、口语语料与书面语语料等方面的平衡。但是由于语料收集的现实原因,不同水平语料及口语语料与书面语语料的平衡可以尽力保证,而产出者母语背景及男女比例方面的平衡未尽如人意,主要原因在于中华语言文化本科班招收的主要是东干留学生,但是也有少量非东干学生,因此,基于中华文化语言本科学历班收集的语料无法做到产出者母语背景的完全平衡。同时,由于中亚东干人普遍结婚较早,尤其是女性(平均结婚年龄在18—19岁)(李建军等,2015),因此班里的女生较少,无法做到产出者性别方面的平衡。理论上说,语料越平衡越好,但在具体建库实践中,很难做到各方面的全方位平衡。所以,“因地制宜地进行局部的有代表性的语料收集和建设也许有其不可替代的价值,也是必要而可行的”(颜明、肖奚强,2017)。该语料库在水平阶段的平衡控制较好:即初级、中级、高级阶段(每个阶段内部还有进一步的水平划分)产出者的数量基本平衡,使语料保持了很好的连续性,这就为不同阶段的语言习得发展趋势研究提供了语料,也方便开展对个案语言习得的追踪研究。
2020年爆发的新冠疫情导致不少留学生教学项目受到极大影响,中华语言文化本科学历班也不例外。虽然学校及学院采取了各种措施鼓励学生线上继续学习,但是由于学生的生活压力4、网络质量差5以及网络教学效果不佳等现实问题,生源流失严重,语料收集遇到极大困难。巧妇难为无米之炊,这也是我们在建库过程中遇到的最大困难。不过,疫情终将过去,留学生也终会入校学习,相信假以时日,这一问题可以得到解决。
在收集语料的过程中,初级阶段的学生成段表达有困难,只能产出一些造句语料,且语料数量较少。因此,虽然初级、中级、高级阶段的语料产出者数量基本相当,但是由于初级语料较少,导致初级、中级、高级阶段语料的数量并不平衡。针对这一问题,我们计划在新生入学后,加强对初级阶段学生的语料收集频率,以缩小初级阶段语料与中级、高级阶段语料的数量差距。不过,这样会造成部分初级阶段语料的产出者没有相应的中高级阶段语料,因而无法对这部分语料的产出者进行追踪性研究。
追踪性书面语语料的收集相较于追踪性口语语料较为简便。主要原因在于,教学计划中开设“汉字读写”“中级汉语写作”“高级汉语写作”等课程,学生每周都会有作品产出,追踪性书面语语料的收集比较方便。而口语语料的产出则没有这么规律,只有在期中、期末考试时才方便专门收集,虽然语料会从一年级一直延续到四年级,但由于产出数量少,追踪性口语语料收集效果不太理想。为了解决这一问题,我们计划发挥本专业本科生及研究生的力量,在双方自愿的情况下,为中外学生牵线搭桥,提供“一对一”的语伴服务,要求双方每周至少进行一次与学生生活密切相关的、各语伴小组间的话题具有很强相似性的语言交流,并要求中国学生在交流的同时录音且定期上交录音材料,从而解决追踪性口语语料不易收集的问题。
文秋芳(2009)认为:“影响跟踪研究效度的最大问题就是多次收集数据的可比性。影响可比性的困难有两个:一是每两次收集数据的间隔期可能不等,二是两次收集数据所采用的方法与任务不尽相同。”为了确保基于本语料库追踪性研究的效度,保证多次收集数据的可比性,在语料的同质性方面,我们所收集语料的产出者在培养方案、课程设置、年龄、学习环境、所用教材、教学方法、语言环境方面均有很高的同质性,且两次语料收集的间隔基本一致,采用的也均是与学生生活密切相关的话题。但即便如此,我们仍旧不敢肯定学生汉语的变化是否会受到不同话题的影响。
由于继承语理论的兴起,国内外亟须建设汉语继承语学习者语料库。为满足这一需求,我们从“中亚地区汉语继承语学习者语料库”建设的必要性,语料的追踪性、同质性、真实性、共享性、可比性以及平衡性等方面进行了探讨,并就建库实践过程中遇到的问题及解决办法进行了分析。但是,由于受到疫情的影响,中华文化语言本科学历班学生无法来到中国学习、线上教学效果不佳及学生生活的现实需要等原因导致生源流失严重,语料收集困难,这也成为我们建库过程中的最大困难。
附注
1 数学概念,给定两个集合A、B,把他们所有的元素合并在一起组成的集合,叫作集合A与集合B的并集。这里指将不同的语料库中的语料合并起来。
2 这部分的标记代码采用了与“全球汉语中介语语料库”相同的代码,以方便对两个库语料进行并集研究。
3 该库由西北师范大学武和平教授团队研发,作者本人也参与其中,目前已投入使用,网址为:http://114.251.154.212/cqp/dungan/。
4 中华语言文化本科学历班学生大多居住在农村,在东干人的观念中,19岁左右的男孩子已经被视为家里的劳动力,需要出去赚钱养家。
5 中华语言文化本科学历班学生大多居住在农村,网费较贵且网络质量较差,有的学生为了完成毕业论文答辩,甚至专门开车寻找信号较好的区域。