湘南土话基础语料音库建设初论

2014-08-15 00:45邓永红
暨南学报(哲学社会科学版) 2014年4期
关键词:土话湘南语料

邓永红

(湖南师范大学 文学院,湖南 长沙 410081)

一、湘南土话调查研究的基本回顾

湘南土话主要分布在郴州市和永州市所辖16个市县。这一特定指称术语最早出现在《汉语方言的分区》中,该文把郴州、永州十六个市县划分为西南官话区湘南片,在非官话未分区中又说,湖南省南部十六个市县的交际语是西南官话,命名为湘南片。各市县内还有土话。湘南土话与韶关土话的关系有待调查研究。湘南片实际是西南官话和湘南土话共同作为交际语的双方言区,对外用西南官话,在说同一土话内部人群中用土话进行交流。其实早在20世纪30年代民国政府中央研究院历史语言研究所的湖南方言调查中就有湘南地区的个别县点涉及土话,该次调查材料直至70年代才由杨时逢先生整理并在台湾出版。但真正对湘南土话大范围调查研究始于80年代中后期。日本学者辻伸久1987年调查记录了嘉禾龙潭话,撰写了《湖南省南部中国语方言语汇集——嘉禾县龙潭墟口语分类资料》。《中国语言地图集》提出未分区的“湘南土话”以后,湘南土话的调查逐渐升温,2000年第1届土话会议(韶关)以后,迄今已召开6届土话研讨会,土话调查研究成为汉语方言学界持续关注的热点。湘南土话的调查材料广泛见于研究著作、学位论文、期刊论文、会议论文中。专著如:《临武方言——土话与官话的对比》、《江永方言研究》、《资兴方言》、《东安土话研究》、《宜章土话研究》、《宁远平话研究》、《嘉禾土话研究》、《湖南江华寨山话研究》、《新田南乡土话研究》等等;土话词典有《桂阳方言词典》;博士论文如:《湘南土话之比较研究》、《郴州土话语音及词汇研究》、《湘南土话词汇研究》、《湘南永州土话音韵比较研究》、《湘南土话代词研究》、《湘南土话与湘南瑶语的接触和影响——江华县个案调查研究》、《永州南部土话语音研究》、《桂阳土话语法研究》、《湘南土话语音的历史层次》等等,硕士论文有30余篇。《方言》杂志发表了24篇湘南土话调查材料。6届土话会议提交的湘南土话论文超过50篇。《湘南土话论丛》收录了29篇论文。从2000年至今,仅CNKI检索到的湘南土话的期刊论文多达300篇。此外,20世纪90年代各县新修地方志的《方言篇》也记录了当地土话材料。

二、湘南土话基础语料采录的基本思路

湘南土话调查研究的文献记录语料经过几十年的积累,数量丰富,成果显著,但不足也是明显的,一是还存在不少调查空白,二是调查材料缺乏基本音档。由于没有音档,方言调查者之间缺乏语料互信和共享,出现了低水平重复调查现象,这不但不利于湘南土话研究的深入和拓展,也造成了人力和资源的闲置和浪费。湘南土话基础语料音库建设也就迫在眉睫。

基础语料音库是指采录湘南16个市县主要土话的常用字汇、基本词汇、语法样句、话语样本,制成音频语档。湘南土话和西南官话在湘南地区并存,但官话的强势地位和普通话的强大影响,加上现代人口流动频繁,使很多土话使用范围日趋狭窄,使用人口急剧下降,濒临消亡的境地。如嘉禾城关土话在一些青少年中就只会听,不会说了,属于濒危方言。跟一些强势方言如粤语、吴语比起来,土话的音档采录建设更需要和时间赛跑。

语料库有语音语料库和文本语料库。基础语料音库属于语音语料库的一部分。近几年,国家语言文字工作委员会启动了“中国语言资源有声数据库”工程,江苏省语委初步建立了本省汉语方言语音数据库“中国语言资源有声数据库(江苏库)”,可以在网上查检,有字词单句等文本朗读言语。

学界还认识到一些濒危的少数民族语言和汉语方言,更应该以有声语档的形式记录保存下来。范俊军、张帆指出,传统的语言调查记录的工作路线,无法适应濒危语言保存或保护的需要;调查记录的进度,难以跟上濒危语言消亡的进程;调查记录的方法和手段,不能胜任大规模、持续的语料采录和处理;调查记录的成果形式,不能满足语言族群和社会对语言产品的需要;语料的描写和处理,无法适应语言资源永久保存和多用途需求。针对这种形势,我们必须加快对湘南土话的音频、视频采录的速度,争取对每县的主要土话都采录下来,研发成有声的或多模态的语档,以永久保存。

湘南土话基础语料音库建设分为常用字、基础词、日常用句加语法例句,再加上话语语料。常用字我们选取了1500字,常用词3687条,日常用句300句,语法例句100句,话语语料4到6篇。我们先以字、词、句为重点,自然话语各种主题尽量采录全面。词、句、话语主题我们依据《语言调查语料记录与立档规范》里的词汇集、句子集、话语主题集选定。该书是和声飞软件配套使用的。

字、词、句采录在室内进行,通过声飞软件采录发音人的发音语料。声飞软件有词语条目或概念条目7680条,按义类编排,分31个大的义类,每个大类下分几小类。我们选用核心词和最常用词2200余条,加上一些以语言研究为目的的词汇。根据已有湘南土话词汇调查成果从声飞软件的词表中筛选了3687条词语作为调查条目。在调查中,不说的词语不录。碰到地域特有的概念词和文化词,在条目中没有立目的或者无法更细划分的,进行实时增补。比如亲属大类中的A小类长辈类中只有伯父、叔叔的词目,在土话中伯父和叔叔还进一步区分长幼,不同排行的伯父和叔叔,还有不同称呼。如临武县城土话,如果父亲有五兄弟,父亲在兄弟中排行老三,那么小孩就要叫父亲的两位哥哥分别为大爹、二爹,叫父亲的两个弟弟分别为四爹、满爹。父亲兄弟的小孩叫父亲为三爹。我们增录这一类长辈亲属称谓词,并在注释中加以说明。声飞软件每个词目都有固定编码,每个小类别下的词目序号为3位数,调查者可以根据不同方言进行扩充而不影响原词目的序号,这样便于数据库处理。

日常用句我们录制了问候与介绍、叙述时间或年龄、谈论生活习惯和爱好、谈论婚姻和家庭、谈论工作和劳动、谈论性格和人品、建造房屋、赶集与购物、谈论农作物和家畜、谈论节庆和红白事等10类交际主题的句子,为后面的话语语料采录打下基础。语法例句根据四个方面来确定100个例句,它们是句子成分;句子的态、时、体;单句句式和句类;复句的逻辑语义分类。

话语如在室内单人录制,采用电脑、录音笔、摄像同时进行;如在实地录制,就用录音笔和摄像机同时采录。话语主题分交互型话语、叙述型话语、仪式型话语、演讲报告型话语、演唱型话语、娱乐型话语六大类。每类具体体裁下面,都给出了若干话语主题或话语事件。如叙述型话语分记叙类和程序类,程序类下又列了12个具体的话题,如:介绍本地某种重要作物的种植过程;介绍本地婴儿出生礼俗过程;介绍某种本地特色食品的制作过程;介绍本地房屋的建筑过程等。

三、湘南土话基础语料采录的实践问题

2012年和2013年我们分两次对湘南6县的土话进行了采集,实践中,我们发现了一些问题,也得出了一些经验和教训。

(一)词本位入手采录

汉语方言实地调查最常用的是字本位和词本位两种调查法。字本位的方言调查法是从文字出发来调查方言,即预先编好调查表格,发音人根据字表提示,说出方言读音,所以调查所得只能算是一个方言点的汉字读音系统。而有些“字音”在方言口语中经常用,但写不出字来,预先编制的调查表格不可能预测到。如桂阳六合土话中的人称代词复数合音词,这时候就要结合词本位的方言调查法进行调查。词本位调查法与字本位调查法不同,这种方法从调查方言点口语入手,调查者先问发音人一些具体事物的名称或说法,对辨音有一定把握后,再开始对方言句、段或篇进行调查并记录,这种调查方法采集的方言语料是最接近自然语言真实面貌的,但调查过程比较繁琐、时间较长。

2012年7月,我们在湖南永州市道县进行土话基础语料采录。12人分为6个组。设备都是笔记本电脑和外置声卡、手握式人声话筒。1人负责用电脑和话筒录音,1人负责笔录。我们这组录的是道县仙子脚镇小伟村话,采取字本位调查法,从字表开始录。本人是郴州桂阳人,与永州道县比较邻近,自认为听他们的话不成问题。没想到发音人一开腔就把我们给难住了,比如“哥”读 tʌ,“左”读 tʌ,“坐”读 sʌ,“我”读io,读音相差太远,根本无法将“字”和音联系起来,无法肯定这种读音是不是这个字。这样下来1500字用了4天时间,效率大打折扣。接下来在临武县、宜章县、嘉禾县、桂阳县,我们改变了策略,即先用声韵调代表字调查出音系,就开始录词表,这样我们和发音人都很好把握,每天早晨先集合所有发音人把当天要录的词条进行讨论,对发音人不理解的词条作一些解释,发音人对一些词语的土话说法彼此也可以互相提醒、启发,词条录得很快,4天到5天时间就录了3600多条词语,接着用1天半的时间就录了1500左右的单字。这样我们后面几个县每个县都只用了不到一周的时间完成了词语和单字的采录工作。

先录词,再录字,有点类似词本位调查法,和惯常先调查字的方法正好相反。实践证明,这种方法在土话记录中是行之有效的。这是因为:

1.在下去调查之前,已经作了前期准备工作。我们比较穷尽地搜集了散见于各处发表和未发表的湘南6县土话的论著、论文、会议资料,筛选整理了其中的音系、单字、词语、句子、语段等文本语料,即进行了有序化整理,对当地的土话有了一个初步的文字认识。

2.发音人词语的发音肯定比字的发音要来得自然,能很快说出词语的土话说法。在宜章县调查时,身为小学老师的发音人也认为,说出词语很轻松,而面对单字觉得比较费劲。记录完词语以后再来记录单字,对这种话有了感性认识,很容易判别字的发音是不是本字,从而提醒发音人说出那个字的土话说法。发音人在词里面接触了这个字,也会比先字后词的调查更容易读出它的土话发音。

3.董同龢先生的《华阳凉水井客家话记音》采用的是词本位调查法,作者调查时不用字表,“先问一些事物的名称或说法,以便在较少的词语或句子中辨别出各种最基本的语音。在对辨音有了相当的把握后,即开始成段或成篇的语言记录”,最后从成篇的语料中截取词语和语音。这种调查法的好处是可以调查出用预定的字表调查不出的语音材料,调查结果可能更接近自然口语的真实面貌。

从最自然的语音单位——词开始进行调查,这是有助于土话的调查方法。湘南土话区都是双方言区,有相当一些字包括一些词在土话里根本不用,而是直接用西南官话来说。土话的声韵调系统跟普通话差别较大,从调查字开始进入不好把握,从词进入有利于提高采录效率。

(二)话语采录从最常用句开始

2013年暑假,我们到嘉禾县、桂阳县进行了第二阶段的录音,即录句子和话语。经过前期对字和词的整理,再录句子和话语,对句子和话语的理解相对轻松了一些。句子分日常用句和语法例句,以日常用句为主,语法例句为辅。以往作语法调查都是先调查一些典型的语法例句,再调查一些歌谣、民间故事等。我们发现有些语法例句调查起来比较生硬,发音人有照着念的倾向。于是我们改变做法,从最常用句开始。常用句又从工作交际用语入手,我们边录边学。比如:“你来了,请坐”“喝杯茶,休息一下”“把鸡赶走”等,我们一共录了300句左右。话语由发音人从主题表里选择。叙述型话语我们摄录了民间故事、神话、个人叙说、酿酒的过程、婚姻礼仪过程、丧葬过程,演唱型话语我们摄录了嘉禾哭嫁歌的演唱,娱乐型话语我们采录了一部分童谣、俗语、谚语。交互型话语我们来到发音人家里,从特定事件入手,引导对方对话,用录音笔进行采录。仪式型和演讲报告性话语不容易碰到时机,我们没有采录。对话语除了录音以外,我们还全程进行了摄像。

(三)用ELAN对话语语料进行标注和转写,使之成为熟语料

濒危语言消亡以后,将面临不再有人能听懂和能解释的困境,因而所有记录和保存的语料,都必须做到能够让后人理解、明白。这就要求我们对全部调查记录材料,包括录音摄像材料和实地调查笔记,务必根据人们普遍的语言知识,使用大家都能阅读和理解的方式,进行详细的、清晰的、正确的转写、标注、翻译和解释,将各种材料进行科学的分类、标目和立档,并及时跟进技术升级,转换为新的数据格式,用新的介质存储;与此同时,要把记录材料广泛提供给图书馆、档案馆和有关研究或服务机构,向社会最大程度地公开,方便人们获取,从而确保濒危语言资源的永久保存和广泛传播。暨南大学汉语方言研究中心研制了《中国濒危语言有声语档数据协议(草案)》,意在使各种濒危语言有声语档的语料采录、加工处理和保存能有一个统一的规范和标准,便于有声语档统一入库,方便查询。

Elan是荷兰纽梅因马普心理语言学研究所开发的一个多媒体转写标注软件,在语言存档、口语语料库建设、濒危语言或方言的保存等方面被广泛使用。Elan有强大的建库和搜索功能,可以转写标注音频、视频文件,转写标注内容可以快速查找替换,还可以调用Praat、Toolbox等语言学软件的数据。在标注模式中,我们可以添加多层标注。方言转写层、国际音标层和普通话译文层3层是必需的,也可以根据需要添加注释层等。话语语篇采录后,我们对采录的话语作同步文本转写和标注,使音频(视频)、国际音标和文本逐句对齐,使用查找方便。

四、结 语

湘南土话的调查研究从上世纪国民政府时期中央研究院历史语言研究所的汉语方言调查开始,断断续续已经历时70多年。我们感觉到,湘南土话还有许多未知的领域有待深入的探索和研究。基础的有声语料资源的集成和数字化,是推进湘南土话研究向纵深发展和向更高层次迈进的重要条件。有些土话的濒危和消亡趋势,看来也不可逆转。因此,湘南土话有声资源建设,除了推进汉语方言学科理论发展之外,还有保存语言文化遗产的义务。我们应考虑,土话的调查记录,能为语言学科尤其是当代汉语方言学科的发展,语言文化资源的抢救和保护做出什么实质贡献?怎样才能使我们的研究成果适应人们当代语言生活的需求?如何处理和描写语言材料,才能使语言资源发挥更大的社会利用价值?唯有在这种田野语言学理念的指引下,方言土话的采录和调查,才会在理论、实践和技术上有所创新。

[1]李荣.汉语方言的分区[J].方言,1989(4).

[2]李宇明.论中国语言资源有声数据库的建设[J].中国语文,2010(4).

[3]范俊军.汉语方言自然口语语料库建设的几个基本问题[J].学术研究,2013(2).

[4]范俊军,张帆.面向少数民族濒危语言的语档语言学[J].西北民族大学学报,2011(6).

[5]范俊军.语言调查语料记录与立档规范[M].广州:暨南大学出版社,2011.

[6]杜福强.方言数据库建设初探——以甬江片方言数据库的建设为例[D].宁波大学硕士学位论文,2012.

[7]暨南大学汉语方言研究中心,暨南大学中国少数民族语言文学教研室.中国濒危语言有声语档数据协议(草案)[Z],2013.

[8]李斌.用ELAN建设单点方言多媒体语料库[J].方言,2012(2).

[9]曹志耘.论语言保存[J].语言教学与研究,2009(1).

猜你喜欢
土话湘南语料
语言接触与语音层次的新视角
《研学之旅》
湖南师范大学美术学院学生湘南写生作品选
可比语料库构建与可比度计算研究综述
【第八十五辑】被光阴埋葬的土话
中古汉语分期研究所涉及的语料问题
阿长的诗
如何使用第二外语学习者语料
异乡人的梦
英语教学中真实语料的运用