刘 华
(暨南大学 海外华语研究中心,广州 510610)
目前,国内汉语语料库建设比较成熟,比较著名的如北京大学CCL 语料库(含现代汉语语料库和古汉语语料库)、国家语委平衡语料库、国家语委监测语料库(包含平面媒体、网络媒体、有声媒体、教育教材、海外华语多种语料库)、北京语言大学BBC 语料库等。双语平行语料库、口语语料库、学习者中介语语料库是今后语料库建设和研究的重点。
其他地区或国家的汉语语料库主要包括:台湾“中研院”邹嘉彦主持建设的“海峡两岸暨香港、澳门语料库”、新加坡国立大学王惠主持建设的“新加坡华语语料库”、旅英学者肖忠华博士创建的“英国兰卡斯特汉语语料库——现代汉语平衡语料库、中文网络语料库和商务汉语语料库”。
在华语语料库建设方面,比较有特色的有暨南大学海外华语研究中心刘华主持开发的“东南亚主要华文媒体(网站、报刊)语料库、东南亚华文教材语料库”,以及暨南大学王茂林主持建设的“东南亚华裔学习者作文语料库、华裔学习者口语语料库”等。
在全球华语大发展、大融合的背景下,面对汉语热的机遇与挑战,建设全球华语语料库是语料库工作者责无旁贷的历史使命。
目前,英语已经建设有“国际英语语料库(ICE)”,这是各国或地区英语语料的集合,相当于英语国际变体的汇总,是全球英语变体的语料库。全球华语语料库也应如此,广泛收集全球各国或地区的汉语变体的语料。
但是,国内外尚无大型通用的全球华语语料库,而主要是中国国内的汉语语料库。有一些华语语料库也是区域性的,如邹佳彦的“海峡两岸暨香港、澳门语料库”、王惠的新加坡华语语料库,缺乏从全球视角构建全世界的华语语料库。全球华语语料库建成后,将会和国内汉语语料库一起,互相补充,构成全球汉语的语料库一体化系统。
因为世界各地说汉语的主要还是华侨华人,所以汉语热实质上是华语热。同时汉语研究必须走向全球,汉语的语音、词汇和语法研究,若想从传统的本体研究中取得新突破,就需要从全球华语的角度来重新进行构思。
海外华侨华人的华语研究是汉语研究全球化视野下的重要组成部分,汉语和华语的对比研究、全球不同华人社区华语差异研究、全球华语方言研究、跨境语言研究、全球华语语法研究都需要大规模的全球华语料库来辅助。
汉语国际教育和汉语国际推广,其中最主要的部分是华文教育和华语传播。华文教育和华语传播需要基于全球华语语料库的研究结果,例如,华文教材的本土化、国别化词表建设、华文教育用基本字词表建设、华文教育多样性研究等。特别是全球华语语料库中的华文教材和华裔学习者作文、口语等子语料库,将为汉语国际教育提供最直接的数据基础和理论支持。
语言、方言是文化最重要的载体和组成部分,是文化多样性的体现,是珍贵的非物质文化遗产,是不可再生的资源。抢救性收集和保存华语资源,是保护中华民族语言文化遗产迫在眉睫的重大历史使命[1]。
全球华语语料库不仅仅包含文本的语料,而且包含口语有声数据,以及语言生活场景的音视频资源。这种多媒体形式的语言资源库,不仅仅为语言学研究提供数据支持,也为文化学、人类学、传播学等提供数据参考。
全球华语语料库在建设上有自己的特点、构建方法和流程。需要从建设的基本原则、语料来源与获取方法、语料构成及比例、信息字段及存储格式等方面考量。
语料库建设的科学性首先体现在建库的基本原则上。围绕选择语料来源的载体、题材、地域和语体以及语料的媒体形式,全球华语语料库建设应遵循以下基本原则。
1.华语语料来源样式较少,载体、题材、体裁相对单一,需要因材取材
与国内汉语语料来源多样不同,华语语料的主要载体形式是华文网站、报刊、文学作品、教材、学习者作文、口语等,其中,华文网站、报刊、文学作品是主要来源。因此,全球华语语料库无法像国内语料库那样设定详细的各种体裁、载体和题材的建库原则,只能因材取材,集中于网站、报刊、文学作品等来源语料建库。
2.华语语料来源地域分布不均,以东南亚华语为主,需要因地取材
全球华侨华人主要集中在东南亚各国。那里华人社区历史悠久,成熟度较高,华语特色非常明显,极具代表性。东南亚华语媒体,如华文网站、报刊、教材等比较发达成熟;东南亚华裔学生是华文教育乃至汉语国际教育的主体,其中介语作文和口语,较有价值;华人社区大都保持说华语或汉语方言的传统,汉语言文化认同度较高,其口语语料价值也较高。[2]
其他大洲的国家的华人多为新移民,代表性不强。部分华文网站、报刊、文学作品可以作为语料来源。其中,欧美华人文学作品价值较高,是其代表;其华文教材、作文、口语来源的语料较少,价值较低。
因此,全球华语语料库应该以东南亚华语语料为主要语料来源,兼收其他大洲语料。东南亚华语语料来源广泛多样,书面语的网站、报刊、教材、作文和口语的真实生活场景调查语料是其主体;其他大洲则以书面语的网站、报刊、文学作品为主。
3.书面语、口语并重,和汉语语料库相比,更重口语
华语,特别是东南亚华语,其特色在于口语。现当代汉语经过演化,特别是建国以来的规范化之后,与古汉语、近代汉语的差异更加明显,多样性也有所减弱。而海外华语则保持了相对独立的发展过程,华语及其方言流传于海外,口语保持了近代汉语、甚至古汉语的很多因素。因此,海外华语的口语价值较大,而且从抢救性记录和保存华语语言资源、保护民族语言文化遗产的历史使命角度来看,口语理应更受重视。
4.多用途、多媒体、富信息的语料库建设理念
华语语料广泛分布在海外,地域跨度大,重复性建设和验证较难。语料库最好能设计为多用途,除了对普通的语言学研究提供数据支持之外,还应对语言研究的细分领域,如汉语教学、社会语言学、方言学、语言地理学,甚至跨学科的文化学、人类学、传播学等多学科的研究提供数据支持。
因此,一次性建设后,全球华语语料库应该尽可能地附带语言使用的各种语境信息,比如华语使用所处的社区环境,口语说话人的肢体语言、人际交流情景等。这种多用途、富信息的特点,决定了其语料的多来源、多媒体形式。除了传统的书面语和口语形式外,还应包括真实华语口语生活场景的音视频。
传统语料库只包括书面语文本和口语有声语料两种。全球华语语料库则应通过文本、音频、图片、视频等多种媒体形式,实态反映华语的语言生活,包括华文媒体语料库、华语有声数据库、华语风貌资源库。与单一的传统语料库形式不同,该语料库通过多种媒体形式全方位多角度展示华语风貌,声色并茂、图文并茂,是“多媒体语言资源”理念的创新和实践。[1]
总体上,东南亚华语语料约占全球华语语料库的四分之三;亚洲其他国家,欧洲、美洲、非洲、大洋洲等则以其主要国家的主要媒体为主,合计约占四分之一。
1.华文网站、报刊
参考海外华语研究中心已经完成的《海外主要华文媒体调查报告》,选取各国主要华语代表地区的,当地化、本土化特色明显,主流性的华文网站和报刊,收集近十年的语料。
网站和已经在线的报刊,通过批量下载的方式完成,没有上网的报刊与其编辑部联系协商,直接拿到电子版,或者人工输入完成。预计网站语料约一亿字,报刊语料约两亿字。
2.海外华文文学作品
参考《世界华语文学大系》,选取各国代表性华语作家的代表性作品。其中体裁方面,以小说为主。字数预计约一亿字。
3.真实华语口语场景的音视频资源
以东南亚各国为主,每个国家根据省级行政单位设置调查点,原则上“一省一点”。对于每个调查点,采集其个人、家庭、重大节假日和大型聚会的口语生活场景的音视频素材[3]。
个人口语生活场景调查。每个调查点均需要调查6 名华语发音人,主要通过定题朗读、自选话题讲述、多人任意话题对话等形式,录音录像,时长约一小时。
家庭语言生活场景调查。选取两个具有代表性的华人家庭(日常会话以华语为主),选择一天中具有代表性的生活场景进行录像,如吃饭、聊天、家人聚会、购物等日常生活,时长约两小时。
重大节假日、大型聚会语言生活场景调查。选择华人社区典型的具有地方特色的重大节假日、大型聚会的语言生活场景,如春节、鬼节、教堂活动、婚丧等,进行录像,时长约两小时。
预计总共200 个调查点,其中东南亚160 个点,其他州40个点。转写后的文本预计每个调查点 10000 字(平均每分钟音视频大约30 个字[4],每个调查点共5 个小时录音),总计约1000 小时音视频,200 万字。
4.华文教材
华文教材以东南亚各国为主,基于“本土化、主流性、成套、公开出版”原则,选取那些当地人主编的、本土化特色强、正式出版并且较大规模使用、各年级齐全成套的中小学华文教材,以及使用面广、影响较大的补习教材和自编教材。共计约二十套,两百本,两百万字。[1]
5.华裔学习者作文与口语
华裔学习者作文主要收集学习汉语的华裔留学生的平时作文和考试作文,共约一千万字。
华裔学习者口语主要采集学习汉语的华裔留学生的日常对话、课堂口语和录音室录音,约一百万字。
华裔学生以暨南大学华文学院的学生为主,兼及其他高校的华裔学生以及海外华文学习者。
海外华语传播的主要途径是华文报刊,其次是华文网站和文学作品,再次是与华文教学相关的教材和作文。根据海外华语研究中心完成的《海外主要华文媒体调查》,东南亚的华文网站,约占华文网站总量的20%;东南亚的华文报刊约占华文报刊总量的25%。根据《世界华语文学大系》统计结果,东南亚华文文学作品约占世界华语文学作品总量的25%。考虑到东南亚华文媒体华语特色突出,我们将其加权3 倍,网站、报刊和文学作品中东南亚占比分别为60%和75%、75%。全球华裔的华文学习者中,约九成来自东南亚,因此东南亚学习者的作文和口语的占比也约为90%;另据暨南大学华文学院蔡丽博士完成的《海外主要华文教材调查》,华文教材中东南亚的数量约占90%。东南亚华语口语特色非常明显,极具代表性,因此,口语生活场景调查语料中东南亚占比也约为90%。见表1。
表1 全部库比例
语料库的字段设计和存储格式决定了建设好的语料库的用途和扩展性[5]。
可扩展标记语言(XML)是一种提供数据描述格式的标记语言。该语言跨越多个平台,能更准确地进行内容声明和获得更有意义的搜索结果。此外,XML 让数据与表示及处理分离开来,扩展性强。
系统中 XML 的DTD(Document Type Definition,文件格式定义)定义如下:
DTD 说明如下:
1.存储采用utf-8 编码格式。
2.根节点 Article 包含两个元素,Header 和Text。
3.
全球华语语料库在建设的基础工作完成后,还需要进行深加工。比如:选取核心库,分词标注词性、人工校对,基本字词信息统计等。
从海外华语传播的效果来看,和华文教学相关的教材与学习者口语,影响最大,最为直接,当地人口语也是华语面貌的最直接体现;而且,学习者口语和当地人口语,都是从全球华人语言的大数据中抽样获得的,抽样比例本来很低。因此,核心库中,教材、学习者口语、当地人口语保持100%抽样。
其次,学习者作文的华语传播效果也比较好,抽样比例本来也较低,但在核心库中,作文按二分之一的比例抽样。
网站、报刊和文学作品的语料共四亿字,三者基数都较大,华语传播的效果不如其他来源直接明显,其核心库就按十分之一的比例抽样。见表2。
利用分词软件分词、标注词性后,进行人工校对。校对后,分词准确率控制在99.95%以上,词性标注准确率控制在98%以上。
表2 核心库比例
分词和校对时,特别需要注意华语特色词语的分词和词性标注问题。例如,东南亚华语特色词语“拿督、组屋、肉骨茶”等,可能会在分词时被断开,需要在分词软件的底表中预先补充;同时,在校对时特别注意这些词语的断字切分和词性标注问题。
统计汉字基本信息。包括语料库及各子库总的频次、字种数,每个字种在每个国家、每种媒体、每个子语料库、总库中的频次、文本数,汉字分类使用的统计(如规范字、异体字、繁体字等)等。
统计词语基本信息。这些信息包括语料库及各字库总的频次、词种数,每个词种在每个国家、每种媒体、每个子语料库、总库中的频次、文本数,分词性统计数据、词性分布情况等。
针对音视频文件及转写后的文字材料,按句将文本文字与音视频播放时间对应起来。这样有利于以后全文检索时,直接通过文字检索到对应的音视频片段(对应是播放起止时间点)。
对于华裔学习者作文和口语语料库,参照北京语言大学HSK 语料库偏误标注体系、标注规则和操作方法,详细进行偏误标注,方便语言习得、语言教学研究者进行偏误分析和习得规律总结。[6]
基于网络平台,全球华语语料库可以包含一定的网格检索功能。
根据需要,系统可自由定制子语料库,例如定制分载体或者媒体的语料子库:华文网络语料库、华文报刊语料库、华文文学语料库、华文教材语料库、华文作文语料库、华语口语语料库等。也可以结合国家和载体或媒体定制子语料库,例如定制泰国小学华文教材子语料库、美国华人家庭生活场景口语子语料库等。
支持总语料库及各子语料库的汉字、词语、词性的使用情况检索,例如频次、文本数等。并且,检索汉字或词语时,可同时列出其在总语料库、各子语料库中的详细汇总数据,方便研究者进行对比研究,例如字词的分语域对比研究。
可以检索任意字串或符号,并且利用规则进行高级检索,例如“与、或、非”的检索、距离检索、组合检索等。支持选择子语料库进行基本检索和高级检索。也可以利用媒体定位,只检索某种媒体的全文例句,例如,检索“新加坡联合早报”的例句。
构建的真实华语口语生活场景语料库,除了对语言学研究提供一般数据支持之外,还对汉语教学、社会语言学、方言学、语言地理学,甚至文化学、人类学、传播学等多学科的研究都有重要的意义[1]。因此,这部分语料库不仅仅需要提供基本字词和全文检索,还特别需要开发音视频资源点播系统。该系统主要包括如下功能:
1.树状列表检索。树状列表以根节点和叶子节点形式连接,通过加减号展开或收缩,收放自如,如可以一步步选择“洲—国家—地区—调查点—发音主体—音视频文件”。
2.文件名检索。输入字符串检索音视频文件名,例如,输入“美国”,列出美国所有调查点及对应的发音主体的音视频文件;也可直接输入调查点名、发音主体名或者音视频文件名,支持模糊匹配的智能检索,例如,输入“张三”,将列出“张三说话、张三李四对话、张三丰家庭会话”等音视频文件。
3.全文检索。输入字符串,检索到文本例句片段以及对应的音频流或视频流(后台已经和文字流对应)中包含该字符串的音视频文件,并且定位到音视频文件中相应的播放时间位置。例如,输入“雅加达”,将检索到文件“亚洲—印尼—雅加达 1—张三说话.mp4”中 00:02:13 开始,00:02:23 结束的一段视频,其文字是“……我住在雅加达的东边……”。
目前,我们已经完成了3 亿字的东南亚主要华文媒体(报纸、网络)语料库,完成了100 万字的东南亚小学华文教材语料库,建设了500万字的华裔学习者作文语料库和50 万字的华裔学习者口语语料库;并且,已完成上述语料库的网络检索系统。
从已有语料的建设经验来看,全球华语语料库建设面临的问题和困难如下:
1.语料来源较单一,主要以华文媒体的网站和报纸语料为主;
2.海外华文网站访问的速度较慢,有时甚至打不开,且经常有乱码,繁体字内容较多;
3.海外华文网站和报纸结构混乱,照搬中国新闻较多,重复性新闻多,内容质量不高;
4.语料库来源的纸版材料,如教材、文学作品、作文等,数量庞大,需要花费大量的人力物力来输入校对;
5.口语的语料来源太少,海外录音困难,方言夹杂,转写难度较高,费时费力。
接下来,我们将全面开展大规模的海外华人社区口语语言生活场景的调查与录音录像工作(已经完成调查手册和前期试点调查),同时,将在全球范围扩充建设华文媒体、教材、文学、作文等各子语料库,特别是将重点加强海外华文文学作品的收集建库工作。