数字化时代中华谚语整理的标准化问题

2019-03-18 19:34贾徐维
关键词:谚语语料整理

许 晋 贾徐维

(内蒙古大学,内蒙古 呼和浩特 010070)

崭新的“数字原生代”已经在电脑,iPad和手机的陪伴下逐渐成长起来[1]。“建设网络强国、数字中国、智慧社会,推动互联网、大数据、人工智能和实体经济深度融合”是新时代的发展蓝图。利用网络进行传播的方式,已经对社会风气有潜移默化的影响,同时也发挥出教化育人的作用。中华多民族谚语浩如烟海,呈现出多样态、多语种、多特性的总特点 。“数字人文”学科,就是将现代计算机技术、电子技术、网络技术等应用到传统人文学科中,例如:文学、历史学、考古学等。这种应用在若干年前的人文学科研究中几乎是无法想象的。古籍数字化作为采用电子信息技术对古籍文献进行加工、处理,以揭示古籍文献信息资源的系统工程,其文献资源同样涵盖古代文学、文献学、历史学、考古学以及艺术学等等。[2]自20世纪90年代以来,以信息技术为代表的数字化技术被逐渐应用于各个领域,在取得了瞩目的成就之后,数字化也作为文化遗产的保护手段得到了各国的高度重视。近几年,在中国,非物质文化遗产数字化的保护手段也因此备受追捧。[3]

数字化是一种能够让谚语得以更好地传承和发扬的新途径,主要是采用数字录入、数字保存、数字整理、数字展示、数字传播等方式,将现存的已经收集到的谚语转换成一种可共享和可再生的数字形态,进而以新的视角进行解读,以新的方式进行保存,以新的需要进行利用。建立数字化存储方式,对于多民族谚语辞书的整理与研究,探索挖掘和保护中华多民族谚语,尤其是濒危语言谚语保护,会有很科学的改善。全球化、信息化时代的传播战略迫使我们必须以高远的眼光来认识中华谚语辞书整理过程中遇到的问题,新时代的研究者理应积极投身这一恢宏的技术转型之中,为文化传播手段的升级去开拓创新。

一、中华谚语整理数字化、标准化的必要性

从社会发展史看,人类正在经历第三次工业革命,对于辞书保护而言,数字化手段能加速其发展。谚语是民族智慧的结晶,也是一个民族语言的精华。中华多民族谚语是中华各民族谚语系统的集合,是中华各民族祖祖辈辈流传下来的重要文化资源和精神财富。对中华谚语的整理,数字化和标准化显得尤为重要。

首先,中华谚语图书种类相当丰富。在20世纪上半叶,我国对于地域性谚语的搜集成果丰富,“五四”之后,谚语的采集还形成了跨省的蜂起规模。据统计,这一阶段各省出版的谚语书籍加起来至少三四十种。新中国成立后谚语采集和谚书编纂工作有了新的开拓:从单类集子到综合选编;从一般列举到分类诠释;从古谚寻源到今谚集锦;从汉族谚语荟萃到各族谚语乃至中外合璧;从个人搜集遴选到国家普查集成,谚语编纂工作规模空前,取得长足进步。如《中国谚语资料》(1961)共收谚语45800余条,是五六十年代具有全国性的大型资料选本,对国内各兄弟民族间的文化交流具有重要意义和价值。20世纪50年代,中国加强对民族问题的调查研究,对国内各少数民族的历史、语言、社会、文化、风俗习惯等进行了比较广泛的调查,积累了大量资料。此后20年间,少数民族谚语的搜集与出版成效显著,其中蒙古语、维吾尔语谚语集最为突出。50年代后,各地气象部门及研究机构重视气象谚语的调查,出版大量反映各地气候变化规律和经验的气象谚语图书。同时农谚的采集整理也颇受重视。20世纪70~80年代,社会谚语采集编纂增多,这一时期最值得一提的是《中国谚语集成》,对我国各地各族、各行各业、古往今来的谚语资源进行普查,共采录到大约385万余条谚语,可以说是“集”我国古今谚语采集之大“成”。

其次,中华谚语传承中华传统语言文化,通过数字化和标准化整理谚语这种方式,建立大型的数据库,能够推进传统文化的研究进程。一个国家对于文化的保护,决定了这个国家文化财产的丰富程度。数字化是延续民族文化的重要手段。一个民族的文化精神可以说是一个民族生存下去的理由和灵魂,对传统的扬弃,决定着这个民族文化精神的统一性、传承性和创新性。当前,我国提倡“文化自信”,要实现中华民族伟大复兴,既需要的是对于中华文化的继承和发扬,也是以信息技术为代表的新一轮科技和产业革命。另一方面,将谚语辞书进行标准化和数字化的整理,能够形成全方位多层次的知识体系,数据库的建设能够使谚语传承更加开放和多元,用户能够查询到更多的信息,方便进行语料分析,为学术研究拓展一片新领域。同时也改变大众查阅图书的方式,研究者可以用移动硬盘来存储,也可以随时随地查阅互联网上丰富的资源和世界各大图书馆的藏书。这样的阅读和检索方式,无论是对研究人员抑或是读者而言,都具有划时代的意义。标准化和数字化的谚语辞书整理,也为全球华人,为学术界提供良工利器,提供了更贴近现代学术的典籍资源,与学术界互动,推进传统文化的现代化进程。通过对传统文化的深入了解与接触,能够增强我们的民族自尊心和对本族文化的自信心,取其精华弃其糟粕,弥合文化的断层,增强民族凝聚力,使中国传统文化获得健康的发展,推进社会的稳定与和谐进步。[4]

第三,数字化存储的更新能力强且存储规模大。借助数字化手段来保护文化,不是一次性的工程,而是后续仍可以不断进行更新和修改。对于中华谚语辞书的整理和保护,市场上有很多大型的相关书籍。就我们日常工作和学习而言,携带大量的图书对于一个研究者来说是很不方便的。数字形式的内容多种多样,可以自由转换,可以在任何设备上进行存储。另外,数字内容也可以进行压缩。这样就可以在一个很小的设备上装大量的内容。相比传统纸质辞书出版,利用数字化辞书整理可以有效地进行修改和更新,及时对于新发现的内容进行补充,亦可对于后期发现的问题进行修改。中华民族的传统文化珍宝不胜枚举,规模的限制也影响了研究的深入,采用数字化辞书整理则可以在规模上进行新的突破。

二、中华谚语整理数字化标准化的路径和方法

(一)中华谚语整理数字化标准化的路径

中华谚语整理旨在为中华多民族文化视域下探索各民族谚语的关联性、差异性和互补性提供基础资源,采用计算语言学、语料库语言学视角研究中华多民族谚语具有一定的开创性,已具较高的前瞻性和开创性。中华谚语的数字化标准化整理主要为实现以下两方面的内容:其一为建立一个相对全面、实用、科学的、可持续增长的中华多民族谚语数据库,即通过搜集、整理和数字化开发中华多民族常用谚语语料,采用人机互助方法实现谚语知识信息标注工作,构建包括汉、蒙、藏、维、哈、朝等24个语种的常用谚语语料库和典藏库。其二为研发便捷、友好、功能较全、网络版谚语检索系统,基于学习、查询和检索谚语的理念进行开发和制作,以广大用户作为软件设计的出发点,参照已建立的谚语语料库以及相关标准、规范数据编制;将汉、蒙、藏、维、哈、朝等多民族谚语语料库集成到统一平台上,实现其多维度、多方面检索以提供互联网公众服务。

上述工作总体来说需要经过两个步骤:第一步,按照科学、统一的规划,大规模调查、搜集当代中国汉语、少数民族谚语语料,予以科学整理、加工和有效保存以实现其初步数字化过程和语料汇聚,以备处理,这是实现谚语整理数字化的基础工程,也是一项重点内容。第二步,基于上述搜集和整理语料,以数据库格式针对不同语种设置不同分支库,以不同属性字段及其取值刻画每一个语种谚语。该语料库是在忠实于原语言材料的原则下构建,表述每一个不同语言单位的不同语义、文化、语用属性。中华民族的谚语涉及众多民族,建立数据库时也可进行分类,例如汉、蒙、藏、维、哈、朝等民族,由于其文本资料较充足,可以设立单一民族谚语库,其余则合并设立多民族谚语库,能够在一定程度上减少工作量。

(二)中华谚语整理数字化标准化的方法

1.要实现多语种平台的建设

不同的语言要放在同一个数据库中,能否让读者看懂并能够在实际中应用就是最关键的问题。通过田野调查、在线采集、文本转换、人工录入等多种途径搜集和整理涵盖汉、蒙、藏、维、哈、朝等多语种的常用谚语语料数据,包括其纸质版本和文本、图形库、数据库等电子版本,经过分类、编号、录入、编码转换、校对等步骤获取大型语料库词条;运用计算语言学学术界广泛使用的属性描述方法建库,各个分库之间通过“义类”“读音(国际音标)”“翻译”等属性字段实现相互链接。每一个数据库中初步设置七个属性字段,需要相关研发人员填充相应的属性取值。属性字段即设定为“编号” “谚语词条”“读音(国际音标)”“义类”“释义” “汉文翻译” “文化主题描述”。“编号”取值为阿拉伯数字,随着填充谚语词条自动生成,表示当前数据库中收录的谚语词条的总数量即谚语数据规模。“谚语词条”使用本民族文字填充,先考虑收录本民族最为常用的谚语词条,以便满足用户能够查询或检索常用谚语信息需求。“读音”属性取值为短文本或长文本,填充当前谚语读音的国际音标形式,以便将来各个数据库通过该属性字段相关链接或谚语检索平台研发中实现以“读音查询”检索功能。“义类”属性取值完全依赖于每个少数民族谚语的义类相关理论研究成果,预期假设为每种语言均有其谚语义类体系。“释义”填充当前谚语最为简单易懂的意义。纸质版谚语工具书有的释义较长并繁琐,其中我们抽取当前释义的若干个核心词语或短语高度简单地概括释义不但能够避开版权纠纷问题,也能让用户很容易理解或掌握该谚语意义。“汉文翻译”属性取值是汉语文本,填充当前谚语的相应汉文翻译结果,并且不同的每一个翻译结果之间用“;”隔开。“文化主题描述”是针对各民族谚语文化研究领域设定的,填充当前谚语所表示的文化主题信息。

2. 要进行多项检索功能的建设

为了高效利用和科学查询谚语语料,搭建公众服务系统,运用编程开发网络版谚语检索软件,为用户提供高效快捷查询、反馈学习和搜索结果的便利工具——“中华多民族谚语语料检索软件”。该软件以上述诸多语种语料作为后台数据库,由汉语、蒙古语、藏语、维吾尔语等若干个不同谚语语料库模块组成,将其集成在统一管理平台上;其中每一项语种模块均具有按 “字母顺序”“读音(国际音标)”“关键词”“各类属性”查询等诸多检索功能,以便用户根据不同需求获取不同谚语知识。通过上述检索功能,用户最终可获取可查目标谚语的“读音”“释义”“语义”“文化主题描述”等各种知识,这就保证使用者能够从不同层次来了解和学习中华谚语。中华谚语的数字化标准化建设,为适应专业研究者的需求,在以往数据库的经验上做出相应的创新,能实现多元检索、关联检索、动态检索。多项检索功能能够在学习和研究过程中排除冗余信息的干扰,快速准确地深入研究对象和研究资料。众所周知,每个人的时间和精力都是有限的。在过去的研究项目中,检索资料要浪费大量的人力物力,这些问题都将通过本系统进行解决。

三、中华谚语数字化建设中需注意的问题

(一)大语种与小语种的问题

对于语料较多的一些少数民族谚语,如蒙古族谚语、藏族谚语、维吾尔族谚语等,建立数据库是相对较容易的。但是对于一些小语种,就会在建库过程中产生很多难题,例如少数民族语言翻译成汉语的标准化问题及编码的标准和规范问题,在汉语、蒙古语、藏语、维吾尔语等文种的编码过程中有国家标准和通用规范,而一些少数民族的谚语目前还没有明确的规范。另外,不同的少数民族所流传的谚语可能出现重复,在整理和标记过程中如何去进行民族、语言的归属;小语种口头流传但还没有文字记录的谚语的补充问题;小语种研究人员较少,研究者对于谚语的熟悉程度等等。这些都是在建设数据库的过程中应该考虑到的,否则后续实践的过程中,必然会出现更多的困惑。为避免此类问题影响到建库的进程,在前期进行谚语的收集过程中要先就相关辞书、著作等前人研究成果中的基础理论依据和各民族谚语前期研究成果相关划分体系及其标记集作为技术标准。而对于一些少数民族谚语的古籍,既要对其进行整理和修缮,更重要的是弘扬和传播古籍所记录的优秀文化和精神。让专家学者以外的普通群众也能学习及继承本民族曾经创造的辉煌文化,以增强其民族自信心和自豪感。因此,在保护的同时要考虑对其进行有效的开发与利用。

(二)整理过程中的校勘问题

王宁先生已经明确指出,古籍是用文字记录下来的书面语言,所谓保留原貌,首先是保留原作品的语言事实。特殊需要时,也要保存字的原形。[5]对于中华多民族谚语的数字化而言,整理只是一种手段,保留其内容的真实和正确才是目的。古人强调,“书非校不能读也”,在传统纸质书中是这样的要求,那么在数据库的建立过程中也应遵循此准则。校勘就是初步的整理工作。整理的目的是为了有效地消除讹误,方便阅读。首先要进行字形整理。由于汉字异体众多,目前对异体字的归并尚没有统一的标准,尤其是古谚流传至今,字形标准化更需要重点注意。整理字形的工作,已经成为影响数字化工作的“瓶颈”。其次,一些内容在收集过程中会出现书目破损或者某些篇章页目内容不全的问题,少数民族的谚语中也会出现此类难题,使校勘整理工作量增大。出现此类问题要和本民族研究人员去共同进行校勘和整理,以推进建库工作。

各民族的谚语,负载着厚重的中华民族文明,凝聚着民族智慧,是祖先留给我们的一笔庞大的精神遗产。传承文明是时代赋予我们每一个研究者义不容辞的责任,谚语辞书数字化保护任重而道远。数字化和标准化的整理为中国谚语文化的继承和发扬奠定了基础。中华谚语的数字化和标准化整理保护,能够借助新兴的现代技术来使古老的中国文化历久弥新,让中国多民族文化在全世界展现恒久弥新的魅力,也可以使全球范围的炎黄子孙能够方便、快捷地学习了解本民族的文化。[6]

中华谚语的数字化建设将使国际性合作项目成为未来发展目标。当今社会,只有数字化产品才能迅速、准确地进行传递和交流,为互联网信息平台提供有价值的信息资源,使传统文化在信息传播的深度、广度、速度上有一个质的飞跃。所以中华多民族谚语辞书数字化和标准化整理,使我们可以进行多民族学者国际间的通力合作,这对解决技术瓶颈无疑是有益的,同时使我国数千年来的宝贵文化遗产进一步发扬光大。

猜你喜欢
谚语语料整理
说说谚语
基于语料调查的“连……都(也)……”出现的语义背景分析
高一零碎知识整理
谚语趣画(一)
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
Reliability assessment consideringdependent competing failure process and shifting-threshold
24节气
整理“房间”
英语口语常见谚语(二)