越南汉喃档案文献的数字化保护问题与策略分析

2022-05-30 18:10卫冉
档案管理 2022年5期
关键词:越南数字化

卫冉

摘  要:大量以汉字和喃字为书写文字的汉喃档案文献的数字化保护,是汉喃文献长期保存与研究的必要方法。针对越南汉喃档案文献数字化工作存在的问题,提出了培育复合型专业人员和扩大社会力量参与、建立汉喃文献专业字库词库及对照译文库、提高文字识别技术、保护知识产权等相应对策。汉喃档案文献数字化对中国包括汉文文献及少数民族(如京族)档案文献的数字化具有重要参考价值。

关键词:越南;汉喃档案文献;数字化;文字识别技术

Abstract: The digital protection of a large number of Chinese literature Archives with Chinese characters and Han Nom characters is a necessary method for the preservation and research of Han Nom literature. In view of the problems existing in the digitization of Han Nom literature and Archives in Vietnam, corresponding countermeasures such as cultivating compound professionals and expanding the participation of social forces, establishing professional word database and comparative translation library, improving text recognition technology and protecting intellectual property rights are proposed. The digitization of Han Nom Archives is of important reference value to the digitization of Chinese literature and ethnic minorities(such as Jing Nationality).

Keywords: Vietnam; Han nom literature archives; Digitalization; Character recognition technology

越南作为东亚汉字文化圈的重要成员,从古至今留下了大量以汉字和喃字为书写文字的汉喃档案文献。由于越南在近代进行了文字改革,以罗马字母为拼写方式的越南国文代替了汉喃文字,使得汉喃档案文献难以解读,因此汉喃档案文献的数字化工程十分重要。中国学者在越南汉喃档案文献的数字化问题研究中具有一定的地缘及文化背景优势。越南汉喃档案文献数字化工程作为中国国内包括汉文文献及少数民族(如京族)档案文献数字化工程的海外参照来进行分析研究具有积极意义。

1 越南汉喃档案文献数字化现状概述

1.1 越南汉喃档案文献的来源。越南汉喃档案文献是在汉文化广泛传播于越南国家的历史背景下,以汉字和喃字为书写符号的、具有越南地域特征及越南文化特色的档案文献集合。按照文献来源分类,包含如下四大类别[1]:

①从中国传入越南的汉文档案文献,例如《资治通鉴》《金刚经》。②产生并保存于越南本土的汉喃档案文献,例如《大越史略》《苇野合集》。越南汉喃文献中的绝大多数产生并保存于越南本土。③产生于越南但流傳于越南境外的汉喃档案文献,例如法国远东学院收藏的越南汉喃文献《越南封诰册录》《本朝庶政杂编》。④在越南境外重抄重印重编的越南汉喃档案文献,例如中国国家图书馆收藏的两种在中国刊刻的越南汉喃文献《皇越地舆志》《南圻六省地舆志》。越南汉喃档案具有庞大的存量及丰富的种类,其文字载体为汉字及喃字。记录媒介主要包括纸张、碑刻、雕版等形式。

1.2 越南汉喃档案文献的数字化现状

1.2.1 越南国家图书馆的数字化汉喃档案文献。越南国家图书馆拥有越南国内规模最大的汉喃文献古籍的书库,共收藏约5200本汉喃文献古籍。目前已有将近3000本数字化的汉喃档案文献,其中汉喃文献典藏古籍数字化工程官网收录了1258本数字化汉喃档案文献,约19.2万页。[2]

1.2.2 越南国家档案局的数字化汉喃档案文献。阮朝朱批:包括皇帝的册封、旨谕、诏书;六部、都察院、机密院等的晋封文件以及从1802年到1945年的11代皇帝批准的奏章,共有738份,用汉字编写在叠纸上,现在已对734份进行数字化,相当于3.6万页。[2]

1.2.3 越南社会科学院的数字化汉喃档案文献。目录资料库包括659411份表格,文件格式数字化的数量为1.06万本(170万页)。特殊格式的数字化资料:材料为竹简、陶土、竹叶、叠纸的有1250版,汉喃档案材料有1.6万页、汉喃文献古籍有374本、法文书籍1.73万页、村规1.14万页、碑碣13210面、图片2.25万张。[2]

1.2.4 越南各地方图书馆数字化汉喃档案文献。以承天-顺化省图书馆的数字化汉喃档案文献材料为例:从2009年至2012年,该馆已配合胡志明市图书馆“在承天-顺化地区搜集并数字化汉喃资料”,至今已对86864页资料(包括书籍、诏书、册封、家谱等)进行数字化。[2]

1.2.5 越南境外的世界各国收藏的数字化汉喃档案文献。2006年“越南汉喃文献保存协会”联合越南国家图书馆,创立“汉喃古籍文献典藏数位化计划”项目,将越南国家图书馆所藏部分汉喃档案文献进行扫描存储,至今已完成2000多份汉喃档案文献的数字化工作,并免费提供在线查询和阅读服务。

2008年由越南汉喃研究院和越南汉喃文献保存协会合作出版的汉喃字符编码库记录了19981个汉喃字符。越南国家图书馆、日本东京大学东洋文化研究所、日本国会图书馆、越南汉喃文化研究院等机构不同程度地对所藏越南汉喃档案文献进行了数字化整理(表1)。

2 越南汉喃档案文献数字化工作存在的问题

2.1 复合型专业人员缺乏及社会参与度低。越南汉喃档案文献散布收藏于越南、中国、日本、法国、美国等不同国家的各个单位,而全世界既精通汉文又精通喃文的学者专家十分稀少,据估计能够精通喃文并阅读汉喃文献的专家不足百人,[1]高校中汉喃专业培养的学生数量也比较少;而现阶段越南从事数字文献的人员当中,精通文史哲的学者鲜有涉足数学计算机信息技术研究领域的,熟悉编程和网络程序设计的IT工作者鲜有懂校对翻译古籍文献的。培训课程及培训质量的不足导致人员缺乏,[2]加上越南汉喃档案文献的数字化采集、整理、存储、传输过程对专业知识和技能、操作规范的特定要求,加大复合型专业人员的数量和提升培养质量成为越南汉喃文献数字化工作的当务之急。

随着国语字被广泛普及,汉喃文字的出现频率越来越低,经笔者走访过的十几座越南佛教寺庙来看,近三分之一佛寺内的汉喃字对联及横批已被越南国语字对联及横批所取代,汉喃文字在当代越南不断被国语字侵蚀。汉喃文字在越南的宣传和振兴任重道远。

2.2 汉喃专业字库词库及对照译文库建设存在缺失。现阶段录入的汉喃字符可参见表2。

以VNPF官网为例,当前的汉喃字库和词库存在着收录不全面、更新频率低、与Unicode编码不能一一对应等问题,汉喃档案文献对照译文库存在翻译质量差、对应语种较少、收录不全面、更新频率低等问题,这些问题大大地阻碍了档案文献数字化工作的效率提升,并降低了使用者的体验度。

例如喃字“    ”本意是汉字“厚”的意思,对应了越南语“dày”,但借用这个字来记录越南语的“giày”(汉语是鞋的意思)时,字形与字义之间无关,而在VNPF汉喃字检索库中却难以查到这个用法。另外针对汉喃字同音同义异形问题,越南语“dày”对应了“苔”“     ”“     ”等六个汉喃字,这六个汉喃字注释完全相同,但其各自Unicode编码却相差较大,且互相间毫无关联。

当前的VNPF网站的汉喃字数据库能实现单向的检索汉喃字,及由输入汉喃字(文字格式)来识别Unicode编码、越南国语字、英语、汉语拼音、粤语拼音、仓颉输入法、部首笔画法等一系列格式,但无法实现由一系列复杂的编码或文字输入格式组合来检索出一句或一段汉喃文字。另外,把喃字文本转化为国语字文本,面临着古代越南语语音转化为现代越南语语音的问题,而古代语音和现代语音有很大的区别,如古代的双辅音在现代越南语中已完全消失。[5]

2.3 汉喃文字识别技术水平准确率偏低。由于越南汉喃档案文献的书写格式及文字形式多样,除了占多数的汉文档案文献(可参照中国汉字文字识别的经验)外,还有相当数量的喃文文献及汉喃对照档案文献,并且存在文字分布密集和数据标注稀缺的现象,造成文字检测及文本行切割存在一定困难,文字识别工作需要考虑诸多因素。另外,计算机文字识别易受汉喃字书写及印刷格式影响,字体及文字倾斜可能造成计算机识别偏差。

当前针对汉喃档案文献的文字识别技术仍然存在部分信息无法识别、文本切割排序混乱、特殊格式文献识别失灵、识别准确率有待提高等问题。例如,针对喃字的文字识别技术仍存在较大的提升空间:目前的计算机汉喃档案文献识别准确率可以达到97%左右。[6]相对而言,针对中国汉文文献及日本日文文献的计算机文字识别技术准确率已能达到99.5%以上,[7]准确率提升空间还比较大。

2.4 汉喃档案文献数字化资源知识产权侵权严重。越南关于知识产权的规定仍存在着一些不足,如权利界定不明晰、规定与国际惯例相冲突等。[8]非法印刷图书是现在越南出版领域所有侵犯著作权行为中最为普遍而严重的违法行为。

越南信息与通讯部出版局资料显示,越南工业印刷厂数量已增至1500家(2012年数据),其中只有三分之一的印刷厂受《出版法》所约束与调节。印刷活动正往更复的方向演化,非法印刷的弊端仍在 扩大,国家的管理工作也因此而遇到很多困难。[9]

汉喃档案文献数字化出版过程存在知识产权意识淡薄、侵权行为隐蔽、盗版印刷频繁等问题,知识产权纠纷多发且危害性大。该方面的违法对象类型众多、涉及范围广泛,从出版社(向未注册、登记著作权或以翻译为名义的侵权稿件颁发出版证书)到印刷厂(印量超过所申请的数量)均存在。

数字化资源的知识产权保护除了具有传统条件下的知识产权特征,还具有由互联网的海量性、便利性、时效性、匿名性等性质决定的新特征,需要采取新的方法和思维加以保护。

3 越南汉喃档案文献数字化保护策略

3.1 提升专业人员培养数量和质量,扩大社会参与力量。首先,需要越南各高校根据具体情况增设汉喃专业、图书馆学专业、历史学专业、计算机专业、新闻传播专业并增加招生人数,以及针对高校学生和社会大众推出汉喃文献及文献数字化相关课程与講座,利用互联网实现汉喃文献数字化专业人员的发掘、培养与深入学习工作。其次,应当针对专业人员,定期举行一系列的汉喃档案文献数字化知识学习培训及考试考核活动。再次,设立汉喃文献专家组及档案文献数字化专家组,定期举办专题研讨会和技术交流会。最后,借助网络众包平台,非定向招募普通用户的参与,提高档案文献数字化工作的整体效率。此外,针对汉喃文献中专业性程度高的核心文献,采用“定向众包”的形式招募一定数量的汉喃文献领域研究专家,形成“网络大众+领域专家”的双向众包合作模式[10],实现多方力量的高效联合。

3.2 创新建立汉喃文献专业字库、词库及对照译文库方法。因为越南汉喃文献中存在使用喃字、避讳、俗语等造成的新字体和词汇,有别于传统汉字结构,无法完全依靠目前的汉字识别系统进行辨识和数字化,所以建立越南汉喃文献专属的字库和词库就显得尤为重要。

通過搜索汉喃档案文献来收集汉喃字符并建立汉喃文献专业字库、词库,是一种有效且令人信服的解决方案。字库、词库中的每个汉喃字符都需要使用多个汉喃文献著作中引用的摘录进行注释,并在所示示例的上下文中解释每个字符的组成结构。

数字化汉喃字库、词库需要结合文本发掘等最新技术,便于互联网推广和搜索(通过越南国语字,英文,汉喃字符,Unicode编码或一组汉喃字符)。

首先,创建符合Unicode标准的汉喃字体格式。其次,定义数据库结构,其中必须包含一些必填字段,例如汉喃字符、Unicode编码、越南国语字,字符结构,示例,参考文献等,并保证每一个汉喃字符都有唯一对应的Unicode编码。再次,提供最终用户界面和开发人员界面,完成不同的系统功能。最后,扩展字典以提供统计和翻译工具,建立多语种对照译文库。

3.3 提升汉喃档案文献的文字识别技术水平。将OCR(Optical Character Recognition,光学字符识别)技术与卷积神经网络(CNNs)、长短期记忆(LSTM)和联结主义时间分类(CTC)等不同的深度学习结构相结合,实现汉喃档案文献的文字识别。例如,Truyen Van Phan等提出针对汉喃档案文献数字化信息的处理步骤:非线性归一化、特征提取、粗分类、细分类,最终实现汉喃文献的字符聚类识别。

3.4 保护汉喃档案文献数字化出版的知识产权。针对汉喃档案文献数字化出版过程中侵权行为隐蔽、知识产权纠纷多发且危害性大等问题,需要采取如下改革措施:

一是创新数字化出版下的授权模式,其中数字化出版领域普遍推行的“授权要约”模式的版权授予方式在保护知识产权方面较为科学有效。

二是重新界定数字化出版版权,明确知识产权的出版主体,完善侵权行为的惩罚措施。

三是运用知识产权保护加密技术,保障出版内容在发表与传播的过程中的安全性。

四是追究侵权者的责任及赔偿,越南汉喃档案文献数字化出版业者遇有知识产权被侵犯情形,可以主动告知侵权者或向越南的知识产权专责部门或专家寻求建议,知识产权拥有人可以采取协商解决、行政诉讼、民事诉讼、刑事诉讼四种方式来积极追究侵权者的责任及赔偿。

参考文献:

[1]刘玉珺.越南汉喃古籍的文献学研究[D].扬州大学,2005.

[2]杜氏清水.越南数字图书馆信息资源共享研究[D].武汉大学,2015.

[3]魏超.域外汉籍数字化探析——以越南汉喃文献为中心[J].图书馆论坛,2018,38(05):6-11.

[4]Sino-Vietnamese characters facts for kids[EB/OL].[2020-3-10].https://kids.kiddle.co/Sino-Vietnamese_characters#CITEREFThe_Unicode_Consortium2012.

[5]宋文长(TONG VAN TRUONG).冰封与潜流——越南汉字文化传承模式现代变迁研究[D].西南大学,2008.

[6]王璇,邓菊英.越南跨系统区域图书馆联盟建设探析——以越南研究教育网VinaREN为例[J].图书馆杂志,2016,35(08):86-95+102.

[7]NGUYEN,Cong Kha;NGUYEN,Cuong Tuan;MASAKI,Nakagawa.Tens of thousands of Nom character recognition by deep convolution neural networks.In:Proceedings of the 4th International Workshop on Historical Document Imaging and Processing.2017.p.37-41.

[8]赵均,范芳花.中越现行出版法律体系对比研究[J].现代传播(中国传媒大学学报),2019,41(08):76-79.

[9]任文京,阮黄梅.越南出版业现状及其相关对策[J].河北大学学报(哲学社会科学版),2017,42(02):133-137.

[10]席运江,林瑶瑶,廖晓,俞宽.基于网络众包模式的海量历史文献数字化处理方法研究[J].现代情报,2019,39(02):161-168+177.

猜你喜欢
越南数字化
数字化:让梦想成为未来
读图
越南Vedana餐厅
家纺业亟待数字化赋能
越南YAM餐厅
越南Chicland酒店
论经济学数字化的必要性
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
越南百里“银滩”